PDA

View Full Version : Robots.txt là gì ? cách sử dụng robots.txt



nanalove
22-07-2012, 20:43
Đã ai quên website mình cần cái này chưa:tongue:

1.Robots.txt là gì ?

Theo hiểu biết nông cạn của tôi thì file robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác .nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm(SE) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.
robots.txt có thể quy định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không?


Ví dụ:


User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/



chú giải :

User-agent: * : cho phép tất cả các loại bot
Disallow: /wp-admin/ : chặn thư mục wp-admin và tất cả những gì nằm trong thư mục wp-admin

http://www.kythuatmarketing.com/wp-content/uploads/2012/07/robots-txt2.jpg



2.Hướng dẫn sử dụng Robots.txt

a.Khóa toàn bộ website không cho bot đánh chỉ mục

User-agent: *
Disallow: /



==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE


b.Không cho phép bot truy cập vào thư mục nào mà mình không muốn
Lấy lại ví dụ trên :


User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includes


c.Chặn 1 trang

Disallow: /lien-he.html


d.Loại bỏ 1 hình từ Google Images

User-agent: Googlebot-Image
Disallow: /images/hinh.png

e.Chặn một bot nào đó

User-agent: SpamBot
Disallow: /
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/



==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục “wp-admin ” và "wp-includes"



User-agent: SpamBot
Disallow: /admin/
Disallow: /includes/
Disallow: /config/config.php
User-agent: *
Disallow: /admin/
Disallow: /includes/

==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”.


f.sử dụng đồng thời “Allow” và “Disallow” cùng nhau

User-agent: Googlebot
Disallow: /vidu/
Allow: /vidu/demo-thoi-nha.html

== > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục "vidu" .Nhưng chỉ có thể truy cập được file "demo-thoi-nha.html"



User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow: /

== > Chặn không cho Googlebot truy cập vào tài nguyên trên website, nhưng lại cho phép Googlebot-Mobile truy cập vào tài nguyên trên website bạn


3.Nên tránh những sai sót sau
khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót


- Phân biệt chữ hoa chữ thường.

- Không được viết dư, thiếu khoảng trắng.

- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.

- Mỗi một câu lệnh nên viết trên 1 dòng.


Các diễn đàn mã nguồn vbb tham khảo site robots.txt của Thế Giới SEO, tuy dòng Disallow: /diendan/images/ bị thừa bặc có lẽ admin không muốn hình các hình ảnh xuất hiện trên google

http://thegioiseo.com/robots.txt

Đó là tất cả những gì mà kiến thức nông cạn của tôi biết về robots.txt , nếu bạn nào cảm thấy thiếu hay sai sót chổ nào xin để lại vài lời

Bài viết cho những người mới bắt đầu. :lick:

Link: http://www.kythuatmarketing.com/seo-sem/kien-thuc-seo/robots-txt-la-gi-cach-su-dung-robots-txt.html

Herbert
30-08-2014, 17:27
A "robots.txt" record is a content document put on your server which contains a rundown of robots and "forbids" for those robots. Each one refuse will keep any address that begins with the denied string from being gotten to.