Robots.txt là gì? – Hướng dẫn cách tạo và sử dụng robots.txt

Jul 28, 2013Aug 28, 20249 mins0

Robots.txt là gì ?

Web Robot (còn được gọi là Web Wanderer, Crawler hay Spider nhưng trong bài viết này mình xin tạm dịch là bọ tìm kiếm) là một chương trình được lập trình tự động thực hiện một công việc nào đó khi truy cập vào website của bạn. VD: bọ tìm kiếm của Google, Yahoo!, Bing được lập trình để index (lập chỉ mục) nội dung trên website của bạn, spammer có thể dùng bọ để tìm kiếm và lưu trữ danh sách địa chỉ email hay số điện thoại có trên website của bạn…

Robots.txt thực chất chỉ là một tập tin văn bản thuần có nội dung được viết theo một cú pháp định sẵn, quy định (cho phép) bọ tìm kiếm được phép hoặc giới hạn hoạt động một số mục trên website của bạn.

Cách tạo tập tin robots.txt như thế nào ?

Vì đơn giản chỉ là một tập tin văn bản thuần nên bạn có thể dùng bất kỳ một ứng dụng soạn thảo văn bản nào như Notepad, WordPad hay thậm chí Microsoft Word miễn là khi lưu lại bạn lưu ý chọn định dạng mở rộng là .txt (Text file) và phải đặt đúng cấu trúc tên tập tin là robots.txt (đúng và đủ) không phải là Robots.txt hay robot.TXT …

Dưới đây là một vài nguồn tham khảo thêm về tập tin robots.txt cho bạn:
   – HTML 4.01 specification, Appendix B.4.1
   – Wikipedia – Robots Exclusion Standard
   – About /robots.txt

Đặt tập tin robots.txt ở đâu

Ngay thư mục gốc (root) của website của bạn thường ngang hàng với các tập tin như index.php, index.html hoặc default.aspx…

VD: https://dohuytuong.com/robots.txt
https://dohuytuong.net/robots.txt

Cấu trúc nội dung tập tin robots.txt

Sau đây là một ví dụ đơn giản về nội dung tập tin robots.txt

User-agent: *
Allow: /my-blog/
Disallow: /cgi-bin/

Trong đó User-agent: Trong đó User-agent: là đại diện của một bọ tìm kiếm của một search engine, dấu đại diện cho tất các các bọ tìm kiếm của tất cả các search engine… nếu bạn muốn chỉ định cụ thế với một bọ tìm kiếm cụ thể có thể dùng cú pháp như sau (mình dùng Google bot làm ví dụ).

Danh sách chi tiết các crawler bot tìm tại đây

User-agent: Googlebot
Allow: /my-blog/
Disallow: /cgi-bin/

Trong đó hai dòng lệnh Allow: và Disallow: quy định cho phép hoặc không cho phép Google bot đánh chỉ mục một thư mục nào đó …

Một số lưu ý với cú pháp của robots.txt

– Phân biệt chữ hoa chữ thường. VD: /cgi-bin/ khác với /Cgi-Bin/
– Không được viết dư, thiếu khoản trắng.
– Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
– Mỗi một câu lệnh nên viết trên một dòng duy nhất.
– Không thay đổi trật tự cú pháp dòng lệnh User-agent: (luôn nằm trên) và Disallow: (luôn nằm dưới)

Sau đây là một số ví dụ cụ thể cách sử dụng tập tin robots.txt

Chặn tất cả các bot và nội dung
```
User-agent: *
Disallow: /
```
Facebook là một trong những site nổi tiếng gần như chặn tất các các bot và nội dung… bạn có thể tìm hiểu tập tin robots.txt của Facebook để học hỏi thêm…
Cho phép tất các các bot lập chỉ mục tất cả các nội dung
```
User-agent: *
Allow: /
```
Chặn một thư mục cụ thể và mọi nội dung nằm trong nó
```
User-agent: *
Disallow: /private/
```
Chặn một tập tin cụ thể và mọi nội dung nằm trong nó
```
User-agent: *
Disallow: /private_file.html
```
Chặn và loại bỏ một hình cụ thể khỏi Google Images
```
# I don't want to index my honey photo :>
User-agent: Googlebot-Image
Disallow: /private/my-love/vu-bich-bao-ly.jpg 
```
Trong đó nội dung phía sau dấu thăng # (pound sign) sẽ được xem như chú thích và được Google bot bỏ qua (làm ngơ)

Chặn tất cả các bot ngoại trừ Google bot với một tập tin cu thể

User-agent: *
Disallow: /no-bots/block-all-bots-except-googlebot-page.html
User-agent: Googlebot
Allow: /no-bots/block-all-bots-except-googlebot-page.html

Sử dụng đồng thời “Allow” và “Disallow” cùng nhau
```
User-agent: Googlebot
Disallow: /private/
Allow: /private/example.html
```
Trong đó chặn Google bot lập chỉ mục với toàn bộ nội dung trong thư mục /private/ nhưng với tập tin example.html thì ok…
Chặn và cho phép một bot cụ thể
```
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow: /
```
Trong đó chặn không cho Google bot lập chỉ mục toàn bộ website của bạn nhưng với Google bot dành cho mobile thì được phép, phù hợp cho các site có tên miền dạng *.mobi
Chặn và bỏ tất cả các hình trên site của bạn khỏi Google Images:
```
User-agent: Googlebot-Image
Disallow: /
```
Chặn và bỏ tất cả các hình động (dạng *.gif) trên site của bạn khỏi Google Images:
```
User-agent: Googlebot-Image
Disallow: /images/*.gif
```
Chỉ định tập tin sitemap cho bot dễ tìm
```
Sitemap: https://dohuytuong.com/sitemap.xml
Sitemap: https://dohuytuong.com/sitemap.xml.gz
```
Trong đó Sitemap: thường được đặt ở cuối nội dung tập tin robots.txt nếu website của bạn không sử dụng sitemap có thể bỏ qua dòng này…

Hi vọng với một vài ví dụ đơn giản trên các bạn có thể tùy biến và sử dụng cho phù hợp với website của mình…

Dưới đây là danh sách các tập tin robots.txt của các website nổi tiếng bạn có thể xem để tham khảo:

Google: http://www.google.com/robots.txt
Yahoo!: https://www.yahoo.com/robots.txt
Facebook: https://www.facebook.com/robots.txt
Mediafire: http://mediafire.com/robots.txt
Dropbox: https://www.dropbox.com/robots.txt
Amazon: http://www.amazon.com/robots.txt
Fandango: http://www.fandango.com/robots.txt
Bank of America: https://www.bankofamerica.com/robots.txt
Bestbuy: http://www.bestbuy.com/robots.txt
Robots TXT: http://www.robotstxt.org/robots.txt
PayPal: https://www.paypal.com/robots.txt
WordPress: http://wordpress.com/robots.txt
Reddit: http://www.reddit.com/robots.txt
eBay: http://ebay.com/robots.txt
CapitalOne: http://www.capitalone.com/robots.txt
Fry’s Electronics: http://frys.com/robots.txt

Lưu ý:
Không phải tất các các cú pháp lệnh trong tập tin robots.txt đều được hỗ trợ bởi tất các các bọ tìm kiếm

Ví dụ: như Google bot hỗ trợ lệnh Host: dohuytuong.com các bọ khác thì không hay dạng URL không rõ ràng như /p?= hay search.php?=… bạn nên chỉ định đặc biệt những dòng này riêng cho Google bot

User-agent: Googlebot
# Paths (no clean URLs)
Disallow: /?p=*
Disallow: /?s=*

Sau khi đã tạo cho website mình một tập tin robots.txt hoàn chỉnh và upload lên thư mục gốc của website bạn có thể kiểm tra lại lỗi cú pháp của tập tin robots.txt online tại đây