Robots.txt là gì ?
Web Robot (còn được gọi là Web Wanderer, Crawler hay Spider nhưng trong bài viết này mình xin tạm dịch là bọ tìm kiếm) là một chương trình được lập trình tự động thực hiện một công việc nào đó khi truy cập vào website của bạn. VD: bọ tìm kiếm của Google, Yahoo!, Bing được lập trình để index (lập chỉ mục) nội dung trên website của bạn, spammer có thể dùng bọ để tìm kiếm và lưu trữ danh sách địa chỉ email hay số điện thoại có trên website của bạn…
Robots.txt thực chất chỉ là một tập tin văn bản thuần có nội dung được viết theo một cú pháp định sẵn, quy định (cho phép) bọ tìm kiếm được phép hoặc giới hạn hoạt động một số mục trên website của bạn.
Cách tạo tập tin robots.txt như thế nào ?
Vì đơn giản chỉ là một tập tin văn bản thuần nên bạn có thể dùng bất kỳ một ứng dụng soạn thảo văn bản nào như Notepad, WordPad hay thậm chí Microsoft Word miễn là khi lưu lại bạn lưu ý chọn định dạng mở rộng là .txt (Text file) và phải đặt đúng cấu trúc tên tập tin là robots.txt (đúng và đủ) không phải là Robots.txt hay robot.TXT …
Dưới đây là một vài nguồn tham khảo thêm về tập tin robots.txt cho bạn:
– HTML 4.01 specification, Appendix B.4.1
– Wikipedia – Robots Exclusion Standard
– About /robots.txt
Đặt tập tin robots.txt ở đâu
Ngay thư mục gốc (root) của website của bạn thường ngang hàng với các tập tin như index.php, index.html hoặc default.aspx…
VD: https://dohuytuong.com/robots.txt
https://dohuytuong.net/robots.txt
Cấu trúc nội dung tập tin robots.txt
Sau đây là một ví dụ đơn giản về nội dung tập tin robots.txt
User-agent: * Allow: /my-blog/ Disallow: /cgi-bin/
Trong đó User-agent: Trong đó User-agent: là đại diện của một bọ tìm kiếm của một search engine, dấu đại diện cho tất các các bọ tìm kiếm của tất cả các search engine… nếu bạn muốn chỉ định cụ thế với một bọ tìm kiếm cụ thể có thể dùng cú pháp như sau (mình dùng Google bot làm ví dụ).
Danh sách chi tiết các crawler bot tìm tại đây
User-agent: Googlebot Allow: /my-blog/ Disallow: /cgi-bin/
Trong đó hai dòng lệnh Allow: và Disallow: quy định cho phép hoặc không cho phép Google bot đánh chỉ mục một thư mục nào đó …
Một số lưu ý với cú pháp của robots.txt
– Phân biệt chữ hoa chữ thường. VD: /cgi-bin/ khác với /Cgi-Bin/
– Không được viết dư, thiếu khoản trắng.
– Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
– Mỗi một câu lệnh nên viết trên một dòng duy nhất.
– Không thay đổi trật tự cú pháp dòng lệnh User-agent: (luôn nằm trên) và Disallow: (luôn nằm dưới)
Sau đây là một số ví dụ cụ thể cách sử dụng tập tin robots.txt
- Chặn tất cả các bot và nội dung
User-agent: * Disallow: /
Facebook là một trong những site nổi tiếng gần như chặn tất các các bot và nội dung… bạn có thể tìm hiểu tập tin robots.txt của Facebook để học hỏi thêm…
-
Cho phép tất các các bot lập chỉ mục tất cả các nội dung
User-agent: * Allow: /
-
Chặn một thư mục cụ thể và mọi nội dung nằm trong nó
User-agent: * Disallow: /private/
-
Chặn một tập tin cụ thể và mọi nội dung nằm trong nó
User-agent: * Disallow: /private_file.html
-
Chặn và loại bỏ một hình cụ thể khỏi Google Images
# I don't want to index my honey photo :> User-agent: Googlebot-Image Disallow: /private/my-love/vu-bich-bao-ly.jpg
Trong đó nội dung phía sau dấu thăng # (pound sign) sẽ được xem như chú thích và được Google bot bỏ qua (làm ngơ)
-
Chặn tất cả các bot ngoại trừ Google bot với một tập tin cu thể
User-agent: * Disallow: /no-bots/block-all-bots-except-googlebot-page.html User-agent: Googlebot Allow: /no-bots/block-all-bots-except-googlebot-page.html
-
Sử dụng đồng thời “Allow” và “Disallow” cùng nhau
User-agent: Googlebot Disallow: /private/ Allow: /private/example.html
Trong đó chặn Google bot lập chỉ mục với toàn bộ nội dung trong thư mục /private/ nhưng với tập tin example.html thì ok…
-
Chặn và cho phép một bot cụ thể
User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: /
Trong đó chặn không cho Google bot lập chỉ mục toàn bộ website của bạn nhưng với Google bot dành cho mobile thì được phép, phù hợp cho các site có tên miền dạng *.mobi
-
Chặn và bỏ tất cả các hình trên site của bạn khỏi Google Images:
User-agent: Googlebot-Image Disallow: /
-
Chặn và bỏ tất cả các hình động (dạng *.gif) trên site của bạn khỏi Google Images:
User-agent: Googlebot-Image Disallow: /images/*.gif
-
Chỉ định tập tin sitemap cho bot dễ tìm
Sitemap: https://dohuytuong.com/sitemap.xml Sitemap: https://dohuytuong.com/sitemap.xml.gz
Trong đó Sitemap: thường được đặt ở cuối nội dung tập tin robots.txt nếu website của bạn không sử dụng sitemap có thể bỏ qua dòng này…
Hi vọng với một vài ví dụ đơn giản trên các bạn có thể tùy biến và sử dụng cho phù hợp với website của mình…
Dưới đây là danh sách các tập tin robots.txt của các website nổi tiếng bạn có thể xem để tham khảo:
- Google: http://www.google.com/robots.txt
- Yahoo!: https://www.yahoo.com/robots.txt
- Facebook: https://www.facebook.com/robots.txt
- Mediafire: http://mediafire.com/robots.txt
- Dropbox: https://www.dropbox.com/robots.txt
- Amazon: http://www.amazon.com/robots.txt
- Fandango: http://www.fandango.com/robots.txt
- Bank of America: https://www.bankofamerica.com/robots.txt
- Bestbuy: http://www.bestbuy.com/robots.txt
- Robots TXT: http://www.robotstxt.org/robots.txt
- PayPal: https://www.paypal.com/robots.txt
- WordPress: http://wordpress.com/robots.txt
- Reddit: http://www.reddit.com/robots.txt
- eBay: http://ebay.com/robots.txt
- CapitalOne: http://www.capitalone.com/robots.txt
- Fry’s Electronics: http://frys.com/robots.txt
Lưu ý:
Không phải tất các các cú pháp lệnh trong tập tin robots.txt đều được hỗ trợ bởi tất các các bọ tìm kiếm
Ví dụ: như Google bot hỗ trợ lệnh Host: dohuytuong.com các bọ khác thì không hay dạng URL không rõ ràng như /p?= hay search.php?=… bạn nên chỉ định đặc biệt những dòng này riêng cho Google bot
User-agent: Googlebot # Paths (no clean URLs) Disallow: /?p=* Disallow: /?s=*
Sau khi đã tạo cho website mình một tập tin robots.txt hoàn chỉnh và upload lên thư mục gốc của website bạn có thể kiểm tra lại lỗi cú pháp của tập tin robots.txt online tại đây