Danh mục bài viết

Robots.txt là gì? Cách sử dụng file robots.txt

Robots.txt là một trong những điều trước tiên bạn cần phải kiểm tra và tối ưu hóa khi tối ưu kỹ thuật SEO. Bất kỳ sự cố hoặc cấu hình sai trong file Robot.txt có thể gây ra các vấn đề về SEO, tác động tiêu cực đến thứ hạng và lượng truy cập website. Vậy file Robots.txt là gì? Cách tạo file này như thế nào? Bài viết này sẽ là lời giải cho những câu hỏi này.

File robots.txt là gì?

Robots.txt là gì

File robots.txt là một tập tin văn bản ngắn, đơn giản kết thúc bằng đuôi .txt. File này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn web quy định các cách mà robot web (hoặc robot của các công cụ tìm kiếm) thu thập dữ liệu trên website, index nội dung và cung cấp nội dung đó cho người dùng.

File robots.txt hoạt động như thế nào?

Nhiệm vụ chính của các công cụ tìm kiếm là crawl (phân tích dữ liệu trang web) và index nội dung để đáp ứng yêu cầu cho các tìm kiếm của người dùng.

Sau khi đến một website, trước khi bắt đầu spidering thì các con bot của công cụ tìm kiếm sẽ tìm các file robots.txt. Nếu nó tìm thấy được một file robots.txt thì nó sẽ đọc file đó đầu tiên trước khi tiến hành các bước tiếp theo.

File robots.txt chứa các thông tin về cách các công cụ tìm kiếm thu thập dữ liệu website. Nếu file robots.txt không chứa bất kỳ hành động nào cho các user-agent hoặc không có file robots.txt thì các bot sẽ tiến hành thu thập các thông tin khác trên website.

Công dụng của file robots.txt

  • Chặn Google trong quá trình xây dựng web

Website trong quá trình thiết kế còn chưa được hoàn chỉnh, nếu muốn Google không index những nội dung chưa hoàn thiện này, bạn chỉ cần sử dụng file robots.txt. Còn nếu trang web đã đi vào hoạt động ổn định thì đừng nên chèn file này vào. Điều này sẽ làm website của bạn không xuất hiện trên trang kết quả tìm kiếm.

  • Chèn Sitemap

Sitemap tương tự như là một tấm bản đồ để cho Google khám phá về trang web của bạn. Nếu như một số lượng bài viết được index của trang web quá lớn mà trang web không có sitemap thì Google có thể sẽ không đủ tài nguyên để index hết toàn bộ

  • Chặn bọ quét link

Sử dụng file robots.txt sẽ giúp đối thủ không thể sử dụng các công cụ quét link phổ biến như Ahrefs, Majestic,…để phân tích backlink của bạn.

  • Chặn mã độc hại, nguy hiểm

Ngoài những phần mềm, công cụ có thể được dùng để kiểm tra backlink đối thủ còn một số loại phần mềm độc hại khác. Có những con bọ được thiết kế riêng có tác dụng đi sao chép nội dung người khác. Hoặc có những con bọ gửi quá nhiều, quá nhanh yêu cầu tới máy chủ của bạn. Từ đó làm tăng hao phí băng thông và tài nguyên trên hệ thống của bạn.

  • Chặn thư mục cần bảo mật

Những mã nguồn mở của trang web thường sẽ có những thư mục cần được bảo mật. Ví dụ như wp-admin, wp-includes,…

Những trang này sẽ không được phép index và việc sử dụng file robots.txt sẽ giúp giải quyết được vấn đề này.

  • Chặn bọ đối với trang thương mại điện tử

Các trang web thương mại điện tử thông thường sẽ có một số tính năng đặc thù riêng cho người dùng. Chẳng hạn như đăng ký, đăng nhập, đánh giá sản phẩm,… Những chức năng chắc chắn không thể thiếu với người dùng. Những nội dung này sẽ bị trùng lặp trong SEO. Những nội dung này cũng không liên quan đến việc hỗ trợ cho việc SEO từ khóa. Do đó, bạn có thể chặn index các đường dẫn này bằng file robots.txt.

Tạo và sử dụng file robots.txt như thế nào cho hiệu quả?

Cách tạo file robots.txt

Định dạng của 1 tệp robots.txt cơ bản

Định dạng cơ bản của một tệp robots.txt

  • User-agent: tên loại bot muốn áp dụng
  • Disallow: không cho phép loại bot có tên trong thư mục User-agent truy cập vào website.
  • Allow: cho phép bot được truy cập và thu thập dữ liệu trên website.
  • Dấu *: áp dụng cho tất cả mọi trường hợp.

Ví dụ về file robots.txt

User-agent: *

Disallow:/wp-admin/

Allow:/

Sitemap: https://domain.com/sitemap_index.xml

File này cho phép toàn bộ các công cụ tìm kiếm theo link https://domain.com/sitemap_index.xml để tìm đến file robots.txt phân tích và index toàn bộ dữ liệu trong các trang trên website của bạn ngoại trừ trang domain.com/wp-admin/

Một số lưu ý khi sử dụng robots.txt

  • Để được các con bot tìm thấy thì các file robots.txt phải được đặt trong các thư mục cao cấp nhất của trang web.
  • txt có thể phân biệt chữ hoa và chữ thường, vì thế file phải được đặt tên là robots.txt.
  • Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào thư mục Disallow.
  • Việc chặn các loại bot bằng file robots.txt chỉ là tương đối. Khi muốn bảo vệ nội dung tốt nhất thì cùng với việc tạo file robots.txt thì bạn nên đặt thêm mật khẩu.

Khi nào nên sử dụng file robots.txt

Nếu trang web không có file này thì các công cụ tìm kiếm sẽ thu thập tất cả nội dung bên trong trang web. Bạn nên học cách sử dụng robots.txt một cách hiệu quả để đạt được mục đích quản trị và tối ưu hóa công cụ tìm kiếm.

  • Chặn công cụ tìm kiếm khi website đang xây dựng

Quá trình xây dựng và hoàn thiện 1 website không phải là ngày một ngày hai, nhất là đối với những trang web phức tạp. Trong quá trình này, khi bạn đưa nội dung lên để chạy thử và chỉnh sửa thì chắc chắn sẽ không muốn công cụ tìm kiếm index.

Khi đó bạn nên chặn tất cả các bot của công cụ tìm kiếm, sau khi website đã hoàn thiện, bạn sẽ sửa lại file robots.txt rồi tùy biến từng phần hoặc tất cả nội dung theo ý muốn.

  • Tránh bị đối thủ chơi xấu

Khi sử dụng công cụ tìm kiếm trong trang web của bạn thì sẽ xuất hiện một trang kết quả riêng, và trang này cũng được Google index. Đối thủ có thể lợi dụng điều này để cố tình search những từ khóa có nội dung xấu nhằm gây hại cho website. Vì vậy nên chặn toàn bộ trang kết quả, không cho các công cụ tìm kiếm index và đánh giá nội dung.

  • Chặn các công cụ thu thập liên kết

Các công cụ như Ahrefs đều có một con bọ riêng để thu thập thông tin về website. Đối thủ có thể sử dụng công cụ này để phân tích website của bạn. Để ngăn chặn thì cần sử dụng file robots.txt để chặn những con bot này.

Làm thế nào để kiểm tra xem website có file robots.txt hay không?

Nếu bạn đang băn khoăn không biết website của mình có file robots.txt không, hãy nhập root domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu bạn không có trang .txt xuất hiện thì chắc chắn trang web của bạn hiện không tạo robots.txt cho wordpress rồi. Rất đơn giản phải không!

Kết luận

Việc tạo và chỉnh sửa file robots.txt nhằm hỗ trợ các con bot của công cụ tìm kiếm thu thập dữ liệu và index trang web của bạn nhanh chóng. Hy vọng những thông tin trên đây sẽ hữu ích cho bạn trong việc quản trị web cũng như làm SEO của mình.