Chủ Nhật, 12 tháng 11, 2023

File robot.txt là gì? Vai trò và cách tạo

File robot.txt là gì? Vai trò và cách tạo

Robot.txt là tập tin văn bản trong thư mục gốc của website. Nó cung cấp chỉ dẫn cho các công cụ tìm kiếm dữ liệu về các site mà họ có thể thu thập thông tin, dữ liệu để lập chỉ mục. Robots.txt là một trong những điều đầu tiên mà mọi người cần phải kiểm tra và tối ưu trong tối ưu kỹ thuật SEO. Bất kì một sự cố hoặc cấu hình sai nào trong File Robots.txt nào của bạn cũng có thể gây ra các vấn đề SEO, tác động tiêu cực đến thứ hạng của web trên bảng tìm kiếm. Vậy File Robots.txt là gì? Hãy cùng tôi  tìm hiểu trong bài viết này nhé.

Mục lục:

File robot.txt là gì? 

File robots.txt là một tập tin đơn giản chuyên được sử dụng trong quản trị website. Nó là một phần của REP (Robots Exclusion Protocol) chứa một nhóm các tiêu chuẩn về web theo quy định. Công dụng của File robots.txt là giúp cho các nhà quản trị web có được sự linh hoạt và chủ động hơn trong việc kiểm soát bọ của Google.

file robots.txt

File robots.txt được sử dụng để cấp quyền chỉ mục cho những con bọ của công cụ tìm kiếm. Bất cứ một website nào thì cũng nên sử dụng File robots.txt, đặc biệt là những trang web lớn hoặc đang xây dựng.

Cú pháp file robots.txt

Robots.txt có các cú pháp đặc biệt được xem là ngôn ngữ riêng bao gồm:

  • User-agent: Đây là tên của các trình thu thập, truy cập dữ liệu web (ví dụ: Googlebot, Bingbot, ...).
  • Disallow: Được sử dụng để thông báo cho các User-agent không được phép thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng một dòng Disallow.
  • Allow (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con, mặc dù các trang hoặc thư mục con có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết rằng phải đợi bao lâu trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kỳ Sitemap XML nào được liên kết với URL này. Lưu ý rằng chỉ có các công cụ tìm kiếm Google, Ask, Bing và Yahoo hỗ trợ lệnh này.

File robots.txt bao gồm nhiều cú pháp khác nhau

File robots.txt bao gồm nhiều cú pháp khác nhau

Một số quy tắc khi tạo file robots.txt

Việc tạo file robots.txt cho WordPress cần tuân thủ các quy tắc sau để tránh gặp lỗi:

  • Đặt tệp robots.txt WordPress ở thư mục cấp cao nhất của trang web để các bot có thể tìm thấy.
  • Tên file phải đúng định dạng và không phân biệt chữ hoa chữ thường, vì vậy đặt tên file là robots.txt thay vì "Robots.txt" hoặc "robots.TXT".
  • Không nên sử dụng các mục Disallow để chặn /wp-content/themes/ hoặc /wp-content/plugins/ để tránh làm ảnh hưởng đến việc đánh giá giao diện blog hoặc website.
  • Một số User-agent sử dụng các file robots.txt không chuẩn để truy cập trang web, ví dụ như các bot độc hại hay trình Scraping địa chỉ Email.
  • Các file robots.txt thường được công khai trên web, người dùng chỉ cần thêm /robots.txt vào cuối của Root Domain để xem các chỉ thị của trang web. Vì vậy, không nên sử dụng file này để giấu thông tin cá nhân.
  • Mỗi Subdomain trên một Root Domain sẽ có các file robots.txt riêng, giúp chỉ ra vị trí của các sitemaps liên quan đến domain ở cuối tệp robots.txt.

Mỗi subdomain sở hữu một file robots.txt riêng

Mỗi subdomain sở hữu một file robots.txt riêng

Vai trò của File robots.txt đối với website

  • Chặn bọ từ google trong quá trình xây dựng web
Trong quá trình xây dựng web, khi mà tất cả mọi thứ đều chưa được như ý muốn. Đây là khoảng thời gian và nhà tạo lập cần chăn bọ của google để nó không index những nội dung chưa được hoàn thiện. Bạn chỉ nên sử dụng File robots.txt trong quá trình thiết lập hệ thống. Nếu website đang hoạt động một cách ổn định thì đừng chèn các đoạn mã này vào File robots.txt. Bởi làm như vậy, trang web của mọi người sẽ không thể xuất hiện trên bảng kết quả tìm kiếm.
  • Chèn Sitemap
Sitemap được ví như một tấm bản đồ giúp cho google có thể khám phá về các trang web của bạn. Nếu số lượng bài viết được index của trang web quá lớn mà trang web đó không có Sitemap thì google sẽ không có đủ tài nguyên để index hết tất cả. Như vậy, một số nội dung quan trọng sẽ không được xuất hiện.
  • Chặn bọ quét backlink
Hiện tại có 3 công cụ giúp quét backlink phổ biến đó là Moz, Majestic và Ahrefs. Các phần mềm này được trang bị chức năng để quét backlink của bất kì một website nào. Lúc này, công dụng của robots.txt sẽ ngăn điều này để khiến cho đối thủ không thể phân tích backlink của mình.
  • Chặn các thư mục cần bảo mật

Những mã nguồn của website thường đều có các thư mục cần được bảo mật. Ví dụ như wp-includes, phpinfo.php, wp-admin, memcached, cgi-bin…

Những trang web này chắc chắn không được index. Bởi một khi nội dung được công khai trên internet, các hacker sẽ có thể lấy cắp đi những thông tin quan trọng, thậm chí là tấn công vào hệ thống của bạn. Công dụng của robots.txt sẽ giúp ngăn chặn việc google index các nội dung này.

robottxt min

  • Chặn các mã độc hại
Bên cạnh những phần mềm có thể giúp kiểm tra backlink vẫn còn một số phần mềm độc hại khác mà đối thủ có thể sử dụng. Có những con bọ được tạo ra chuyện để sao chép nội dung của người khác. Hoặc những con bọ gửi quá nhiều và nhanh request tới máy chủ của bạn. Điều này khiến cho hệ thống của bạn bị hao phí băng thông và tài nguyên.
  • Chăn bọ đối với các trang thương mại điện tử
Những trang thương mại điện tử sẽ có một số tính năng đặc trưng cho người dùng. Chẳng hạn như đăng ký, đăng nhập, đánh giá sản phẩm, giỏ hàng… những chức năng không thể thiếu. Họ thường tạo ra các nội dung trùng lặp, những nội dung này sẽ không để hỗ trợ cho việc SEO từ khóa. Do đó, mọi người có thể sử dụng robots.txt để chặn index các đường dẫn này.

3 cách tạo file robots.txt WordPress

Cách 1: Dùng Yoast SEO

Bước 1: Để bắt đầu tạo file robots.txt trên trang web WordPress của bạn, hãy truy cập vào WordPress Dashboard bằng cách đăng nhập vào trang web của bạn. Khi đăng nhập thành công, bạn sẽ thấy giao diện WordPress Dashboard.

Bước 2: Hãy chọn mục SEO trong danh sách menu bên trái và sau đó chọn Tools. Bằng cách làm như vậy, bạn sẽ được chuyển đến màn hình quản lý công cụ SEO trên WordPress.

Chọn Tools trong mục SEO ở giao diện WordPress Dashboard

Chọn Tools trong mục SEO ở giao diện WordPress Dashboard

Bước 3: Chọn File editor để chuyển đến trang chỉnh sửa các tệp liên quan đến SEO, bao gồm cả file robots.txt. Ở đây, bạn có thể tạo, chỉnh sửa và lưu file robots.txt cho trang web của mình.

Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt

Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt

Bạn có thể chỉnh sửa file robots.txt tại các vị trí như trên hình

Bạn có thể chỉnh sửa file robots.txt tại các vị trí như trên hình

Cách 2: Qua bộ Plugin All in One SEO

Một giải pháp khác để tạo file robots.txt cho WordPress nhanh chóng là sử dụng plugin All in One SEO. Đây là một plugin đơn giản và dễ sử dụng cho WordPress. Bạn có thể tạo file robots.txt trên WordPress bằng cách thực hiện các bước sau:

Bước 1: Truy cập vào giao diện chính của plugin All in One SEO Pack. Nếu bạn chưa cài đặt plugin này, hãy tải về TẠI ĐÂY.

Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho tính năng Robots.txt.

Chọn Feature Manager trong plugin All in One SEO

Chọn Feature Manager trong plugin All in One SEO

Bước 3: Tạo và tinh chỉnh file robots.txt cho WordPress của bạn.

Vị trí tạo và chỉnh sửa file robots.txt

Vị trí tạo và chỉnh sửa file robots.txt

Cách 3: Tạo rồi upload file robots.txt qua FTP

Việc tự tạo file robots.txt cho WordPress bằng cách tạo và tải lên file qua FTP là một phương pháp đơn giản và tiện lợi. Bạn có thể làm theo các bước sau để thực hiện:

  • Bước 1: Sử dụng Notepad hoặc TextEdit để tạo mẫu file robots.txt WordPress.
  • Bước 2: Sử dụng FTP để truy cập thư mục public_html và tìm file robots.txt.
  • Bước 3: Tải lên file robots.txt mới tạo lên đó.

Tải file robots.txt lên FTP

Tải file robots.txt lên FTP

Một số lưu ý khi sử dụng file robots.txt

Trong việc sử dụng file robots.txt, cần lưu ý các điểm sau:

  • Các liên kết trên trang bị chặn bởi robots.txt sẽ không được các bots theo dõi trừ khi các liên kết này có liên kết với các trang khác. Do đó, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.
  • Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm xuất hiện trong kết quả SERP vì các bots có thể bỏ qua các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn.
  • Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc, do đó không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên, việc làm này vẫn có thể giúp điều chỉnh được cách Index nội dung trang web.
  • Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt WordPress, nhưng vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu muốn cập nhật nhanh hơn, có thể sử dụng chức năng Gửi của Trình kiểm tra tệp robots.txt.
  • Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt cho WordPress, ví dụ như dùng mật khẩu bảo vệ hay Noindex Meta Directive.

Noindex Meta Directive có thể chặn công cụ tìm kiếm đến trang web của bạn

Noindex Meta Directive có thể chặn công cụ tìm kiếm đến trang web của bạn

0 nhận xét:

Đăng nhận xét