File robot.txt là gì? Vai trò và cách tạo
File robot.txt là gì?
File robots.txt là một tập tin đơn giản chuyên được sử dụng trong quản trị website. Nó là một phần của REP (Robots Exclusion Protocol) chứa một nhóm các tiêu chuẩn về web theo quy định. Công dụng của File robots.txt là giúp cho các nhà quản trị web có được sự linh hoạt và chủ động hơn trong việc kiểm soát bọ của Google.

File robots.txt được sử dụng để cấp quyền chỉ mục cho những con bọ của công cụ tìm kiếm. Bất cứ một website nào thì cũng nên sử dụng File robots.txt, đặc biệt là những trang web lớn hoặc đang xây dựng.
Cú pháp file robots.txt
Robots.txt có các cú pháp đặc biệt được xem là ngôn ngữ riêng bao gồm:
- User-agent: Đây là tên của các trình thu thập, truy cập dữ liệu web (ví dụ: Googlebot, Bingbot, ...).
- Disallow: Được sử dụng để thông báo cho các User-agent không được phép thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng một dòng Disallow.
- Allow (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con, mặc dù các trang hoặc thư mục con có thể không được phép.
- Crawl-delay: Thông báo cho các Web Crawler biết rằng phải đợi bao lâu trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
- Sitemap: Được sử dụng để cung cấp các vị trí của bất kỳ Sitemap XML nào được liên kết với URL này. Lưu ý rằng chỉ có các công cụ tìm kiếm Google, Ask, Bing và Yahoo hỗ trợ lệnh này.
File robots.txt bao gồm nhiều cú pháp khác nhau
Một số quy tắc khi tạo file robots.txt
Việc tạo file robots.txt cho WordPress cần tuân thủ các quy tắc sau để tránh gặp lỗi:
- Đặt tệp robots.txt WordPress ở thư mục cấp cao nhất của trang web để các bot có thể tìm thấy.
- Tên file phải đúng định dạng và không phân biệt chữ hoa chữ thường, vì vậy đặt tên file là robots.txt thay vì "Robots.txt" hoặc "robots.TXT".
- Không nên sử dụng các mục Disallow để chặn /wp-content/themes/ hoặc /wp-content/plugins/ để tránh làm ảnh hưởng đến việc đánh giá giao diện blog hoặc website.
- Một số User-agent sử dụng các file robots.txt không chuẩn để truy cập trang web, ví dụ như các bot độc hại hay trình Scraping địa chỉ Email.
- Các file robots.txt thường được công khai trên web, người dùng chỉ cần thêm /robots.txt vào cuối của Root Domain để xem các chỉ thị của trang web. Vì vậy, không nên sử dụng file này để giấu thông tin cá nhân.
- Mỗi Subdomain trên một Root Domain sẽ có các file robots.txt riêng, giúp chỉ ra vị trí của các sitemaps liên quan đến domain ở cuối tệp robots.txt.
Mỗi subdomain sở hữu một file robots.txt riêng
Vai trò của File robots.txt đối với website
- Chặn bọ từ google trong quá trình xây dựng web
- Chèn Sitemap
- Chặn bọ quét backlink
- Chặn các thư mục cần bảo mật
Những mã nguồn của website thường đều có các thư mục cần được bảo mật. Ví dụ như wp-includes, phpinfo.php, wp-admin, memcached, cgi-bin…
Những trang web này chắc chắn không được index. Bởi một khi nội dung được công khai trên internet, các hacker sẽ có thể lấy cắp đi những thông tin quan trọng, thậm chí là tấn công vào hệ thống của bạn. Công dụng của robots.txt sẽ giúp ngăn chặn việc google index các nội dung này.
- Chặn các mã độc hại
- Chăn bọ đối với các trang thương mại điện tử
3 cách tạo file robots.txt WordPress
Cách 1: Dùng Yoast SEO
Bước 1: Để bắt đầu tạo file robots.txt trên trang web WordPress của bạn, hãy truy cập vào WordPress Dashboard bằng cách đăng nhập vào trang web của bạn. Khi đăng nhập thành công, bạn sẽ thấy giao diện WordPress Dashboard.
Bước 2: Hãy chọn mục SEO trong danh sách menu bên trái và sau đó chọn Tools. Bằng cách làm như vậy, bạn sẽ được chuyển đến màn hình quản lý công cụ SEO trên WordPress.
Chọn Tools trong mục SEO ở giao diện WordPress Dashboard
Bước 3: Chọn File editor để chuyển đến trang chỉnh sửa các tệp liên quan đến SEO, bao gồm cả file robots.txt. Ở đây, bạn có thể tạo, chỉnh sửa và lưu file robots.txt cho trang web của mình.
Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt
Bạn có thể chỉnh sửa file robots.txt tại các vị trí như trên hình
Cách 2: Qua bộ Plugin All in One SEO
Một giải pháp khác để tạo file robots.txt cho WordPress nhanh chóng là sử dụng plugin All in One SEO. Đây là một plugin đơn giản và dễ sử dụng cho WordPress. Bạn có thể tạo file robots.txt trên WordPress bằng cách thực hiện các bước sau:
Bước 1: Truy cập vào giao diện chính của plugin All in One SEO Pack. Nếu bạn chưa cài đặt plugin này, hãy tải về TẠI ĐÂY.
Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho tính năng Robots.txt.
Chọn Feature Manager trong plugin All in One SEO
Bước 3: Tạo và tinh chỉnh file robots.txt cho WordPress của bạn.
Vị trí tạo và chỉnh sửa file robots.txt
Cách 3: Tạo rồi upload file robots.txt qua FTP
Việc tự tạo file robots.txt cho WordPress bằng cách tạo và tải lên file qua FTP là một phương pháp đơn giản và tiện lợi. Bạn có thể làm theo các bước sau để thực hiện:
- Bước 1: Sử dụng Notepad hoặc TextEdit để tạo mẫu file robots.txt WordPress.
- Bước 2: Sử dụng FTP để truy cập thư mục public_html và tìm file robots.txt.
- Bước 3: Tải lên file robots.txt mới tạo lên đó.
Tải file robots.txt lên FTP
Một số lưu ý khi sử dụng file robots.txt
Trong việc sử dụng file robots.txt, cần lưu ý các điểm sau:
- Các liên kết trên trang bị chặn bởi robots.txt sẽ không được các bots theo dõi trừ khi các liên kết này có liên kết với các trang khác. Do đó, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.
- Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm xuất hiện trong kết quả SERP vì các bots có thể bỏ qua các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn.
- Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc, do đó không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên, việc làm này vẫn có thể giúp điều chỉnh được cách Index nội dung trang web.
- Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt WordPress, nhưng vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu muốn cập nhật nhanh hơn, có thể sử dụng chức năng Gửi của Trình kiểm tra tệp robots.txt.
- Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt cho WordPress, ví dụ như dùng mật khẩu bảo vệ hay Noindex Meta Directive.
Noindex Meta Directive có thể chặn công cụ tìm kiếm đến trang web của bạn
0 nhận xét:
Đăng nhận xét