Thứ Hai, 13 tháng 11, 2023

File robots.txt là gì? Vai trò và cách tạo file robots.txt cho WordPress

 

File robots.txt là gì? Vai trò và cách tạo file robots.txt cho WordPress

Robots.txt là một tệp tin trên website giúp trình thu thập dữ liệu của các công cụ tìm kiếm. Bạn có thể cập nhật file bằng PC hoặc laptop. Tham khảo cách tạo file robots.txt cho WordPress của Điện máy XANH trong bài viết sau đây nhé!

Danh mục:

I.File robots.txt là gì?

1.Khái niệm

Robots.txt là tập tin văn bản đơn giản với đuôi mở rộng là .txt. Tệp tin là một phần của Robots Exclusion Protocol (REP), quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.



2. Cú pháp file robots.txt

Robots.txt có các cú pháp đặc biệt được xem là ngôn ngữ riêng bao gồm:

User-agent: Đây là tên của các trình thu thập, truy cập dữ liệu web (ví dụ: Googlebot, Bingbot, ...).

Disallow: Được sử dụng để thông báo cho các User-agent không được phép thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng một dòng Disallow.

Allow (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con, mặc dù các trang hoặc thư mục con có thể không được phép.

Crawl-delay: Thông báo cho các Web Crawler biết rằng phải đợi bao lâu trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.

Sitemap: Được sử dụng để cung cấp các vị trí của bất kỳ Sitemap XML nào được liên kết với URL này. Lưu ý rằng chỉ có các công cụ tìm kiếm Google, Ask, Bing và Yahoo hỗ trợ lệnh này.

3.Tạo file robots.txt để làm gì?

Robots.txt là một file được đặt trên máy chủ web để hướng dẫn các robot của công cụ tìm kiếm về cách truy cập vào trang web. Việc tạo file robots.txt có thể giúp cải thiện việc tìm kiếm và xếp hạng của trang web bởi công cụ tìm kiếm.

File robots.txt cho phép bạn chỉ định các phần của trang web mà các robot của công cụ tìm kiếm được phép truy cập hoặc bị cấm truy cập. Ví dụ, nếu bạn có một trang web chứa các trang đăng nhập hoặc dữ liệu nhạy cảm, bạn có thể sử dụng robots.txt để ngăn các robot của công cụ tìm kiếm truy cập vào các trang này.

Việc tạo file robots.txt không phải là bắt buộc, tuy nhiên, nó là một trong những cách tốt nhất để giúp công cụ tìm kiếm hiểu rõ hơn về trang web của bạn và cải thiện việc hiển thị kết quả tìm kiếm của nó.

4.File robots.txt nằm ở đâu trên website?

file robots.txt nằm trong thư mục gốc


Khi tạo một trang web WordPress, hệ thống sẽ tự động tạo ra một file robots.txt và đặt nó trong thư mục gốc của server. Ví dụ, nếu trang web của bạn được đặt tại địa chỉ abcdef.com, bạn có thể truy cập file robots.txt tại đường dẫn abcdef.com/robots.txt.

File robots.txt sẽ bao gồm các quy tắc để chỉ định cách các công cụ tìm kiếm truy cập trang web của bạn. Thông thường, file này sẽ cấm bots truy cập vào các thư mục quan trọng như wp-admin hoặc wp-includes.

Cụ thể, quy tắc "User-agent: *" được áp dụng cho tất cả các loại bots trên trang web và "Disallow: /wp-admin/" và "Disallow: /wp-includes/" cho biết bots không được phép truy cập vào hai thư mục này.

5.Cách hoạt động của file robots.txt

Quá trình sử dụng file robots.txt để kiểm soát việc crawl dữ liệu của các công cụ tìm kiếm diễn ra như sau:

Bước 1: Công cụ tìm kiếm sẽ sử dụng phương pháp crawl (cào/phân tích) để thu thập dữ liệu từ các trang web khác nhau bằng cách theo dõi các liên kết. Quá trình crawl này còn được gọi là "Spidering" và nó giúp khám phá nội dung của trang web.

Bước 2: Sau khi thu thập được dữ liệu, công cụ tìm kiếm sẽ index nội dung đó để trả lời các yêu cầu tìm kiếm của người dùng. File robots.txt được sử dụng để cung cấp thông tin về cách các công cụ tìm kiếm thu thập dữ liệu từ trang web. Bằng cách sử dụng file robots.txt, các bot có thể được hướng dẫn để thu thập dữ liệu một cách chính xác và hiệu quả.

II.Vai trò của file robots.txt



Tệp robots. txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web khỏi Google.

III.Cách tạo file robots.txt cho WordPress

Cách 1: Dùng Yoast SEO

Bước 1: Để bắt đầu tạo file robots.txt trên trang web WordPress của bạn, hãy truy cập vào WordPress Dashboard bằng cách đăng nhập vào trang web của bạn. Khi đăng nhập thành công, bạn sẽ thấy giao diện WordPress Dashboard.

Bước 2: Hãy chọn mục SEO trong danh sách menu bên trái và sau đó chọn Tools. Bằng cách làm như vậy, bạn sẽ được chuyển đến màn hình quản lý công cụ SEO trên WordPress. 

Chọn Tools trong mục SEO ở giao diện WordPress Dashboard

Bước 3: Chọn File editor để chuyển đến trang chỉnh sửa các tệp liên quan đến SEO, bao gồm cả file robots.txt. Ở đây, bạn có thể tạo, chỉnh sửa và lưu file robots.txt cho trang web của mình. 


 Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt.

Bạn có thể chỉnh sửa file robots.txt tại các vị trí như trên hình.

Cách 2: Qua bộ Plugin All in One SEO

Một giải pháp khác để tạo file robots.txt cho WordPress nhanh chóng là sử dụng plugin All in One SEO. Đây là một plugin đơn giản và dễ sử dụng cho WordPress. Bạn có thể tạo file robots.txt trên WordPress bằng cách thực hiện các bước sau:

Bước 1: Truy cập vào giao diện chính của plugin All in One SEO Pack. Nếu bạn chưa cài đặt plugin này, hãy tải về TẠI ĐÂY.

Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho tính năng Robots.txt. 


Chọn Feature Manager trong plugin All in One SEO

Bước 3: Tạo và tinh chỉnh file robots.txt cho WordPress của bạn. Vị trí tạo và chỉnh sửa file robots.txt


Cách 3: Tạo rồi upload file robots.txt qua FTP

Việc tự tạo file robots.txt cho WordPress bằng cách tạo và tải lên file qua FTP là một phương pháp đơn giản và tiện lợi. Bạn có thể làm theo các bước sau để thực hiện:

Bước 1: Sử dụng Notepad hoặc TextEdit để tạo mẫu file robots.txt WordPress.

Bước 2: Sử dụng FTP để truy cập thư mục public_html và tìm file robots.txt.

Bước 3: Tải lên file robots.txt mới tạo lên đó.



0 nhận xét:

Đăng nhận xét