File robots.txt là gì? Vai trò và cách tạo file robots.txt cho WordPress
Robots.txt là một tệp tin
trên website giúp trình thu thập dữ liệu của các công cụ tìm kiếm. Bạn có thể cập
nhật file bằng PC hoặc laptop. Tham khảo cách tạo file robots.txt cho WordPress
của Điện máy XANH trong bài viết sau đây nhé!
Danh mục:
I.File robots.txt là gì?
1.Khái niệm
Robots.txt là tập tin văn
bản đơn giản với đuôi mở rộng là .txt. Tệp tin là một phần của Robots Exclusion
Protocol (REP), quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm)
thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho
người dùng.
2. Cú pháp file robots.txt
Robots.txt có các cú pháp
đặc biệt được xem là ngôn ngữ riêng bao gồm:
User-agent: Đây là tên của
các trình thu thập, truy cập dữ liệu web (ví dụ: Googlebot, Bingbot, ...).
Disallow: Được sử dụng để
thông báo cho các User-agent không được phép thu thập bất kỳ dữ liệu URL cụ thể
nào. Mỗi URL chỉ được sử dụng một dòng Disallow.
Allow (chỉ áp dụng cho bộ
tìm kiếm Googlebot): Lệnh thông báo cho Googlebot rằng nó có thể truy cập một
trang hoặc thư mục con, mặc dù các trang hoặc thư mục con có thể không được
phép.
Crawl-delay: Thông báo
cho các Web Crawler biết rằng phải đợi bao lâu trước khi tải và thu thập nội
dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh
này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
Sitemap: Được sử dụng để
cung cấp các vị trí của bất kỳ Sitemap XML nào được liên kết với URL này. Lưu ý
rằng chỉ có các công cụ tìm kiếm Google, Ask, Bing và Yahoo hỗ trợ lệnh này.
3.Tạo file robots.txt để làm gì?
Robots.txt là một file được
đặt trên máy chủ web để hướng dẫn các robot của công cụ tìm kiếm về cách
truy cập vào trang web. Việc tạo file robots.txt có thể giúp cải thiện việc
tìm kiếm và xếp hạng của trang web bởi công cụ tìm kiếm.
File robots.txt cho phép
bạn chỉ định các phần của trang web mà các robot của công cụ tìm kiếm được phép
truy cập hoặc bị cấm truy cập. Ví dụ, nếu bạn có một trang web chứa các trang
đăng nhập hoặc dữ liệu nhạy cảm, bạn có thể sử dụng robots.txt để ngăn các
robot của công cụ tìm kiếm truy cập vào các trang này.
Việc tạo file robots.txt
không phải là bắt buộc, tuy nhiên, nó là một trong những cách tốt nhất để giúp
công cụ tìm kiếm hiểu rõ hơn về trang web của bạn và cải thiện việc hiển thị kết
quả tìm kiếm của nó.
4.File robots.txt nằm ở đâu trên website?
![]() |
file robots.txt nằm trong thư mục gốc |
Khi tạo một trang web WordPress,
hệ thống sẽ tự động tạo ra một file robots.txt và đặt nó trong thư mục gốc của
server. Ví dụ, nếu trang web của bạn được đặt tại địa chỉ abcdef.com, bạn có thể
truy cập file robots.txt tại đường dẫn abcdef.com/robots.txt.
File robots.txt sẽ bao gồm các quy tắc
để chỉ định cách các công cụ tìm kiếm truy cập trang web của bạn. Thông thường,
file này sẽ cấm bots truy cập vào các thư mục quan trọng như wp-admin
hoặc wp-includes.
Cụ thể, quy tắc "User-agent:
*" được áp dụng cho tất cả các loại bots trên trang web và "Disallow:
/wp-admin/" và "Disallow: /wp-includes/" cho biết bots không được
phép truy cập vào hai thư mục này.
5.Cách hoạt động của file robots.txt
Quá trình sử dụng file robots.txt để kiểm soát việc crawl dữ
liệu của các công cụ tìm kiếm diễn ra như sau:
Bước 1: Công cụ
tìm kiếm sẽ sử dụng phương pháp crawl (cào/phân tích) để thu thập dữ liệu từ
các trang web khác nhau bằng cách theo dõi các liên kết. Quá trình crawl này
còn được gọi là "Spidering" và nó giúp khám phá nội dung của trang
web.
Bước 2: Sau khi thu thập được dữ liệu, công cụ tìm kiếm sẽ index nội dung đó để trả lời các yêu cầu tìm kiếm của người dùng. File robots.txt được sử dụng để cung cấp thông tin về cách các công cụ tìm kiếm thu thập dữ liệu từ trang web. Bằng cách sử dụng file robots.txt, các bot có thể được hướng dẫn để thu thập dữ liệu một cách chính xác và hiệu quả.
II.Vai trò của file robots.txt
Tệp robots. txt cho trình
thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào
trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi
quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web
khỏi Google.
III.Cách tạo file robots.txt cho WordPress
Cách 1: Dùng Yoast SEO
Bước 1: Để bắt đầu tạo file robots.txt trên trang web WordPress của bạn, hãy truy cập vào WordPress Dashboard bằng cách đăng nhập vào trang web của bạn. Khi đăng nhập thành công, bạn sẽ thấy giao diện WordPress Dashboard.
Bước 2: Hãy chọn mục SEO trong danh sách menu bên trái và sau đó chọn Tools. Bằng cách làm như vậy, bạn sẽ được chuyển đến màn hình quản lý công cụ SEO trên WordPress.
Chọn Tools trong mục SEO ở giao diện WordPress Dashboard
Bước 3: Chọn File editor để chuyển đến trang chỉnh sửa các tệp liên quan đến SEO, bao gồm cả file robots.txt. Ở đây, bạn có thể tạo, chỉnh sửa và lưu file robots.txt cho trang web của mình.
Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt.

Bạn có thể chỉnh sửa file robots.txt tại các vị trí như trên hình.
Cách 2: Qua bộ Plugin All in One SEO
Một giải pháp khác để tạo
file robots.txt cho WordPress nhanh chóng là sử dụng plugin All in One SEO. Đây
là một plugin đơn giản và dễ sử dụng cho WordPress. Bạn có thể tạo file
robots.txt trên WordPress bằng cách thực hiện các bước sau:
Bước 1: Truy cập vào giao
diện chính của plugin All in One SEO Pack. Nếu bạn chưa cài đặt plugin này, hãy
tải về TẠI ĐÂY.
Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho tính năng Robots.txt.
Chọn Feature Manager trong plugin All in One SEO
Bước 3: Tạo và tinh chỉnh
file robots.txt cho WordPress của bạn. Vị trí tạo và chỉnh sửa file robots.txt
Cách 3: Tạo rồi upload file robots.txt qua FTP
Việc tự tạo file
robots.txt cho WordPress bằng cách tạo và tải lên file qua FTP là một phương
pháp đơn giản và tiện lợi. Bạn có thể làm theo các bước sau để thực hiện:
Bước 1: Sử dụng Notepad
hoặc TextEdit để tạo mẫu file robots.txt WordPress.
Bước 2: Sử dụng FTP để
truy cập thư mục public_html và tìm file robots.txt.
Bước 3: Tải lên file
robots.txt mới tạo lên đó.
0 nhận xét:
Đăng nhận xét