Hộp công cụ trực tuyến

Tạo tập tin robots

 Các đường dẫn là tương đối, nhưng mỗi đường dẫn phải chứa trước:"/"
 Để trống là không có, Google là định dạng XML, Baidu là định dạng HTML
Công cụ tìm kiếm thường được sử dụng
Công cụ tìm kiếm nước ngoài
Công cụ tìm kiếm đặc biệt (robot)
Khác (công cụ tìm kiếm không thông thường, thậm chí thiên vị xấu)
Vui lòng lưu kết quả sau vào sổ ghi chép, đặt tên là robots.txt và tải lên thư mục gốc của trang web

Robots.txt là gì?

Các công cụ tìm kiếm thông qua một loại chương trình "nhện" (còn gọi là nhện), tự động truy cập các trang web trên Internet và lấy thông tin trang web. Bạn có thể tạo một tệp robots.txt trong trang web của mình để xác định các phần của trang web mà bạn không muốn nhện truy cập, do đó một phần hoặc toàn bộ nội dung của trang web sẽ không được công cụ tìm kiếm truy cập và bao gồm, hoặc bạn có thể chỉ định công cụ tìm kiếm chỉ bao gồm nội dung được chỉ định bằng robots.txt. Tệp đầu tiên mà công cụ tìm kiếm truy cập vào trang web là robots.txt.

Xin vui lòng giới thiệu chi tiết về tập tin robots.txt?

  1. Vị trí tập tin

    Các tập tin robots.txt nên được đặt ở thư mục gốc của trang web. Ví dụ, khi công cụ tìm kiếm truy cập một trang web, trước tiên sẽ kiểm tra xem liệu có tệp robots.txt tồn tại trên trang web hay không, và nếu robot tìm thấy tệp này, nó sẽ dựa trên nội dung của tệp này để xác định phạm vi quyền truy cập của nó. Vị trí tệp robots của wordpress không được tải lên robots.txt trong chương trình gốc trang web wordpress, khi công cụ tìm kiếm và người dùng truy cập một tập tin nào đó, chương trình wordpress sẽ chủ động tạo ra một robots.txt cho công cụ tìm kiếm và người dùng; Nếu chúng ta tải lên soạn robots.txt vào chương trình gốc trang web, người dùng và công cụ tìm kiếm nhện truy cập là chúng ta tải lên tập tin, wordpress sẽ không còn tạo ra tập tin đó. WordPress sẽ tạo ra tệp này chỉ khi máy chủ không tìm thấy robot.

  2. Định dạng tệp

    Tệp robots.txt chứa một hoặc nhiều bản ghi được tách ra bởi các dòng trống (được kết thúc bằng ký tự CR, CR/NL, hoặc NL), và mỗi bản ghi có định dạng như sau: "<field>:<optionalspace><value><optionalspace>" có thể được chú thích bằng # trong tệp này, giống như thông lệ trong UNIX. Các bản ghi trong tệp này thường bắt đầu với một hoặc nhiều dòng User-agent, sau đó là một số dòng Disallow, với chi tiết như sau: User-agent: Giá trị của mục được sử dụng để mô tả tên của robot công cụ tìm kiếm. Trong tệp robots.txt, nếu có nhiều bản ghi User-agent, có nhiều robot bị ràng buộc bởi giao thức này. Vì vậy, bạn cần có ít nhất một bản ghi User-agent trong tệp "robots.txt". Nếu giá trị của mục được đặt thành * (ký tự đại diện), giao thức này có hiệu lực đối với bất kỳ robot công cụ tìm kiếm nào. Trong tệp "robots.txt", chỉ có một bản ghi như "User-agent:*". Disallow: Giá trị của mục này được sử dụng để mô tả một URL mà bạn không muốn truy cập, URL này có thể là một đường dẫn đầy đủ hoặc một phần, bất kỳ URL nào bắt đầu bằng Disallow sẽ không được truy cập bởi robot. Ví dụ: "Disallow: /help" không cho phép công cụ tìm kiếm truy cập vào /help.html và /help/index.html, trong khi "Disallow: /help/" cho phép robot truy cập vào /help.html nhưng không cho phép truy cập vào /help/index.html. Bất kỳ bản ghi Disallow nào trống có nghĩa là tất cả các phần của trang web được phép truy cập, và ít nhất một bản ghi Disallow trong tệp "/robots.txt". Nếu "/robots.txt" là một phần văn bản rỗng, thì trang web sẽ mở cho tất cả các robot công cụ tìm kiếm.

  3. Phương tiện bảo vệ chung

    Che chắn các trang riêng tư, trang đăng nhập hậu trường, trang bộ nhớ cache, thư mục hình ảnh, thư mục css, trang mẫu, che chắn nội dung trang kép, đồng thời có thể che chắn một số trang chất lượng kém, chẳng hạn như tất cả các trang không gian người dùng thành viên của trang web vàng, liên kết động dz cũng có thể được thiết lập che chắn. Cài đặt thông qua lệnh Disallow: