File robot.txt là gì? Vai trò và tạo File robot.txt

Mục lục
File robot.txt là gì?
Vai trò của File robot.txt
Hướng dẫn tạo File robot.txt

File robot.txt là gì? 

File robots.txt là một tệp tin văn bản nằm trong thư mục gốc của trang web và cung cấp hướng dẫn cho các công cụ tìm kiếm thu thập thông tin về các trang mà họ có thể thu thập thông tin để lập chỉ mục.

Nếu bạn đã đọc bài trước của tôi về cách các công cụ tìm kiếm hoạt động, thì bạn sẽ biết rằng trong giai đoạn thu thập thông tin và lập chỉ mục, các công cụ tìm kiếm cố gắng tìm các trang có sẵn công khai trên web, mà chúng có thể đưa vào trong chỉ mục của chúng.

Khi truy cập trang web, điều đầu tiên công cụ tìm kiếm làm là tìm kiếm và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ định trong tệp, chúng tạo ra một danh sách các URLS có thể thu thập dữ liệu và sau đó lập chỉ mục cụ thể cho trang web.

Nội dung của tệp robots.txt được công khai trên Internet. Trừ khi được bảo vệ bằng cách khác (tôi cũng chưa biết bảo vệ bằng cách nào), bất kỳ ai cũng có thể xem nội dung tệp robots.txt của bạn vì vậy đây không phải là nơi để thêm nội dung mà bạn không muốn người khác xem


Vai trò của File robot.txt 

1. Chặn Google trong quá trình xây dựng web

Trong quá trình thiết kế cấu trúc website thì mọi thứ còn chưa được đẹp và như ý muốn. Chính vì thế mà cần chặn bọ của Google. Để nó không index những nội dung chưa được hoàn thiện mà bạn không mong muốn.
Bạn chỉ sử dụng công dụng robots.txt trong quá trình thiết lập hệ thống. Nếu như trang web đang hoạt động ổn định, thì đừng chèn mã trên vào file robots.txt. Bởi khi đó, bài viết của bạn sẽ không thể nào xuất hiện trên trang kết quả tìm kiếm.

2. Chèn Sitemap

Sitemap giống như là một tấm bản đồ để cho Google khám phá về trang web của bạn. Nếu như số lượng bài viết được index của trang web quá lớn mà trang web không có sitemap thì Google có thể sẽ không đủ tài nguyên để index hết toàn bộ. Từ đó, một số nội dung quan trọng bạn muốn được hiển thị sẽ không xuất hiện.

3. Chặn bọ quét backlink

Hiện tại thì có ba công cụ quét backlink phổ biến nhất. Đó chính là Ahrefs, Majestic và Moz. Mỗi phần mềm này lại được trang bị chức năng để quét backlink của bất cứ một website nào. Lúc này công dụng robots.txt sẽ ngăn chặn điều này. Để không cho đối thủ phân tích backlink của bạn.

4. Chặn mã độc hại, nguy hiểm

Ngoài những phần mềm có thể kiểm tra backlink đối thủ còn một số loại phần mềm độc hại khác. Có những con bọ được thiết kế riêng để đi sao chép nội dung người khác. Hoặc những con bọ gửi quá nhiều, quá nhanh request tới máy chủ của bạn. Từ đó làm cho hao phí băng thông và tài nguyên trên hệ thống của bạn.

5. Chặn thư mục cần bảo mật

Những mã nguồn mở của trang web thường sẽ có thư mục cần được bảo mật. Chẳng hạn như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache….
Chắc chắn rằng những trang web này không được phép index. Bởi khi nội dung bị công khai trên internet, các hacker có thể lấy cắp thông tin hoặc tấn công vào hệ thống của bạn. Do đó công dụng robots.txt sẽ ngăn chặn việc Google index nội dung này.

6. Chặn bọ đối với trang thương mại điện tử

Những trang web thương mại điện tử thường sẽ có một số tính năng đặc thù riêng cho người dùng. Chẳng hạn như đăng ký, đăng nhập, giỏ hàng, đánh giá sản phẩm,… Những chức năng chắc chắn không thể thiếu với người dùng. Họ sẽ thường tạo ra những nội dung bị trùng lặp trong SEO. Những nội dung này cũng không có liên quan gì để hỗ trợ cho việc SEO từ khóa. Do đó, bạn có thể chặn index các đường dẫn này bằng công dụng robots.txt

Việc thiết lập file robots.txt đóng một vai trò quan trọng trong bảo vệ trang web. Hãy liên hệ với những người thiết kế web để tìm đúng cú pháp sử dụng file robots.txt.

Hướng dẫn tạo File robot.txt

Bot là một chương trình thu thập dữ liệu của các công cụ tìm kiếm, như googlebot, cococbot, bingbot,… Googlebot sử dụng các thuật toán và quét mọi website tiếp nhận dữ liệu vào cơ sở dữ liệu. Nhờ vậy mà người dùng có thể tìm kiếm những thông tin đó thông qua công cụ tìm kiếm. Tuy nhiên, nếu bạn muốn ngăn chặn điều này thì cần biết cách tạo robots.txt.

Để tạo được file robots.txt thì bạn chỉ cần sử dụng một công cụ soạn thảo văn bản đơn giản như Notepad trong Windows. Tạo một tệp mới, sau đó đặt tên là “robot.txt” rồi lưu lại là đã xong phần khởi tạo.

Trong file này bạn sẽ viết những cú pháp nhất định để thể hiện mục đích của bạn. Một số cú pháp phổ biến được sử dụng bao gồm:

  • User-agent: tên loại bot muốn áp dụng
  • Disallow: không cho phép loại bot có tên trong mục User-Agent truy cập vào website
  • Allow: cho phép bot được truy cập và thu thập dữ liệu
  • Dấu *: áp dụng cho tất cả mọi trường hợp

Ví dụ như:

User-agent: * (Áp dụng với tất các các loại bot)

Disallow: / (Chặn không cho bot được phép truy cập vào toàn bộ website)

Ghi chú: Nếu bạn muốn áp dụng với tất cả thì sử dụng dấu *. Đối với mỗi một loại công cụ thu thập dữ liệu sẽ đều có một cái tên cụ thể. Chẳng hạn như googlebot, bingbot, coccocbot… Nếu muốn chặn bất kỳ một loại bot cụ thể nào thì chúng ta sẽ khai báo tên của loại bot đó.


Nhận xét