Mục lục
File robot.txt là gì?
Vai trò của File robot.txt
Hướng dẫn tạo File robot.txt
File robot.txt là gì?
File robots.txt là một tệp
tin văn bản nằm trong thư mục gốc của trang web và cung cấp hướng dẫn cho
các công cụ tìm kiếm thu thập thông tin về các trang mà họ có thể thu thập
thông tin để lập chỉ mục.
Nếu bạn đã đọc bài trước của tôi về cách các công cụ tìm kiếm hoạt động, thì
bạn sẽ biết rằng trong giai đoạn thu thập thông tin và lập chỉ mục, các công cụ
tìm kiếm cố gắng tìm các trang có sẵn công khai trên web, mà chúng có thể đưa
vào trong chỉ mục của chúng.
Khi truy cập trang web, điều đầu tiên công cụ tìm kiếm làm là tìm kiếm
và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ
định trong tệp, chúng tạo ra một danh sách các URLS có thể thu thập dữ liệu và
sau đó lập chỉ mục cụ thể cho trang web.
Nội dung của tệp robots.txt được công khai trên Internet. Trừ khi được bảo vệ bằng cách khác (tôi cũng chưa biết bảo vệ bằng cách nào), bất kỳ ai cũng có thể xem nội dung tệp robots.txt của bạn vì vậy đây không phải là nơi để thêm nội dung mà bạn không muốn người khác xem
Vai trò của File robot.txt
1. Chặn Google trong quá trình xây dựng web
Trong quá trình thiết kế cấu
trúc website thì mọi thứ còn chưa được đẹp và như ý muốn. Chính vì thế mà cần
chặn bọ của Google. Để nó không index những nội dung chưa được hoàn thiện mà
bạn không mong muốn.
Bạn chỉ sử dụng công dụng robots.txt trong quá trình thiết lập hệ thống. Nếu
như trang web đang hoạt động ổn định, thì đừng chèn mã trên vào file
robots.txt. Bởi khi đó, bài viết của bạn sẽ không thể nào xuất hiện trên trang
kết quả tìm kiếm.
2. Chèn Sitemap
Sitemap giống như là một tấm bản đồ để cho
Google khám phá về trang web của bạn. Nếu như số lượng bài viết được index của
trang web quá lớn mà trang web không có sitemap thì Google có thể sẽ không đủ
tài nguyên để index hết toàn bộ. Từ đó, một số nội dung quan trọng bạn muốn
được hiển thị sẽ không xuất hiện.
3. Chặn bọ quét backlink
Hiện
tại thì có ba công cụ quét backlink phổ biến nhất. Đó chính là Ahrefs, Majestic
và Moz. Mỗi phần mềm này lại được trang bị chức năng để quét backlink của bất
cứ một website nào. Lúc này công dụng robots.txt sẽ ngăn chặn điều này. Để
không cho đối thủ phân tích backlink của bạn.
4. Chặn mã độc hại, nguy hiểm
Ngoài những phần mềm có thể
kiểm tra backlink đối thủ còn một số loại phần mềm độc hại khác. Có những con
bọ được thiết kế riêng để đi sao chép nội dung người khác. Hoặc những con bọ
gửi quá nhiều, quá nhanh request tới máy chủ của bạn. Từ đó làm cho hao phí
băng thông và tài nguyên trên hệ thống của bạn.
5. Chặn thư mục cần bảo mật
Những mã nguồn mở của trang
web thường sẽ có thư mục cần được bảo mật. Chẳng hạn như wp-admin, wp-includes,
phpinfo.php, cgi-bin, memcache….
Chắc chắn rằng những trang web này không được phép index. Bởi khi nội dung bị
công khai trên internet, các hacker có thể lấy cắp thông tin hoặc tấn công vào
hệ thống của bạn. Do đó công dụng robots.txt sẽ ngăn chặn việc Google index nội
dung này.
6. Chặn bọ đối với trang thương mại điện tử
Những trang web thương mại
điện tử thường sẽ có một số tính năng đặc thù riêng cho người dùng. Chẳng hạn
như đăng ký, đăng nhập, giỏ hàng, đánh giá sản phẩm,… Những chức năng chắc chắn
không thể thiếu với người dùng. Họ sẽ thường tạo ra những nội dung bị trùng lặp
trong SEO. Những nội dung này cũng không có liên quan gì để hỗ trợ cho việc SEO
từ khóa. Do đó, bạn có thể chặn index các đường dẫn này bằng công dụng
robots.txt
Việc thiết lập file robots.txt
đóng một vai trò quan trọng trong bảo vệ trang web. Hãy liên hệ với những người
thiết kế web để tìm đúng cú pháp sử dụng file robots.txt.
Hướng dẫn tạo File robot.txt
Bot là
một chương trình thu thập dữ liệu của các công cụ tìm kiếm, như googlebot,
cococbot, bingbot,… Googlebot sử dụng các thuật toán và quét mọi website tiếp
nhận dữ liệu vào cơ sở dữ liệu. Nhờ vậy mà người dùng có thể tìm kiếm những
thông tin đó thông qua công cụ tìm kiếm. Tuy nhiên, nếu bạn muốn ngăn chặn điều
này thì cần biết cách tạo robots.txt.
Để tạo được file robots.txt thì bạn chỉ cần sử dụng
một công cụ soạn thảo văn bản đơn giản như Notepad trong Windows. Tạo một tệp mới, sau đó đặt tên là “robot.txt” rồi
lưu lại là đã xong phần khởi tạo.
Trong
file này bạn sẽ viết những cú pháp nhất định để thể hiện mục đích của bạn. Một
số cú pháp phổ biến được sử dụng bao gồm:
- User-agent:
tên loại bot muốn áp dụng
- Disallow:
không cho phép loại bot có tên trong mục User-Agent truy cập vào website
- Allow:
cho phép bot được truy cập và thu thập dữ liệu
- Dấu
*: áp dụng cho tất cả mọi trường hợp
Ví dụ
như:
User-agent:
* (Áp dụng với tất các các loại bot)
Disallow:
/ (Chặn không cho bot được phép truy cập vào toàn bộ website)
Ghi
chú: Nếu bạn muốn áp dụng với tất cả thì sử dụng dấu *. Đối với mỗi một loại
công cụ thu thập dữ liệu sẽ đều có một cái tên cụ thể. Chẳng hạn như googlebot,
bingbot, coccocbot… Nếu muốn chặn bất kỳ một loại bot cụ thể nào thì chúng ta
sẽ khai báo tên của loại bot đó.

Nhận xét
Đăng nhận xét