“Thu thập thông tin” là thuật ngữ chung cho bất kỳ chương trình nào được sử dụng để tự động tìm kiếm và quét các trang web bằng cách đi theo các liên kết từ trang này sang trang khác. Trình thu thập thông tin chính của Google được gọi là Googlebot. Bảng dưới đây sẽ liệt kê thông tin về các trình thu thập thông tin phổ biến của Google mà bạn có thể thấy trong các bản ghi và cách chúng được chỉ định trong file robots.txt, các thẻ meta của robots và lệnh HTTP X-Robots-Tag.
Trình thu thập thông tin | Mã tác nhân người dùng | Mã tác nhân người dùng đầy đủ |
Googlebot
(Máy tính) |
Googlebot | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html ) hoặc (hiếm khi sử dụng)
|
Googlebot
(Smartphone) |
Googlebot | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
Googlebot News | Googlebot-News
(Googlebot) |
Googlebot-News |
Googlebot Image | Googlebot-Image
(Googlebot) |
Googlebot-Image/1.0 |
Googlebot Video | Googlebot-Video
(Googlebot) |
Googlebot-Video/1.0 |
Google Mobie AdSense | Mediapartners-Google
hoặc Mediapartners (Googlebot) |
(Các thiết bị di động khác nhau) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
Google AdsBot
Kiểm tra chất lượng landing page |
AdsBot-Google | AdsBot-Google (+http://www.google.com/adsbot.html ) |
Trình thu thập thông tin ứng dụng của Google | AdsBot-Google-Mobie-Apps | AdsBot-Google-Mobile-Apps |
Google AdSense | Mediapartners-Google
Mediapartners (Googlebot) |
Mediapartners-Google |
APIs-Google | APIs-Google | APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
File robots.txt
Khi các tác nhân người dùng được công nhận trong file robots.txt, Google sẽ làm theo các tác nhân cụ thể nhất. Nếu bạn muốn tất cả các trình thu thập thông tin của google thu thập thông tin trang web của bạn, bạn hoàn toàn không cần dùng đến file robots.txt. Nếu bạn muốn chặn hoặc cho phép chúng truy cập vào nội dung trong web của bạn, bạn có thể chỉ định Googlebot làm tác nhân người dùng (user-agent).
Ngoài ra bạn có thể kiểm soát trang web của mình tốt hơn với file robots.txt. Ví dụ nếu bạn muốn các trang của mình xuất hiện trong kết quả tìm kiếm của Google nhưng không muốn hình ảnh của mình hiển thị thì bạn có thể sử dụng file robots.txt để ngăn Googlebot-Image thu thập dữ liệu hình ảnh của bạn bằng cách sử dụng đoạn mã sau:
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal
Thẻ meta Robots
Một số trang sử dụng thẻ meta robots để chỉ ra các lệnh cho các trình thu thập thông tin như sau:
<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">
Trong trường hợp này Googlebot sẽ đi theo cả 2 lệnh nofollow và noindex.