Tìm hiểu về trình thu thập thông tin của Google

“Thu thập thông tin” là thuật ngữ chung cho bất kỳ chương trình nào được sử dụng để tự động tìm kiếm và quét các trang web bằng cách đi theo các liên kết từ trang này sang trang khác. Trình thu thập thông tin chính của Google được gọi là Googlebot. Bảng dưới đây sẽ liệt kê thông tin về các trình thu thập thông tin phổ biến của Google mà bạn có thể thấy trong các bản ghi và cách chúng được chỉ định trong file robots.txt, các thẻ meta của robots và lệnh HTTP X-Robots-Tag.

Trình thu thập thông tinMã tác nhân người dùngMã tác nhân người dùng đầy đủ
Googlebot

(Máy tính)

GooglebotMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) hoặc (hiếm khi sử dụng)

Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot

(Smartphone)

GooglebotMozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot NewsGooglebot-News

(Googlebot)

Googlebot-News
Googlebot ImageGooglebot-Image

(Googlebot)

Googlebot-Image/1.0
Googlebot VideoGooglebot-Video

(Googlebot)

Googlebot-Video/1.0
Google Mobie AdSenseMediapartners-Google

hoặc

Mediapartners (Googlebot)

(Các thiết bị di động khác nhau) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdsBot

Kiểm tra chất lượng landing page

AdsBot-GoogleAdsBot-Google (+http://www.google.com/adsbot.html)
Trình thu thập thông tin ứng dụng của GoogleAdsBot-Google-Mobie-AppsAdsBot-Google-Mobile-Apps
 Google AdSense Mediapartners-Google

Mediapartners (Googlebot)

 Mediapartners-Google
 APIs-Google APIs-GoogleAPIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

File robots.txt

Khi các tác nhân người dùng được công nhận trong file robots.txt, Google sẽ làm theo các tác nhân cụ thể nhất. Nếu bạn muốn tất cả các trình thu thập thông tin của google thu thập thông tin trang web của bạn, bạn hoàn toàn không cần dùng đến file robots.txt. Nếu bạn muốn chặn hoặc cho phép chúng truy cập vào nội dung trong web của bạn, bạn có thể chỉ định Googlebot làm tác nhân người dùng (user-agent).

Ngoài ra bạn có thể kiểm soát trang web của mình tốt hơn với file robots.txt. Ví dụ nếu bạn muốn các trang của mình xuất hiện trong kết quả tìm kiếm của Google nhưng không muốn hình ảnh của mình hiển thị thì bạn có thể sử dụng file robots.txt để ngăn Googlebot-Image thu thập dữ liệu hình ảnh của bạn bằng cách sử dụng đoạn mã sau:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Thẻ meta Robots

Một số trang sử dụng thẻ meta robots để chỉ ra các lệnh cho các trình thu thập thông tin như sau:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

Trong trường hợp này Googlebot sẽ đi theo cả 2 lệnh nofollow và noindex.

Leave a Reply

Your email address will not be published. Required fields are marked *