Những nguyên nhân nào mà Googlebot lại bị chặn?

Ngăn chặn Googlebot truy cập một trang web có thể ảnh hưởng trực tiếp đến khả năng thu thập thông tin và lập chỉ mục nội dung của trang web đó và có thể dẫn đến mất thứ hạng trong kết quả tìm kiếm của Google. Thật không may, nhiều quản trị web đã vô tình chặn không cho Googlebot truy cập vào trang web của họ, bởi vì Googlebot cần có quyền truy cập trang web để thu thập và tuân theo các đường dẫn trong file robots.txt của nó.

Khi Google phát hiện Googlebot bị chặn họ sẽ dùng Webmaster Tools để thông báo cho bạn biết về điều này.

Các nguyên nhân dẫn đến việc Googlebot bị chặn

Nếu bạn nghi ngờ rằng Googlebot bị ngăn việc truy cập vào trang web hoặc bạn nhận được thông báo liên quan đến vấn đề này, hãy kiểm tra những điều sau trong Webmaster Tools:

+ Lỗi thu thập dữ liệu: trang này liệt kê các lỗi mà Googlebot gặp phải gần đây khi cố thu thập dữ liệu trong trang web của bạn.

+ Tìm nạp như Google: trang này cho phép bạn yêu cầu Google thu thập dữ liệu các trang cụ thể và nhanh chóng hiển thị kết quả (bao gồm cả lỗi).

Các nguyên nhân thường gặp

+ DNS gặp vấn đề

Google không thể liên lạc với máy chủ DNS khi họ cố truy cập trang web của bạn. Điều này có thể là do máy chủ DNS không có sẵn hoặc có vấn đề với đường truyền tới miền của bạn.

Để khắc phục sự cố này, bạn hãy kiểm tra lại xem nhà cung cấp DNS của bạn có chặn Googlebot hay không.

+ Tường lửa

Trong một vài trường hợp, cấu hình sai tường lửa hoặc hệ thống bảo mật DoS (đôi khi là hệ thống quản lý nội dung của trang web) chặn Googlebot thu thập dữ liệu trang web. Hệ thống bảo mật là một phần quan trọng của việc lưu trữ tốt và thường được cấu hình để tự động chặn các yêu cầu bất thường của máy chủ cấp cao. Tuy nhiên, bởi vì Googlebot thường tạo ra nhiều yêu cầu hơn là người dùng nên nó có thể kích hoạt các hệ thống bảo mật này khiến chúng chặn Googlebot và ngăn không cho nó thu thập dữ liệu trang web của bạn.

Để khắc phục các sự cố như vậy, hãy xác định phần nào trong cơ sở hạ tầng trang web của bạn đang chặn Googlebot và xóa nó. Tường lửa có thể không thuộc sự kiểm soát của bạn, vì vậy bạn có thể cần trao đổi với nhà cung cấp hosting của bạn.

+ Cố ý ngăn chặn

Một số quản trị web cố tình ngăn không cho Googlebot truy cập các trang web của họ, có thể sử dụng tường lửa như mô tả ở trên. Trong những trường hợp này, thông thường mục đích không phải là để chặn toàn bộ Googlebot mà để kiểm soát trang được thu thập thông tin và lập chỉ mục như thế nào. Trong trường hợp này, bạn có thể kiểm tra như sau:

  • Nếu bạn muốn kiểm soát việc thu thập thông tin nội dung của Googlebot, Google có hỗ trợ chi tiết về cách sử dụng giao thức loại trừ robot, bao gồm việc sử dụng file robots.txt và cấu hình các thông số URL.
  • Nếu bạn lo lắng về chương trình giả mạo Googlebot, bạn có thể xác minh xem trình thu thập thông tin có thực sự là Googlebot hay không.
  • Nếu bạn muốn thay đổi tần suất Googlebot thu thập dữ liệu trang web của bạn, bạn có thể xác minh trang web của bạn trong Webmaster Tools và thay đổi tốc độ thu thập dữ liệu của Googlebot. Các nhà cung cấp dịch vụ hosting cũng có thể xác minh quyền sở hữu địa chỉ IP của họ.

Leave a Reply

Your email address will not be published. Required fields are marked *