Khi bạn tìm kiếm một thông tin nào đó qua Google Search thì hầu như ngay lập tức một danh sách các kết quả tìm kiếm phù hợp với nội dung bạn yêu cầu sẽ hiện ra. Vậy bạn đã bao giờ tự đặt câu hỏi là “Làm thế nào để Google có thể hiển thị ra những kết quả tương ứng với nội dung mình đang tìm kiếm?” thì trong bài ngày hôm nay mình sẽ giới thiệu đến các bạn cách làm việc của Google Search.
Về cơ bản thì việc bạn tìm kiếm nội dung trên Google cũng giống như việc tra cứu một cuốn bách khoa toàn thư, Google sẽ kiểm tra các chỉ mục để xác định kết quả tìm kiếm có liên quan nhất và hiển thị ra cho bạn. Việc cung cấp kết quả sẽ trải qua 3 quy trình chính như sau:
+ Thu thập thông tin: Google có biết về trang web đó không? Google có thể tìm thấy nó?
+ Lập chỉ mục: Google có thể lập chỉ mục trang web đó không?
+ Cung cấp kết quả tìm kiếm: Trang web có nội dung tốt và hữu ích liên quan đến tìm kiếm của người dùng không?
Bây giờ chúng ta sẽ tìm hiểu rõ hơn về từng quy trình:
Thu thập thông tin
Thu thập thông tin là quy trình mà khi đó Googlebot phát hiện các trang mới, cập nhật các trang cũ và thêm vào chỉ mục của Google.
Google sử dụng một bộ máy tính khổng lồ để thu thập hàng tỷ trang web. Chương trình thực hiện việc thu thập này được gọi là Googlebot. Googlebot sử dụng quy trình thuật toán: các chương trình máy tính sẽ xác định trang web nào cần thu thập dữ liệu, tần suất và bao nhiêu trang từ đó lấy thông tin của trang web đó.
Quá trình thu thập dữ liệu của Google bắt đầu bằng một danh sách các URL trang web, được tạo ra từ quá trình thu thập thông tin trước đó và được bổ sung với dữ liệu trong sơ đồ trang web (site map) do các webmaster cung cấp. Khi Googlebot truy cập vào từng trang web này, nó phát hiện các liên kết trên mỗi trang và đưa chúng vào danh sách các trang cần thu thập dữ liệu. Các trang web mới, các trang web có sự sửa đổi và và những link dead được ghi lại và sử dụng để cập nhật chỉ mục của Google.
Google không chấp nhận các thanh toán để việc thu thập diễn ra thường xuyên hơn nên việc tìm kiếm của Google đã tách biệt với dịch vụ Adwords.
Chỉ mục
Những trang được Googlebot thu thập thông xin sẽ được xử lý để tạo ra một chỉ mục lớn với tất cả các từ mà nó nhìn thấy và vị trí của chúng trên mỗi trang. Ngoài ra, Google xử lý thông tin có trong các thẻ nội dung chính và thuộc tính, chẳng hạn như thẻ tiêu đề (Title) và thuộc tính ALT. Googlebot có thể xử lý nhiều, nhưng không phải tất cả các loại nội dung. Ví dụ: Google không thể xử lý nội dung của một số tệp đa phương tiện hoặc các trang động.
Hiển thị kết quả
Khi người dùng tìm kiếm một thông tin nào đó, Google sẽ tìm kiếm các chỉ mục và trả lại kết quả mà Google cho là phù hợp nhất với người dùng. Các vấn đề liên quan được xác định bởi hơn 200 yếu tố, một trong số đó là PageRank của một trang nhất định. PageRank là thước đo tầm quan trọng của trang web đó dựa trên các liên kết đến từ các trang khác (backlink). Nói một cách đơn giản, mỗi liên kết từ một trang web khác đến trang web của bạn sẽ bổ sung vào PageRank trong trang web của bạn. Không phải tất cả các liên kết đều giống nhau: Google nỗ lực cải thiện tìm kiếm của người dùng bằng cách xác định các liên kết spam và các hoạt động khác ảnh hưởng tiêu cực đến kết quả tìm kiếm. Các loại liên kết tốt nhất là các liên kết được cung cấp dựa trên chất lượng nội dung của bạn.
Để trang web của bạn xếp hạng tốt trong các kết quả tìm kiếm, việc quan trọng là bạn phải đảm bảo rằng Google có thể thu thập thông tin và lập chỉ mục trang web của bạn một cách chính xác.
Các tính năng Google’s Did you mean and Google Autocomplete được thiết kế để giúp người dùng tiết kiệm thời gian bằng cách hiển thị các thuật ngữ có liên quan, lỗi chính tả thông thường và các tìm kiếm phổ biến. Giống như kết quả tìm kiếm trên google.com, các từ khoá sử dụng các tính năng này sẽ được tự động tạo ra bởi quá trình thu thập thông tin web và các thuật toán tìm kiếm của Google. Google chỉ hiển thị những dự đoán này khi họ nghĩ rằng chúng có thể tiết kiệm thời gian cho người dùng. Nếu một trang web xếp hạng tốt với một từ khoá thì đó là bởi vì Google đã xác định theo thuật toán rằng nội dung của nó có liên quan hơn đến các tìm kiếm của người dùng.