Tại sao một trang web không được index trên Google? - Luận văn, đồ án, đề tài tốt nghiệp

Nếu câu hỏi đó sảy ra với chính bạn, thì bạn đang mắc những sai lầm ngớ ngẩn trong sự nghiệp SEO của mình. Điều này cũng đã từng xảy ra với tôi và một vài đồng nghiệp của tôi, vì vậy tôi quyết định đăng bài viết này để bổ sung thêm kiến thức cho các bạn, hoặc sẽ tạo ra một nền tảng cơ bản với những ai chưa biết về vấn đề này. Nếu một trang web không được index trên bộ máy tìm kiếm trong năm 2013, thì nguyên nhân là một trong những điều sau: - Do chỉ thị 1 thuộc tính nào đó. - Do ảnh hưởng từ Google (do thuật toán hoặc các hình phạt) - Các vấn đề về cấu trúc trang web (do những orphaned page chưa được xử lý một cách triệt để)

13 trang | Chia sẻ: lvbuiluyen | Lượt xem: 3106 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Tại sao một trang web không được index trên Google?, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Tại sao một trang web không được index trên Google? Thỉng thoảng bạn sẽ đọc được những bài viết của những SEO-er mới vào nghề với một thắc mắc như: "tại sao trang web này lại không được index trên Google?”. Nếu câu hỏi đó sảy ra với chính bạn, thì bạn đang mắc những sai lầm ngớ ngẩn trong sự nghiệp SEO của mình. Điều này cũng đã từng xảy ra với tôi và một vài đồng nghiệp của tôi, vì vậy tôi quyết định đăng bài viết này để bổ sung thêm kiến thức cho các bạn, hoặc sẽ tạo ra một nền tảng cơ bản với những ai chưa biết về vấn đề này. Nếu một trang web không được index trên bộ máy tìm kiếm trong năm 2013, thì nguyên nhân là một trong những điều sau: - Do chỉ thị 1 thuộc tính nào đó. - Do ảnh hưởng từ Google (do thuật toán hoặc các hình phạt) - Các vấn đề về cấu trúc trang web (do những orphaned page chưa được xử lý một cách triệt để) Chú thích: Orphaned page (tạm hiểu là trang bị tách rời ra một website, mà không có liên kết với website ban đầu) Trong bài viết này, chúng ta sẽ đi sâu tìm hiểu các thuộc tính mà có thể làm một trang không được index trên Google, hoặc những thuộc tính với mục đích ngay từ đầu chỉ thị là không cho một trang xuất hiện trên trang tìm kiếm. Trước hết, bạn phải cần biết làm thế nào để kiểm tra một trang web được index hay không được index trên Google: - Copy URL cần kiếm tra - Paste vào ô tìm kiếm của Google - Nếu trang web đó được index, thì nó sẽ hiển thị ở ngay kết quả đầu tiên của Google, truy cập vào kết quả đó để đảm bảo: đó chính là trang mà bạn vưa paste URL vào để tìm kiếm. - Nếu URL đó không xuất hiện, bạn phải cần kiểm tra một cách thủ công để xác định ra nguyên nhân vấn đề. Dưới đây, là một vài điều bạn cần kiểm tra: 1.Meta robots NOINDEX trong - Cách dễ nhất để phát hiện: Nhìn vào code nguồn trong trình duyệt của bạn, trong phần - Dạng thuộc tính: <meta Name="robots" content="noindex"> - Mục đích của thuộc tính: Thông báo cho Google rằng: bạn không muốn Google index trang này trên bộ máy tìm kiếm. Ví dụ: - Thêm thông tin: 2. Rel = canonical trong phần - Cách dễ nhất để phát hiện: Nhìn vào code nguồn của trình duyệt của bạn, trong phần - Dạng thuộc tính: <link rel="canonical" href=""/> trong phần head của HTML. - Mục đích của thuộc tính: Bạn muốn thông báo cho Google: Các giá trị (PageRank, Authority của liên kết) của trang này cần được thông qua một trang khác. Đó không phải là một thuộc tính chỉ thị, nhưng Google tin tưởng vào gợi ý “rel = canonical” và không index trang này, trong khi lại index trang mục tiêu canonical. - Thêm thông tin : https://support.google.com/webmaster...r/139394?hl=en 3. NOINDEX trong robots.txt - Cách dễ nhất để phát hiện: Kiểm tra trong file Robots.txt - Dạng thuộc tính: Noindex: / folder / Đặc biệt lưu ý ở đây, tất cả những trang mà file robot.txt của nó được thiết lập thuộc tính NOINDEX (tất cả các chữ đều viết hoa) sẽ không được index trên trang kết quả. Tuy nhiên, nó sẽ de-index một trang nếu bạn chỉ viết hoa chữ N trong Noindex (thay vì NOINDEX) - Mục đích của thuộc tính: Tương tự như các thẻ noindex bình thường, nhưng đây là những thực hiện cho một file robot.txt lạ. Thêm thông tin: 4. NOINDEX trong tiêu đề của HTTP (hoặc None trong tiêu đề của HTTP) - Cách dễ nhất để phát hiện: Kiểm tra tiêu đề HTTP với Chrome hoặc kiểm tra với công cụ website này ( - Dạng thuộc tính: Headers CF-RAY:66cdb31ea060165 Connection:keep-alive Content- Encoding:gzip Content-Type:text/html Date:Mon, 29 Apr 2013 14:59:27 GMT Server:cloudflare-nginxTransfer- Encoding:chunked X-Robots-Tag:noindex - Mục tiêu của thuộc tính: Nó cũng giống như meta = "robots" content = "noindex", nhưng khác là: nó được đặt trong các tiêu đề HTTP. Bạn có thể thấy một ví dụ thực tế ở đây ( example.php). Ian Macfarlane đã chỉ ra rằng "None" cũng có nghĩa là NOINDEX trong thuộc tính chỉ thị trong X-robot - Thêm thông tin: https://developers.google.com/webmas...obots_meta_tag 5. Rel canonical trong tiêu đề HTTP - Cách dễ nhất để phát hiện: Kiểm tra tiêu đề HTTP với Chrome hoặc công cụ website sau ( - Dạng thuộc tính: Link: ; rel = "canonical". bạn có thể xem một ví dụ ở đây: - Mục đích thuộc tính: Tương tự như các thẻ canonical bình thường (trong ). - Thêm thông tin: https://support.google.com/webmaster...r/139394?hl=en 6. Meta refresh với thời gian delay > 0 (ví dụ: 5) - Cách dễ nhất để phát hiện: truy cập trang web, và xem xét sự chuyển hướng hoặc xem xét code nguồn - Dạng thuộc tính: <meta http-equiv="Refresh" content="5;url= l"> trong phần của HTML. - Mục đích thuộc tính: Sau một thời gian trì hoãn (delay), trang web của bạn sẽ được chuyển hướng. Google chỉ lập chỉ cho trang (sau khi được chuyển hướng) khi thời gian delay lớn hơn 0, tôi không chắc chắn lý do tại sao. Đây là một thử nghiệm thực tế: (click vào xem điều gì sảy ra) 7. Thông số canonicalization trong GWMT (Google webmaster tools - công cụ quản trị trang web của Google) - Cách dễ nhất để phát hiện: Bạn cần phải truy cập vào các công cụ quản trị web hoặc có ai đó từng làm hướng dẫn cho bạn. - Cách thức xem xét: Vào Configuration > phần URL Paremetres - Mục đích: Khi bạn thay đổi các thiết lập trong WMT, Google thường đồng ý. Tùy thuộc vào mỗi tham số, bạn có thể yêu cầu Google không index nó. Ví dụ: Nếu bạn yêu cầu Googlebot không thu thập bất kỳ URL nào, Google có thể loại bỏ các trang với các thông số ra khỏi chỉ mục. Tương tự như vậy, nếu bạn thông báo Googlebot không có nội dung trang thay đổi, Google cũng có thể không index chúng. Hãy nhớ để kiểm tra cấu hình thông số URL khi bạn không thể tìm ra lý do tại sao các trang này không được index. - Thêm thông tin: https://support.google.com/webmaster.../1235687?hl=en 8. Yêu cầu xoá URL trong WMT - Cách dễ nhất để phát hiện: Bạn cần phải truy cập vào các công cụ quản trị trang web hoặc nhờ sự hướng dẫn của ai đó đã biết làm vấn đề này. - Thực hiện: Optimiztion > Phần remove URL của WMT - Mục đích: Làm một trang không được index trên Google trong vòng 24 giờ. Theo kinh nghiệm cá nhân tôi, tôi không cần phải bổ sung một thẻ noindex hoặc block file Robots.txt, mà yêu cầu xoá URL vẫn thực thi và hiệu quả. Vấn đề duy nhất là bạn sẽ không bao giờ biết một trang đã bị block cho đến khi bạn kiểm tra những báo cáo này: - Thêm hông tin: https://support.google.com/webmaster...r/164734?hl=en Những điều cần lưu ý thêm - Tôi xin nhắc lại: block file Robots.txt không có tác dụng làm một file không được index - Ban đầu, tôi đã nghĩ rằng: thuộc tính: rel = "next" / "prev" là một nguyên nhân khiến Google de-index, nhưng tôi không thể liệt kê một ví dụ nào. - Chuyển hướng 301 chỉ làm index trang đích chuyển hướng, nhưng không phải luôn luôn và mãi mãi như thế. Tôi để lại vấn đề này bởi vì các thử nghiệm tôi làm luôn luôn không ổn định – nhưng hãy vui lòng chờ đợi những kết quả sau này. - Chuyển hướng 302 và meta refresh với thời gian delay bằng 0 (thử nghiệm ở đây, ví dụ ở đây) sẽ làm hiển thị URL trong trang tìm kiếm với nội dung của trang mục tiêu của chuyển hướng - Tương tự như chuyển hướng 302, và meta refresh với thời gian delay bằng 0, Hreflang + canonical có thể làm một trang biến mất hoặc xuất hiện lại trên trang kết quả, phụ thuộc vào trang Google của các quốc gia khác nhau.