Nếu câu hỏi đó sảy ra với chính bạn, thì bạn đang mắc những
sai lầm ngớ ngẩn trong sự nghiệp SEO của mình. Điều này
cũng đã từng xảy ra với tôi và một vài đồng nghiệp của tôi, vì
vậy tôi quyết định đăng bài viết này để bổ sung thêm kiến
thức cho các bạn, hoặc sẽ tạo ra một nền tảng cơ bản với
những ai chưa biết về vấn đề này. Nếu một trang web không
được index trên bộ máy tìm kiếm trong năm 2013, thì nguyên
nhân là một trong những điều sau:
- Do chỉ thị 1 thuộc tính nào đó.
- Do ảnh hưởng từ Google (do thuật toán hoặc các hình
phạt)
- Các vấn đề về cấu trúc trang web (do những orphaned page
chưa được xử lý một cách triệt để)
13 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2778 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Tại sao một trang web không được index trên Google?, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tại sao một trang web
không được index trên
Google?
Thỉng thoảng bạn sẽ đọc được những bài viết của những
SEO-er mới vào nghề với một thắc mắc như: "tại sao trang
web này lại không được index trên Google?”.
Nếu câu hỏi đó sảy ra với chính bạn, thì bạn đang mắc những
sai lầm ngớ ngẩn trong sự nghiệp SEO của mình. Điều này
cũng đã từng xảy ra với tôi và một vài đồng nghiệp của tôi, vì
vậy tôi quyết định đăng bài viết này để bổ sung thêm kiến
thức cho các bạn, hoặc sẽ tạo ra một nền tảng cơ bản với
những ai chưa biết về vấn đề này. Nếu một trang web không
được index trên bộ máy tìm kiếm trong năm 2013, thì nguyên
nhân là một trong những điều sau:
- Do chỉ thị 1 thuộc tính nào đó.
- Do ảnh hưởng từ Google (do thuật toán hoặc các hình
phạt)
- Các vấn đề về cấu trúc trang web (do những orphaned page
chưa được xử lý một cách triệt để)
Chú thích:
Orphaned page (tạm hiểu là trang bị tách rời ra một website,
mà không có liên kết với website ban đầu)
Trong bài viết này, chúng ta sẽ đi sâu tìm hiểu các thuộc tính
mà có thể làm một trang không được index trên Google, hoặc
những thuộc tính với mục đích ngay từ đầu chỉ thị là không
cho một trang xuất hiện trên trang tìm kiếm. Trước hết, bạn
phải cần biết làm thế nào để kiểm tra một trang web được
index hay không được index trên Google:
- Copy URL cần kiếm tra
- Paste vào ô tìm kiếm của Google
- Nếu trang web đó được index, thì nó sẽ hiển thị ở ngay kết
quả đầu tiên của Google, truy cập vào kết quả đó để đảm
bảo: đó chính là trang mà bạn vưa paste URL vào để tìm
kiếm.
- Nếu URL đó không xuất hiện, bạn phải cần kiểm tra một
cách thủ công để xác định ra nguyên nhân vấn đề.
Dưới đây, là một vài điều bạn cần kiểm tra:
1.Meta robots NOINDEX trong
- Cách dễ nhất để phát hiện: Nhìn vào code nguồn trong trình
duyệt của bạn, trong phần
- Dạng thuộc tính: <meta Name="robots"
content="noindex">
- Mục đích của thuộc tính: Thông báo cho Google rằng: bạn
không muốn Google index trang này trên bộ máy tìm kiếm.
Ví dụ:
- Thêm thông tin:
2. Rel = canonical trong phần
- Cách dễ nhất để phát hiện: Nhìn vào code nguồn của trình
duyệt của bạn, trong phần
- Dạng thuộc tính: <link rel="canonical"
href=""/> trong phần head
của HTML.
- Mục đích của thuộc tính: Bạn muốn thông báo cho Google:
Các giá trị (PageRank, Authority của liên kết) của trang này
cần được thông qua một trang khác. Đó không phải là một
thuộc tính chỉ thị, nhưng Google tin tưởng vào gợi ý “rel =
canonical” và không index trang này, trong khi lại index
trang mục tiêu canonical.
- Thêm thông tin
: https://support.google.com/webmaster...r/139394?hl=en
3. NOINDEX trong robots.txt
- Cách dễ nhất để phát hiện: Kiểm tra trong file Robots.txt
- Dạng thuộc tính: Noindex: / folder / Đặc biệt lưu ý ở đây,
tất cả những trang mà file robot.txt của nó được thiết lập
thuộc tính NOINDEX (tất cả các chữ đều viết hoa) sẽ không
được index trên trang kết quả. Tuy nhiên, nó sẽ de-index một
trang nếu bạn chỉ viết hoa chữ N trong Noindex (thay vì
NOINDEX)
- Mục đích của thuộc tính: Tương tự như các thẻ noindex
bình thường, nhưng đây là những thực hiện cho một file
robot.txt lạ.
Thêm thông
tin:
4. NOINDEX trong tiêu đề của HTTP (hoặc None trong
tiêu đề của HTTP)
- Cách dễ nhất để phát hiện: Kiểm tra tiêu đề HTTP với
Chrome hoặc kiểm tra với công cụ website này
(
- Dạng thuộc tính:
Headers
CF-RAY:66cdb31ea060165 Connection:keep-alive Content-
Encoding:gzip Content-Type:text/html Date:Mon, 29 Apr
2013 14:59:27 GMT Server:cloudflare-nginxTransfer-
Encoding:chunked X-Robots-Tag:noindex
- Mục tiêu của thuộc tính: Nó cũng giống như meta =
"robots" content = "noindex", nhưng khác là: nó được đặt
trong các tiêu đề HTTP. Bạn có thể thấy một ví dụ thực tế ở
đây (
example.php). Ian Macfarlane đã chỉ ra rằng "None" cũng có
nghĩa là NOINDEX trong thuộc tính chỉ thị trong X-robot
- Thêm thông
tin: https://developers.google.com/webmas...obots_meta_tag
5. Rel canonical trong tiêu đề HTTP
- Cách dễ nhất để phát hiện: Kiểm tra tiêu đề HTTP với
Chrome hoặc công cụ website sau
(
- Dạng thuộc tính: Link: ;
rel = "canonical". bạn có thể xem một ví dụ ở
đây:
- Mục đích thuộc tính: Tương tự như các thẻ canonical bình
thường (trong ).
- Thêm thông
tin: https://support.google.com/webmaster...r/139394?hl=en
6. Meta refresh với thời gian delay > 0 (ví dụ: 5)
- Cách dễ nhất để phát hiện: truy cập trang web, và xem xét
sự chuyển hướng hoặc xem xét code nguồn
- Dạng thuộc tính: <meta http-equiv="Refresh"
content="5;url=
l"> trong phần của HTML.
- Mục đích thuộc tính: Sau một thời gian trì hoãn (delay),
trang web của bạn sẽ được chuyển hướng. Google chỉ lập chỉ
cho trang (sau khi được chuyển hướng) khi thời gian delay
lớn hơn 0, tôi không chắc chắn lý do tại sao. Đây là một thử
nghiệm thực
tế: (click vào
xem điều gì sảy ra)
7. Thông số canonicalization trong GWMT (Google
webmaster tools - công cụ quản trị trang web của Google)
- Cách dễ nhất để phát hiện: Bạn cần phải truy cập vào các
công cụ quản trị web hoặc có ai đó từng làm hướng dẫn cho
bạn.
- Cách thức xem xét: Vào Configuration > phần URL
Paremetres
- Mục đích: Khi bạn thay đổi các thiết lập trong WMT,
Google thường đồng ý. Tùy thuộc vào mỗi tham số, bạn có
thể yêu cầu Google không index nó. Ví dụ: Nếu bạn yêu cầu
Googlebot không thu thập bất kỳ URL nào, Google có thể
loại bỏ các trang với các thông số ra khỏi chỉ mục. Tương tự
như vậy, nếu bạn thông báo Googlebot không có nội dung
trang thay đổi, Google cũng có thể không index chúng. Hãy
nhớ để kiểm tra cấu hình thông số URL khi bạn không thể
tìm ra lý do tại sao các trang này không được index.
- Thêm thông
tin: https://support.google.com/webmaster.../1235687?hl=en
8. Yêu cầu xoá URL trong WMT
- Cách dễ nhất để phát hiện: Bạn cần phải truy cập vào các
công cụ quản trị trang web hoặc nhờ sự hướng dẫn của ai đó
đã biết làm vấn đề này.
- Thực hiện: Optimiztion > Phần remove URL của WMT
- Mục đích: Làm một trang không được index trên Google
trong vòng 24 giờ. Theo kinh nghiệm cá nhân tôi, tôi không
cần phải bổ sung một thẻ noindex hoặc block file Robots.txt,
mà yêu cầu xoá URL vẫn thực thi và hiệu quả. Vấn đề duy
nhất là bạn sẽ không bao giờ biết một trang đã bị block cho
đến khi bạn kiểm tra những báo cáo này:
- Thêm hông
tin: https://support.google.com/webmaster...r/164734?hl=en
Những điều cần lưu ý thêm
- Tôi xin nhắc lại: block file Robots.txt không có tác dụng
làm một file không được index
- Ban đầu, tôi đã nghĩ rằng: thuộc tính: rel = "next" / "prev"
là một nguyên nhân khiến Google de-index, nhưng tôi không
thể liệt kê một ví dụ nào.
- Chuyển hướng 301 chỉ làm index trang đích chuyển hướng,
nhưng không phải luôn luôn và mãi mãi như thế. Tôi để lại
vấn đề này bởi vì các thử nghiệm tôi làm luôn luôn không ổn
định – nhưng hãy vui lòng chờ đợi những kết quả sau này.
- Chuyển hướng 302 và meta refresh với thời gian delay bằng
0 (thử nghiệm ở đây, ví dụ ở đây) sẽ làm hiển thị URL trong
trang tìm kiếm với nội dung của trang mục tiêu của chuyển
hướng
- Tương tự như chuyển hướng 302, và meta refresh với thời
gian delay bằng 0, Hreflang + canonical có thể làm một trang
biến mất hoặc xuất hiện lại trên trang kết quả, phụ thuộc vào
trang Google của các quốc gia khác nhau.