PDA

View Full Version : Google sẽ index bao nhiêu phần trăm nội dung một site



superthin
11-12-2008, 19:19
Có những trang web trong một site không có vấn đề gì thuộc loại đặc biệt hoặc bị liệt vào loại mà Google từ chối index nhưng nó vẫn không được index dù liên kết đến nó là rõ ràng, mạch lạc chứ nó không phải là một ốc đảo.

Vậy xin hỏi các bạn là Google sẽ index bao nhiêu % cho một site? Và tỉ lệ index là giống nhau cho mọi site hay là có phân biệt đối xử.

Và hình như website www.archive.org không được Google index bởi vì nếu index hết trang này có lẽ Google sẽ phải đầu tư một lượng máy chủ khá lớn chỉ để index lại những cái mình đã index.

Mong các bạn hay tìm hiểu về máy tìm kiếm Google giải đáp giúp.

Obama Binladen
11-12-2008, 19:25
sao ngày xưa chú mày chửi anh em dân SEO mạnh mồm lắm mà giờ hỏi vậy ai trả lời cho chú mày nữa?

Tapher
11-12-2008, 20:19
Có những trang web trong một site không có vấn đề gì thuộc loại đặc biệt hoặc bị liệt vào loại mà Google từ chối index nhưng nó vẫn không được index dù liên kết đến nó là rõ ràng, mạch lạc chứ nó không phải là một ốc đảo.

Vậy xin hỏi các bạn là Google sẽ index bao nhiêu % cho một site? Và tỉ lệ index là giống nhau cho mọi site hay là có phân biệt đối xử.
Mình không chắc. Nhưng theo mình còn tùy trường hợp cụ thể, ví dụ site bạn cỡ bự hay nhỏ, server có trục trặc hay hục hặc gì không, website có lỡ tay từ chối googlebot (qua robots.txt hay meta robots) không, bản thân website có thân thiện với Google hay không...

Trong trường hợp bình thường, nếu là site nhỏ (khoảng dưới 1 ngàn URL) thì Googlebot index hầu hết trang. Nhưng tỉ lệ này dĩ nhiên giảm nếu site bạn "tầm cỡ" hơn.

Nhưng chắc chắn Googlebot không index 100% các trang trên site bạn. Ngay cả bạn liệt tất cả URL vào sitemap thì Google cũng không đảm bảo điều này.



Và hình như website www.archive.org không được Google index bởi vì nếu index hết trang này có lẽ Google sẽ phải đầu tư một lượng máy chủ khá lớn chỉ để index lại những cái mình đã index.

Mong các bạn hay tìm hiểu về máy tìm kiếm Google giải đáp giúp.
Chắc ý bạn là subdomain http://web.archive.org/web/*/http://www.domain.com/ phải không? Nếu vậy thì không phải hình như, mà là chắc chắn vì file robots.txt của subdomain này đã "cự tuyệt" các spider rồi.
http://web.archive.org/robots.txt

Bạn có thể check ở đây: http://www.google.com/search?hl=en&q=site%3Aweb.archive.org&btnG=Search

Còn với domain chính thì cho crawl hết đấy.
http://www.archive.org/robots.txt

Theo toán tử site:domain.com thì Google bảo index gần 11.5 triệu page của archive.org.
http://www.google.com/search?hl=en&q=site%3Aarchive.org&btnG=Google+Search&aq=f&oq=site%3Aarchive.or

jcisio
11-12-2008, 20:55
Theo toán tử site:domain.com thì Google bảo index gần 11.5 tỉ page của archive.org.
http://www.google.com/search?hl=en&q=site%3Aarchive.org&btnG=Google+Search&aq=f&oq=site%3Aarchive.or

Triệu chứ không phải tỉ. Làm tốn một cái click :D

Tapher
11-12-2008, 21:00
Triệu chứ không phải tỉ. Làm tốn một cái click :D
Hix, già cả rồi, chán cái thằng tui quá.

Ngộ ra 1 điều, không chỉ teen thích tin "shock" :D

superthin
11-12-2008, 23:26
Cám ơn các bạn (trừ ông Binladen, ông này thì thanks but no thanks) đã dẫn giải giúp. Như vậy là còn phải cẩn thận trong việc nghịch file robots.txt nếu site của mình cần liên quan đến việc index hoặc không.

Mình vừa ghé www.archive.org thì thấy:


Browse through 85 billion web pages archived from 1996 to a few months ago. To start surfing the Wayback, type in the web address of a site or page where you would like to start, and press enter. Then select from the archived dates available. The resulting pages point to other archived pages at as close a date as possible. Keyword searching is not currently supported.

http://archive.bibalex.org, the Internet archive at the New Library of Alexandria, Egypt, mirrors the Wayback Machine. Try your search there when you have trouble connecting to the Wayback servers.

Có lẽ là nó chặn hết các link sub-domain và kết quả query chứ không thì Google khó lòng mà index xuể. 85 tỉ trang, kinh dị quá.

akita_din
15-04-2009, 04:17
85 tỉ..O_O quá kinh...site pr 8.site này là làm gì vậy bác.sao mà ac thế

richman
15-04-2009, 09:23
85 tỉ..O_O quá kinh...site pr 8.site này là làm gì vậy bác.sao mà ac thế

Trang này có một công cụ mà người làm Seo hay sử
dụng để phân tích đối thủ là Wayback Machine.

Công cụ này cho biết một website online khi nào
và nó được index lần đầu tiên là khi nào.

Bởi vì tuổi của domain là một trong những yếu tố
quyết định thứ hạng của một website. Nên biết được
thông tin này cũng rất có ích trong việc quyết định
có nên tranh hạng với một website nào đó với từ
khóa nào đó tại một thời điểm nào đó hay không.