Crawl toàn bộ một website

Khi nào crawl toàn bộ một website là hữu dụng, khi nào là có hại? Các web scrapers cái duyệt qua toàn bộ một site
là tốt cho nhiều thứ, bao gồm:
Thu thập dữ liệu: Client khác muốn thu thập các articles (stories, blog posts, news articles,etc.) để tạo một
prototype làm việc của một nền tảng tìm kiếm chuyên biệt. Mặc dù các crawls website này không cần tận kiệt, chúng
cần là khá mở rộng (chúng ta quan tâm nhận dữ liệu từ chỉ một vài sites). Tôi là có thể tạo các crawlers cái
recursively duyệt qua mỗi site và thu thập chỉ dữ liệu tìm thấy trên các article pages.
Cách tiếp cận chung đối với crawl site tận kiệt là bắt đầu với một page mức đỉnh (như home page) và tìm kiếm
cho một danh sách tất cả các links nội bộ trên page đó. Mỗi cái trong các links này sau đó được crawl, và các
danh sách thêm các links trên mỗi cái chúng, châm ngòi vòng crawling khác.
Rõ ràng, đây là một tình huống cái có thể bùng nổ rất nhanh. Nếu mọi page có 10 links nội bộ, và một website
sâu 5 pages (một độ sâu khá điển hình của site cỡ trung), thì số pages bạn cần crawl là 10⁵, hay 100,000 pages
trước khi bạn có thể đảm bảo rằng bạn bao quát tận kiệt website. Đủ lạ, mặc dù sâu 5 pages và 10 links nội bộ mỗi
page là kích cỡ khá điển hình cho một website, rất ít websites có 100,000 pages hay nhiều hơn. Lí do, tất nhiên,
là rằng đa số lớn các links nội bộ là trùng.

Chia sẻ