Thu thập dữ liệu qua toàn bộ một website

Các web crawlers sẽ khá là nhàm chán nếu tất cả việc chúng làm là đi từ một trang tới trang khác. Để làm chúng hữu
dụng, bạn cần có thể làm thứ gì đó trên trang trong khi bạn đang ở đó. Hãy nhìn vào làm cách nào xây dựng một scraper
cái thu thập title, paragraph đầu tiên của nội dung, và link để biên tập page (nếu có sẵn).
Như luôn luôn là, bước đầu tiên là quyết định làm cách nào tốt nhất làm cái này là nhìn vào một vài pages từ site
và quyết định một mô hình. Bằng cách nhìn vào một nhúm các Wikipedia pages (cả các articles và nonarticle pages như
privacy policy page), các thứ sau nên là rõ ràng:
+ Tất cả titles (trên tất cả các pages, bất kể trạng thái của chúng như một article page, một edit history page
Hay bất cứ page khác) có titles dưới các h1->span tags, và những cái này là các h1 tags duy nhất trên page.
+ Như đề cập trước kia, tất cả body text sống dưới div#bodyContent tag. Tuy nhiên, nếu bạn muốn nhận nhiều cụ thể
hơn và truy cập paragraph đầu tiên của text, bạn có thể là tốt hơn sử dụng div#mw-content-text → p (chọn
chỉ tag paragraph đầu tiên). Đây là đúng cho tất cả các pages nội dung ngoại trừ các file pages (ví dụ,
https://en.wikipedia.org/wiki/File:Orbit_of_274301_Wikipedia.svg), cái không có các khu vực của text nội dung.
+ Các links biên tập xảy ra chỉ trên article pages. Nếu chúng xuất hiện, chúng sẽ được tìm thấy trong
li#ca-edit tag, dưới li#ca-edit → span → a.

Chia sẻ