Web Scraping dễ dàng với Scrapy (phần 14)

Scrape nhiều trang

Bây giờ rằng chúng ta biết làm cách nào scrape một trang đơn, nó là lúc để học về làm cách nào scrape nhiều trang,
như toàn bộ product catalog. Như chúng ta đã thấy có các loại khác nhau của Spiders.
Khi bạn muốn scrape toàn bộ product catalog thứ đầu tiên bạn nên nhìn vào là một sitemap. Sitemap chính xác được
xây dựng cho cái này, để thể hiện cho các web crawlers website có cấu trúc như thế nào.
Hầu hết mọi lần bạn có thể thấy một cái tại base_url/sitemap.xml. Duyệt một sitemap có thể là mẹo mực, và lại một
lần nữa, Scrapy ở đây là để giúp bạn với cái này.
Trong trường hợp của chúng ta, bạn có thể tìm thấy sitemap ở đây:

https://clever-lichterman-044f16.netlify.app/sitemap.xml

Nếu chúng ta nhìn vào bên trong sitemap có nhiều các URLs cái chúng ta không quan tâm, như homepage, blog posts etc
code 3
May mắn là, chúng ta có thể lọc các URLs để chỉ duyệt những cái cái khớp với một vài mô hình, nó thực sự là dễ, ở
đây chúng ta chỉ có URL cái có /products/ trong các URLs của chúng.
code 5

Chia sẻ