Web Scraping dễ dàng với Scrapy (phần 7)

Các dạng spiders

Có một số các classes spider định nghĩa trước trong Scrapy
+ Spider, lấy nội dung của mỗi URL, định nghĩa trong start_urls, và truyền nội dung của nó tới parse cho rút dữ
liệu
+ CrawlSpider, đi theo các links định nghĩa bởi một tập các quy tắc
+ CSVFeedSpider, rút dữ liệu bảng từ các URLs CSV.
+ SitemapSpider, rút các URLs định nghĩa trong một sitemap
+ XMLFeedSpider, tương tự như CSV spider, nhưng xử lí các XML URLs (e.g RSS hay Atom)
Hãy bắt đầu với một ví dụ của Spider.

Chia sẻ