Web Scraping dễ dàng với Scrapy

Trong post trước về Web scraping với Python chúng ta đã nói một chút về Scrapy. Trong post này, chúng ta sẽ đào một
chút sâu hơn vào nó.
Scrapy là khung web scraping Python mã nguồn mở. Nó xử lí hầu hết các trường hợp sử dụng phổ biến khi làm web
scraping theo quy mô:
+ Multithreading
+ Crawling (đi từ link tới link)
+ Rút dữ liệu
+ Hiệu lực hóa
+ Lưu thành các định dạng/CSDL khác nhau
+ Nhiều hơn
Sự khác nhau chính giữa Scrapy và các thư viện sử dụng phổ biến khác, như Requests / BeautifulSoup, là rằng nó
có định kiến, có nghĩa nó đi với một tập các quy tắc và thông lệ, cái cho phép bạn giải quyết các vấn đề theo
một cách thanh lịch.
Nhược điểm của Scrapy là rằng học tập là khó, có nhiều thứ để học, nhưng đó là cái chúng ta ở đây cho.
Trong tut này, chúng ta sẽ tạo 2 web scrapers khác nhau, một cái đơn giản cái sẽ rút dữ liệu từ một trang sản
phẩm TMĐT, và một cái phức tạp hơn cái sẽ scrape toàn bộ catalog TMĐT.

Chia sẻ