Web Scraping dễ dàng với Scrapy (phần 2)

Cái nhìn khái quát cơ bản

Bạn có thể cài đặt Scrapy sử dụng pip. Mặc dù vậy, hãy cẩn thận, tài liệu hướng dẫn Scrapy mạnh mẽ gợi ý để cài
đặt nó trong một môi trường ảo dành riêng để tránh các xung đột với các gói hệ thống của bạn.
Nên, tôi đang sử dụng Virtualenv và Virtualenvwrapper:

mkvirtualenv scrapy_env

Bây giờ chúng ta có thể đơn giản cài đặt Scrapy…

pip install Scrapy

…và bootstrap dự án Scrapy của chúng ta với startproject:

scrapy startproject product_scraper

Cái này sẽ tạo tất cả các files boilerplate cần thiết cho dự án.

├── product_scraper
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ ├── __init__.py
└── scrapy.cfg

Sau đây là một cái nhìn khái quát ngắn về các files và thư mục:
+ items.py là một mô hình cho dữ liệu rút ra. Bạn có thể định nghĩa model custom (như một product) cái sẽ
kế thừa Scrapy Item class.
+ middlewares.py được sử dụng để thay đổi vòng đời yêu cầu/ trả lời. Ví dụ, bạn có thể tạo một middleware để
quay vòng các user-agents, hay sử dụng API như ScrapingBee thay vì thực hiện các yêu cầu bản thân bạn.
+ pipelines.py được sử dụng để xử lí dữ liệu rút ra, làm sạch HTML, hiệu lực hóa dữ liệu, và xuất khẩu nó thành
một dạng custom hay lưu nó vào một CSDL.
+ /spiders là một thư mục chứa các Spider classes. Với Scrapy, các Spiders là các classes cái định nghĩa một
website được scrape như thế nào, bao gồm link gì đi theo và làm cách nào rút dữ liệu cho các links đó.
+ scrapy.cfg là file cấu hình cho các thiết lập chính của dự án.

Chia sẻ