Web scraping tut sử dụng Selenium & Python
Trong tut trước của chúng ta, chúng ta đã nhìn vào làm cách nào sử dụng khung Scrapy cho các nhiệm vụ web scraping
cơ bản. Hôm nay, chúng ta sẽ đào sâu vào sử dụng Selenium với Python theo một hướng dẫn chi tiết, theo đường thẳng.
Selenium là một bộ mạnh mẽ các công cụ thiết kế cho tự động hóa các trình duyệt web. Nó cung cấp các giao diện lập
trình, biết đến như các gắn, cho tất cả ngôn ngữ lập trình chính, bao gồm Python, cái chúng ta sẽ tập trung vào trong
hướng dẫn này.
Selenium API sử dụng thứ gì đó gọi là giao thức WebDriver để tương tác với các trình duyệt web như Chrome, Firefox,
Sarafi. Nó có thể quản lí cả các trình duyệt cài đặt trên máy địa phương của bạn và những cái chạy trên các máy chủ
ở xa.
Phát triển ban đầu cho test các websites qua các trình duyệt khác nhau, Selenium bây giờ được sử dụng rộng rãi cho
tự động hóa các trình duyệt web cho các nhiệm vụ khác nhau như chụp màn hình, quản lí cookies, và then chốt đối với
chúng ta, web scraping.
Selenium là cụ thể ưu điểm tại xử lí các websites cái sử dụng nhiều Javascript, làm nó có thể tự động hóa các nhiệm
vụ cái liên quan:
+ Click các nút
+ Điền ra các forms
+ Cuộn qua các trang web
+ Chụp màn hình
+ Thực thi các lệnh Javascript custom.
Cái này làm Selenium là một lựa chọn tuyệt vời cho scraping dữ liệu từ các websites nặng Javascript, động, thường
gọi là các ứng dụng trang đơn (SPAs). Các công cụ truyền thống cái sử dụng các yêu cầu HTTP đơn giản và duyệt HTML
có thể chỉ lấy Javascript code mà không truy cập dữ liệu ngầm bên trong, trong khi Selenium có thể tương tác với
các trang này chính như một người dùng con người làm.