Web scraping các kết quả tìm kiếm Google bằng Python (phần 2)

Thiết lập môi trường phát triển

Trước khi chúng ta đào sâu vào web scraping các kết quả tìm kiếm Google, nó là cơ bản để thiết lập một môi trường
phát triển đúng đắn trong Python. Cái này đòi hỏi cài đặt các thư viện và công cụ cần thiết cái sẽ làm chúng ta có
thể gửi các yêu cầu tới Google, duyệt các trả lời HTML, và xử lí dữ liệu hiệu quả.
Trước tiên, đảm bảo rằng bạn có Python cài đặt trên máy của bạn. Để check nó, bạn có thể sử dụng cái sau:

python -v

Nếu bạn nhận một phiên bản của Python, thì bạn đã có nó. Chúng ta sẽ sử dụng phiên bản Python 3.10.7. Nếu bạn
không có Python cài đặt, ghé thăm website chính thức của Python và download phiên bản mới nhất tương thích
với hệ điều hành của bạn. Đi theo các chỉ dẫn cài đặt, và thêm Python vào biến PATH của hệ thống của bạn.
Để thể hiện các cách khác nhau scraping Google SERP, hãy cài đặt các thư viện sau:

pip install beautifulsoup4
pip install selenium
pip install google-serp-api

Chúng ta cũng sẽ sử dụng thư viện requests trong Python script của chúng ta, một thư viện Python cài trước.
Tuy nhiên, nếu vì một vài lí do bạn không có nó, bạn có thể sử dụng lệnh:

pip install requests

Bạn cũng có thể sử dụng thư viện urllib thay vì thư viện requests.
Ngoài ra, để sử dụng Selenium headless browser, bạn sẽ cần download file thực thi WebDriver phù hợp cho trình
duyệt của bạn. Selenium yêu cầu một WebDriver riêng rẽ để giao diện với mỗi trình duyệt. Ví dụ, nếu bạn đang
sử dụng Google Chrome, bạn sẽ cần ChromeDriver. Bạn có thể download nó từ website chính thức.

Chia sẻ