Sử dụng Selenium để scrape Web (phần 11)

Khám phá Selenium

Một khi Selenium WebDriver đã được cài đặt thành công và đang làm việc tốt, có nhiều hoạt động cái có thể được thực
hiện với giúp đỡ của tự động hóa. Chúng ta sẽ khám phá một vài thứ cơ bản và nhìn sâu vào sử dụng tự động hóa như
một giải pháp cho các vấn đề, cùng với các ví dụ code.
Chú ý quan trọng
Cho các chi tiết hơn và tài liệu giải thích, hãy ghé thăm
https://selenium-python.readthedocs.io/getting-started.html
https://selenium-python.readthedocs.io/getting-started.html

Khám phá cơ bản

Trong ví dụ code sau, chúng ta sẽ có hiểu biết về một vài hoạt động cơ bản sử dụng Selenium cái thông thường là các
nhiệm vụ ưu tiên:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
chromedriver_path=”C:\HOWScraping2E\driver\chromedriver.exe”
service = Service(service=chromedriver_path)
driver = webdriver.Chrome(service=service)
# chromedriver

Ở đây, một cửa sổ Chrome mới, rỗng được load tương tự như cửa sổ trình duyệt thể hiện ảnh trên.
Chúng ta bây giờ sẽ cung cấp 3 URLs khác nhau và lặp qua chúng bằng cách giành một vài thông tin:

urls = {

‘google’:’https://www.google.com’,
‘python’:’https://www.python.org’,
‘selenium’:’https://www.selenium.dev’

}

Bây giờ, hãy lặp qua items() trong urls dictionary:

for key,url in urls.items(): # iterate the urls items

driver.get(url)
driver.implicitly_wait(1) # Wait 1 sec
print(driver.title) # HTML <title>
print(driver.current_url) # Current URL

driver.get(url) load URL trong trình duyệt. Phương thức implicitly_wait(1) đã được sử dụng như thời gian ngủ, chờ
cho 1 giây được phân bổ trước khi bất cứ hành động xa hơn nào được thực hiện. driver.title code trả về giá trị HTML
<title>. driver.current_url bộc lộ URL chuyển hướng hay URL mới nhất cái đang được load trong trình duyệt.

Chia sẻ