Sử dụng Selenium để scrape Web (phần 18)

Scrape sử dụng Selenium

Selenium được sử dụng cho tự động hóa – chủ yếu test web – sử dụng các trình duyệt khác nhau và code bằng các ngôn
ngữ khác nhau. Cùng với tự động hóa, các lợi ích hay đặc tính cung cấp là hoàn toàn sẵn sàng và có thể được sử
dụng trong các nhiệm vụ như web scraping.
Trong phần này, chúng ta sẽ sử dụng và khám phá một vài đặc tính từ thư viện selenium cho web scraping.

Ví dụ 1- thông tin sách

Trong ví dụ này, chúng ta sẽ thu thập một vài chi tiết từ các books liệt kê trong Childrens category tại URL
http://books.toscrape.com/, cái là có sẵn trong fictional bookstore tại https://toscrape.com URL.
Cụ thể là, chúng ta đang tìm kiếm cho phần tử anchor <a>, cái chứa bookstore text (text từng phần hay một bộ phận
của text) sau khi load mainUrl. Với phần tử <a> đang được theo dấu, thuộc tính href từ <a> có thể được thu thập
sử dụng phương thức get_attribute cho link. Phương thức click() click lên phần tử cái chứa bookstore text:

mainUrl= “https://toscrape.com/”
driver.get(mainUrl) # load mainUrl
link = driver.find_element(By.PARTIAL_LINK_TEXT,
“bookstore”).get_attribute(‘href’)
link # http://books.toscrape.com
driver.find_element(By.PARTIAL_LINK_TEXT,
“bookstore”).click()

Chia sẻ