Sử dụng Selenium để scrape Web (phần 12)

Khám phá cơ bản (tiếp tục)

Selenium cũng hỗ trợ các đặc tính liên quan đến screenshots. get_screenshot_as_file() là một trong những phương thức
phổ biến sử dụng cho mục đích này:

print(driver.get_cookies())
driver.get_screenshot_as_file(key+”.png”) # png files
print(driver.page_source) # HTML page source
driver.implicitly_wait(3) # wait 3 sec before page Refresh
driver.refresh() # refresh the page

driver.get_cookies() liệt kê tất cả các giá trị liên quan đến cookie cái tồn tại trong hình thức JSON.
Nhận, cập nhật và thiết lập các giá trị liên quan đến cookie là hoàn toàn phổ biến để bypass một vài đặc tính an
ninh. Sử dụng selenium để giành các giá trị cookie và xử lí chúng là một trong những nhiệm vụ chính từ khía cạnh
web-scraping.
driver.page_source trả về nguồn trang của trang hay nguồn HTML của trang. Nhận page_source cũng là một trong những
đặc tính đáng kể của Selenium. Trong page_source, từ selenium, chúng ta có thể tìm thấy các giá trị cái được hình
thành hay khởi tạo động sử dụng Javascript. Nội dung page_source được yêu cầu và có thể được duyệt sử dụng
lxml, pyQuery, bs4, và các thư viện Python khác. Phương thức refresh() đóng vai trò như một nút làm mới trang dựa
trên trình duyệt.
Các nút đi qua lịch sử dựa trên trình duyệt được xử lí bởi các phương thức driver back() và forward():

driver.back() # history Python.org
driver.forward() # go forward

back() đưa bạn tới trang trước, trong khi forward() đưa bạn tới trang tiếp theo.
Trong ví dụ này, chúng ta đã sử dụng các đặc tính và hàm liên quan đến driver. Trong phần tiếp theo, chúng ta sẽ
tìm thấy và định vị các phần tử HTML và làm việc với các giá trị động.

Chia sẻ