Web scraping tut sử dụng Selenium & Python (phần 6)

Các đặc tính trang WebDriver

Xây dựng trên ví dụ headless mode của chúng ta, hãy đi tới full Mario và check out website của Nintendo:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# Set up options for headless Chrome
options = Options()
options.headless = True # Enable headless mode for invisible operation
options.add_argument(“–window-size=1920,1200”) # Define the window size of the browser

# Set the path to the Chromedriver
DRIVER_PATH = ‘/path/to/chromedriver’

# Initialize Chrome with the specified options
driver = webdriver.Chrome(options=options, executable_path=DRIVER_PATH)

# Navigate to the Nintendo website
driver.get(“https://www.nintendo.com/”)

# Output the page source to the console
print(driver.page_source)

# Close the browser session cleanly to free up system resources
driver.quit()

Khi bạn thực thi script này, Selenium sẽ khởi động Chrome trong headless mode, điều hướng tới Nintendo’s website,
và in ra page source. Đầu ra này cho phép bạn xem nội dung HTML hoàn chỉnh của trang web, cái là hữu dụng không
tin được cho scraping và debugging.
Quan sát page source chỉ là khởi đầu. Selenium cung cấp lối truy cập vào một vài các đặc tính hữu dụng cái có thể
nâng cao các nhiệm vụ scraping của bạn:
+ driver.title: Đặc tính này lấy title của trang web hiện tại, cái có thể là hữu dụng cho các checks hiệu lực hóa
hay khi bạn cần đảm bảo bạn đang trên trang đúng trước khi tiến lên.
+ driver.current_url: Hữu dụng cho các tình huống đòi hỏi chuyển hướng, đặc tính này cho phép bạn bắt URL cuối cùng
sau khi tất cả chuyển hướng đã được phân giải, đảm bảo bạn đang làm việc với trang đúng.
Các đặc tính này là đặc biệt hữu dụng trong các môi trường web động nơi nội dung có thể thay đổi dựa trên tương tác
người dùng hay thực thi Javascript. Cho các nhà phát triển hướng tới nhận nhiều hơn từ Selenium, một danh sách đầy
đủ các đặc tính và phương thức WebDriver có thể được khám phá trong tài liệu hướng dẫn chính thức WebDriver.

Chia sẻ