Phục vụ khác của BeautifulSoup

Phục vụ khác của BeautifulSoup

Trong học phần trước, bạn đã có cái nhìn nhanh cài đặt và chạy BeautifulSoup, cũng như lựa chọn các objects một
cái tại một thời điểm. Trong phần này, chúng ta sẽ thảo luận tìm kiếm cho các tags theo các thuộc tính, làm việc
với các lists các tags, và điều hướng các cây duyệt.
Gần như mọi website bạn gặp chứa các stylesheets. Các stylesheets được tạo để rằng các trình duyệt web có thể
trình bày HTML thành thiết kế thoải mái thẩm mĩ và màu sắc cho con người. Bạn có thể nghĩ tầng styling này như,
ít nhất là lờ qua cho các web scrapers – nhưng không quá nhanh! CSS, trên thực tế là một lợi ích lớn cho các
web scrapers vì nó yêu cầu phân biệt của các phần tử HTML để style chúng khác nhau.
CSS cung cấp một động lực cho các nhà phát triển web thêm các tags vào các phần tử HTML họ có thể để lại với
cùng chính xác markup, mặt khác. Một vài tags trông giống cái này:

<span class=”green”></span>

Những cái khác trông giống cái này:

<span class=”red”></span>

Các web scrapers có thể dễ dàng chia tách 2 tags này dựa trên class của chúng; ví dụ, chúng có thể sử dụng
BeautifulSoup để thu nhặt tất cả red text nhưng không cái nào của green text. Vì CSS dựa trên các thuộc tính
nhận dạng này để style các sites phù hợp, bạn hầu như được đảm bảo rằng các class này và thuộc tính id
sẽ phong phú trên hầu hết websites hiện đại.

Chia sẻ