Một giới thiệu về BeautifulSoup (phần 5)

Chạy BeautifulSoup (tiếp tục)

Một trong những nhược điểm của lxml là rằng nó cần được cài đặt riêng rẽ và phụ thuộc vào các thư viện C bên
thứ ba để hoạt động chức năng. Cái này có thể gây ra các vấn đề cho đóng gói và dễ sử dụng, so sánh với
html.parser.
Một HTML parser thông dụng khác là html5lib. Như lxml, html5lib là parser cực kì khoan dung cái thực hiện
chủ động với sửa đúng HTML bị phá vỡ. Nó cũng phụ thuộc vào một dependency bên ngoài và là chậm hơn so với
cả lxml và html.parser. Mặc dù cái này, nó có thể là một lựa chọn nếu bạn đang làm việc với các sites HTML
viết tay hay lộn xộn.
Nó có thể được sử dụng bằng cách cài đặt và truyền string html5lib vào BeautifulSoup object:

bs = BeautifulSoup(html.read(), ‘html5lib’)

Tôi hi vọng mùi vị nhỏ này của BeautifulSoup đã cung cấp cho bạn một ý tưởng về sức mạnh và đơn giản hóa của
thư viện này. Ảo thì bất cứ thông tin nào cũng có thể được rút ra từ bất cứ file HTML (hay XML) nào, miễn là
nó có một tag nhận dạng bao quanh nó hay gần nó.

Chia sẻ