Thư viện Beautiful Soup

Thư viện Beautiful Soup

Bây giờ chúng ta đã sẵn sàng làm việc với các trang HTML sử dụng Python. Nhớ lại các dòng code sau:

import requests
url = ‘https://en.wikipedia.org/w/index.php’ + \
‘?title=List_of_Game_of_Thrones_episodes&oldid=802553687’
r = requests.get(url)
html_contents = r.text

Làm cách nào chúng ta làm việc với HTML chứa trong html_contents? Để duyệt đúng dắn và giải quyết soup này, chúng
ta mang lại một thư viện khác, gọi là “Beautiful Soup.”
Chính như trường hợp với requests, cài đặt “Beautiful Soup.” là dễ với pip và chú ý 4 trong tên gói

pip install -U beautifulsoup4

Sử dụng Beautiful Soup bắt đầu với việc tạo một Beautiful Soup object. Nếu bạn đã có một trang HTML chứa trong
một chuỗi (như chúng ta có), cái này khá theo đường thẳng. Đừng quên thêm dòng import mới:

import requests
from bs4 import BeautifulSoup
url = ‘https://en.wikipedia.org/w/index.php’ + \
‘?title=List_of_Game_of_Thrones_episodes&oldid=802553687’
r = requests.get(url)
html_contents = r.text
html_soup = BeautifulSoup(html_contents, ‘html.parser’)

Nhiệm vụ chính của Beautiful Soup là lấy nội dung HTML và chuyển nó thành trình bày dựa trên cây.
“html.parser”: một parser Python tích hợp cái là tử tế (đặc biệt khi sử dụng phiên bản gần đây của Python 3) và không
yêu cầu cài đặt thêm.

Chia sẻ