Viết Python scraper rút ra bài viết dựa trên keyword sử dụng BeautifulSoup

Viết Python scraper rút ra bài viết dựa trên keyword sử dụng BeautifulSoup

Bài tập yêu cầu viết một Python scraper rút ra các articles dựa trên keyword trên heading sử dụng thư viện BeautifulSoup, và
lưu vào một file txt:
scraper
scraper 2
Để rút ra articles dựa trên keyword trên heading, sử dụng cái lọc như sau:

for article in soup.find_all ([‘h1’, ‘h2’, ‘h3’, ‘h4’]):

if ‘kinh tế’ in article.text.lower()

article ở đây là các heading tags.
Nhưng mục đích cuối cùng của web scraper là crawl qua link, tìm link để crawl tiếp theo, nên cái lọc dựa trên keyword heading phải tìm ra link như sau:

articles.append({

‘title:article.text.strip(),
‘link:article.find(‘a’)[‘href’] if article.find(‘a’) else None

})

title:article.text.strip()strip ra text các heading tags trong biến article, đây chính là title
link:article.find(‘a’)[‘href’] là tìm ra link thỏa mãn điều kiện keyword trên heading
Đây chính là những cái được lưu vào file txt, bao gồm: title lột từ các heading tags, và link bài viết thỏa mãn điều kiện keyword trên heading.
Có cách tiếp cận khác đối với Python scraper dựa trên keyword trên heading này:
scraper 3
scraper 4
Các bạn tự nghiên cứu.

Chia sẻ