Duyệt qua một domain đơn sử dụng Python (phần 4)

Duyệt qua một domain đơn sử dụng Python (tiếp tục)

Tiếp theo, chương trình định nghĩa hàm getLinks, cái lấy vào một article URL dưới dạng /wiki/…, gắn trước tên miền
Wikipedia, http://en.wikipedia.org, và giành BeautifulSoup object cho HTML tại domain đó. Nó sau đó rút ra một danh
sách các article link tags, dựa trên các tham số thảo luận ở trên, và trả về chúng.
Body chính của chương trình bắt đầu với thiết lập một danh sách article link tags (biến links) thành danh sách
các links trong trang ban đầu https://en.wikipedia.org/wiki/Kevin_Bacon. Nó sau đó đi vào một loop, tìm một article
link tag tùy biến trên trang, kéo thuộc tính href từ nó, in trang ra, và nhận một danh sách mới các links từ
URL rút ra được.
Tất nhiên, có một chút nhiều hơn để giải quyết một vấn đề Six Degrees of Wikipedia hơn là xây dựng một scraper
cái đi từ trang tới trang. Bạn cũng phải có thể lưu giữ và phân tích dữ liệu kết quả. Cho một tiếp tục của giải
pháp tới vấn đề này, xem học phần sau.
Xử lí các ngoại lệ của bạn!
Mặc dù các ví dụ code bỏ qua hầu hết việc xử lí ngoại lệ cho mục đích ngắn gọn, nhận thức rằng nhiều cản trở
tiềm tàng có thể dấy lên. Cái gì xảy ra nếu Wikipedia thay đổi tên của tag bodyContent, ví dụ? Khi chương
trình cố rút text từ tag, nó ném ra một AttributeError.
Nên mặc dù các scripts này có thể là tốt để chạy như các ví dụ theo dõi chặt chẽ, code sản xuất tự động yêu
cầu cái xử lí ngoại lệ nhiều hơn cái khớp với các học phần này.

Chia sẻ