Crawling qua các APIs (phần 9)

Kết hợp các APIs với các nguồn dữ liệu khác

Mặc dù lí do tồn tại của nhiều ứng dụng web hiện đại là lấy dữ liệu và định dạng nó theo cách cuốn hút hơn, tôi
sẽ cho rằng cái này không phải là thứ thú vị để làm trong hầu hết trường hợp. Nếu bạn đang sử dụng một API như
nguồn dữ liệu duy nhất của bạn, thứ tốt nhất bạn có thể làm là hoàn toàn copy CSDL của ai đó khác cái đã tồn
tại và cái là, về cơ bản, đã được xuất bản. Cái có thể thú vị xa hơn là lấy hai hay nhiều hơn nguồn dữ liệu và
kết hợp chúng theo cách giàu trí tưởng tượng hay sử dụng một API như một công cụ để nhìn vào dữ liệu được scrape
từ quan điểm mới.
Hãy nhìn vào một ví dụ về dữ liệu từ API có thể được sử dụng như thế nào kết hợp với web scraping để xem các phần
nào của thế giới đóng góp nhiều nhất vào Wikipedia.
Nếu bạn dùng nhiều thời gian trên Wikipedia, bạn có khả năng đi qua trang lịch sử sửa bài viết, cái hiển thị một
danh sách các biên tập gần đây. Nếu người dùng log vào Wikipedia khi họ thực hiện biên tập, username của họ
được hiển thị. Nếu họ không log vào, địa chỉ IP của họ được ghi lại, như thể hiện ảnh dưới.
Wikipedia

Chia sẻ