Regular Expression với Python web scraping

Regular Expression với Python web scraping

Như câu chuyện phiếm khoa học máy tính thời xưa đã nói: giả sử bạn có một vấn đề, và bạn quyết định giải quyết nó với
các regular expressions. Well, bây giờ bạn có hai vấn đề.”
Không may mắn là, các regular expressions (thường viết tắt regex) thường được dạy sử dụng các bảng lớn các kí tự
ngẫu nhiên, kết string với nhau để trông như nhiều vô nghĩa. Cái này có xu hướng đẩy con người đi, và sau đó họ
đưa ra vào lực lượng và viết không cần thiết các hàm tìm kiếm và lọc phức tạp để tránh regex.
Các regular expressions là một công cụ vô giá khi nó đi tới web scraping. May mắn cho bạn, các regular expressions
không phải tất cả là khó để hoạt động và chạy nhanh, và chúng có thể được biết bằng cách nhìn vào và trải nghiệm
với một ví dụ đơn giản.
Các regular expressions được gọi là như vậy là vì chúng được sử dụng để nhận dạng các strings thuộc về một regular
language. Từ language ở đây không có nghĩa một ngôn ngữ theo nghĩa một ngôn ngữ lập trình hay thậm chí một
ngôn ngữ tự nhiên (như English hay French). Thay vào nó là nghĩa toán học có nghĩa “một tập các strings cái đi
theo một vài quy tắc”.

Chia sẻ