Chuẩn bị tập dữ liệu (tiếp tục)
Khi bạn sẽ làm việc với các tài nguyên hạn chế trên các nền tảng như Kaggle hay Colab, tôi đã thiết lập một giới
hạn trên số bài viết để load. Giới hạn này được định nghĩa trong biến MAX_NEWS.
Tên trường cái chứa news article đã được gán vào biến tên DOCUMENT, trong khi cái gì có thể được xem là metadata
hay các hạng mục được lưu giữ trong biến TOPIC. Theo cách này, chúng ta phân lập phần còn lại của notebook khỏi tập
dữ liệu cụ thể chúng ta chọn sử dụng.
news = pd.read_csv(‘/content/drive/MyDrive/kaggle/labelled_newscatcher_dataset.csv’, sep=’;’)
MAX_NEWS = 1000
DOCUMENT=”title”
TOPIC=”topic”
subset_news = news.head(MAX_NEWS)
#Just in case you want to try with a different Dataset.
#news = pd.read_csv(‘/content/drive/MyDrive/kaggle/bbc_news.csv’)
#MAX_NEWS = 1000
#DOCUMENT=”description”
#TOPIC=”title”
#subset_news = news.head(MAX_NEWS)
#news = pd.read_csv(‘/content/drive/MyDrive/kaggle/mit-ai-news-published-till-2023/articles.csv’)
#MAX_NEWS = 100
#DOCUMENT=”Article Body”
#TOPIC=”Article Header”
#subset_news = news.head(MAX_NEWS)
Tôi vừa chuẩn bị notebook để rằng bạn có thể sử dụng nó với bất cứ gì trong số 3 tập dữ liệu. Bạn chỉ cần bỏ
comment các dòng cái chứa cấu hình của tập dữ liệu bạn muốn thử với. Giữ trong đầu rằng bạn phải download và
copy file tương ứng trước.
Bây giờ rằng bạn có thể bắt đầu làm việc với CSDL Chroma. Để làm cái này, tất cả cái bạn cần làm là nhập khẩu
thư viện bạn đã cài đặt tại phần bắt đầu của notebook và chỉ ra đường dẫn nơi bạn muốn lưu file khởi tạo bởi
ChromaDB.
