Cơ sở dữ liệu Vector và LLMs (phần 21)

Chuẩn bị tập dữ liệu

Tôi đã test giải pháp với 3 tập dữ liệu Kaggle khác nhau, nhưng chúng ta sẽ thấy ví dụ với một trong số chúng:
Topic Labeled News Dataset. Cái này là có sẵn tại:

http://www.kaggle.com/datasets/kotartemiy/topic-labeled-news-dataset

Hai tập dữ liệu khác là:
+ BBC News có sẵn tại http://www.kaggle.com/datasets/gpreda/bbc-news
+ MIT AI News xuất bản cho tới 2023 có sẵn tại

http://www.kaggle.com/datasets/deepanshudalal09/mit-ai-news-published-till-2023

Code hỗ trợ là có sẵn trên GitHub, nằm tại https://github.com/Apress/Large-Language-Models-Projects. Notebook
cho ví dụ này được gọi là 2_1-Vector_Databases_LLMs.ipynb.
Chú ý Notebook được thiết lập để chạy Google Colab nhưng yêu cầu môi trường RAM cao. Nếu bạn muốn chạy nó trên Kaggle
hay trong môi trường của bản thân bạn, cách thức để load tập dữ liệu là khác. Chính hãy giữ trong đầu rằng bạn cần
CSsVl file labeled_newscatcher_dataset.csv trong một thư mục truy cập được tới notebook.
Để bắt đầu, bạn sẽ cần cài đặt một vài Python packages:
+ transformers: Đây là thư viện chính từ Hugging Face. Cung cấp các tiện ích và classes khác nhau cái tạo điều
kiện làm việc với các models từ Hugging Face. Mặc dù bạn có thể không sử dụng nó trực tiếp, không cài đặt nó sẽ
dẫn đến một thông điệp lỗi khi làm việc với model.
+ sentence-transformers: Thư viện này là cần thiết cho chuyển dạng các câu thành các vectors độ dài cố định, i.e
cho embedding.
+ chromadb: CSDL vector của chúng ta. Nó là dễ để sử dụng, mã nguồn mở, và nhanh. Nó có thể là CSDL vector sử dụng
rộng rãi nhất cho lưu giữ các embeddings.

!pip install -q transformers==4.41.2
!pip install sentence-transformers==2.2.2
!pip install chromadb==0.4.20

Chia sẻ