Cơ sở dữ liệu Vector và LLMs (phần 27)

Làm việc với Chroma (tiếp tục)

Như cho cái nhận dạng duy nhất, tôi quyết định khởi tạo nó sử dụng Python. Nó có thể là đơn giản như khởi tạo các
số từ 0 tới MAX_RANGE.

collection.add(

documents=subset_news[DOCUMENT].tolist(),
metadatas=[{TOPIC: topic} for topic in subset_news[TOPIC].tolist()],
ids=[f”id{x}” for x in range(len(subset_news))],

)

Đơn giản như cái đó, trong biến subset_news, tôi lưu giữ thông tin của 1000 records đầu tiên từ tập dữ liệu. Không
có gì bảo vệ tôi khỏi sử dụng toàn bộ tập dữ liệu; cái tương tự đi cho trường Metadata, nơi tôi lưu giữ một cái khác
trong số các trường đã có mặt trong tập dữ liệu.
Trường duy nhất tôi phải tạo là cái nhận dạng duy nhất, và tôi đơn giản đã tạo một trường cái tích hợp số hồ sơ,
với cái đó, tôi nhận một cái nhận dạng khác biệt cho ear register.
Một khi thông tin được lưu giữ trong ChromaDB, bạn có thể thực hiện các truy vấn và giành các tài liệu cái khớp
với chủ đề hay truy vấn người dùng mong muốn.
Như đề cập tại phần bắt đầu của học phần, các kết quả được trả về dựa trên sự tương tự giữa các từ ngữ tìm kiếm
và nội dung các tài liệu.
Nó là quan trọng để chú ý rằng metadata không được sử dụng trong quá trình tìm kiếm; sự so sánh được thực hiện
duy nhất dựa trên nội dung của bản thân tài liệu.
Tôi sẽ tạo một truy vấn để giành các tài liệu top 10 cái có quan hệ gần gũi nhất với text “laptop”.

results = collection.query(query_texts=[“laptop”], n_results=10 )
print(results)

Bạn có thể thấy rằng ChromaDB là một CSDL vector phi thường để sử dụng. Bạn đơn giản cần tạo một bộ hay lấy một
cái. Sau đó lấy thông tin phù hợp sử dụng phương pháp truy vấn của bộ này, chính chỉ ra text để tìm kiếm cho và
số các tài liệu bạn muốn giành.

Chia sẻ