Cơ sở dữ liệu Vector và LLMs (phần 28)

Làm việc với Chroma (tiếp tục)

Như minh họa bởi các dòng code trên, tôi đã sử dụng text “laptop” để khôi phục thông tin từ ChromaDB. Thay vào,
tôi đã có thể truyền trực tiếp câu hỏi người dùng, để giành nội dung liên quan. Nó thực sự là một trong các tests
tôi đã tiến hành, và tôi khuyến nghị rằng nếu bạn có thời gian, bạn thực hiện nó và so sánh thông tin trả về bởi
ChromaDB và liệu nó có ảnh hưởng trả lời model được khởi tạo hay không.
Hãy xem cái gì bên trong results

{‘ids’: [[‘id173’, ‘id829’, ‘id117’, ‘id535’, ‘id141’, ‘id218’, ‘id390’, ‘id273’, ‘id56’, ‘id900′]], ’embeddings’: None, ‘documents’: [[‘The Legendary Toshiba is Officially Done With Making Laptops’, ‘3 gaming laptop deals you can’t afford to miss today’, ‘Lenovo and HP control half of the global laptop market’, ‘Asus ROG Zephyrus G14 gaming laptop announced in India’, ‘Acer Swift 3 featuring a 10th-generation Intel Ice Lake CPU, 2K screen, and more launched in India for INR 64999 (US$865)’, “Apple’s Next MacBook Could Be the Cheapest in Company’s History”, “Features of Huawei’s Desktop Computer Revealed”, ‘Redmi to launch its first gaming laptop on August 14: Here are all the details’, ‘Toshiba shuts the lid on laptops after 35 years’, ‘This is the cheapest Windows PC by a mile and it even has a spare SSD slot’]], ‘metadatas’: [[{‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}, {‘topic’: ‘TECHNOLOGY’}]], ‘distances’: [[0.8593593835830688, 1.02944016456604, 1.0793330669403076,
1.093000888824463, 1.1329681873321533, 1.2130440473556519, 1.2143317461013794, 1.216413974761963, 1.2220635414123535, 1.2754170894622803]]}

Như bạn có thể thấy, nó đã trả về 10 news articles. Tất cả chúng rất là ngắn nhưng liên quan tới laptops. Thú vị
là, không phải tất cả chúng chứa từ “laptop”. Nó có thể như thế nào?
Tưởng tượng rằng các vectors được trình bày trong một không gian nhiều chiều, nơi mỗi vector trình bày một điểm
trong không gian đó. Sự tương đồng giữa các vectors được quyết định bởi đo lường khoảng cách giữa các điểm. Hãy
tưởng tượng một không gian 2 chiều cái lấy một trong những các cụm từ trả về như một ví dụ để trình bày các từ
trong không gian đó.
‘Acer Swift 3 featuring a 10th-generation Intel Ice Lake CPU, 2K screen, and more launched in India for INR 64999 (US$865)’
graph
Biều đồ có thể giống thứ gì đó như bức tranh này, nơi bạn có thể định vị các từ liên kết với “notebook” tất cả tụ tập
lại. Bằng cách làm một vài toán học với các vectors để đo lường không gian giữa chúng, chúng ta có thể đào lên các
câu hay docs cái ném ra các từ này giống như Notebook.

Chia sẻ