Cơ sở dữ liệu Vector và LLMs (phần 13)

CSDL vector làm việc như thế nào? (tiếp tục)

Một khi text được chuyển đổi, nó là có thể để tính toán sự khác nhau giữa một vector và cái khác hay tìm kiếm cho
các vectors cái là gần nhau với một cái cụ thể. Cái đó là nó có thể như thế nào để tìm ra các texts tới một cái
tham chiếu. Cho chúng ta, nó dường như phức tạp hay khó để tưởng tượng, nhưng về mặt toán học, không có nhiều
khác nhau giữa tính toán khoảng cách giữa 2 điểm bất kể chúng là hai, ba hay bất cứ số chiều nào.
Mẹo nằm ở trong quyết định các vectors nào chúng ta gán cho mỗi từ, khi chúng ta muốn các từ với các ý nghĩa
tương tự sẽ là gần hơn trong khoảng cách hơn là những cái với các ý nghĩa khác hơn. Các thư viện Hugging Face
quan tâm về khía cạnh này, nên chúng ta không phải lo lắng nhiều. Chúng ta chỉ cần đảm bảo chuyển đổi ổn định
cho tất cả dữ liệu sẽ được lưu giữ và các truy vấn sẽ được thực hiện.
Với thông tin này, nó là dễ để hiểu nó làm việc như thế nào theo một cách chung.
+ Text để lưu giữ được token hóa và chuyển đổi thành các embeddings, cái sau đó được lưu giữ trong CSDL vector.
+ Câu hỏi người dùng cũng được token hóa và chuyển đổi thành một embedding.
+ CSDL vector được truy vấn để tìm ra các embeddings cái là gần nhất với embedding câu hỏi người dùng.
+ Các embeddings sau đó được quay trở lại thành text và trả về tới người dùng như trả lời.

Chia sẻ