Tìm kiếm ngữ nghĩa và khớp tương tự
Tìm kiếm ngữ nghĩa và khớp tương tự đòi hỏi tìm ra thông tin hay các điểm dữ liệu phù hợp nhất bằng
cách so sánh ý nghĩa ngữ nghĩa của chúng, hơn là dựa vào các khớp chính xác hay từ khóa. LangChain
tạo điều kiện quá trình này bằng cách sử dụng các embeddings và vector stores.
Nó làm việc như thế nào
+ Trình bày text
– Text được chuyển đổi thành trình bày số gọi là embeddings sử dụng các models như OpenAI’s embedding models hay các models huấn luyện trước khác.
– Các embeddings này bắt ý nghĩa ngữ nghĩa của text.
+ Lưu giữ trong CSDL Vector
– Các embeddings được lưu giữ trong một CSDL vector (e.g, FAISS, Pinecone).
– Mỗi vector tương ứng với một đoạn text, cho phép cho các so sánh tương tự hiệu quả.
+ Tìm kiếm và khớp
– Một truy vấn cũng được chuyển đổi thành một embedding.
– Hệ thống so sánh embedding truy vấn với các embeddings được lưu giữ sử dụng các metrics như tương tự
cosine.
– Các khớp gần nhất được giành như các kết quả phù hợp nhất.
