Làm cách nào chọn Model đúng
+ Cho các nhiệm vụ mục đích chung: Sử dụng OpenAI embeddings hay HuggingFace SentenceTransformers.
+ Cho các giải pháp doanh nghiệp: Sử dụng Azure Cognitive Services hay Cohere embeddings.
+ Cho các yêu cầu tùy chỉnh/ địa phương: Sử dụng các HuggingFace models, TensorFlow Hub, hay các models
tùy chỉnh của bản thân bạn.
+ Cho các kịch bản tùy theo nhiệm vụ: Sử dụng các models chuyên biệt như Instructor embeddings hay E5 embeddings.
Ví dụ: Thiết lập một Embedding Model trong LangChain
from langchain.embeddings import OpenAIEmbeddings, HuggingFaceEmbeddings
# OpenAI Embedding
openai_embeddings = OpenAIEmbeddings(model=”text-embedding-ada-002″)
# HuggingFace Embedding
hf_embeddings = HuggingFaceEmbeddings(model_name=”all-MiniLM-L6-v2″)
# Choose based on your use case
text = “LangChain is a framework for building AI applications.”
vector = openai_embeddings.embed_query(text)
# Generate embedding
output:
[-0.0070396773517131805, -0.0018518096767365932, -0.026296397671103477, -0.029124870896339417, 0.02255777269601822, …]
Code này minh họa làm cách nào khởi tạo vector embeddings cho một text sử dụng 2 models khác nhau:
OpenAI’s text-embedding-ada-002 và HuggingFace’s all-MiniLM-L6-v2. Các embeddings này chuyển đổi text
nhập vào thành các vectors kích thước cao, làm có thể các nhiệm vụ cuối dòng như tìm kiếm ngữ nghĩa, so
sánh tương tự, hay đầu vào cho các dòng ống LLM. Lựa chọn model phụ thuộc vào tính chính xác, phí tổn
và ưa thích triển khai.
