CSDL vector làm việc như thế nào? (tiếp tục)
Như bạn có thể đã đoán xong, quá trình chuyển đổi text thành các vectors nên là tương tự cho cả hai: text lưu giữ
và text sẽ tìm kiếm. Nếu không, so sánh sẽ là vô nghĩa.
Đừng lo lắng nếu giải thích này để lại cho bạn một chút quá tải, bạn chỉ đang trong học phần bắt đầu và bạn vừa chỉ
sử dụng OpenAI API, cái che đậy tất cả phức tạp này. Đừng lo lắng, nó đi đến lúc để viết code, bạn sẽ thấy rằng
mọi thứ là rất đơn giản.
Sau đây là một tóm tắt về quá trình một text trải qua trước khi đi đến một mô hình ngôn ngữ. Trước tiên, nó được
token hóa, có nghĩa nó được chia thành các phần nhỏ. Sau đó, nó được chuyển đổi thành các vectors, cái là trong
thế giới các mô hình ngôn ngữ lớn được biết đến như các embeddings. Vector này, cái chứa các số, được truyền model,
và nó khởi tạo vector khác như đầu ra. Vector cái đi từ model phải trải qua quá trình ngược và được chuyển đổi thành
text.
Nếu bạn có bất cứ nghi ngờ, cái đó là thông thường. Khi bạn bắt đầu sử dụng nó, nhiều trong số sẽ biến mất. Thứ quan
trọng là để hiểu rằng các embeddings có khả năng trình bày số bắt ý nghĩa các câu và rằng chúng cho phép bạn
thực hiện các hoạt động vector đơn giản, như tính toán khoảng cách giữa chúng.
