CSDL vector làm việc như thế nào?
Như tên của chúng gợi ý, các CSDL này lưu giữ thông tin như các trình bày số gọi là vector. Nên nó là cần thiết
để chuyển dạng text để lưu trữ, thành thông tin cái có thể được lưu giữ trong các CSDL này. Nói cách khác, bạn
phải chuyển đổi các textx thành các vectors.
Để làm cái đó, bước đầu tiên là token hóa text. Các tokens là các đơn vị nhỏ nhất của text cái là có ý nghĩa đối
với model. Có các dạng khác nhau của tokens, bao gồm các từ, subwords, kí tự và các mã hóa cặp byte. Sự lựa chọn
của dạng token phụ thuộc vào trường hợp sử dụng cụ thể và ngôn ngữ đang được mô hình hóa.
Sau đó, nó là cần thiết để chuyển đổi các tokens này thành các vectors. Một vector đơn giản là một trình bày số
của bất cứ dữ liệu nào. Trong trường hợp sử dụng cụ thể của chúng ta, nó sẽ là trình bày số của text sẽ được lưu
giữ. Nó trình bày một điểm trong không gian nhiều chiều. Nói cách khác, chúng ta không phải ảnh hóa điểm trên
một mặt 2 chiều hay 3 chiều, như chúng ta đã từng. Vector có thể trình bày điểm trong bất cứ số chiều nào.
Vector cũng được biết đến như là embedding bắt ý nghĩa từ ngữ của text lưu giữ. Sự huyền bí nằm ở chỗ các embeddings
này được khởi tạo như thế nào, với mục tiêu là rằng các từ với các ý nghĩa tương tự có các vectors cái là gần
hơn cùng với nhau trong không gian nhiều chiều hơn là các từ có các ý nghĩa khác nhau.
