Tạo một ngôn ngữ tự nhiên đơn giản đối với CSDL dạng SQL của bạn sử dụng OpenAI (tiếp tục)
Như bạn có thể đoán. một phần then chốt của prompt đã bị mất. Model sẽ không thể khởi tạo SQL trừ phi nó biết cấu
trúc của CSDL chúng ta đang hướng mục tiêu. Nó là cơ bản để truyền cấu trúc này trong cùng prompt nơi chúng ta cung
cấp bối cảnh và câu hỏi.
Trong thực tế, đây là một trong những điểm yếu của các dự án NL2SQL. Cung cấp thông tin cấu trúc CSDL với mỗi prompt
hạn chế chúng ta về mặt lượng thông tin chúng ta có thể bao gồm.
Số tối đa của các tokens cái một model có thể xử lí khi nhập vào khác nhau, GPT-3.5 chấp nhận 16385 tokens, và khi
làm việc với các CSDL lớn và phức tạp, nó là dễ để đi đến giới hạn token tối đa. Ngoài ra, phí tổn tính toán của thực
thi một truy vấn tăng lên với số tokens đòi hỏi.
Không ngạc nhiên là, các truy vấn dài hơn với nhiều tokens hơn yêu cầu khả năng và thời gian xử lí cao hơn.
Sau này, chúng ta sẽ thấy làm cách nào giải quyết vấn đề này, nhưng cho bây giờ, hãy tiếp tục định nghĩa prompt
của chúng ta bằng cách thể hiện cho model hình thức các bảng cái hình thành CSDL chúng ta muốn truy vấn.
Schema của 3 bảng vừa được thêm vào bối cảnh. Mỗi bảng được định nghĩa trong hình thức JSON, chỉ ra các tên và
dạng dữ liệu của các trường của nó. Với chính thông tin này, một model mạnh mẽ như GPT-3.5 có thể hiểu xong cái
gì được lưu giữ trong CSDL, các mối quan hệ giữa các bảng, và làm cách nào tạo các truy vấn SQL để truy cập CSDL.



