Các ứng dụng AI đa thể thức (phần 9)

Hiểu ảnh (tiếp tục)

Sử dụng GPT-4 Vision

Sau khi vừa khám phá khởi tạo ảnh, hãy thẩm định LangChain xử lí như thế nào hiểu ảnh sử dụng các models
đa thể thức. Các khả năng của GPT-4 Vision (có sẵn trong các models như GPT-4o và GPT-4o-mini) cho phép
chúng ta phân tích các ảnh cùng với text, làm các ứng dụng có thể nhìn thấy và luận lí về nội dung mắt
nhìn.
LangChain đơn giản hóa làm việc với các models này bằng cách cung cấp một giao diện ổn định cho các đầu
vào đa thể thức. Hãy thực thi một cái phân tích ảnh linh động:
code 6
code 7
Model cung cấp một phân tích chi tiết, phong phú về cityscape khởi tạo của chúng ta:
code 8
Khả năng này mở ra nhiều khả năng cho các ứng dụng LangChain. Bằng cách kết hợp các mô hình phân tích ảnh
với xử lí text chúng ta đã khám phá trước kia trong học phần này, bạn có thể xây dựng các ứng dụng tinh
vi cái luận lí qua các đa thể thức. Trong học phần tiếp theo, chúng ta sẽ xây dựng trên các khái niệm
này để tạo các ứng dụng đa thể thức tinh vi hơn.

Chia sẻ