Dự án hệ thống Agent đầu tiên của chúng ta (phần 3)

Dự án hệ thống Agent đầu tiên của chúng ta (tiếp tục)

Bây giờ rằng chúng ta đã có một “cancel order” agent, câu hỏi tiếp theo là: liệu nó có thực sự làm việc?
Trong sản xuất, chúng ta không chỉ muốn agent của chúng ta chạy – chúng ta muốn biết nó có hiệu suất tốt
như thế nào, liệu nó đã đi đúng, và nơi nào nó thất bại. Cho “cancel order” agent của chúng ta, chúng ta
quan tâm đến các câu hỏi như:
+ Nó có đã gọi công cụ đúng (cancel_order)?
+ Liệu nó có đã truyền các tham số đúng (order ID đúng)?
+ Liệu nó có đã gửi một thông điệp khẳng định đúng, rõ ràng tới khách hàng?
Trong repository mã mở của chúng ta, bạn sẽ thấy một script đánh giá đầy đủ để tự động hóa quá trình này:
Evaluation dataset
Batch evaluation script

Chia sẻ