Dự án hệ thống Agent đầu tiên của chúng ta (phần 4)

Dự án hệ thống Agent đầu tiên của chúng ta (tiếp tục)

Sau đây là phiên bản đơn giản hóa, tối thiểu của logic này cho làm cách nào bạn có thể test agent của
bạn trực tiếp:

# Minimal evaluation check
example_order = {“order_id”: “B73973″}
convo = [HumanMessage(content=”’Please cancel order #B73973.
I found a cheaper option elsewhere.”’)]
result = graph.invoke({“order”: example_order, “messages”: convo})
assert any(“cancel_order” in str(m.content) for m in result[“messages”],
“Cancel order tool not called”)
assert any(“cancelled” in m.content.lower() for m in result[“messages”],
“Confirmation message missing”)
print(“✅ Agent passed minimal evaluation.”)

Đoạn code này đảm bảo rằng công cụ được gọi và khẳng định được gửi. Tất nhiên, đánh giá thực đi sâu hơn:
bạn có thể đo lường chính xác công cụ, chính xác tham số, và các tỷ lệ thành công nhiệm vụ tổng thể qua
hàng trăm ví dụ để bắt các edge cases trước khi triển khai. Chúng ta sẽ đào sâu vào các chiến lược và
khung đánh giá sâu trong các học phần sau.
Vì cả các bước được tự động hóa sử dụng @tool decorators, viết các tests lại các tickets thực trở thành
chuyện nhỏ – và bạn ngay lập tức thu các metrics đo lường như gọi lại công cụ, chính xác tham số, và
chất lượng khẳng định. Bây giờ rằng chúng ta vừa xây dựng và đánh giá một agent tối thiểu, hãy khám
phá các quyết định thiết kế lõi cái sẽ hình thành các khả năng và ảnh hưởng của nó.

Chia sẻ