← Về danh sách bài viết
🏗️ Infrastructure#evaluation#framework#advanced

AI evaluation framework: nếu không đo được, bạn chưa thật sự có AI product

Model chạy được chưa đủ. Cần đo độ đúng, độ ổn định, chi phí, latency và UX.

By K3 Admin·10 phút đọc·2 views·31/3/2026

Vì sao cần evaluation?

"It works on my laptop" không phải evidence. AI product cần metrics rõ ràng:

5 metrics cần track

1. Accuracy / Correctness

  • Factual accuracy (kiểm tra output vs ground truth)
  • Hallucination rate (bao nhiêu % output bịa)

2. Consistency

  • Same input → same quality output? (temperature = 0)
  • Edge cases handled gracefully?

3. Latency

  • Time to first token (TTFT)
  • Total response time
  • User-perceived delay

4. Cost

  • Tokens per request (input + output)
  • Cost per user session
  • Monthly burn rate projection

5. User satisfaction

  • Task completion rate
  • User feedback/ratings
  • Retention/engagement metrics

Tools

  • **Braintrust** — LLM eval platform
  • **LangSmith** — Tracing + eval by LangChain
  • **Promptfoo** — Open-source prompt testing
  • **Custom**: Python script + spreadsheet vẫn tốt cho start