AI Blog & Tools Hub

XiCaLo

← Về danh sách bài viết

🏗️ Infrastructure#evaluation#framework#advanced

AI evaluation framework: nếu không đo được, bạn chưa thật sự có AI product

Model chạy được chưa đủ. Cần đo độ đúng, độ ổn định, chi phí, latency và UX.

By K3 Admin·10 phút đọc·2 views·31/3/2026

Vì sao cần evaluation?

"It works on my laptop" không phải evidence. AI product cần metrics rõ ràng:

5 metrics cần track

1. Accuracy / Correctness

Factual accuracy (kiểm tra output vs ground truth)
Hallucination rate (bao nhiêu % output bịa)

2. Consistency

Same input → same quality output? (temperature = 0)
Edge cases handled gracefully?

3. Latency

Time to first token (TTFT)
Total response time
User-perceived delay

4. Cost

Tokens per request (input + output)
Cost per user session
Monthly burn rate projection

5. User satisfaction

Task completion rate
User feedback/ratings
Retention/engagement metrics

Tools

**Braintrust** — LLM eval platform
**LangSmith** — Tracing + eval by LangChain
**Promptfoo** — Open-source prompt testing
**Custom**: Python script + spreadsheet vẫn tốt cho start