🧠 Models#llm#comparison#beginner
Small Language Models: khi nhỏ hơn lại thực dụng hơn
Không phải bài toán nào cũng cần model lớn. Với latency, chi phí và riêng tư, các model nhỏ đang mở ra một lớp sản phẩm cực kỳ đáng tiền.
By K3 Admin·7 phút đọc·2 views·31/3/2026
Không phải lúc nào cũng cần "biggest model"
Trend 2025-2026: các model nhỏ (1B-8B parameters) đang ngày càng tốt cho specific tasks.
Khi nào dùng Small LM?
- **Latency matters**: chatbot real-time, autocomplete
- **Privacy**: data không rời server/device
- **Cost**: millions of requests/day → big model = phá sản
- **Edge deployment**: mobile, IoT, embedded
Small models đáng chú ý
- **Phi-3/4 Mini** (Microsoft) — 3.8B, surprisingly good reasoning
- **Gemma 2** (Google) — 2B/9B, solid benchmark scores
- **Llama 3.2** (Meta) — 1B/3B, great for mobile
- **Qwen 2.5** (Alibaba) — 0.5B-72B range, strong multilingual
So sánh thực tế
| Metric | GPT-5 | Claude Haiku | Phi-4 Mini | Gemma 2 2B |
|--------|-------|-------------|------------|------------|
| Latency | ~2s | ~0.5s | ~0.1s | ~0.05s |
| Cost/1M tok | $15 | $1 | $0 (self-host) | $0 |
| Quality | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |