← Về danh sách bài viết
🧠 Models#llm#comparison#beginner

Small Language Models: khi nhỏ hơn lại thực dụng hơn

Không phải bài toán nào cũng cần model lớn. Với latency, chi phí và riêng tư, các model nhỏ đang mở ra một lớp sản phẩm cực kỳ đáng tiền.

By K3 Admin·7 phút đọc·2 views·31/3/2026

Không phải lúc nào cũng cần "biggest model"

Trend 2025-2026: các model nhỏ (1B-8B parameters) đang ngày càng tốt cho specific tasks.

Khi nào dùng Small LM?

  • **Latency matters**: chatbot real-time, autocomplete
  • **Privacy**: data không rời server/device
  • **Cost**: millions of requests/day → big model = phá sản
  • **Edge deployment**: mobile, IoT, embedded

Small models đáng chú ý

  • **Phi-3/4 Mini** (Microsoft) — 3.8B, surprisingly good reasoning
  • **Gemma 2** (Google) — 2B/9B, solid benchmark scores
  • **Llama 3.2** (Meta) — 1B/3B, great for mobile
  • **Qwen 2.5** (Alibaba) — 0.5B-72B range, strong multilingual

So sánh thực tế

| Metric | GPT-5 | Claude Haiku | Phi-4 Mini | Gemma 2 2B |

|--------|-------|-------------|------------|------------|

| Latency | ~2s | ~0.5s | ~0.1s | ~0.05s |

| Cost/1M tok | $15 | $1 | $0 (self-host) | $0 |

| Quality | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |