← Về danh sách bài viết
🔍 RAG & Search#rag#vector-db#tutorial

RAG là gì? Vì sao thêm dữ liệu riêng vào AI lại quan trọng hơn prompt dài

Khi model không biết dữ liệu nội bộ của bạn, Retrieval-Augmented Generation là cách biến AI từ thông minh chung chung thành hữu ích trong ngữ cảnh thật.

By K3 Admin·10 phút đọc·2 views·31/3/2026

Vấn đề: LLM không biết data của bạn

Dù GPT-5 hay Claude Opus thông minh đến đâu, chúng không biết nội dung email tuần trước của bạn, không biết SOP nội bộ công ty, không biết spec sản phẩm mới nhất.

Retrieval-Augmented Generation (RAG) giải quyết vấn đề này bằng cách: trước khi LLM trả lời, hệ thống search qua data của bạn, lấy context liên quan, rồi đưa vào prompt.

RAG hoạt động thế nào?

  1. **Index**: Chia documents thành chunks → embed thành vectors → lưu vào vector database
  2. **Retrieve**: Khi có câu hỏi, embed câu hỏi → search similar vectors → lấy top-K chunks
  3. **Generate**: Đưa chunks vào system prompt → LLM trả lời dựa trên context thật
  4. Stack phổ biến

    | Component | Options |

    |-----------|---------|

    | Embedding | OpenAI text-embedding-3, Cohere embed, local models |

    | Vector DB | Pinecone, Weaviate, Qdrant, pgvector |

    | Chunking | LangChain, LlamaIndex, custom |

    | LLM | GPT-5, Claude, Gemini |

    Những sai lầm phổ biến

    • **Chunk quá lớn**: context thừa → LLM bị nhiễu
    • **Chunk quá nhỏ**: mất ngữ cảnh → trả lời thiếu
    • **Không rerank**: top-K results chưa chắc đã relevant nhất
    • **Bỏ qua evaluation**: deploy xong không ai kiểm tra chất lượng trả lời