Index Method & Retrieval Settings
Chọn phương pháp lập chỉ mục và cấu hình chiến lược truy xuất để tối ưu hóa kết quả tìm kiếm.
Mục lục
· [Chọn Index Method](#chọn-index-method)
· [Cấu hình Retrieval Settings](#cấu-hình-retrieval-settings)
· [Q&A Mode](#qa-mode)
Chọn Index Method
ClickAI cung cấp 2 phương pháp lập chỉ mục:
High Quality (Chất lượng cao)
· Gọi Embedding Model để tạo vector cho mỗi chunk
· Cho phép tìm kiếm semantic (dựa trên ý nghĩa ngữ cảnh)
· Ưu điểm: Độ chính xác cao hơn, hiểu ngữ cảnh tốt hơn
· Nhược điểm: Tốn token embedding, thời gian xử lý lâu hơn
Economical (Tiết kiệm)
· Sử dụng keyword indexing (inverted index) — kỹ thuật tìm kiếm tiêu chuẩn
· Không cần embedding model, không tốn token
· Ưu điểm: Nhanh, không tốn chi phí embedding
· Nhược điểm: Chỉ khớp từ khóa, không hiểu ngữ cảnh
Tiêu chí
High Quality
Economical
Công nghệ
Embedding vectors + keyword
Keyword indexing (inverted index)
Độ chính xác
Cao
Trung bình
Chi phí token
Có (embedding)
Không
Thời gian xử lý
Lâu hơn
Nhanh hơn
Tìm kiếm ngữ nghĩa
✅
❌
Tìm kiếm đa ngôn ngữ
✅
❌
💡 TIP: Nếu bạn cần chatbot trả lời chính xác cao hoặc xử lý nội dung đa ngôn ngữ, hãy chọn **High Quality**. Nếu ưu tiên tốc độ và tiết kiệm chi phí, chọn **Economical**.
Cấu hình Retrieval Settings
Hệ thống Knowledge Base hỗ trợ 2 kỹ thuật retrieval cốt lõi:
1. Semantic Retrieval: Dựa trên vector similarity — chunks và câu hỏi được chuyển thành vectors và khớp thông qua similarity scoring.
2. Keyword Matching: Sử dụng inverted index (kỹ thuật search engine tiêu chuẩn).
Weight Settings (Cấu hình trọng số)
Tính năng này cho phép bạn thiết lập trọng số tùy chỉnh giữa semantic priority và keyword priority:
Semantic Value = 1 (Chỉ Semantic Search)
· Chỉ kích hoạt chế độ tìm kiếm semantic
· Sử dụng embedding models để tìm kiếm sâu hơn — kể cả khi thuật ngữ chính xác không xuất hiện trong knowledge base
· Tính khoảng cách vector để trả về nội dung liên quan
· Hỗ trợ tốt nội dung đa ngôn ngữ — bắt được ý nghĩa qua các ngôn ngữ khác nhau
Keyword Value = 1 (Chỉ Keyword Search)
· Chỉ kích hoạt chế độ tìm kiếm từ khóa
· Thực hiện full-text match trong knowledge base
· Phù hợp khi người dùng biết chính xác thuật ngữ cần tìm
· Tiêu thụ ít tài nguyên hơn, lý tưởng cho tìm kiếm nhanh trong kho tài liệu lớn
Custom Keyword và Semantic Weights
Ngoài việc chỉ bật semantic hoặc keyword search riêng lẻ, ClickAI cung cấp cài đặt trọng số linh hoạt:
· Điều chỉnh liên tục trọng số hai phương pháp
· Xác định tỷ lệ trọng số tối ưu phù hợp với kịch bản kinh doanh cụ thể
Rerank Model
· Mặc định tắt. Khi bật, model Rerank bên thứ ba sẽ sắp xếp lại các chunks được trả về để tối ưu kết quả
· Giúp LLM truy cập thông tin chính xác hơn, cải thiện chất lượng output
· Trước khi bật, vào Settings > Model Providers để cấu hình API key cho Rerank model
⚠️ IMPORTANT: Nếu embedding model đã chọn là multimodal, hãy chọn rerank model multimodal tương ứng (có biểu tượng Vision). Nếu không, hình ảnh đã truy xuất sẽ bị loại khỏi reranking.
📝 NOTE: Bật Rerank sẽ tiêu thụ token từ Rerank model. Tham khảo trang pricing của model tương ứng để biết chi tiết.
TopK và Score Threshold
Setting
Mô tả
Giá trị mặc định
Khuyến nghị
Top K
Số chunks tương tự nhất được truy xuất
3
3-5
Score Threshold
Điểm similarity tối thiểu để chunk được truy xuất
0.5
0.5-0.7
· Top K cao hơn → truy xuất nhiều chunks hơn, nhưng có thể bao gồm nội dung ít liên quan
· Score Threshold cao hơn → yêu cầu similarity cao hơn, ít chunks được trả về nhưng chính xác hơn
Q&A Mode
Q&A Mode là tùy chọn đặc biệt cho phép ClickAI tự động phân tích tài liệu và tạo cặp câu hỏi-trả lời. Phù hợp cho:
· Tài liệu FAQ
· Tài liệu hỗ trợ khách hàng
· Tài liệu có cấu trúc Q&A rõ ràng
📖 Trước: [Chunk Settings](./03-chunk-settings.md) · Tiếp: [Knowledge Pipeline](./05-knowledge-pipeline.md)
Last updated