Quản lý cơ sở dữ liệu tri thức
Xây dựng và quản lý kho kiến thức để AI trả lời chính xác dựa trên dữ liệu riêng của bạn. ClickAI Knowledge Base

Mục lục
· [Giới thiệu RAG](#giới-thiệu-rag)
· [Ứng dụng thực tế](#ứng-dụng-thực-tế)
· [Tạo Knowledge Base](#tạo-knowledge-base)
· [Quản lý & Tối ưu](#quản-lý--tối-ưu)
· [Tích hợp vào ứng dụng](#tích-hợp-vào-ứng-dụng)
· [Chiến lược Retrieval](#chiến-lược-retrieval)
Giới thiệu RAG
RAG (Retrieval-Augmented Generation) là kiến trúc cốt lõi của hệ thống Knowledge trong ClickAI:
┌─────────────────────────────────────────────────┐ │ 1. RETRIEVAL (Truy xuất) │ │ Khi người dùng hỏi, hệ thống tìm kiếm │ │ thông tin liên quan từ Knowledge Base │ ├─────────────────────────────────────────────────┤ │ 2. AUGMENTED (Bổ sung) │ │ Thông tin tìm được kết hợp với câu hỏi │ │ gốc → gửi đến LLM như context mở rộng │ ├─────────────────────────────────────────────────┤ │ 3. GENERATION (Sinh câu trả lời) │ │ LLM sử dụng context này để tạo câu trả lời │ │ chính xác và có căn cứ │ └─────────────────────────────────────────────────┘
💡 TIP: RAG giúp AI trả lời dựa trên dữ liệu cập nhật của bạn thay vì chỉ dựa trên kiến thức pre-training, giảm thiểu hallucination đáng kể.
Ứng dụng thực tế
Use-case
Mô tả
Customer Support Bot
Trả lời chính xác từ tài liệu sản phẩm, FAQ, hướng dẫn xử lý lỗi
Internal Knowledge Portal
AI search & Q&A cho nhân viên truy cập chính sách, quy trình công ty
Content Generation
Tạo báo cáo, bài viết, email dựa trên tài liệu nền
Research & Analysis
Truy xuất và tóm tắt từ kho tài liệu nghiên cứu, báo cáo thị trường

Tạo Knowledge Base
ClickAI cung cấp 3 cách tạo Knowledge Base:
Cách 1: Quick Create (Khuyến nghị cho người mới)
Cách nhanh nhất — import dữ liệu, định nghĩa quy tắc xử lý, ClickAI lo phần còn lại.
Bước thực hiện:
1. Vào Knowledge từ sidebar → Nhấn "+ Create Knowledge"
2. Đặt tên và mô tả cho Knowledge Base
3. Upload tài liệu — Hỗ trợ các định dạng:
Định dạng
Loại
Tài liệu PDF
.docx .doc
Microsoft Word
.txt
Văn bản thuần
.md
Markdown
.csv
Bảng dữ liệu
.html
Trang web
.xlsx
Excel
4. Cấu hình chunking — Cách chia nhỏ tài liệu:
Phương pháp
Mô tả
Khi nào dùng
Automatic
ClickAI tự chia tối ưu
Hầu hết trường hợp
Custom
Tùy chỉnh separator, chunk size
Tài liệu có cấu trúc đặc biệt
Parent-Child
Chunks lớn chứa chunks nhỏ
Cần context rộng hơn
5. Chọn Embedding Model — Model chuyển text thành vector
6. Chọn Index Method — Phương pháp lập chỉ mục:
· High Quality: Gọi Embedding Model (chính xác hơn, tốn token)
· Economical: Dùng keyword indexing (tiết kiệm, kém chính xác hơn)
7. Nhấn "Save & Process" → Chờ indexing hoàn tất
Cách 2: Knowledge Pipeline (Nâng cao)
Orchestrate quy trình xử lý dữ liệu phức tạp hơn với các bước tùy chỉnh và plugins.
· Phù hợp khi cần tiền xử lý dữ liệu phức tạp
· Hỗ trợ các plugin ETL (Extract-Transform-Load)
· Quy trình có thể tái sử dụng
Cách 3: External Knowledge Base
Kết nối trực tiếp với knowledge base bên ngoài qua API.
· Tận dụng dữ liệu hiện có không cần di chuyển
· Hỗ trợ các vector database: Pinecone, Weaviate, Qdrant, ...
· Đồng bộ real-time
⚠️ IMPORTANT: Chất lượng Knowledge Base quyết định trực tiếp chất lượng phản hồi AI. Đầu tư thời gian chuẩn bị tài liệu sạch, có cấu trúc tốt.
Quản lý & Tối ưu
Quản lý nội dung
Hành động
Mô tả
View documents
Xem danh sách tài liệu đã upload
Add documents
Thêm tài liệu mới
Edit chunks
Chỉnh sửa nội dung chunk
Enable/Disable
Bật/tắt document hoặc chunk
Delete
Xóa tài liệu không còn cần
Re-index
Lập chỉ mục lại khi thay đổi settings
Test & Validate Retrieval
Kiểm tra chất lượng truy xuất trước khi tích hợp vào ứng dụng:
8. Mở Knowledge Base → Nhấn "Test Retrieval"
9. Nhập câu hỏi test (mô phỏng câu hỏi người dùng)
10. Nhấn "Run Test"
11. Xem kết quả:
· Matched chunks — Các đoạn tài liệu được truy xuất
· Relevance score — Điểm liên quan (0-1)
· Source document — Tài liệu nguồn
💡 TIP: Test với nhiều câu hỏi đa dạng để đảm bảo Knowledge Base phủ đủ các chủ đề. Nếu relevance score thấp (<0.5), hãy xem xét cải thiện nội dung tài liệu.
Metadata Enhancement
Thêm metadata vào documents để cải thiện độ chính xác khi retrieval:
Ví dụ Metadata: ────────────── document: "Chính sách bảo hành 2024.pdf" metadata: category: "policy" department: "customer-service" effective_date: "2024-01-01" language: "vi"
Metadata cho phép filter-based search, ví dụ: "Chỉ tìm trong tài liệu category=policy"
Điều chỉnh Settings
Bạn có thể thay đổi bất kỳ lúc nào:
· Index method — Chuyển giữa High Quality và Economical
· Embedding model — Đổi model embedding khác
· Retrieval strategy — Semantic Search, Full-text Search, hoặc Hybrid

Tích hợp vào ứng dụng
Trong Chatbot / Agent
12. Mở ứng dụng trong Studio
13. Trong phần Context, nhấn "+ Add"
14. Chọn Knowledge Base cần kết nối
15. Cấu hình Retrieval Settings:
Setting
Mô tả
Giá trị khuyến nghị
Top K
Số chunks trả về
3-5
Score Threshold
Ngưỡng điểm tối thiểu
0.5-0.7
Retrieval Mode
Phương pháp tìm kiếm
Hybrid Search
Trong Workflow / Chatflow
Sử dụng node "Knowledge Retrieval":
16. Kéo node Knowledge Retrieval vào canvas
17. Chọn Knowledge Base
18. Cấu hình query variable (thường là {{sys.query}})
19. Kết nối output đến node LLM làm context

Chiến lược Retrieval
Semantic Search
Tìm kiếm dựa trên ý nghĩa ngữ cảnh, sử dụng embedding vectors.
· ✅ Hiểu được câu hỏi đồng nghĩa
· ❌ Có thể bỏ sót keyword chính xác
Full-text Search
Tìm kiếm dựa trên từ khóa chính xác (keyword matching).
· ✅ Chính xác với thuật ngữ cụ thể
· ❌ Không hiểu ngữ cảnh
Hybrid Search (Khuyến nghị)
Kết hợp cả Semantic + Full-text, sử dụng Rerank để sắp xếp kết quả.
· ✅ Tận dụng ưu điểm cả 2 phương pháp
· ✅ Độ chính xác cao nhất
📝 NOTE: **Rerank** là bước xử lý bổ sung sắp xếp lại kết quả retrieval theo mức độ liên quan. Bật Rerank khi sử dụng Hybrid Search để có kết quả tốt nhất.
📖 Trước: [Monitor](./03-monitor.md) · Tiếp: [Workspace]
Last updated