> For the complete documentation index, see [llms.txt](https://docs.clickai.vn/clickai-docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clickai.vn/clickai-docs/nha-phat-trien/quan-ly-co-so-du-lieu-tri-thuc.md). # Quản lý cơ sở dữ liệu tri thức

## Mục lục · \[Giới thiệu RAG]\(#giới-thiệu-rag) · \[Ứng dụng thực tế]\(#ứng-dụng-thực-tế) · \[Tạo Knowledge Base]\(#tạo-knowledge-base) · \[Quản lý & Tối ưu]\(#quản-lý--tối-ưu) · \[Tích hợp vào ứng dụng]\(#tích-hợp-vào-ứng-dụng) · \[Chiến lược Retrieval]\(#chiến-lược-retrieval) ## Giới thiệu RAG RAG (Retrieval-Augmented Generation) là kiến trúc cốt lõi của hệ thống Knowledge trong ClickAI: ┌─────────────────────────────────────────────────┐\ │ 1. RETRIEVAL (Truy xuất) │\ │ Khi người dùng hỏi, hệ thống tìm kiếm │\ │ thông tin liên quan từ Knowledge Base │\ ├─────────────────────────────────────────────────┤\ │ 2. AUGMENTED (Bổ sung) │\ │ Thông tin tìm được kết hợp với câu hỏi │\ │ gốc → gửi đến LLM như context mở rộng │\ ├─────────────────────────────────────────────────┤\ │ 3. GENERATION (Sinh câu trả lời) │\ │ LLM sử dụng context này để tạo câu trả lời │\ │ chính xác và có căn cứ │\ └─────────────────────────────────────────────────┘ 💡 TIP: RAG giúp AI trả lời dựa trên dữ liệu cập nhật của bạn thay vì chỉ dựa trên kiến thức pre-training, giảm thiểu hallucination đáng kể. ## Ứng dụng thực tế


Use-case	Mô tả
Customer Support Bot	Trả lời chính xác từ tài liệu sản phẩm, FAQ, hướng dẫn xử lý lỗi
Internal Knowledge Portal	AI search & Q&A cho nhân viên truy cập chính sách, quy trình công ty
Content Generation	Tạo báo cáo, bài viết, email dựa trên tài liệu nền
Research & Analysis	Truy xuất và tóm tắt từ kho tài liệu nghiên cứu, báo cáo thị trường

## Tạo Knowledge Base ClickAI cung cấp 3 cách tạo Knowledge Base: ### Cách 1: Quick Create (Khuyến nghị cho người mới) Cách nhanh nhất — import dữ liệu, định nghĩa quy tắc xử lý, ClickAI lo phần còn lại. Bước thực hiện: 1\. Vào Knowledge từ sidebar → Nhấn "+ Create Knowledge" 2\. Đặt tên và mô tả cho Knowledge Base 3\. Upload tài liệu — Hỗ trợ các định dạng:


Định dạng	Loại
.pdf	Tài liệu PDF
.docx .doc	Microsoft Word
.txt	Văn bản thuần
.md	Markdown
.csv	Bảng dữ liệu
.html	Trang web
.xlsx	Excel

4\. Cấu hình chunking — Cách chia nhỏ tài liệu:


Phương pháp	Mô tả	Khi nào dùng
Automatic	ClickAI tự chia tối ưu	Hầu hết trường hợp
Custom	Tùy chỉnh separator, chunk size	Tài liệu có cấu trúc đặc biệt
Parent-Child	Chunks lớn chứa chunks nhỏ	Cần context rộng hơn

5\. Chọn Embedding Model — Model chuyển text thành vector 6\. Chọn Index Method — Phương pháp lập chỉ mục: · High Quality: Gọi Embedding Model (chính xác hơn, tốn token) · Economical: Dùng keyword indexing (tiết kiệm, kém chính xác hơn) 7\. Nhấn "Save & Process" → Chờ indexing hoàn tất ### Cách 2: Knowledge Pipeline (Nâng cao) Orchestrate quy trình xử lý dữ liệu phức tạp hơn với các bước tùy chỉnh và plugins. · Phù hợp khi cần tiền xử lý dữ liệu phức tạp · Hỗ trợ các plugin ETL (Extract-Transform-Load) · Quy trình có thể tái sử dụng ### Cách 3: External Knowledge Base Kết nối trực tiếp với knowledge base bên ngoài qua API. · Tận dụng dữ liệu hiện có không cần di chuyển · Hỗ trợ các vector database: Pinecone, Weaviate, Qdrant, ... · Đồng bộ real-time ⚠️ IMPORTANT: Chất lượng Knowledge Base quyết định trực tiếp chất lượng phản hồi AI. Đầu tư thời gian chuẩn bị tài liệu sạch, có cấu trúc tốt. ## Quản lý & Tối ưu ### Quản lý nội dung


Hành động	Mô tả
View documents	Xem danh sách tài liệu đã upload
Add documents	Thêm tài liệu mới
Edit chunks	Chỉnh sửa nội dung chunk
Enable/Disable	Bật/tắt document hoặc chunk
Delete	Xóa tài liệu không còn cần
Re-index	Lập chỉ mục lại khi thay đổi settings

### Test & Validate Retrieval Kiểm tra chất lượng truy xuất trước khi tích hợp vào ứng dụng: 8\. Mở Knowledge Base → Nhấn "Test Retrieval" 9\. Nhập câu hỏi test (mô phỏng câu hỏi người dùng) 10\. Nhấn "Run Test" 11\. Xem kết quả: · Matched chunks — Các đoạn tài liệu được truy xuất · Relevance score — Điểm liên quan (0-1) · Source document — Tài liệu nguồn 💡 TIP: Test với nhiều câu hỏi đa dạng để đảm bảo Knowledge Base phủ đủ các chủ đề. Nếu relevance score thấp (<0.5), hãy xem xét cải thiện nội dung tài liệu. ### Metadata Enhancement Thêm metadata vào documents để cải thiện độ chính xác khi retrieval: Ví dụ Metadata:\ ──────────────\ document: "Chính sách bảo hành 2024.pdf"\ metadata:\ category: "policy"\ department: "customer-service"\ effective\_date: "2024-01-01"\ language: "vi" Metadata cho phép filter-based search, ví dụ: "Chỉ tìm trong tài liệu category=policy" ### Điều chỉnh Settings Bạn có thể thay đổi bất kỳ lúc nào: · Index method — Chuyển giữa High Quality và Economical · Embedding model — Đổi model embedding khác · Retrieval strategy — Semantic Search, Full-text Search, hoặc Hybrid

## Tích hợp vào ứng dụng ### Trong Chatbot / Agent 12\. Mở ứng dụng trong Studio 13\. Trong phần Context, nhấn "+ Add" 14\. Chọn Knowledge Base cần kết nối 15\. Cấu hình Retrieval Settings:


Setting	Mô tả	Giá trị khuyến nghị
Top K	Số chunks trả về	3-5
Score Threshold	Ngưỡng điểm tối thiểu	0.5-0.7
Retrieval Mode	Phương pháp tìm kiếm	Hybrid Search

### Trong Workflow / Chatflow Sử dụng node "Knowledge Retrieval": 16\. Kéo node Knowledge Retrieval vào canvas 17\. Chọn Knowledge Base 18\. Cấu hình query variable (thường là {{sys.query}}) 19\. Kết nối output đến node LLM làm context

## Chiến lược Retrieval ### Semantic Search Tìm kiếm dựa trên ý nghĩa ngữ cảnh, sử dụng embedding vectors. · ✅ Hiểu được câu hỏi đồng nghĩa · ❌ Có thể bỏ sót keyword chính xác ### Full-text Search Tìm kiếm dựa trên từ khóa chính xác (keyword matching). · ✅ Chính xác với thuật ngữ cụ thể · ❌ Không hiểu ngữ cảnh ### Hybrid Search (Khuyến nghị) Kết hợp cả Semantic + Full-text, sử dụng Rerank để sắp xếp kết quả. · ✅ Tận dụng ưu điểm cả 2 phương pháp · ✅ Độ chính xác cao nhất 📝 NOTE: \*\*Rerank\*\* là bước xử lý bổ sung sắp xếp lại kết quả retrieval theo mức độ liên quan. Bật Rerank khi sử dụng Hybrid Search để có kết quả tốt nhất. *📖 Trước: \[Monitor]\(./03-monitor.md) · Tiếp: \[Workspace]* --- # Agent Instructions This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com. ## Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter: ``` GET https://docs.clickai.vn/clickai-docs/nha-phat-trien/quan-ly-co-so-du-lieu-tri-thuc.md?ask=&goal= ``` `ask` is the immediate question: it should be specific, self-contained, and written in natural language. `goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.