> For the complete documentation index, see [llms.txt](https://docs.clickai.vn/clickai-docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clickai.vn/clickai-docs/nha-phat-trien/quan-ly-co-so-du-lieu-tri-thuc.md).

# Quản lý cơ sở dữ liệu tri thức

<figure><img src="/files/MqLvpcvEH4pBmIMyKl6W" alt=""><figcaption></figcaption></figure>

## Mục lục

·       \[Giới thiệu RAG]\(#giới-thiệu-rag)

·       \[Ứng dụng thực tế]\(#ứng-dụng-thực-tế)

·       \[Tạo Knowledge Base]\(#tạo-knowledge-base)

·       \[Quản lý & Tối ưu]\(#quản-lý--tối-ưu)

·       \[Tích hợp vào ứng dụng]\(#tích-hợp-vào-ứng-dụng)

·       \[Chiến lược Retrieval]\(#chiến-lược-retrieval)

&#x20;

## Giới thiệu RAG

RAG (Retrieval-Augmented Generation) là kiến trúc cốt lõi của hệ thống Knowledge trong ClickAI:

┌─────────────────────────────────────────────────┐\
│  1. RETRIEVAL (Truy xuất)                       │\
│     Khi người dùng hỏi, hệ thống tìm kiếm      │\
│     thông tin liên quan từ Knowledge Base        │\
├─────────────────────────────────────────────────┤\
│  2. AUGMENTED (Bổ sung)                         │\
│     Thông tin tìm được kết hợp với câu hỏi     │\
│     gốc → gửi đến LLM như context mở rộng      │\
├─────────────────────────────────────────────────┤\
│  3. GENERATION (Sinh câu trả lời)               │\
│     LLM sử dụng context này để tạo câu trả lời │\
│     chính xác và có căn cứ                      │\
└─────────────────────────────────────────────────┘

💡 TIP: RAG giúp AI trả lời dựa trên dữ liệu cập nhật của bạn thay vì chỉ dựa trên kiến thức pre-training, giảm thiểu hallucination đáng kể.

&#x20;

## Ứng dụng thực tế

<table data-header-hidden><thead><tr><th valign="top"></th><th valign="top"></th></tr></thead><tbody><tr><td valign="top">Use-case</td><td valign="top">Mô tả</td></tr><tr><td valign="top">Customer Support Bot</td><td valign="top">Trả lời chính xác từ tài liệu sản phẩm, FAQ, hướng dẫn xử lý lỗi</td></tr><tr><td valign="top">Internal Knowledge Portal</td><td valign="top">AI search &#x26; Q&#x26;A cho nhân viên truy cập chính sách, quy trình công ty</td></tr><tr><td valign="top">Content Generation</td><td valign="top">Tạo báo cáo, bài viết, email dựa trên tài liệu nền</td></tr><tr><td valign="top">Research &#x26; Analysis</td><td valign="top">Truy xuất và tóm tắt từ kho tài liệu nghiên cứu, báo cáo thị trường</td></tr></tbody></table>

&#x20;

&#x20;

<figure><img src="/files/76pqQhL1U6hbpNmG0l1Q" alt=""><figcaption></figcaption></figure>

## Tạo Knowledge Base

ClickAI cung cấp 3 cách tạo Knowledge Base:

### Cách 1: Quick Create (Khuyến nghị cho người mới)

Cách nhanh nhất — import dữ liệu, định nghĩa quy tắc xử lý, ClickAI lo phần còn lại.

Bước thực hiện:

1\.     Vào Knowledge từ sidebar → Nhấn "+ Create Knowledge"

2\.     Đặt tên và mô tả cho Knowledge Base

3\.     Upload tài liệu — Hỗ trợ các định dạng:

<table data-header-hidden><thead><tr><th valign="top"></th><th valign="top"></th></tr></thead><tbody><tr><td valign="top">Định dạng</td><td valign="top">Loại</td></tr><tr><td valign="top">.pdf</td><td valign="top">Tài liệu PDF</td></tr><tr><td valign="top">.docx .doc</td><td valign="top">Microsoft Word</td></tr><tr><td valign="top">.txt</td><td valign="top">Văn bản thuần</td></tr><tr><td valign="top">.md</td><td valign="top">Markdown</td></tr><tr><td valign="top">.csv</td><td valign="top">Bảng dữ liệu</td></tr><tr><td valign="top">.html</td><td valign="top">Trang web</td></tr><tr><td valign="top">.xlsx</td><td valign="top">Excel</td></tr></tbody></table>

&#x20;

4\.     Cấu hình chunking — Cách chia nhỏ tài liệu:

<table data-header-hidden><thead><tr><th valign="top"></th><th valign="top"></th><th valign="top"></th></tr></thead><tbody><tr><td valign="top">Phương pháp</td><td valign="top">Mô tả</td><td valign="top">Khi nào dùng</td></tr><tr><td valign="top">Automatic</td><td valign="top">ClickAI tự chia tối ưu</td><td valign="top">Hầu hết trường hợp</td></tr><tr><td valign="top">Custom</td><td valign="top">Tùy chỉnh separator, chunk size</td><td valign="top">Tài liệu có cấu trúc đặc biệt</td></tr><tr><td valign="top">Parent-Child</td><td valign="top">Chunks lớn chứa chunks nhỏ</td><td valign="top">Cần context rộng hơn</td></tr></tbody></table>

&#x20;

5\.     Chọn Embedding Model — Model chuyển text thành vector

6\.     Chọn Index Method — Phương pháp lập chỉ mục:

·       High Quality: Gọi Embedding Model (chính xác hơn, tốn token)

·       Economical: Dùng keyword indexing (tiết kiệm, kém chính xác hơn)

7\.     Nhấn "Save & Process" → Chờ indexing hoàn tất

### Cách 2: Knowledge Pipeline (Nâng cao)

Orchestrate quy trình xử lý dữ liệu phức tạp hơn với các bước tùy chỉnh và plugins.

·       Phù hợp khi cần tiền xử lý dữ liệu phức tạp

·       Hỗ trợ các plugin ETL (Extract-Transform-Load)

·       Quy trình có thể tái sử dụng

### Cách 3: External Knowledge Base

Kết nối trực tiếp với knowledge base bên ngoài qua API.

·       Tận dụng dữ liệu hiện có không cần di chuyển

·       Hỗ trợ các vector database: Pinecone, Weaviate, Qdrant, ...

·       Đồng bộ real-time

⚠️ IMPORTANT: Chất lượng Knowledge Base quyết định trực tiếp chất lượng phản hồi AI. Đầu tư thời gian chuẩn bị tài liệu sạch, có cấu trúc tốt.

&#x20;

## Quản lý & Tối ưu

### Quản lý nội dung

<table data-header-hidden><thead><tr><th valign="top"></th><th valign="top"></th></tr></thead><tbody><tr><td valign="top">Hành động</td><td valign="top">Mô tả</td></tr><tr><td valign="top">View documents</td><td valign="top">Xem danh sách tài liệu đã upload</td></tr><tr><td valign="top">Add documents</td><td valign="top">Thêm tài liệu mới</td></tr><tr><td valign="top">Edit chunks</td><td valign="top">Chỉnh sửa nội dung chunk</td></tr><tr><td valign="top">Enable/Disable</td><td valign="top">Bật/tắt document hoặc chunk</td></tr><tr><td valign="top">Delete</td><td valign="top">Xóa tài liệu không còn cần</td></tr><tr><td valign="top">Re-index</td><td valign="top">Lập chỉ mục lại khi thay đổi settings</td></tr></tbody></table>

&#x20;

### Test & Validate Retrieval

Kiểm tra chất lượng truy xuất trước khi tích hợp vào ứng dụng:

8\.     Mở Knowledge Base → Nhấn "Test Retrieval"

9\.     Nhập câu hỏi test (mô phỏng câu hỏi người dùng)

10\.  Nhấn "Run Test"

11\.  Xem kết quả:

·       Matched chunks — Các đoạn tài liệu được truy xuất

·       Relevance score — Điểm liên quan (0-1)

·       Source document — Tài liệu nguồn

💡 TIP: Test với nhiều câu hỏi đa dạng để đảm bảo Knowledge Base phủ đủ các chủ đề. Nếu relevance score thấp (<0.5), hãy xem xét cải thiện nội dung tài liệu.

### Metadata Enhancement

Thêm metadata vào documents để cải thiện độ chính xác khi retrieval:

Ví dụ Metadata:\
──────────────\
document: "Chính sách bảo hành 2024.pdf"\
metadata:\
&#x20; category: "policy"\
&#x20; department: "customer-service"\
&#x20; effective\_date: "2024-01-01"\
&#x20; language: "vi"

Metadata cho phép filter-based search, ví dụ: "Chỉ tìm trong tài liệu category=policy"

### Điều chỉnh Settings

Bạn có thể thay đổi bất kỳ lúc nào:

·       Index method — Chuyển giữa High Quality và Economical

·       Embedding model — Đổi model embedding khác

·       Retrieval strategy — Semantic Search, Full-text Search, hoặc Hybrid

&#x20;

<figure><img src="/files/4ROkvcCKXRnDROfuLV9h" alt=""><figcaption></figcaption></figure>

## Tích hợp vào ứng dụng

### Trong Chatbot / Agent

12\.  Mở ứng dụng trong Studio

13\.  Trong phần Context, nhấn "+ Add"

14\.  Chọn Knowledge Base cần kết nối

15\.  Cấu hình Retrieval Settings:

<table data-header-hidden><thead><tr><th valign="top"></th><th valign="top"></th><th valign="top"></th></tr></thead><tbody><tr><td valign="top">Setting</td><td valign="top">Mô tả</td><td valign="top">Giá trị khuyến nghị</td></tr><tr><td valign="top">Top K</td><td valign="top">Số chunks trả về</td><td valign="top">3-5</td></tr><tr><td valign="top">Score Threshold</td><td valign="top">Ngưỡng điểm tối thiểu</td><td valign="top">0.5-0.7</td></tr><tr><td valign="top">Retrieval Mode</td><td valign="top">Phương pháp tìm kiếm</td><td valign="top">Hybrid Search</td></tr></tbody></table>

&#x20;

### Trong Workflow / Chatflow

Sử dụng node "Knowledge Retrieval":

16\.  Kéo node Knowledge Retrieval vào canvas

17\.  Chọn Knowledge Base

18\.  Cấu hình query variable (thường là {{sys.query}})

19\.  Kết nối output đến node LLM làm context

&#x20;

<figure><img src="/files/6ODDQzTho6LNknu1BacM" alt=""><figcaption></figcaption></figure>

## Chiến lược Retrieval

### Semantic Search

Tìm kiếm dựa trên ý nghĩa ngữ cảnh, sử dụng embedding vectors.

·       ✅ Hiểu được câu hỏi đồng nghĩa

·       ❌ Có thể bỏ sót keyword chính xác

### Full-text Search

Tìm kiếm dựa trên từ khóa chính xác (keyword matching).

·       ✅ Chính xác với thuật ngữ cụ thể

·       ❌ Không hiểu ngữ cảnh

### Hybrid Search (Khuyến nghị)

Kết hợp cả Semantic + Full-text, sử dụng Rerank để sắp xếp kết quả.

·       ✅ Tận dụng ưu điểm cả 2 phương pháp

·       ✅ Độ chính xác cao nhất

📝 NOTE: \*\*Rerank\*\* là bước xử lý bổ sung sắp xếp lại kết quả retrieval theo mức độ liên quan. Bật Rerank khi sử dụng Hybrid Search để có kết quả tốt nhất.

&#x20;

*📖 Trước: \[Monitor]\(./03-monitor.md) · Tiếp: \[Workspace]*


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clickai.vn/clickai-docs/nha-phat-trien/quan-ly-co-so-du-lieu-tri-thuc.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
