Quản lý cơ sở dữ liệu tri thức

Xây dựng và quản lý kho kiến thức để AI trả lời chính xác dựa trên dữ liệu riêng của bạn. ClickAI Knowledge Base

Mục lục

· [Giới thiệu RAG](#giới-thiệu-rag)

· [Ứng dụng thực tế](#ứng-dụng-thực-tế)

· [Tạo Knowledge Base](#tạo-knowledge-base)

· [Quản lý & Tối ưu](#quản-lý--tối-ưu)

· [Tích hợp vào ứng dụng](#tích-hợp-vào-ứng-dụng)

· [Chiến lược Retrieval](#chiến-lược-retrieval)

Giới thiệu RAG

RAG (Retrieval-Augmented Generation) là kiến trúc cốt lõi của hệ thống Knowledge trong ClickAI:

┌─────────────────────────────────────────────────┐ │ 1. RETRIEVAL (Truy xuất) │ │ Khi người dùng hỏi, hệ thống tìm kiếm │ │ thông tin liên quan từ Knowledge Base │ ├─────────────────────────────────────────────────┤ │ 2. AUGMENTED (Bổ sung) │ │ Thông tin tìm được kết hợp với câu hỏi │ │ gốc → gửi đến LLM như context mở rộng │ ├─────────────────────────────────────────────────┤ │ 3. GENERATION (Sinh câu trả lời) │ │ LLM sử dụng context này để tạo câu trả lời │ │ chính xác và có căn cứ │ └─────────────────────────────────────────────────┘

💡 TIP: RAG giúp AI trả lời dựa trên dữ liệu cập nhật của bạn thay vì chỉ dựa trên kiến thức pre-training, giảm thiểu hallucination đáng kể.

Ứng dụng thực tế

Use-case

Mô tả

Customer Support Bot

Trả lời chính xác từ tài liệu sản phẩm, FAQ, hướng dẫn xử lý lỗi

Internal Knowledge Portal

AI search & Q&A cho nhân viên truy cập chính sách, quy trình công ty

Content Generation

Tạo báo cáo, bài viết, email dựa trên tài liệu nền

Research & Analysis

Truy xuất và tóm tắt từ kho tài liệu nghiên cứu, báo cáo thị trường

Tạo Knowledge Base

ClickAI cung cấp 3 cách tạo Knowledge Base:

Cách 1: Quick Create (Khuyến nghị cho người mới)

Cách nhanh nhất — import dữ liệu, định nghĩa quy tắc xử lý, ClickAI lo phần còn lại.

Bước thực hiện:

1. Vào Knowledge từ sidebar → Nhấn "+ Create Knowledge"

2. Đặt tên và mô tả cho Knowledge Base

3. Upload tài liệu — Hỗ trợ các định dạng:

Định dạng

Loại

.pdf

Tài liệu PDF

.docx .doc

Microsoft Word

.txt

Văn bản thuần

.md

Markdown

.csv

Bảng dữ liệu

.html

Trang web

.xlsx

Excel

4. Cấu hình chunking — Cách chia nhỏ tài liệu:

Phương pháp

Mô tả

Khi nào dùng

Automatic

ClickAI tự chia tối ưu

Hầu hết trường hợp

Custom

Tùy chỉnh separator, chunk size

Tài liệu có cấu trúc đặc biệt

Parent-Child

Chunks lớn chứa chunks nhỏ

Cần context rộng hơn

5. Chọn Embedding Model — Model chuyển text thành vector

6. Chọn Index Method — Phương pháp lập chỉ mục:

· High Quality: Gọi Embedding Model (chính xác hơn, tốn token)

· Economical: Dùng keyword indexing (tiết kiệm, kém chính xác hơn)

7. Nhấn "Save & Process" → Chờ indexing hoàn tất

Cách 2: Knowledge Pipeline (Nâng cao)

Orchestrate quy trình xử lý dữ liệu phức tạp hơn với các bước tùy chỉnh và plugins.

· Phù hợp khi cần tiền xử lý dữ liệu phức tạp

· Hỗ trợ các plugin ETL (Extract-Transform-Load)

· Quy trình có thể tái sử dụng

Cách 3: External Knowledge Base

Kết nối trực tiếp với knowledge base bên ngoài qua API.

· Tận dụng dữ liệu hiện có không cần di chuyển

· Hỗ trợ các vector database: Pinecone, Weaviate, Qdrant, ...

· Đồng bộ real-time

⚠️ IMPORTANT: Chất lượng Knowledge Base quyết định trực tiếp chất lượng phản hồi AI. Đầu tư thời gian chuẩn bị tài liệu sạch, có cấu trúc tốt.

Quản lý & Tối ưu

Quản lý nội dung

Hành động

Mô tả

View documents

Xem danh sách tài liệu đã upload

Add documents

Thêm tài liệu mới

Edit chunks

Chỉnh sửa nội dung chunk

Enable/Disable

Bật/tắt document hoặc chunk

Delete

Xóa tài liệu không còn cần

Re-index

Lập chỉ mục lại khi thay đổi settings

Test & Validate Retrieval

Kiểm tra chất lượng truy xuất trước khi tích hợp vào ứng dụng:

8. Mở Knowledge Base → Nhấn "Test Retrieval"

9. Nhập câu hỏi test (mô phỏng câu hỏi người dùng)

10. Nhấn "Run Test"

11. Xem kết quả:

· Matched chunks — Các đoạn tài liệu được truy xuất

· Relevance score — Điểm liên quan (0-1)

· Source document — Tài liệu nguồn

💡 TIP: Test với nhiều câu hỏi đa dạng để đảm bảo Knowledge Base phủ đủ các chủ đề. Nếu relevance score thấp (<0.5), hãy xem xét cải thiện nội dung tài liệu.

Metadata Enhancement

Thêm metadata vào documents để cải thiện độ chính xác khi retrieval:

Ví dụ Metadata: ────────────── document: "Chính sách bảo hành 2024.pdf" metadata: category: "policy" department: "customer-service" effective_date: "2024-01-01" language: "vi"

Metadata cho phép filter-based search, ví dụ: "Chỉ tìm trong tài liệu category=policy"

Điều chỉnh Settings

Bạn có thể thay đổi bất kỳ lúc nào:

· Index method — Chuyển giữa High Quality và Economical

· Embedding model — Đổi model embedding khác

· Retrieval strategy — Semantic Search, Full-text Search, hoặc Hybrid

Tích hợp vào ứng dụng

Trong Chatbot / Agent

12. Mở ứng dụng trong Studio

13. Trong phần Context, nhấn "+ Add"

14. Chọn Knowledge Base cần kết nối

15. Cấu hình Retrieval Settings:

Setting

Mô tả

Giá trị khuyến nghị

Top K

Số chunks trả về

3-5

Score Threshold

Ngưỡng điểm tối thiểu

0.5-0.7

Retrieval Mode

Phương pháp tìm kiếm

Hybrid Search

Trong Workflow / Chatflow

Sử dụng node "Knowledge Retrieval":

16. Kéo node Knowledge Retrieval vào canvas

17. Chọn Knowledge Base

18. Cấu hình query variable (thường là {{sys.query}})

19. Kết nối output đến node LLM làm context

Chiến lược Retrieval

Tìm kiếm dựa trên ý nghĩa ngữ cảnh, sử dụng embedding vectors.

· ✅ Hiểu được câu hỏi đồng nghĩa

· ❌ Có thể bỏ sót keyword chính xác

Tìm kiếm dựa trên từ khóa chính xác (keyword matching).

· ✅ Chính xác với thuật ngữ cụ thể

· ❌ Không hiểu ngữ cảnh

Hybrid Search (Khuyến nghị)

Kết hợp cả Semantic + Full-text, sử dụng Rerank để sắp xếp kết quả.

· ✅ Tận dụng ưu điểm cả 2 phương pháp

· ✅ Độ chính xác cao nhất

📝 NOTE: **Rerank** là bước xử lý bổ sung sắp xếp lại kết quả retrieval theo mức độ liên quan. Bật Rerank khi sử dụng Hybrid Search để có kết quả tốt nhất.

📖 Trước: [Monitor](./03-monitor.md) · Tiếp: [Workspace]

Last updated