Cấu hình Chunk
Tìm hiểu cách chia nhỏ tài liệu thành các chunks (hộp chứa) phù hợp để tối ưu hóa khả năng truy xuất thông tin.
Mục lục
· [Chunking là gì?](#chunking-là-gì)
· [Chọn Chunk Mode](#chọn-chunk-mode)
· [Tiền xử lý văn bản trước khi Chunking](#tiền-xử-lý-văn-bản-trước-khi-chunking)
· [Bật Summary Auto-Gen](#bật-summary-auto-gen)
· [Xem trước Chunks](#xem-trước-chunks)
Chunking là gì?
Chunking là quá trình chia nhỏ tài liệu dài thành các đoạn văn bản ngắn hơn (gọi là "chunks"). Đây là bước quan trọng trong việc xây dựng Knowledge Base vì:
· Chunks quá dài có thể chứa thông tin không liên quan, gây nhiễu khi truy xuất
· Chunks quá ngắn có thể thiếu context, dẫn đến câu trả lời không đầy đủ
· Chunks được chia đúng cách giúp retrieval chính xác hơn
Hai khái niệm quan trọng:
· Delimiter (Ký tự phân tách): Ký tự hoặc chuỗi ký tự tại vị trí văn bản được cắt. Ví dụ, \n\n cắt tại ngắt đoạn, \n cắt tại ngắt dòng.
📝 NOTE: Delimiter bị loại bỏ trong quá trình chunking. Ví dụ, dùng `A` làm delimiter sẽ chia `CBACD` thành `CB` và `CD`. Để tránh mất thông tin, hãy sử dụng ký tự không xuất hiện tự nhiên trong tài liệu.
· Maximum Chunk Length (Độ dài chunk tối đa): Kích thước tối đa của mỗi chunk tính bằng ký tự. Văn bản vượt quá giới hạn này sẽ bị cắt bắt buộc bất kể cấu hình delimiter.
Chọn Chunk Mode
ClickAI cung cấp 4 chế độ chunking:
Tổng quan các mode
Mode
Mô tả
Khi nào dùng
General
Chia theo delimiter và kích thước tối đa. Linh hoạt và phù hợp hầu hết trường hợp.
Tài liệu thông thường, FAQ, hướng dẫn
Parent-Child
Tạo chunks lớn (parent) chứa chunks nhỏ (child). Retrieval theo child nhưng trả về parent chunk đầy đủ hơn.
Tài liệu kỹ thuật, tài liệu cần context rộng
Paragraph
Chia theo đoạn văn tự nhiên.
Tài liệu có cấu trúc đoạn rõ ràng
Full Doc
Giữ nguyên toàn bộ tài liệu như một chunk duy nhất.
Tài liệu ngắn, policy documents
So sánh nhanh
Tiêu chí
General
Parent-Child
Paragraph
Full Doc
Độ linh hoạt
Cao
Trung bình
Thấp
Thấp
Context rộng
Trung bình
Cao
Trung bình
Rất cao
Độ chính xác retrieval
Cao
Rất cao
Cao
Thấp
Phù hợp tài liệu dài
✅
✅
✅
❌
Phù hợp tài liệu ngắn
✅
❌
✅
✅
Lưu ý về Parent-Child Mode
· Chỉ 10,000 token đầu tiên được xử lý. Nội dung vượt quá giới hạn sẽ bị cắt bớt.
· Parent chunk không thể chỉnh sửa sau khi tạo. Để thay đổi, bạn phải upload tài liệu mới.
⚠️ IMPORTANT: Chọn chunk mode phù hợp là bước quan trọng ảnh hưởng trực tiếp đến chất lượng retrieval. Hãy thử nghiệm với các mode khác nhau và sử dụng chức năng Test Retrieval để đánh giá kết quả.
Tiền xử lý văn bản trước khi Chunking
ClickAI cung cấp các tùy chọn tiền xử lý để làm sạch văn bản trước khi chunking:
Replace consecutive spaces, newlines, and tabs
Tự động chuẩn hóa khoảng trắng:
· Ba hoặc nhiều dòng trống liên tiếp → hai dòng trống
· Nhiều khoảng trắng → một khoảng trắng
· Tab, form feed, và ký tự Unicode đặc biệt → khoảng trắng thường
Remove all URLs and email addresses
Loại bỏ tất cả URL và địa chỉ email khỏi nội dung văn bản.
📝 NOTE: Tùy chọn này bị bỏ qua khi sử dụng Full Doc mode.
Bật Summary Auto-Gen
Khi bật Summary Auto-Gen, ClickAI sẽ tự động tạo tóm tắt cho mỗi chunk bằng LLM. Summary giúp:
· Cải thiện khả năng retrieval khi câu hỏi người dùng khác biệt so với ngôn ngữ tài liệu
· Bổ sung thông tin ở mức cao cho các chunk chứa nội dung kỹ thuật (code, bảng, log)
· Tạo "semantic glue" — áp dụng summary giống nhau cho các chunks liên quan để hỗ trợ grouped retrieval
💡 TIP: Summary Auto-Gen đặc biệt hữu ích khi tài liệu nguồn sử dụng ngôn ngữ chuyên ngành nhưng người dùng hỏi bằng ngôn ngữ tự nhiên thông thường.
Xem trước Chunks
Sau khi cấu hình chunk settings, nhấn Preview để xem trước kết quả:
· Xem cách tài liệu được chia thành các chunks
· Kiểm tra nội dung từng chunk
· Điều chỉnh cấu hình nếu kết quả chưa đạt yêu cầu
Kiểm tra chất lượng chunk:
· Chunks quá ngắn → Có thể thiếu context, dẫn đến mất ý nghĩa ngữ cảnh và câu trả lời không chính xác
· Chunks quá dài → Có thể chứa thông tin không liên quan, gây nhiễu ngữ nghĩa và giảm độ chính xác
· Chunks không hoàn chỉnh ngữ nghĩa → Chunking bắt buộc cắt qua câu hoặc đoạn, dẫn đến nội dung bị thiếu hoặc sai lệch
⚠️ IMPORTANT: Luôn xem trước và kiểm tra chất lượng chunks trước khi tiến hành indexing. Việc re-index sau này tốn thêm thời gian và tài nguyên.
📖 Trước: [Quick Create — Tổng quan](./02-quick-create-overview.md) · Tiếp: [Index Method & Retrieval Settings](./04-index-retrieval-settings.md)
Last updated