Cấu hình Chunk

Tìm hiểu cách chia nhỏ tài liệu thành các chunks (hộp chứa) phù hợp để tối ưu hóa khả năng truy xuất thông tin.

Mục lục

· [Chunking là gì?](#chunking-là-gì)

· [Chọn Chunk Mode](#chọn-chunk-mode)

· [Tiền xử lý văn bản trước khi Chunking](#tiền-xử-lý-văn-bản-trước-khi-chunking)

· [Bật Summary Auto-Gen](#bật-summary-auto-gen)

· [Xem trước Chunks](#xem-trước-chunks)

Chunking là gì?

Chunking là quá trình chia nhỏ tài liệu dài thành các đoạn văn bản ngắn hơn (gọi là "chunks"). Đây là bước quan trọng trong việc xây dựng Knowledge Base vì:

· Chunks quá dài có thể chứa thông tin không liên quan, gây nhiễu khi truy xuất

· Chunks quá ngắn có thể thiếu context, dẫn đến câu trả lời không đầy đủ

· Chunks được chia đúng cách giúp retrieval chính xác hơn

Hai khái niệm quan trọng:

· Delimiter (Ký tự phân tách): Ký tự hoặc chuỗi ký tự tại vị trí văn bản được cắt. Ví dụ, \n\n cắt tại ngắt đoạn, \n cắt tại ngắt dòng.

📝 NOTE: Delimiter bị loại bỏ trong quá trình chunking. Ví dụ, dùng `A` làm delimiter sẽ chia `CBACD` thành `CB` và `CD`. Để tránh mất thông tin, hãy sử dụng ký tự không xuất hiện tự nhiên trong tài liệu.

· Maximum Chunk Length (Độ dài chunk tối đa): Kích thước tối đa của mỗi chunk tính bằng ký tự. Văn bản vượt quá giới hạn này sẽ bị cắt bắt buộc bất kể cấu hình delimiter.

Chọn Chunk Mode

ClickAI cung cấp 4 chế độ chunking:

Tổng quan các mode

Mode

Mô tả

Khi nào dùng

General

Chia theo delimiter và kích thước tối đa. Linh hoạt và phù hợp hầu hết trường hợp.

Tài liệu thông thường, FAQ, hướng dẫn

Parent-Child

Tạo chunks lớn (parent) chứa chunks nhỏ (child). Retrieval theo child nhưng trả về parent chunk đầy đủ hơn.

Tài liệu kỹ thuật, tài liệu cần context rộng

Paragraph

Chia theo đoạn văn tự nhiên.

Tài liệu có cấu trúc đoạn rõ ràng

Full Doc

Giữ nguyên toàn bộ tài liệu như một chunk duy nhất.

Tài liệu ngắn, policy documents

So sánh nhanh

Tiêu chí

General

Parent-Child

Paragraph

Full Doc

Độ linh hoạt

Cao

Trung bình

Thấp

Thấp

Context rộng

Trung bình

Cao

Trung bình

Rất cao

Độ chính xác retrieval

Cao

Rất cao

Cao

Thấp

Phù hợp tài liệu dài

Phù hợp tài liệu ngắn

Lưu ý về Parent-Child Mode

· Chỉ 10,000 token đầu tiên được xử lý. Nội dung vượt quá giới hạn sẽ bị cắt bớt.

· Parent chunk không thể chỉnh sửa sau khi tạo. Để thay đổi, bạn phải upload tài liệu mới.

⚠️ IMPORTANT: Chọn chunk mode phù hợp là bước quan trọng ảnh hưởng trực tiếp đến chất lượng retrieval. Hãy thử nghiệm với các mode khác nhau và sử dụng chức năng Test Retrieval để đánh giá kết quả.

Tiền xử lý văn bản trước khi Chunking

ClickAI cung cấp các tùy chọn tiền xử lý để làm sạch văn bản trước khi chunking:

Replace consecutive spaces, newlines, and tabs

Tự động chuẩn hóa khoảng trắng:

· Ba hoặc nhiều dòng trống liên tiếp → hai dòng trống

· Nhiều khoảng trắng → một khoảng trắng

· Tab, form feed, và ký tự Unicode đặc biệt → khoảng trắng thường

Remove all URLs and email addresses

Loại bỏ tất cả URL và địa chỉ email khỏi nội dung văn bản.

📝 NOTE: Tùy chọn này bị bỏ qua khi sử dụng Full Doc mode.

Bật Summary Auto-Gen

Khi bật Summary Auto-Gen, ClickAI sẽ tự động tạo tóm tắt cho mỗi chunk bằng LLM. Summary giúp:

· Cải thiện khả năng retrieval khi câu hỏi người dùng khác biệt so với ngôn ngữ tài liệu

· Bổ sung thông tin ở mức cao cho các chunk chứa nội dung kỹ thuật (code, bảng, log)

· Tạo "semantic glue" — áp dụng summary giống nhau cho các chunks liên quan để hỗ trợ grouped retrieval

💡 TIP: Summary Auto-Gen đặc biệt hữu ích khi tài liệu nguồn sử dụng ngôn ngữ chuyên ngành nhưng người dùng hỏi bằng ngôn ngữ tự nhiên thông thường.

Xem trước Chunks

Sau khi cấu hình chunk settings, nhấn Preview để xem trước kết quả:

· Xem cách tài liệu được chia thành các chunks

· Kiểm tra nội dung từng chunk

· Điều chỉnh cấu hình nếu kết quả chưa đạt yêu cầu

Kiểm tra chất lượng chunk:

· Chunks quá ngắn → Có thể thiếu context, dẫn đến mất ý nghĩa ngữ cảnh và câu trả lời không chính xác

· Chunks quá dài → Có thể chứa thông tin không liên quan, gây nhiễu ngữ nghĩa và giảm độ chính xác

· Chunks không hoàn chỉnh ngữ nghĩa → Chunking bắt buộc cắt qua câu hoặc đoạn, dẫn đến nội dung bị thiếu hoặc sai lệch

⚠️ IMPORTANT: Luôn xem trước và kiểm tra chất lượng chunks trước khi tiến hành indexing. Việc re-index sau này tốn thêm thời gian và tài nguyên.

📖 Trước: [Quick Create — Tổng quan](./02-quick-create-overview.md) · Tiếp: [Index Method & Retrieval Settings](./04-index-retrieval-settings.md)

Last updated