> For the complete documentation index, see [llms.txt](https://docs.clickai.vn/clickai-docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clickai.vn/clickai-docs/co-so-du-lieu/cau-hinh-chunk.md).

# Cấu hình Chunk

## Mục lục

·       \[Chunking là gì?]\(#chunking-là-gì)

·       \[Chọn Chunk Mode]\(#chọn-chunk-mode)

·       \[Tiền xử lý văn bản trước khi Chunking]\(#tiền-xử-lý-văn-bản-trước-khi-chunking)

·       \[Bật Summary Auto-Gen]\(#bật-summary-auto-gen)

·       \[Xem trước Chunks]\(#xem-trước-chunks)

&#x20;

## Chunking là gì?

Chunking là quá trình chia nhỏ tài liệu dài thành các đoạn văn bản ngắn hơn (gọi là "chunks"). Đây là bước quan trọng trong việc xây dựng Knowledge Base vì:

·       Chunks quá dài có thể chứa thông tin không liên quan, gây nhiễu khi truy xuất

·       Chunks quá ngắn có thể thiếu context, dẫn đến câu trả lời không đầy đủ

·       Chunks được chia đúng cách giúp retrieval chính xác hơn

Hai khái niệm quan trọng:

·       Delimiter (Ký tự phân tách): Ký tự hoặc chuỗi ký tự tại vị trí văn bản được cắt. Ví dụ, \n\n cắt tại ngắt đoạn, \n cắt tại ngắt dòng.

📝 NOTE: Delimiter bị loại bỏ trong quá trình chunking. Ví dụ, dùng \`A\` làm delimiter sẽ chia \`CBACD\` thành \`CB\` và \`CD\`. Để tránh mất thông tin, hãy sử dụng ký tự không xuất hiện tự nhiên trong tài liệu.

·       Maximum Chunk Length (Độ dài chunk tối đa): Kích thước tối đa của mỗi chunk tính bằng ký tự. Văn bản vượt quá giới hạn này sẽ bị cắt bắt buộc bất kể cấu hình delimiter.

&#x20;

## Chọn Chunk Mode

ClickAI cung cấp 4 chế độ chunking:

### Tổng quan các mode

<table data-header-hidden><thead><tr><th valign="top"></th><th valign="top"></th><th valign="top"></th></tr></thead><tbody><tr><td valign="top">Mode</td><td valign="top">Mô tả</td><td valign="top">Khi nào dùng</td></tr><tr><td valign="top">General</td><td valign="top">Chia theo delimiter và kích thước tối đa. Linh hoạt và phù hợp hầu hết trường hợp.</td><td valign="top">Tài liệu thông thường, FAQ, hướng dẫn</td></tr><tr><td valign="top">Parent-Child</td><td valign="top">Tạo chunks lớn (parent) chứa chunks nhỏ (child). Retrieval theo child nhưng trả về parent chunk đầy đủ hơn.</td><td valign="top">Tài liệu kỹ thuật, tài liệu cần context rộng</td></tr><tr><td valign="top">Paragraph</td><td valign="top">Chia theo đoạn văn tự nhiên.</td><td valign="top">Tài liệu có cấu trúc đoạn rõ ràng</td></tr><tr><td valign="top">Full Doc</td><td valign="top">Giữ nguyên toàn bộ tài liệu như một chunk duy nhất.</td><td valign="top">Tài liệu ngắn, policy documents</td></tr></tbody></table>

&#x20;

### So sánh nhanh

<table data-header-hidden><thead><tr><th valign="top"></th><th valign="top"></th><th valign="top"></th><th valign="top"></th><th valign="top"></th></tr></thead><tbody><tr><td valign="top">Tiêu chí</td><td valign="top">General</td><td valign="top">Parent-Child</td><td valign="top">Paragraph</td><td valign="top">Full Doc</td></tr><tr><td valign="top">Độ linh hoạt</td><td valign="top">Cao</td><td valign="top">Trung bình</td><td valign="top">Thấp</td><td valign="top">Thấp</td></tr><tr><td valign="top">Context rộng</td><td valign="top">Trung bình</td><td valign="top">Cao</td><td valign="top">Trung bình</td><td valign="top">Rất cao</td></tr><tr><td valign="top">Độ chính xác retrieval</td><td valign="top">Cao</td><td valign="top">Rất cao</td><td valign="top">Cao</td><td valign="top">Thấp</td></tr><tr><td valign="top">Phù hợp tài liệu dài</td><td valign="top">✅</td><td valign="top">✅</td><td valign="top">✅</td><td valign="top">❌</td></tr><tr><td valign="top">Phù hợp tài liệu ngắn</td><td valign="top">✅</td><td valign="top">❌</td><td valign="top">✅</td><td valign="top">✅</td></tr></tbody></table>

&#x20;

### Lưu ý về Parent-Child Mode

·       Chỉ 10,000 token đầu tiên được xử lý. Nội dung vượt quá giới hạn sẽ bị cắt bớt.

·       Parent chunk không thể chỉnh sửa sau khi tạo. Để thay đổi, bạn phải upload tài liệu mới.

⚠️ IMPORTANT: Chọn chunk mode phù hợp là bước quan trọng ảnh hưởng trực tiếp đến chất lượng retrieval. Hãy thử nghiệm với các mode khác nhau và sử dụng chức năng Test Retrieval để đánh giá kết quả.

&#x20;

## Tiền xử lý văn bản trước khi Chunking

ClickAI cung cấp các tùy chọn tiền xử lý để làm sạch văn bản trước khi chunking:

### Replace consecutive spaces, newlines, and tabs

Tự động chuẩn hóa khoảng trắng:

·       Ba hoặc nhiều dòng trống liên tiếp → hai dòng trống

·       Nhiều khoảng trắng → một khoảng trắng

·       Tab, form feed, và ký tự Unicode đặc biệt → khoảng trắng thường

### Remove all URLs and email addresses

Loại bỏ tất cả URL và địa chỉ email khỏi nội dung văn bản.

📝 NOTE: Tùy chọn này bị bỏ qua khi sử dụng Full Doc mode.

&#x20;

## Bật Summary Auto-Gen

Khi bật Summary Auto-Gen, ClickAI sẽ tự động tạo tóm tắt cho mỗi chunk bằng LLM. Summary giúp:

·       Cải thiện khả năng retrieval khi câu hỏi người dùng khác biệt so với ngôn ngữ tài liệu

·       Bổ sung thông tin ở mức cao cho các chunk chứa nội dung kỹ thuật (code, bảng, log)

·       Tạo "semantic glue" — áp dụng summary giống nhau cho các chunks liên quan để hỗ trợ grouped retrieval

💡 TIP: Summary Auto-Gen đặc biệt hữu ích khi tài liệu nguồn sử dụng ngôn ngữ chuyên ngành nhưng người dùng hỏi bằng ngôn ngữ tự nhiên thông thường.

&#x20;

## Xem trước Chunks

Sau khi cấu hình chunk settings, nhấn Preview để xem trước kết quả:

·       Xem cách tài liệu được chia thành các chunks

·       Kiểm tra nội dung từng chunk

·       Điều chỉnh cấu hình nếu kết quả chưa đạt yêu cầu

Kiểm tra chất lượng chunk:

·       Chunks quá ngắn → Có thể thiếu context, dẫn đến mất ý nghĩa ngữ cảnh và câu trả lời không chính xác

·       Chunks quá dài → Có thể chứa thông tin không liên quan, gây nhiễu ngữ nghĩa và giảm độ chính xác

·       Chunks không hoàn chỉnh ngữ nghĩa → Chunking bắt buộc cắt qua câu hoặc đoạn, dẫn đến nội dung bị thiếu hoặc sai lệch

⚠️ IMPORTANT: Luôn xem trước và kiểm tra chất lượng chunks trước khi tiến hành indexing. Việc re-index sau này tốn thêm thời gian và tài nguyên.

&#x20;

*📖 Trước: \[Quick Create — Tổng quan]\(./02-quick-create-overview\.md) · Tiếp: \[Index Method & Retrieval Settings]\(./04-index-retrieval-settings.md)*


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clickai.vn/clickai-docs/co-so-du-lieu/cau-hinh-chunk.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
