Tạo Knowledge từ Pipeline

Orchestrate quy trình xử lý dữ liệu phức tạp với các bước tùy chỉnh và plugins cho nhu cầu nâng cao.

Mục lục

· [Tổng quan](#tổng-quan)

· [Bước 1: Tạo Knowledge Pipeline](#bước-1-tạo-knowledge-pipeline)

· [Bước 2: Orchestrate Knowledge Pipeline](#bước-2-orchestrate-knowledge-pipeline)

· [Bước 3: Publish Knowledge Pipeline](#bước-3-publish-knowledge-pipeline)

· [Bước 4: Upload Files](#bước-4-upload-files)

· [Bước 5: Quản lý và Sử dụng Knowledge Base](#bước-5-quản-lý-và-sử-dụng-knowledge-base)

· [Authorize Data Source](#authorize-data-source)

Tổng quan

Knowledge Pipeline là phương pháp nâng cao để tạo Knowledge Base, cho phép bạn thiết kế quy trình xử lý dữ liệu tùy chỉnh. So với Quick Create, Knowledge Pipeline cung cấp:

· Quy trình linh hoạt: Tùy chỉnh từng bước xử lý dữ liệu

· Plugin support: Sử dụng plugins để extract, transform và load dữ liệu

· Tái sử dụng: Pipeline đã tạo có thể sử dụng lại cho nhiều Knowledge Base

· Xử lý phức tạp: Phù hợp cho dữ liệu cần tiền xử lý đặc biệt (OCR, trích xuất bảng, v.v.)

💡 TIP: Nếu bạn mới bắt đầu, hãy sử dụng Quick Create trước. Knowledge Pipeline phù hợp khi bạn cần kiểm soát chi tiết hơn quá trình xử lý dữ liệu.

Bước 1: Tạo Knowledge Pipeline

1. Vào Knowledge từ sidebar

2. Nhấn Create Knowledge > chọn Create from Knowledge Pipeline

3. Đặt tên và mô tả cho Pipeline

4. Nhấn Create để tiếp tục

Bước 2: Orchestrate Knowledge Pipeline

Trong giao diện pipeline editor, bạn có thể:

Thêm các bước xử lý

· Data Source: Chọn nguồn dữ liệu đầu vào (local files, cloud storage, v.v.)

· Document Extractor: Plugin trích xuất nội dung từ tài liệu (PDF parser, OCR, v.v.)

· Text Splitter: Cấu hình cách chia văn bản thành chunks

· Embedder: Chọn embedding model để tạo vectors

· Custom Processors: Thêm các bước xử lý tùy chỉnh

Kết nối các bước

· Kéo thả để kết nối các nodes

· Cấu hình tham số cho từng bước

· Xem trước kết quả tại mỗi bước

⚠️ IMPORTANT: Đảm bảo các bước được kết nối đúng thứ tự. Data Source → Extractor → Splitter → Embedder.

Bước 3: Publish Knowledge Pipeline

5. Sau khi orchestrate xong, nhấn Publish

6. Pipeline sẽ được lưu và sẵn sàng sử dụng

7. Bạn có thể chỉnh sửa và re-publish bất kỳ lúc nào

Bước 4: Upload Files

8. Trong Knowledge Base đã tạo, nhấn Add Documents

9. Upload files cần xử lý

10. Pipeline sẽ tự động áp dụng quy trình đã cấu hình

11. Chờ quá trình xử lý hoàn tất

Bước 5: Quản lý và Sử dụng Knowledge Base

Sau khi pipeline xử lý xong, Knowledge Base hoạt động giống như Knowledge Base tạo bằng Quick Create:

· Xem và quản lý documents & chunks

· Test retrieval

· Tích hợp vào ứng dụng

Authorize Data Source

Nếu pipeline cần truy cập nguồn dữ liệu bên ngoài (Google Drive, Dropbox, S3, v.v.), bạn cần cấp quyền truy cập:

12. Vào Settings của Pipeline

13. Nhấn Authorize Data Source

14. Chọn nguồn dữ liệu và hoàn tất ủy quyền

15. Sau khi ủy quyền, pipeline có thể tự động kéo dữ liệu từ nguồn

📝 NOTE: Token ủy quyền có thời hạn. Kiểm tra và gia hạn định kỳ để đảm bảo pipeline hoạt động liên tục.

📖 Trước: [Index Method & Retrieval Settings](./04-index-retrieval-settings.md) · Tiếp: [Kết nối External Knowledge](./06-external-knowledge.md)

Last updated