Trình Trích Xuất Tham Số

Định Nghĩa

Các Mô Hình Ngôn Ngữ Lớn (LLMs) không thể đọc hoặc diễn giải nội dung tài liệu trực tiếp. Do đó, cần thiết phải phân tích và đọc thông tin từ các tài liệu được người dùng tải lên thông qua một nút trích xuất tài liệu, chuyển đổi nó thành văn bản và sau đó truyền nội dung cho LLM để xử lý nội dung của tệp.

Kịch Bản Ứng Dụng

  • Xây dựng các ứng dụng LLM có thể tương tác với các tệp, chẳng hạn như ChatPDF hoặc ChatWord.

  • Phân tích và kiểm tra nội dung của các tệp được người dùng tải lên.

Chức Năng của Nút

Nút trích xuất tài liệu có thể hiểu như một trung tâm xử lý thông tin. Nó nhận diện và đọc các tệp trong các biến đầu vào, trích xuất thông tin và chuyển đổi nó thành các biến đầu ra kiểu chuỗi để các nút hạ tầng có thể gọi.

Trích Xuất Tài Liệu

Cấu Trúc Nút Trích Xuất Tài Liệu

Biến Đầu Vào

Nút trích xuất tài liệu chỉ chấp nhận các biến với các cấu trúc dữ liệu sau:

  • File, một tệp đơn

  • Array[File], nhiều tệp

Nút trích xuất tài liệu chỉ có thể trích xuất thông tin từ các tệp loại tài liệu, chẳng hạn như nội dung của các tệp định dạng TXT, Markdown, PDF, HTML, DOCX. Nó không thể xử lý hình ảnh, âm thanh, video hoặc các định dạng tệp khác.

Biến Đầu Ra

Biến đầu ra là cố định và được đặt tên là text. Loại biến đầu ra phụ thuộc vào biến đầu vào:

  • Nếu biến đầu vào là File, biến đầu ra sẽ là kiểu chuỗi (string).

  • Nếu biến đầu vào là Array[File], biến đầu ra sẽ là kiểu mảng chuỗi (array[string]).

  • Các biến mảng thường cần được sử dụng kết hợp với các nút thao tác danh sách. Để biết hướng dẫn chi tiết, vui lòng tham khảo nút thao tác danh sách.

Ví Dụ Cấu Hình

Trong một kịch bản câu hỏi & trả lời tương tác với tệp điển hình, nút trích xuất tài liệu có thể đóng vai trò như một bước sơ bộ cho nút LLM, trích xuất thông tin từ tệp của ứng dụng và chuyển nó cho nút LLM hạ tầng để trả lời các câu hỏi của người dùng về tệp.

Phần này sẽ giới thiệu cách sử dụng nút trích xuất tài liệu thông qua một mẫu workflow ví dụ về

ChatPDF.

Workflow ChatPDF

Quy Trình Cấu Hình:

  1. Bật tính năng tải lên tệp cho ứng dụng. Thêm một biến tệp đơn trong nút "Bắt đầu" và đặt tên là pdf.

  2. Thêm một nút trích xuất tài liệu và chọn biến pdf trong các biến đầu vào.

  3. Thêm một nút LLM và chọn biến đầu ra của nút trích xuất tài liệu trong hệ thống thông báo (system prompt). LLM có thể đọc nội dung của tệp thông qua biến đầu ra này.

Cấu hình nút kết thúc bằng cách chọn biến đầu ra của nút LLM trong nút kết thúc.

Trò Chuyện với PDF

Sau khi cấu hình, ứng dụng sẽ có chức năng tải lên tệp, cho phép người dùng tải lên các tệp PDF và tham gia vào cuộc trò chuyện.

Last updated