Trình Trích Xuất Tham Số
Last updated
Last updated
Các Mô Hình Ngôn Ngữ Lớn (LLMs) không thể đọc hoặc diễn giải nội dung tài liệu trực tiếp. Do đó, cần thiết phải phân tích và đọc thông tin từ các tài liệu được người dùng tải lên thông qua một nút trích xuất tài liệu, chuyển đổi nó thành văn bản và sau đó truyền nội dung cho LLM để xử lý nội dung của tệp.
Xây dựng các ứng dụng LLM có thể tương tác với các tệp, chẳng hạn như ChatPDF hoặc ChatWord.
Phân tích và kiểm tra nội dung của các tệp được người dùng tải lên.
Nút trích xuất tài liệu có thể hiểu như một trung tâm xử lý thông tin. Nó nhận diện và đọc các tệp trong các biến đầu vào, trích xuất thông tin và chuyển đổi nó thành các biến đầu ra kiểu chuỗi để các nút hạ tầng có thể gọi.
Cấu Trúc Nút Trích Xuất Tài Liệu
Biến Đầu Vào
Nút trích xuất tài liệu chỉ chấp nhận các biến với các cấu trúc dữ liệu sau:
File, một tệp đơn
Array[File], nhiều tệp
Nút trích xuất tài liệu chỉ có thể trích xuất thông tin từ các tệp loại tài liệu, chẳng hạn như nội dung của các tệp định dạng TXT, Markdown, PDF, HTML, DOCX. Nó không thể xử lý hình ảnh, âm thanh, video hoặc các định dạng tệp khác.
Biến Đầu Ra
Biến đầu ra là cố định và được đặt tên là text
. Loại biến đầu ra phụ thuộc vào biến đầu vào:
Nếu biến đầu vào là File, biến đầu ra sẽ là kiểu chuỗi (string).
Nếu biến đầu vào là Array[File], biến đầu ra sẽ là kiểu mảng chuỗi (array[string]).
Các biến mảng thường cần được sử dụng kết hợp với các nút thao tác danh sách. Để biết hướng dẫn chi tiết, vui lòng tham khảo nút thao tác danh sách.
Trong một kịch bản câu hỏi & trả lời tương tác với tệp điển hình, nút trích xuất tài liệu có thể đóng vai trò như một bước sơ bộ cho nút LLM, trích xuất thông tin từ tệp của ứng dụng và chuyển nó cho nút LLM hạ tầng để trả lời các câu hỏi của người dùng về tệp.
Phần này sẽ giới thiệu cách sử dụng nút trích xuất tài liệu thông qua một mẫu workflow ví dụ về
ChatPDF.
Quy Trình Cấu Hình:
Bật tính năng tải lên tệp cho ứng dụng. Thêm một biến tệp đơn trong nút "Bắt đầu" và đặt tên là pdf
.
Thêm một nút trích xuất tài liệu và chọn biến pdf
trong các biến đầu vào.
Thêm một nút LLM và chọn biến đầu ra của nút trích xuất tài liệu trong hệ thống thông báo (system prompt). LLM có thể đọc nội dung của tệp thông qua biến đầu ra này.
Cấu hình nút kết thúc bằng cách chọn biến đầu ra của nút LLM trong nút kết thúc.
Sau khi cấu hình, ứng dụng sẽ có chức năng tải lên tệp, cho phép người dùng tải lên các tệp PDF và tham gia vào cuộc trò chuyện.