(SeaPRwire) – Phân đoạn dữ liệu theo cấp bậc thông minh là quá trình chuẩn bị dữ liệu tối ưu cho việc nhúng cơ sở dữ liệu vector
Berlin, BERLIN, ngày 16 tháng 3 năm 2026 — POMA AI, một công ty thông tin tài liệu có trụ sở tại Berlin, hôm nay đã phát hành POMA-OfficeQA, một tiêu chuẩn mã nguồn mở chứng minh rằng phương pháp phân đoạn tài liệu có nhận biết cấu trúc của công ty giảm chi phí truy xuất RAG đi 77% so với cả phương pháp chia văn bản đơn giản và phương pháp trích xuất phần tử của Unstructured.io.

Ngay từ đầu, POMA PrimeCut sử dụng ít hơn 77% lượng mã thông báo so với các mô hình truyền thống. Con số này tăng lên đến 83% khi sử dụng trong các cấu hình tùy chỉnh.
“Mọi hệ thống RAG đang được sử dụng hiện nay đều mất đi thông tin trước khi mô hình thậm chí còn nhìn thấy nó,” ông Tiến sĩ Alexander Kihm, người sáng lập và Giám đốc Gieneral của POMA AI, cho biết. “Ngành công nghiệp đã一直在 tối ưu hóa việc nhúng, xếp hạng lại và kỹ thuật tạo lời nhắc, nhưng tầng nhập liệu là nơi mà hầu hết các lỗi truy xuất thực sự bắt nguồn. Tiêu chuẩn này định lượng những gì các chuyên gia đã cảm nhận trực quan: phân đoạn có nhận biết cấu trúc là nền tảng để mọi thứ ở phần sau hoạt động hiệu quả.”
Tiêu chuẩn đầy đủ, có sẵn trên GitHub, đã kiểm tra ba chiến lược phân đoạn tài liệu cho Tạo Dữ liệu Bổ Sung Bằng Truy Xuất (RAG) bằng cách sử dụng các nhúng giống nhau, logic truy xuất giống nhau và 20 câu hỏi tra cứu bảng trên 14 Báo Cáo Kho bạc Hoa Kỳ (~2.150 trang). Bài kiểm tra đo lường khả năng truy xuất tất cả các bằng chứng cần thiết để trả lời chính xác các câu hỏi về sự kiện của từng phương pháp, với chỉ số (tái gọi ngữ cảnh) xác định ngân sách mã thông báo tối thiểu mà một hệ thống truy xuất cần để đảm bảo tất cả các bằng chứng đều có sẵn trong ngữ cảnh được truy xuất.
Kết quả cho thấy rằng phương pháp phân đoạn theo cấp bậc của POMA – giữ nguyên cấu trúc tài liệu bao gồm tiêu đề bảng, thứ bậc phần và mối quan hệ ngữ nghĩa giữa các phần tử nội dung – cần ít hơn 77% lượng mã thông báo để đạt được 100% tái gọi ngữ cảnh:
- Mức cơ sở (phân đoạn đơn giản với 500 mã thông báo, 100 phần trùng lặp): 1,45 triệu
- Unstructured.io (trích xuất phần tử): 1,48 triệu
- POMA AI (có nhận biết cấu trúc): 340 nghìn
Tất cả các phương pháp đều sử dụng mô hình text-embedding-3-large của OpenAI để nhúng và độ tương tự cosine để xếp hạng truy xuất. Điểm chuẩn được xác định bằng cách sử dụng các chỉ số phân đoạn chính xác được xác minh so với các tài liệu nguồn – loại bỏ các kết quả dương tính giả do sự trùng khớp số ngẫu nhiên. Chỉ các câu hỏi có thể được trả lời bởi cả ba phương pháp mới được bao gồm, đảm bảo sự so sánh công bằng. Các câu hỏi mà bất kỳ phương pháp nào gặp lỗi trích xuất (lỗi OCR, giá trị thiếu) đều bị loại bỏ.
“Điều khiến chúng tôi tin tưởng vào POMA là sự nghiêm túc trong kỹ thuật đằng sau một nhận thức đơn giản nhưng có sức thuyết phục,” ông Till Faida, đồng sáng lập của AdBlock, một nhà đầu tư và cố vấn cho POMA AI, cho biết. “Họ đã tập trung vào tầng nhập liệu, phần của luồng xử lý mà mọi người cho rằng là vấn đề đã được giải quyết. Tiêu chuẩn này cho thấy không phải vậy. Giảm 77% lượng mã thông báo thay đổi nền kinh tế khi chạy RAG trên quy mô doanh nghiệp. Đó là loại lợi thế cấu trúc mà chúng tôi tìm kiếm.”
GIỚI THIỆU VỀ POMA AI: POMA AI là một công ty thông tin tài liệu có trụ sở tại Berlin, đang xây dựng cơ sở hạ tầng cho các hệ thống RAG doanh nghiệp. Công nghệ cốt lõi của công ty biến các tài liệu phức tạp thành các phần có ý nghĩa ngữ nghĩa sẵn sàng cho việc tìm kiếm vector và sử dụng bởi mô hình ngôn ngữ lớn. API của POMA xử lý các tài liệu trong một cuộc gọi duy nhất và xuất ra cả các phần chi tiết và các tập hợp phần được nhóm lại, tương thích với bất kỳ mô hình nhúng và kho vector nào. Bản demo miễn phí có sẵn trên trang web của POMA AI. Thông tin bổ sung về POMA AI có thể được tìm thấy trên LinkedIn hoặc X (Twitter).

Nhúng có nhận biết cấu trúc của POMA PrimeCut cho thấy cải thiện gấp 119 lần so với nhúng chỉ dựa trên ngữ cảnh.
Liên Hệ Báo Chí
Florian Athens
fa [at] poma-ai.com
https://poma-ai.com
Bài viết được cung cấp bởi nhà cung cấp nội dung bên thứ ba. SeaPRwire (https://www.seaprwire.com/) không đưa ra bảo đảm hoặc tuyên bố liên quan đến điều đó.
Lĩnh vực: Tin nổi bật, Tin tức hàng ngày
SeaPRwire cung cấp phát hành thông cáo báo chí thời gian thực cho các công ty và tổ chức, tiếp cận hơn 6.500 cửa hàng truyền thông, 86.000 biên tập viên và nhà báo, và 3,5 triệu máy tính để bàn chuyên nghiệp tại 90 quốc gia. SeaPRwire hỗ trợ phân phối thông cáo báo chí bằng tiếng Anh, tiếng Hàn, tiếng Nhật, tiếng Ả Rập, tiếng Trung Giản thể, tiếng Trung Truyền thống, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai, tiếng Đức, tiếng Nga, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và các ngôn ngữ khác.
