งานวิจัยชิ้นนี้มุ่งเน้นไปที่การลดช่องว่างระหว่างงานวิจัยโมเดลกับความต้องการของระบบในระดับการผลิตจริง โดยนำเสนอสถาปัตยกรรม Microservice ที่ออกแบบมาเพื่อรองรับการประมวลผลเอกสารหลายหน้าจำนวนหลายพันฉบับต่อชั่วโมง ระบบประกอบด้วยการทำงานร่วมกันของโมเดลการจัดประเภท (Classification), OCR และการดึงข้อมูลโดยใช้ LLM
สิ่งที่น่าสนใจจากการทดลองใช้งานจริงคือ ข้อสรุปที่ว่าคอขวดของระบบอยู่ที่ขั้นตอน OCR ไม่ใช่ขั้นตอนการประมวลผลของโมเดลภาษา และประสิทธิภาพของระบบจะถูกจำกัดด้วยความสามารถในการประมวลผลของ GPU (Shared GPU capacity) มากกว่าจำนวนเอเจนต์ที่ทำงาน สถาปัตยกรรมที่นำเสนอจึงเน้นการประมวลผลแบบ Asynchronous และการขยายระบบในแนวราบเพื่อให้ทำงานได้จริงนอกเหนือจากในห้องทดลอง