งานวิจัยนี้ชี้ให้เห็นว่าแม้ระบบ AI Agent ที่ใช้โมเดลภาษาขนาดใหญ่ (LLM) จะทำงานได้ดีในโจทย์ระยะสั้นและระยะกลาง แต่ประสิทธิภาพมักจะลดลงอย่างมากเมื่อเผชิญกับงานระยะยาว (Long-horizon tasks) ที่ต้องใช้ลำดับการทำงานที่ต่อเนื่องและพึ่งพากัน เพื่อแก้ไขปัญหานี้ ผู้วิจัยจึงได้พัฒนา HORIZON ซึ่งเป็นเบนช์มาร์กมาตรฐานสำหรับตรวจวินิจฉัยพฤติกรรมของ Agent ในหลายโดเมน
จากการทดสอบกับโมเดลตระกูล GPT-5 และ Claude พบว่าการทำงานจะเสื่อมถอยลงตามระยะเวลาของงาน ผู้วิจัยได้เสนอแนวทาง 'LLM-as-a-Judge' เพื่อช่วยระบุสาเหตุความล้มเหลวโดยอัตโนมัติ ซึ่งสอดคล้องกับการประเมินโดยมนุษย์ในระดับสูง ผลลัพธ์จากงานวิจัยนี้ไม่เพียงแต่ช่วยให้เข้าใจจุดอ่อนของ Agent แต่ยังเป็นแนวทางเชิงปฏิบัติในการสร้างระบบที่เชื่อถือได้มากขึ้นสำหรับงานที่ซับซ้อนในอนาคต