งานวิจัยนี้นำเสนอ Partial Evidence Bench ซึ่งเป็นชุดทดสอบสำหรับวัดประสิทธิภาพของ AI Agent เมื่อทำงานในสภาพแวดล้อมระดับองค์กรที่มีการจำกัดสิทธิ์การเข้าถึงข้อมูล ปัญหาส่วนใหญ่คือ Agent มักจะสรุปผลจากข้อมูลที่มองเห็นได้เท่านั้น โดยไม่ได้แจ้งเตือนว่าอาจมีข้อมูลสำคัญอื่นที่ถูกปิดกั้นอยู่ด้วยนโยบายความปลอดภัย
ชุดทดสอบนี้ประกอบด้วย 72 งานใน 3 หมวดหมู่ ได้แก่ การตรวจสอบวิเคราะห์กิจการ (Due Diligence), การตรวจสอบความสอดคล้อง (Compliance), และการตอบสนองต่อเหตุการณ์ด้านความมั่นคงปลอดภัย ผลการทดสอบเบื้องต้นพบว่าโมเดลส่วนใหญ่มีพฤติกรรมสรุปผลที่อันตรายเมื่อข้อมูลถูกกรองออกไปโดยไม่แจ้งเตือน (Silent Filtering) งานวิจัยนี้จึงเสนอแนวทาง 'Fail-and-report' เพื่อเพิ่มความปลอดภัยและความน่าเชื่อถือให้กับระบบ AI ในองค์กร