ความสามารถในการรักษาสมดุลระหว่างการสำรวจพื้นที่ปัญหาใหม่ๆ (Exploration) และการใช้ประโยชน์จากสิ่งที่รู้แล้ว (Exploitation) เป็นหัวใจสำคัญของ AI Agent แต่ที่ผ่านมาการแยกแยะความผิดพลาดในสองส่วนนี้ทำได้ยาก งานวิจัยนี้จึงเสนอวิธีการวัดผลแบบใหม่ที่ประเมินจากพฤติกรรมภายนอกของ Agent โดยไม่ต้องอาศัยข้อมูลเชิงลึกจากภายในโมเดล
นักวิจัยทดสอบกับสภาพแวดล้อมที่ควบคุมได้แบบ 2D Grid และกราฟงาน (DAG) พบว่าแม้แต่โมเดลภาษาชั้นนำในปัจจุบันก็ยังพบปัญหาอย่างชัดเจน โดยเฉพาะในงานที่มีความซับซ้อน อย่างไรก็ตาม งานวิจัยยังพบว่าโมเดลที่มีความสามารถในการใช้เหตุผล (Reasoning models) ทำงานได้ดีกว่า และการปรับปรุงวิศวกรรมส่วนควบคุม (Harness engineering) เพียงเล็กน้อยก็สามารถช่วยให้ประสิทธิภาพทั้งในด้านการสำรวจและการใช้ประโยชน์ดีขึ้นอย่างมีนัยสำคัญ