การพัฒนา AI Research Agents ที่ผ่านมาประสบปัญหาหลัก 3 ประการ คือ การประมวลผลที่ช้า ช่องว่างในการขยายผล (Generalization gap) และข้อจำกัดของตัวโมเดลเอง ทีมวิจัยจึงนำเสนอ AIRA_2 ที่มาพร้อมกับสถาปัตยกรรมใหม่เพื่อแก้ปัญหาเหล่านี้โดยเฉพาะ
AIRA_2 ใช้ระบบประมวลผลแบบอะซิงโครนัสผ่าน multi-GPU worker pool เพื่อเพิ่มปริมาณงาน มีโปรโตคอลการประเมินแบบ Hidden Consistent Evaluation เพื่อลดสัญญาณรบกวนในการประเมินผล และใช้ ReAct agents ที่สามารถ Debug งานได้ด้วยตัวเอง ระบบนี้สามารถทำคะแนน Percentile Rank ได้ถึง 76.0% ในเวลา 72 ชั่วโมงบน MLE-bench-30 ซึ่งสูงกว่าสถิติเดิม และพิสูจน์ให้เห็นว่าปัญหาการ overfitting ที่เคยพบในงานก่อนหน้าส่วนใหญ่เกิดจากสัญญาณรบกวนในการประเมินผล