ในการสร้าง AI Agent ที่สามารถเรียนรู้จากการโต้ตอบได้ มีคำถามสำคัญคือ 'Feedback ช่วยให้โมเดลเก่งขึ้นจริงหรือไม่' งานวิจัยนี้ได้ทดสอบโมเดล Open-weight 13 ตัวในบทบาทนักเรียนและครู เพื่อแยกแยะผลกระทบระหว่างการได้รับข้อมูลป้อนกลับ (Feedback) กับการให้โมเดลพยายามลองใหม่ด้วยตัวเอง (Unguided self-refinement)
ผลลัพธ์ที่น่าสนใจคือ การที่ AI พัฒนาตัวเองได้บ่อยครั้งไม่ใช่เพราะ Feedback มีคุณภาพ แต่เป็นเพราะโมเดลได้ใช้เวลาประมวลผลเพิ่มขึ้นหรือแค่ลองเปลี่ยนรูปแบบคำตอบ (Resampling) เท่านั้น โดย Self-feedback แทบไม่ช่วยอะไรเพิ่มเมื่อเทียบกับการสั่งให้ลองใหม่เฉยๆ
อย่างไรก็ตาม Feedback จะมีประโยชน์อย่างมากเมื่อมาจาก 'ครู' (Teacher model) ที่เก่งกว่าและให้คำแนะนำที่เจาะจง งานวิจัยนี้สรุปว่าคอขวดของการพัฒนาไม่ได้อยู่ที่ 'การมี Feedback' แต่อยู่ที่ 'ความสามารถของตัวนักเรียน (Student model)' ในการทำความเข้าใจและนำ Feedback นั้นไปใช้จริง