การปรับจูนโมเดลมัลติโมดอล (เช่น AI สร้างภาพ) ให้ตรงใจมนุษย์มักประสบปัญหา 'Reward Hacking' เนื่องจากโมเดลรางวัลส่วนใหญ่มักสรุปผลลัพธ์ออกมาเป็นเพียงตัวเลขคะแนนเดียว ซึ่งขาดความละเอียดและตรวจสอบได้ยาก งานวิจัยนี้จึงเสนอ Auto-Rubric as Reward (ARR) ซึ่งเป็นวิธีการดึงความรู้ด้านความพึงพอใจจาก Vision-Language Models (VLM) ให้ออกมาเป็นเกณฑ์การให้คะแนน (Rubrics) ที่ชัดเจนในแต่ละมิติ
นอกจากนี้ยังนำเสนอเทคนิค Rubric Policy Optimization (RPO) เพื่อใช้เกณฑ์เหล่านี้ในการฝึกฝนโมเดล ซึ่งช่วยให้กระบวนการเรียนรู้มีเสถียรภาพและใช้ข้อมูลน้อยลง ผลการทดสอบในการสร้างภาพจากข้อความ (Text-to-Image) และการแก้ไขภาพ พบว่า ARR-RPO ให้ผลลัพธ์ที่เหนือกว่าการใช้โมเดลรางวัลแบบดั้งเดิม โดยเฉพาะในเรื่องความโปร่งใสและการลดอคติจากการวางตำแหน่ง (Positional Bias)