การฝึกระบบขับขี่อัตโนมัติด้วยข้อมูลตัวอย่างเพียงชุดเดียวมักนำไปสู่ปัญหา Mode Collapse หรือการที่ AI เลือกทำเฉพาะท่าทางเดิมๆ ที่เคยเห็นในตัวอย่าง งานวิจัยนี้นำเสนอ DIAL (Driving-Intent-Amplified reinforcement Learning) ซึ่งเป็นเฟรมเวิร์ก 2 ขั้นตอนเพื่อแก้ปัญหานี้
ขั้นตอนแรก DIAL ใช้ Discrete Intent Label ร่วมกับ Classifier-free Guidance (CFG) เพื่อขยายรูปแบบการตัดสินใจให้มีความหลากหลายมากขึ้น ขั้นตอนที่สองคือนำการกระจายตัวนี้เข้าสู่กระบวนการ RL ผ่าน Multi-intent GRPO เพื่อป้องกันไม่ให้โมเดลกลับไปเลือกทำท่าทางเพียงแบบเดียวในระหว่างการปรับจูน ผลการทดสอบบนเกณฑ์มาตรฐาน WOD-E2E พบว่า DIAL สามารถทำคะแนน Rater Feedback Score (RFS) ได้สูงถึง 9.14 ซึ่งก้าวข้ามประสิทธิภาพของทั้งโมเดลรุ่นก่อนๆ และระดับการขับขี่ของมนุษย์เป็นครั้งแรก