AI & MACHINE LEARNING

DIAL: เฟรมเวิร์ก Reinforcement Learning ใหม่ ช่วยให้ AI ขับรถได้หลากหลายและเก่งกว่ามนุษย์

arXiv14 May 2026

1 min read

Key Takeaways

DIAL ก้าวข้ามขีดจำกัดของ RL แบบเดิมด้วยการรักษาความหลากหลายของ 'เจตนาการขับขี่' (Driving Intents) ทำให้ AI สามารถวางแผนการขับขี่ได้เหนือกว่ามนุษย์

ทำไมเรื่องนี้ถึงสำคัญ

ช่วยให้ระบบขับขี่อัตโนมัติมีทางเลือกในการตัดสินใจมากขึ้นเมื่อเผชิญสถานการณ์เดิม เช่น การเลี่ยงอุปสรรคที่มีได้หลายวิธี ซึ่งเป็นกุญแจสำคัญสู่ความปลอดภัยและความลื่นไหลในการเดินทางบนท้องถนนจริง

การฝึกระบบขับขี่อัตโนมัติด้วยข้อมูลตัวอย่างเพียงชุดเดียวมักนำไปสู่ปัญหา Mode Collapse หรือการที่ AI เลือกทำเฉพาะท่าทางเดิมๆ ที่เคยเห็นในตัวอย่าง งานวิจัยนี้นำเสนอ DIAL (Driving-Intent-Amplified reinforcement Learning) ซึ่งเป็นเฟรมเวิร์ก 2 ขั้นตอนเพื่อแก้ปัญหานี้

ขั้นตอนแรก DIAL ใช้ Discrete Intent Label ร่วมกับ Classifier-free Guidance (CFG) เพื่อขยายรูปแบบการตัดสินใจให้มีความหลากหลายมากขึ้น ขั้นตอนที่สองคือนำการกระจายตัวนี้เข้าสู่กระบวนการ RL ผ่าน Multi-intent GRPO เพื่อป้องกันไม่ให้โมเดลกลับไปเลือกทำท่าทางเพียงแบบเดียวในระหว่างการปรับจูน ผลการทดสอบบนเกณฑ์มาตรฐาน WOD-E2E พบว่า DIAL สามารถทำคะแนน Rater Feedback Score (RFS) ได้สูงถึง 9.14 ซึ่งก้าวข้ามประสิทธิภาพของทั้งโมเดลรุ่นก่อนๆ และระดับการขับขี่ของมนุษย์เป็นครั้งแรก

สรุปประเด็นหลัก

แก้ปัญหา Mode Collapse ในการฝึกสอนระบบขับขี่อัตโนมัติ

ใช้เทคนิค Multi-intent GRPO เพื่อรักษาทางเลือกในการตัดสินใจของ AI

ทำคะแนน RFS ได้ 9.14 บน WOD-E2E สูงกว่าค่าเฉลี่ยของมนุษย์ (8.13)

นวัตกรรมและเทคโนโลยี

models

Intent-Amplified Learning

การใช้เจตนาที่แตกต่างกันมาช่วยในการขยายขีดความสามารถการสำรวจของโมเดล RL

research

Multi-intent GRPO

อัลกอริทึมการปรับจูนนโยบายที่รักษาสมดุลระหว่างเจตนาหลายรูปแบบในกลุ่มตัวอย่างเดียวกัน

Developer Impact

ทีมพัฒนาซอฟต์แวร์ขับขี่อัตโนมัติและนักวิจัย AI สามารถนำเทคนิคการขยาย Sampling Distribution ไปใช้ในการฝึกโมเดลเพื่อให้ระบบมีความยืดหยุ่นและลดความซ้ำซากในการแก้ปัญหาที่เกิดจากข้อมูลการฝึกสอนที่มีจำกัด

Keywords

#reinforcement learning #autonomous driving #driving intent #grpo #mode collapse

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

arXiv