AI & MACHINE LEARNING

ETA-VLA: เพิ่มประสิทธิภาพการประมวลผลโมเดลขับขี่อัตโนมัติด้วยการคัดกรอง Visual Tokens

arXiv30 Mar 2026

1 min read

Key Takeaways

ETA-VLA ช่วยลดภาระการคำนวณของโมเดล VLA ได้อย่างมหาศาลผ่านการคัดกรองเฉพาะข้อมูลภาพที่สำคัญต่อการขับขี่

ทำไมเรื่องนี้ถึงสำคัญ

ประสิทธิภาพในการประมวลผลเป็นหัวใจสำคัญของระบบขับขี่อัตโนมัติ เทคนิคนี้ช่วยให้สามารถรันโมเดลขนาดใหญ่บนฮาร์ดแวร์ที่มีข้อจำกัดได้โดยไม่สูญเสียความปลอดภัย

โมเดล Vision-Language-Action (VLA) มีบทบาทสำคัญในระบบขับขี่อัตโนมัติยุคใหม่ แต่การประมวลผลภาพจากหลายมุมมองและข้อมูลย้อนหลังทำให้เกิดภาระในการคำนวณมหาศาล ทีมวิจัยจึงเสนอ ETA-VLA ซึ่งนำแนวคิดเรื่องการจัดสรรความสนใจของมนุษย์ขณะขับรถมาใช้เพื่อลดความซับซ้อน

หัวใจของระบบคือ Intra-LLM Sparse Aggregator (ILSA) ซึ่งจะทำการวิเคราะห์และเลือกตัดข้อมูลภาพ (visual tokens) ที่ไม่จำเป็นออก โดยอาศัยคำสั่งจากข้อความและความต่อเนื่องของเวลา ผลการทดสอบบน NAVSIM v2 พบว่าสามารถตัดข้อมูลภาพออกได้ถึง 85% และลด FLOPs ในการประมวลผลลงได้ถึง 61% ในขณะที่ยังรักษาความแม่นยำเดิมไว้ได้เกือบทั้งหมด

สรุปประเด็นหลัก

ลดการใช้ทรัพยากร FLOPs ได้สูงสุด 61% และลดจำนวน visual tokens ได้ 85%

รักษาความแม่นยำในการขับขี่ไว้ได้ 94% เมื่อเทียบกับโมเดลพื้นฐาน

ใช้เทคนิค ILSA เพื่อคัดกรองข้อมูลตามความสำคัญจากข้อความและเวลา

นวัตกรรมและเทคโนโลยี

models

Intra-LLM Sparse Aggregator (ILSA)

กลไกคัดกรอง visual tokens ที่ซ้ำซ้อนโดยใช้ข้อความเป็นตัวนำทาง (text-guided)

research

Temporal Fusion Strategy

การรวบรวมข้อมูลย้อนหลังหลายเฟรมเพื่อเพิ่มความแม่นยำในการตัดสินใจทางเวลา

Developer Impact

วิศวกรที่ทำงานด้าน AI และยานยนต์สามารถนำแนวคิดการทำ sparsification นี้ไปใช้เพื่อลด Latency ของโมเดลบนอุปกรณ์ปลายทาง (Edge devices)

Keywords

#vla models #autonomous driving #token adaptation #llm efficiency #computer vision

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

arXiv