โมเดล Vision-Language-Action (VLA) มีบทบาทสำคัญในระบบขับขี่อัตโนมัติยุคใหม่ แต่การประมวลผลภาพจากหลายมุมมองและข้อมูลย้อนหลังทำให้เกิดภาระในการคำนวณมหาศาล ทีมวิจัยจึงเสนอ ETA-VLA ซึ่งนำแนวคิดเรื่องการจัดสรรความสนใจของมนุษย์ขณะขับรถมาใช้เพื่อลดความซับซ้อน
หัวใจของระบบคือ Intra-LLM Sparse Aggregator (ILSA) ซึ่งจะทำการวิเคราะห์และเลือกตัดข้อมูลภาพ (visual tokens) ที่ไม่จำเป็นออก โดยอาศัยคำสั่งจากข้อความและความต่อเนื่องของเวลา ผลการทดสอบบน NAVSIM v2 พบว่าสามารถตัดข้อมูลภาพออกได้ถึง 85% และลด FLOPs ในการประมวลผลลงได้ถึง 61% ในขณะที่ยังรักษาความแม่นยำเดิมไว้ได้เกือบทั้งหมด