ปัญหาใหญ่ของระบบขับขี่อัตโนมัติ (AV) คือการระบุ 'ความผิดปกติเชิงความหมาย' (Semantic Anomalies) หรืออันตรายตามบริบทที่เครื่องตรวจจับระดับพิกเซลทั่วไปไม่สามารถตีความได้ งานวิจัยนี้เสนอการเพิ่มชั้นการสังเกตการณ์ที่ใช้ Vision-Language Model (VLM) แบบ Quantized ทำงานขนานไปกับระบบควบคุมหลักเพื่อเฝ้าระวังกรณีขอบเขต (Edge Cases) และสั่งการระบบสำรอง (Fail-safe) เมื่อจำเป็น
จากการทดสอบด้วย Nvidia Cosmos-Reason1-7B ร่วมกับการใช้เทคนิค NVFP4 Quantization และ FlashAttention2 ทีมวิจัยสามารถทำความเร็วในการประมวลผลที่ 1-2Hz (ประมาณ 500 ms) ซึ่งเร็วกว่าระบบเดิมที่ไม่ผ่านการปรับแต่งถึง 50 เท่า แม้จะพบความท้าทายเรื่องอัตราการจดจำ (Recall) ที่ลดลงในบางสภาวะ แต่ผลลัพธ์โดยรวมยืนยันความเป็นไปได้ในการนำโมเดล AI ขนาดใหญ่มาติดตั้งใช้งานในแพลตฟอร์มรถยนต์ไร้คนขับจริง