โมเดล Vision-Language-Action (VLA) ในปัจจุบันมักประสบปัญหาเรื่องการให้เหตุผลเชิงพื้นที่และการระบุตำแหน่งที่ควรโต้ตอบในภาพที่ซับซ้อน งานวิจัยชิ้นนี้จึงนำเสนอ Afford-VLA ซึ่งเป็นแนวทางใหม่ที่ผสาน 'Internalized Affordance' หรือความสามารถในการเข้าใจความเป็นไปได้ในการใช้งานวัตถุเข้ามาเป็นส่วนหนึ่งของกระบวนการวางแผนด้วยภาพของหุ่นยนต์
ระบบนี้ใช้โทเคนพิเศษชื่อ เพื่อระบุพื้นที่ที่เกี่ยวข้องกับงานและสร้างหน้ากาก Affordance จากข้อมูลหลายรูปแบบ (Multimodal) ข้อมูลเหล่านี้จะถูกแปลงเป็น Embedding เพื่อควบคุมการสร้างคำสั่งเคลื่อนไหว (Action Generation) ผลการทดสอบบนเกณฑ์มาตรฐานเช่น LIBERO และ SimplerEnv แสดงให้เห็นว่าแนวทางนี้ให้ประสิทธิภาพสูงกว่าเทคโนโลยีเดิมอย่างชัดเจน ทั้งในสภาพแวดล้อมจำลองและสถานการณ์จริง