งานวิจัยชิ้นนี้นำเสนอเทคนิคที่เรียกว่า 'Flow Control' ซึ่งเป็นแนวทางใหม่ในการควบคุมโมเดล Vision-Language-Action (VLA) สำหรับหุ่นยนต์ โดยเปิดโอกาสให้ผู้ใช้งานสามารถนำทางหรือควบคุมการทำงานของหุ่นยนต์ได้แบบเรียลไทม์ผ่านอุปกรณ์รับข้อมูลทั่วไป เช่น คีย์บอร์ด จุดเด่นสำคัญคือวิธีนี้สามารถใช้งานได้ทันที (out-of-the-box) โดยไม่จำเป็นต้องนำโมเดล VLA ไปเทรนใหม่หรือทำ Fine-tuning ให้ยุ่งยาก
ระบบจะทำหน้าที่เปลี่ยนคำสั่งจากผู้ใช้ที่ไม่ละเอียดนัก ให้กลายเป็นการสุ่มเลือกแอ็กชันจากชุดข้อมูลผู้เชี่ยวชาญที่ VLA ได้เรียนรู้มา ส่งผลให้การเคลื่อนที่ของหุ่นยนต์ยังคงมีความแม่นยำสูงและตรงตามความต้องการของผู้ใช้งาน นอกจากนี้ ผลการทดสอบยังพบว่าการนำข้อมูลการเคลื่อนที่ที่เกิดจาก Flow Control ไปใช้ Fine-tuning โมเดล VLA ในภายหลัง ยังช่วยเพิ่มประสิทธิภาพการทำงานแบบอัตโนมัติของหุ่นยนต์ให้ดียิ่งขึ้นอีกด้วย