ในปัจจุบัน การพัฒนาหุ่นยนต์ที่ทำงานได้หลากหลาย (General-purpose robots) ต้องใช้โมเดล Vision-Language-Action (VLA) ขนาดใหญ่ แต่การเก็บข้อมูลจากการสาธิตโดยหุ่นยนต์จริงมีค่าใช้จ่ายสูงและทำได้ยาก งานวิจัยนี้จึงรวบรวมและวิเคราะห์แนวทางการใช้ 'วิดีโอพฤติกรรมมนุษย์' ซึ่งเป็นแหล่งข้อมูลที่มีมหาศาลมาใช้ทดแทน
งานวิจัยแบ่งประเภทเทคนิคออกเป็น 4 กลุ่มหลัก ได้แก่ การวิเคราะห์การเปลี่ยนเฟรมวิดีโอ, การใช้ World Models คาดการณ์อนาคต, การดึงข้อมูลพิกัด 2D และการสร้างโมเดล 3D จากวิดีโอ พร้อมทั้งระบุความท้าทายสำคัญในการนำวิดีโอที่ไม่มีโครงสร้างมาเปลี่ยนเป็นคำสั่งที่หุ่นยนต์สามารถทำตามได้จริงในโลกภายนอก