Video Action Models (VAMs) มักถูกใช้เป็นรากฐานในการสอนหุ่นยนต์ แต่โมเดลเหล่านี้มักสร้างวิดีโอที่มีข้อผิดพลาดเล็กน้อยในด้านฟิสิกส์ เช่น ตำแหน่งวัตถุหรือจังหวะการสัมผัสที่ไม่ตรงความจริง งานวิจัยนี้จึงเสนอ VAMPO เฟรมเวิร์กที่ใช้เทคนิค Policy Optimization เข้ามาปรับปรุงขั้นตอนการ Denoising ของโมเดล Diffusion โดยตรง
นวัตกรรมสำคัญคือ Euler Hybrid sampler ที่ช่วยลดความแปรปรวนในการฝึกฝน และการใช้รางวัล (Reward) ที่ประเมินจากความถูกต้องของพลศาสตร์ภาพใน Latent Space ผลที่ได้คือโมเดลที่พยากรณ์การเคลื่อนไหวได้สมจริงขึ้น ส่งผลให้การทำงานของหุ่นยนต์ในโลกจริงมีความแม่นยำและสามารถปรับใช้กับสถานการณ์ใหม่ๆ ได้ดีขึ้น