วงการหุ่นยนต์กำลังเปลี่ยนผ่านจากโมเดล Vision-Language-Action (VLA) ไปสู่ World-Action Models (WAM) เนื่องจากพบว่าโมเดลเดิมมักมีปัญหาในการเชื่อมโยงภาษากับการเคลื่อนไหวจริงในโลกกายภาพ (Grounding Gap) โมเดล WAM จึงเข้ามาแก้ปัญหานี้โดยใช้ Video Backbone ที่ได้รับการเทรนมาอย่างดีเพื่อจำลองว่าโลกจะเปลี่ยนไปอย่างไรเมื่อหุ่นยนต์กระทำบางสิ่ง
แนวคิดนี้ใช้การคาดการณ์สถานะของโลกในอนาคต (เช่น ภาพวิดีโอหรือตำแหน่งของวัตถุ) แล้วจึงถอดรหัสออกมาเป็นการสั่งการหุ่นยนต์ที่แม่นยำ โดยอาศัยสถาปัตยกรรมระดับสูง เช่น Mixture-of-Transformers (MoT) และ Diffusion Transformers (DiT) ซึ่งช่วยให้หุ่นยนต์สามารถทำงานที่ซับซ้อนในสภาพแวดล้อมที่คาดเดาได้ยากได้ดีขึ้นกว่าเดิม