ข้อจำกัดของ World Model ในปัจจุบันคือมักจะติดอยู่กับการทำนายพิกเซลภาพ (Video models) ซึ่งใช้ทรัพยากรสูง หรือติดอยู่กับคำสั่งควบคุมเฉพาะของหุ่นยนต์ตัวนั้นๆ (Action-specific) งานวิจัยนี้จึงนำเสนอ μ0 (Mu Zero) ซึ่งเป็นโมเดลที่ทำนาย '3D Traces' หรือเส้นทางการเคลื่อนที่ของจุดสำคัญ เช่น วัตถุ เครื่องมือ หรือมือหุ่นยนต์ ในรูปแบบ 3 มิติที่ราบรื่น
ทีมวิจัยยังได้พัฒนา TraceExtract ซึ่งเป็นระบบดึงข้อมูล 3D Supervision จากวิดีโอโดยอัตโนมัติ ทำให้สามารถฝึกสอนโมเดลได้จากวิดีโอทั่วไปที่ไม่มีฉลากข้อมูลคำสั่งควบคุม ผลการทดสอบพบว่า μ0 สามารถทำงานร่วมกับชุดคำสั่ง (Action experts) ของหุ่นยนต์รุ่นต่างๆ ได้อย่างมีประสิทธิภาพ และให้ผลลัพธ์ใกล้เคียงกับโมเดล VLA ขนาดใหญ่ที่ผ่านการฝึกด้วยข้อมูลคำสั่งควบคุมโดยตรง