การประเมินนโยบายการทำงานของหุ่นยนต์ (Robotic Policy) ในสภาพแวดล้อมและภารกิจที่หลากหลายเป็นพันรายการเป็นเรื่องที่ทำได้ยากในปัจจุบัน งานวิจัยนี้นำเสนอ dWorldEval ซึ่งใช้โครงสร้าง Discrete Diffusion World Model เป็นเครื่องมือในการประเมินที่มีความสามารถในการขยายตัว (Scalable Proxy) โดยโมเดลนี้จะแปลงข้อมูลทุกรูปแบบ ทั้งภาพ ภาษา และการกระทำของหุ่นยนต์ ให้อยู่ในพื้นที่โทเค็นเดียวกัน (Unified Token Space) และประมวลผลผ่านเครือข่าย Transformer ชุดเดียว
จุดเด่นของ dWorldEval คือการใช้หน่วยความจำแบบ Sparse Keyframe เพื่อรักษาความสอดคล้องของพื้นที่และเวลา พร้อมทั้งนำเสนอ 'Progress Token' เพื่อระบุระดับความสำเร็จของภารกิจแบบเรียลไทม์ ทำให้สามารถตัดสินผลลัพธ์ว่าสำเร็จหรือไม่ได้อย่างอัตโนมัติเมื่อค่า Progress ถึง 1 ผลการทดสอบแสดงให้เห็นว่า dWorldEval มีประสิทธิภาพเหนือกว่าแนวทางเดิมอย่าง WorldEval และ Ctrl-World อย่างมีนัยสำคัญในชุดทดสอบมาตรฐานและงานหุ่นยนต์ในโลกจริง