DexSim2Real เป็นระบบที่นำโมเดลพื้นฐานด้านสายตาและภาษา (Vision-Language Foundation Models) มาช่วยในการโอนย้ายนโยบายการควบคุมหุ่นยนต์ (Sim-to-Real Transfer) สำหรับการหยิบจับที่ต้องการความละเอียดอ่อนสูง (Dexterous Manipulation) โดยระบบประกอบด้วยสามส่วนหลักคือ FM-DR ที่ใช้ VLM เป็นตัวตัดสินความสมจริงของภาพเพื่อปรับค่าพารามิเตอร์ในโปรแกรมจำลอง, นโยบาย TVCAP ที่ผสานข้อมูลภาพและสัมผัส, และหลักสูตรการเรียนรู้ PSC ที่ย่อยงานยากๆ ให้หุ่นยนต์ฝึกตามลำดับ
จากการทดสอบในงานหยิบจับที่ท้าทาย 6 รูปแบบ พบว่า DexSim2Real สามารถทำคะแนนความสำเร็จในโลกจริงได้สูงถึง 78.2% ซึ่งสูงกว่าวิธีการเดิมๆ อย่างชัดเจน