ROBOTICS & HUMANOID

DexSim2Real: ใช้โมเดลพื้นฐาน (Foundation Models) ช่วยหุ่นยนต์เรียนรู้การหยิบจับสิ่งของจากจำลองสู่โลกจริง

arXiv08 May 2026

1 min read

Key Takeaways

การใช้ Vision-Language Models มาเป็นตัวชี้วัดความสมจริงในโปรแกรมจำลองช่วยลด Sim-to-Real Gap ได้อย่างมีนัยสำคัญ

ทำไมเรื่องนี้ถึงสำคัญ

ช่วยให้การพัฒนาหุ่นยนต์ที่สามารถหยิบจับสิ่งของได้อย่างเป็นธรรมชาติและแม่นยำทำได้ง่ายขึ้น โดยลดความจำเป็นในการตั้งค่าระบบจำลองด้วยมือ (Manual Domain Randomization)

DexSim2Real เป็นระบบที่นำโมเดลพื้นฐานด้านสายตาและภาษา (Vision-Language Foundation Models) มาช่วยในการโอนย้ายนโยบายการควบคุมหุ่นยนต์ (Sim-to-Real Transfer) สำหรับการหยิบจับที่ต้องการความละเอียดอ่อนสูง (Dexterous Manipulation) โดยระบบประกอบด้วยสามส่วนหลักคือ FM-DR ที่ใช้ VLM เป็นตัวตัดสินความสมจริงของภาพเพื่อปรับค่าพารามิเตอร์ในโปรแกรมจำลอง, นโยบาย TVCAP ที่ผสานข้อมูลภาพและสัมผัส, และหลักสูตรการเรียนรู้ PSC ที่ย่อยงานยากๆ ให้หุ่นยนต์ฝึกตามลำดับ

จากการทดสอบในงานหยิบจับที่ท้าทาย 6 รูปแบบ พบว่า DexSim2Real สามารถทำคะแนนความสำเร็จในโลกจริงได้สูงถึง 78.2% ซึ่งสูงกว่าวิธีการเดิมๆ อย่างชัดเจน

สรุปประเด็นหลัก

อัตราความสำเร็จในการใช้งานจริงสูงถึง 78.2% ในงานหยิบจับที่ซับซ้อน

ใช้ VLM ในการตรวจวัดความสมจริงทางสายตาเพื่อปรับแต่ง Simulator อัตโนมัติ

ลดช่องว่างประสิทธิภาพระหว่างโลกจำลองและโลกจริงเหลือเพียง 8.3%

นวัตกรรมและเทคโนโลยี

models

Foundation Model-Guided Domain Randomization

การใช้ VLM เป็นตัวตัดสินความสมจริงเพื่อปรับค่าพารามิเตอร์ใน Simulator ให้ใกล้เคียงโลกจริงโดยอัตโนมัติ

research

Tactile-Visual Cross-Attention Policy

นโยบายการควบคุมที่ผสานข้อมูลจากทั้งกล้องและการสัมผัสเข้าด้วยกันเพื่อให้หุ่นยนต์รับรู้สภาพแวดล้อมได้ดีขึ้น

Developer Impact

ทีมนักวิจัยและวิศวกร AI สามารถนำเทคนิคนี้ไปใช้ในการฝึกหุ่นยนต์ให้ทำงานที่ต้องอาศัยทักษะการหยิบจับสูง โดยไม่ต้องใช้ข้อมูลจากโลกจริงจำนวนมหาศาล

Keywords

#sim-to-real #dexterous manipulation #foundation models #reinforcement learning #robotics

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

arXiv