AI & MACHINE LEARNING

CLAW: โมเดลโลกที่เรียนรู้การกระทำต่อเนื่องจากวิดีโอโดยไม่ต้องมีข้อมูลประกอบ

arXiv:2606.0413004 Jun 2026

1 min read

Key Takeaways

หุ่นยนต์สามารถเรียนรู้โครงสร้างของการกระทำและการเปลี่ยนแปลงของโลกได้จากวิดีโอเพียงอย่างเดียว ซึ่งช่วยให้การวางแผนและการทำงานซับซ้อนขึ้นโดยไม่ต้องใช้ครูสอน

ทำไมเรื่องนี้ถึงสำคัญ

ช่วยลดอุปสรรคเรื่องการขาดแคลนข้อมูลสำหรับฝึกหุ่นยนต์ เนื่องจากสามารถใช้ข้อมูลวิดีโอทั่วไปจำนวนมหาศาลที่มีอยู่แล้วมาใช้สอนหุ่นยนต์ได้โดยตรง

CLAW (Continuous Latent Action World models) นำเสนอแนวทางใหม่ในการฝึกหุ่นยนต์ผ่านการเรียนรู้แบบ Self-supervised โดยระบบจะเรียนรู้การสร้างตัวแทนการกระทำ (Latent Action) จากวิดีโอที่ไม่มีการระบุการกระทำใดๆ มาก่อน ผ่านการใช้เทคนิค Adversarial Latent Regularization และการสร้างวิดีโอด้วยวิธี Diffusion

ความสามารถหลักของ CLAW คือการทำความเข้าใจว่าการกระทำหนึ่งๆ ส่งผลต่อการเปลี่ยนแปลงสภาพแวดล้อมอย่างไรผ่านการสังเกตทางภาพเพียงอย่างเดียว ระบบนี้รองรับทั้งการเลียนแบบพฤติกรรม (Imitation Learning) และการวางแผนงานเพื่อบรรลุเป้าหมาย (Goal-directed planning) ซึ่งผลการทดลองแสดงให้เห็นว่า CLAW สามารถเรียนรู้ความหมายของการกระทำและถ่ายโอนความรู้นั้นไปยังหุ่นยนต์รูปแบบต่างๆ ได้อย่างมีประสิทธิภาพ

สรุปประเด็นหลัก

เรียนรู้ Latent Action จากวิดีโอที่ไม่มีป้ายกำกับ (Action-free videos)

ใช้ Diffusion-based video generation ในการสร้างโมเดลจำลองโลก

รองรับทั้งการเลียนแบบพฤติกรรมและการวางแผนงานที่ซับซ้อน

นวัตกรรมและเทคโนโลยี

models

Adversarial Latent Regularization

เทคนิคการควบคุมช่องว่างการกระทำเพื่อให้ได้ตัวแทนการทำงานที่สื่อความหมายและมีโครงสร้าง

tools

End-to-End Self-Supervision

การฝึกฝนระบบทั้งหมดร่วมกันโดยไม่ต้องพึ่งพามนุษย์ในการเตรียมข้อมูล label

Developer Impact

นักพัฒนา ML และหุ่นยนต์สามารถใช้เฟรมเวิร์กนี้ในการสร้างพื้นฐานการทำงานให้กับหุ่นยนต์จากฐานข้อมูลวิดีโอขนาดใหญ่ ช่วยประหยัดเวลาและทรัพยากรในการจัดทำข้อมูลชุดคำสั่ง

Keywords

#world models #latent actions #self-supervised learning #robotics #diffusion models

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

arXiv:2606.04130