NVIDIA ประกาศความก้าวหน้าครั้งสำคัญในด้าน Physical AI ด้วยการเปิดตัว NVIDIA Cosmos 3 ซึ่งเป็นโมเดลพื้นฐาน (Foundation Model) ที่ออกแบบมาเพื่อให้หุ่นยนต์และระบบอัตโนมัติมีความเข้าใจในโลกทางกายภาพอย่างลึกซึ้ง โดยโมเดลนี้มีความสามารถที่โดดเด่นในการผสมผสานระหว่างการให้เหตุผลทางกายภาพ (Physical Reasoning) การสร้างภาพจำลองโลก (World Generation) และการสร้างชุดคำสั่งการกระทำ (Action Generation) ภายในโมเดลเดียว
Cosmos 3 ใช้สถาปัตยกรรมแบบ Mixture-of-Transformers (MoT) ที่แบ่งออกเป็น 2 ส่วนหลัก คือ 'Reasoner tower' ที่ทำหน้าที่เสมือนสมองในการแปลผลข้อมูลภาพและข้อความเพื่อทำความเข้าใจการเคลื่อนไหว และ 'Generator tower' ที่ทำหน้าที่สร้างวิดีโอหรือชุดการกระทำที่สอดคล้องกับกฎทางฟิสิกส์ การเปิดตัวครั้งนี้มาพร้อมกับโมเดลสองขนาดคือ Cosmos 3 Nano (8B) สำหรับการรันที่เครื่องปลายทาง และ Cosmos 3 Super (32B) สำหรับงานคุณภาพสูงในศูนย์ข้อมูล
นอกจากตัวโมเดลแล้ว NVIDIA ยังได้เปิดซอร์สข้อมูลฝึกสอน (Datasets) 6 ชุด ครอบคลุมด้านการขับขี่อัตโนมัติ การทำงานในคลังสินค้า และพฤติกรรมมนุษย์ เพื่อช่วยให้ชุมชนนักพัฒนาสามารถนำไปพัฒนาต่อยอดได้ทันที ซึ่งถือเป็นก้าวสำคัญที่จะทำให้การพัฒนาหุ่นยนต์และระบบ AI ที่ต้องปฏิสัมพันธ์กับโลกจริงมีความปลอดภัยและแม่นยำยิ่งขึ้น