ทีมนักวิจัยได้พัฒนา SpatialPoint ซึ่งเป็นเฟรมเวิร์กด้านวิสัยทัศน์และภาษา (Vision-Language) ที่ออกแบบมาเพื่อแก้ปัญหาการระบุตำแหน่งเชิงพื้นที่ของหุ่นยนต์ (Embodied Localization) โดยเฉพาะ โดยปกติแล้วระบบหุ่นยนต์ส่วนใหญ่จะพึ่งพาเฉพาะข้อมูลภาพ RGB ซึ่งทำให้การประมวลผลเชิงเรขาคณิตทำได้ยากและจำกัดการใช้งานข้ามสภาพแวดล้อม SpatialPoint จึงเลือกใช้ข้อมูล RGB-D (ข้อมูลภาพพร้อมค่าความลึก) มาช่วยในการสร้างพิกัด 3 มิติในเฟรมของกล้องโดยตรง
หัวใจสำคัญของงานวิจัยนี้คือการสร้างชุดข้อมูล RGB-D ขนาดใหญ่ถึง 2.6 ล้านตัวอย่าง ซึ่งครอบคลุมทั้ง 'จุดที่สัมผัสได้' (Touchable points) และ 'จุดในอากาศ' (Air points) เพื่อใช้ฝึกฝนโมเดล ผลการทดสอบแสดงให้เห็นว่าการนำข้อมูลความลึกเข้ามาใช้ช่วยยกระดับความสามารถของ VLM ในการทำความเข้าใจตำแหน่งได้อย่างมีนัยสำคัญ และยังมีการทดสอบใช้งานจริงในหุ่นยนต์หลายรูปแบบ เช่น แขนกลหยิบจับวัตถุ การจัดวางของ และหุ่นยนต์เคลื่อนที่นำทาง