ความท้าทายของการสร้างระบบการรับรู้ (Perception) สำหรับหุ่นยนต์คือการเตรียมข้อมูลที่ต้องใช้แรงงานคนในการระบุตำแหน่งวัตถุจำนวนมาก FalconApp จึงถูกพัฒนาขึ้นเพื่อแก้ปัญหานี้โดยใช้ Pipeline แบบครบวงจรบน iPhone ที่เปลี่ยนวิดีโอการถ่ายวัตถุแบบถือด้วยมือให้กลายเป็นโมเดลตรวจจับ
กระบวนการเริ่มจากการสร้างโมเดล 3 มิติแบบ GSplat จากวิดีโอ จากนั้นระบบจะนำโมเดลไปวางในภาพพื้นหลังต่างๆ เพื่อสร้างข้อมูลสังเคราะห์ (Synthetic Data) พร้อมระบุตำแหน่ง (Labels) โดยอัตโนมัติ และทำการฝึกสอน (Train) โมเดลก่อนจะส่งกลับมาใช้งานบน iPhone ผลการทดสอบพบว่าสามารถสร้างโมเดลที่ใช้งานได้จริงในเวลาเฉลี่ยเพียง 20 นาทีต่อวัตถุ และมีความเร็วในการประมวลผลบนเครื่องเพียง 30 มิลลิวินาที ซึ่งให้ความแม่นยำสูงกว่าวิธีการดั้งเดิมในหลายสถานการณ์