งานวิจัยนี้เป็นการศึกษาแบบ Ablation Study เพื่อวิเคราะห์องค์ประกอบหลักของระบบโต้ตอบระหว่างมนุษย์และหุ่นยนต์ (Human-Robot Interaction - HRI) โดยเน้นไปที่งานการตรวจจับและหยิบจับวัตถุตามคำสั่ง ผู้วิจัยได้แยกส่วนประกอบออกเป็น 3 โมดูล ได้แก่ โมเดลภาษาขนาดใหญ่ (LLM) สำหรับการตีความคำสั่ง, ระบบการมองเห็น (Perception) สำหรับการระบุตำแหน่งวัตถุ และตัวควบคุม (Controller) สำหรับการเคลื่อนที่
จากการทดสอบเปรียบเทียบโมเดลภาษา 3 แบบ, การตั้งค่าการมองเห็น 5 รูปแบบ และตัวควบคุม 3 แบบ ผลการศึกษาชี้ให้เห็นว่าการเลือกใช้เทคโนโลยีในแต่ละส่วนส่งผลต่อความสำเร็จและความเร็วในการทำงานที่แตกต่างกัน การวิเคราะห์นี้ช่วยให้เห็นภาพชัดเจนว่าการปรับปรุงทางวิศวกรรมในส่วนใดจะให้ผลตอบแทนในด้านประสิทธิภาพสูงสุด ซึ่งเป็นแนวทางสำคัญในการพัฒนาระบบหุ่นยนต์ multimodal ในอนาคต