การพัฒนา AI Agent ให้สามารถช่วยเหลือผู้ใช้งานได้อย่างเจาะจงนั้นมีความท้าทายมากกว่าแค่การทำตามคำสั่งทั่วไป เนื่องจากในสถานการณ์จริง ความต้องการของผู้ใช้มักจะถูกระบุผ่านบริบทจากการพูดคุยหรือการกระทำในอดีต งานวิจัยชิ้นนี้จึงได้นำเสนอ POLAR ซึ่งเป็นเฟรมเวิร์กที่ออกแบบมาเพื่อเพิ่มความสามารถด้านหน่วยความจำให้กับ Embodied Agents ที่ทำงานผ่าน Multimodal Large Language Models (MLLMs)
POLAR ทำงานโดยการจัดระเบียบข้อมูลจากการปฏิสัมพันธ์ที่ผ่านมาลงใน Knowledge Graph ซึ่งรวมเอาหน่วยความจำเชิงความหมาย (Semantic Memory) สำหรับบริบทและแนวคิดทางภาพ และหน่วยความจำเชิงเหตุการณ์ (Episodic Memory) สำหรับประสบการณ์เชิงกายภาพ เช่น เส้นทางการเคลื่อนที่ของ Agent ผลการทดสอบแสดงให้เห็นว่าระบบหน่วยความจำนี้ช่วยให้ AI สามารถตอบสนองได้แม่นยำขึ้นอย่างชัดเจน โดยเฉพาะในงานที่ต้องใช้การอนุมานแบบหลายขั้นตอนหรือการติดตามการเปลี่ยนแปลงบริบทของผู้ใช้เมื่อเวลาผ่านไป