ทีมนักวิจัยนำเสนองานวิจัยเกี่ยวกับการแก้ปัญหาการระบุ Reward Machines (RM) ซึ่งเป็นโครงสร้างแบบออโตมาตาที่ใช้บันทึกหน่วยความจำที่จำเป็นสำหรับการทำงานแบบหลายขั้นตอนในหุ่นยนต์ โดยปกติแล้วการสร้าง RM ด้วยมือนั้นทำได้ยากและซับซ้อน งานวิจัยนี้จึงมุ่งเน้นไปที่การเรียนรู้โครงสร้างเหล่านี้โดยตรงจากข้อมูลวิถีสถานะ (Raw State Trajectories) และข้อมูลนโยบาย (Policy Information)
ความโดดเด่นของงานนี้คือการทำงานภายใต้สภาวะที่ข้อมูลขาดแคลน โดยระบบไม่สามารถเข้าถึงการสังเกตการณ์รางวัล (Rewards), ป้ายกำกับ (Labels) หรือโหนดของเครื่องจักรได้โดยตรง นอกจากนี้ยังมีการขยายผลไปสู่การเรียนรู้แบบ Active Learning ซึ่งช่วยให้ระบบสามารถสอบถามข้อมูลเพิ่มเติมเพื่อเพิ่มประสิทธิภาพในการคำนวณและคุณภาพของข้อมูล โดยได้ทดสอบประสิทธิภาพผ่านตัวอย่างในสภาพแวดล้อม Grid World