Theory of Mind (ToM) คือความสามารถในการทำความเข้าใจความเชื่อและความต้องการของผู้อื่น ซึ่งเป็นหัวใจสำคัญของการที่ AI จะมีปฏิสัมพันธ์ทางสังคมกับมนุษย์ได้อย่างราบรื่น อย่างไรก็ตาม งานวิจัยนี้ชี้ให้เห็นว่าวิธีการวัดผล ToM ในปัจจุบันที่เน้นการอ่านเรื่องราวแล้วตอบคำถาม (Static Benchmarks) นั้นไม่ตอบโจทย์การใช้งานจริงที่มีความเป็นพลวัตและเปิดกว้าง
จากการทดสอบเทคนิคการเพิ่มความสามารถ ToM ใน LLM ด้วยข้อมูลจากโลกจริงและกลุ่มผู้ใช้งานตัวอย่าง พบว่าคะแนนที่ดีขึ้นในแบบทดสอบมาตรฐานมักไม่สอดคล้องกับประสิทธิภาพเมื่อต้องปฏิสัมพันธ์กับมนุษย์จริง ๆ ทั้งในงานที่เน้นเป้าหมาย (เช่น การเขียนโค้ด) และงานที่เน้นประสบการณ์ (เช่น การให้คำปรึกษา) ผู้วิจัยจึงเสนอแนวทางการประเมินแบบใหม่ที่เน้นการโต้ตอบจริง เพื่อเป็นมาตรฐานในการพัฒนา AI ที่มีความฉลาดทางสังคมในอนาคต