แม้ว่าโมเดลภาษาขนาดใหญ่ (LLMs) จะทำงานด้านภาษาได้ดี แต่ยังคงมีปัญหาเรื่องการเข้าใจ 'Theory of Mind' (ToM) หรือความเข้าใจในมุมมองและความเชื่อของผู้อื่นในสถานการณ์ทางสังคมที่ซับซ้อน โดยเฉพาะเมื่อมุมมองของผู้สังเกตขัดแย้งกับความเชื่อของตนเอง
ผู้วิจัยได้พัฒนาแนวทาง OSCToM ซึ่งใช้การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ร่วมกับภาษาเฉพาะด้าน (DSL) เพื่อสร้างข้อมูลจำลองที่เต็มไปด้วยความขัดแย้งทางความเชื่อ ผลการทดสอบพบว่าโมเดล OSCToM-8B สามารถทำคะแนนในเบนช์มาร์ก FANToM ได้สูงถึง 76% ซึ่งสูงกว่าโมเดลรุ่นก่อนๆ อย่างมาก นอกจากนี้กระบวนการสังเคราะห์ข้อมูลยังมีความถี่และประสิทธิภาพสูงกว่าเดิมถึง 6 เท่า ช่วยให้โมเดลขนาดเล็กสามารถประมวลผลตรรกะทางสังคมที่ยากลำบากได้