ปัญหาใหญ่ของระบบสนทนา (Dialogue Systems) ในปัจจุบันคือความยากในการปรับเปลี่ยนกลยุทธ์การพูดคุยให้เข้ากับบุคลิกและความต้องการของผู้ใช้ที่หลากหลาย นักวิจัยจึงเสนอ UP-NRPA (User Portrait based Nested Rollout Policy Adaptation) ซึ่งเป็นระบบวางแผนการสนทนาแบบออนไลน์ที่ทำงานร่วมกับโมเดลภาษาขนาดใหญ่ (LLM)
ระบบนี้ใช้ข้อมูลจาก 'User Portrait' หรือข้อมูลสรุปพฤติกรรมผู้ใช้ เช่น ความชอบ เป้าหมาย และบุคลิกภาพ มาปรับนโยบายการสนทนาผ่านกลไกการปรับตัวแบบเรียลไทม์ (Adaptive Mechanism) แทนการใช้การเรียนรู้แบบเสริมกำลังแบบออฟไลน์ที่ต้องใช้ข้อมูลกลุ่มผู้ใช้จำนวนมาก ผลการทดสอบพบความสำเร็จ 100% ในภารกิจสนทนาหลายรูปแบบ และเพิ่มอัตราความสำเร็จในการเจรจาต่อรอง (Sale-to-list ratio) ได้ถึง 56.41% ซึ่งแสดงให้เห็นว่า AI สามารถเรียนรู้ที่จะปรับเข้าหาคนได้โดยไม่ต้องถูกสอนใหม่ทุกครั้ง