ในการสนทนาหลายรอบ (Multi-turn) โมเดล AI ควรมีความสามารถในการนำหลักฐานใหม่มาปรับปรุงความเข้าใจเกี่ยวกับสถานการณ์หรืองานที่กำลังทำอยู่ งานวิจัยนี้จึงเปิดตัว BayesBench ซึ่งเป็นชุดการทดสอบจำลองที่มุ่งเน้น 3 ด้าน ได้แก่ การประมาณค่าพารามิเตอร์ที่มองไม่เห็น, การคาดการณ์ผลลัพธ์จากความเชื่อที่สรุปได้ และการวิเคราะห์ภายใต้บริบทเฉพาะของผู้อื่น (User-persona framing)
ผลการทดสอบกับโมเดล 7 ตัว (ขนาด 3B-70B) พบว่าการเพิ่มขนาดของโมเดล (Scaling) ช่วยให้ AI สามารถรวบรวมหลักฐานและอนุมานโครงสร้างแฝงได้ดีขึ้น จนบางครั้งให้ผลลัพธ์ใกล้เคียงกับความน่าจะเป็นแบบ Bayesian ที่สมบูรณ์แบบ
อย่างไรก็ตาม งานวิจัยพบช่องว่างสำคัญคือ แม้โมเดลจะอนุมานข้อมูลแฝงได้ถูกต้อง แต่มักจะไม่สามารถนำข้อมูลนั้นมาใช้ในการคาดการณ์ผลลัพธ์ปลายทางได้อย่างมีประสิทธิภาพ ซึ่งสะท้อนว่า LLM ยังขาดการเชื่อมโยงระหว่าง 'ความเข้าใจข้อมูล' กับ 'การนำข้อมูลไปใช้อย่างมีตรรกะ' ในบางมิติ