เมื่อเทคโนโลยี Large Language Model (LLM) พัฒนาไปอย่างรวดเร็ว องค์กรต่างๆ จึงเผชิญกับความท้าทายในการเปลี่ยนผ่านโมเดลเดิมที่หมดอายุ (End-of-life) ไปสู่โมเดลใหม่ งานวิจัยนี้จึงนำเสนอกรอบการทำงานที่ใช้แนวทางสถิติแบบ Bayesian มาปรับจูนเกณฑ์การประเมินผลอัตโนมัติให้สอดคล้องกับมาตรฐานการตัดสินใจของมนุษย์ วิธีนี้ช่วยให้องค์กรสามารถเปรียบเทียบประสิทธิภาพของโมเดลใหม่ได้อย่างมั่นใจ แม้จะมีข้อมูลการประเมินจากมนุษย์ในปริมาณจำกัด
จากการทดสอบกับระบบตอบคำถามเชิงพาณิชย์ที่มีการใช้งานกว่า 5.3 ล้านครั้งต่อเดือนใน 6 ภูมิภาคทั่วโลก พบว่ากรอบการทำงานนี้สามารถระบุโมเดลทดแทนที่เหมาะสมที่สุดได้ ทั้งในด้านความถูกต้องของการตอบคำถาม การจัดการคำขอที่ต้องปฏิเสธ และการรักษาลักษณะการเขียน (Style) ของแบรนด์ ซึ่งเป็นสิ่งจำเป็นอย่างยิ่งสำหรับการบริหารจัดการพอร์ตโฟลิโอ AI ในระดับองค์กรขนาดใหญ่