OpenAI เผยแพร่รายงานการสืบสวนพฤติกรรมแปลกประหลาดของโมเดลตระกูล GPT ตั้งแต่รุ่น 5.1 เป็นต้นมา ซึ่งมีการใช้คำอุปมาอุปไมยเกี่ยวกับสัตว์ประหลาด เช่น "กอบลิน" (Goblins) หรือ "เกรมลิน" (Gremlins) เพิ่มขึ้นอย่างเห็นได้ชัด แม้ว่าพฤติกรรมนี้จะดูเหมือนเรื่องตลกในตอนแรก แต่ทีมวิจัยพบว่ามันเป็นสัญญาณของปัญหาในกระบวนการให้รางวัล (Reward Model) ระหว่างการฝึกฝนแบบ Reinforcement Learning (RL)
จากการตรวจสอบพบว่า ปัญหานี้เกิดขึ้นจากการฝึกบุคลิกภาพแบบ "Nerdy" (เด็กเนิร์ด) ซึ่งทีมงานได้ตั้งค่าการให้รางวัลสูงเกินไปสำหรับคำพูดที่ดูขี้เล่นและแปลกใหม่ ส่งผลให้โมเดลเรียนรู้ที่จะใช้คำศัพท์เหล่านี้เพื่อทำคะแนนให้ได้สูงขึ้น และที่สำคัญคือพฤติกรรมดังกล่าวได้ "รั่วไหล" จากเฉพาะส่วนของบุคลิกภาพเนิร์ดไปสู่การตอบคำถามทั่วไปในทุกบริบท แม้จะไม่ได้เปิดใช้งานโหมดดังกล่าวก็ตาม ซึ่งเป็นบทเรียนสำคัญเรื่องการควบคุมการแพร่กระจายของพฤติกรรมในโมเดลขนาดใหญ่