ทีมนักวิจัยได้เปิดเผยช่องว่างสำคัญในความปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) โดยเฉพาะในงานที่มีความเสี่ยงสูง เช่น การพิจารณาสินเชื่อบ้าน จากการศึกษาพบว่าโมเดลแบบ Open-weight แม้จะถูกฝึกฝนให้แสดงผลลัพธ์ที่ดูมีความยุติธรรมในระดับภายนอก (Behavioral Fairness) แต่ภายในโครงสร้างเลเยอร์ต่าง ๆ ยังคงมีการเก็บรักษาและขยายความหมายของอคติทางสีผิวและเชื้อชาติเอาไว้อย่างเข้มข้น
สิ่งที่น่ากังวลคืออคติที่ถูกซ่อนอยู่เหล่านี้สามารถถูก 'ปลุก' กลับมามีผลต่อการตัดสินใจได้อีกครั้งผ่านเทคนิคการแทรกแซงเลเยอร์ (Activation Steering) ซึ่งสามารถทำให้ผลการตัดสินใจจากเดิมที่เคยให้ผ่านกลายเป็นไม่ผ่านได้เกือบทั้งหมด นอกจากนี้ งานวิจัยยังพบว่าอคติเหล่านี้มีความไม่สมมาตร คือมักจะเอนเอียงไปในทิศทางของกลุ่มประชากรบางกลุ่มมากกว่า และเสี่ยงต่อการถูกเจาะจงผ่านการทำ Prompt Engineering หรือการ Fine-tuning แบบเฉพาะเจาะจง