นักวิจัยด้านความปลอดภัยและความเป็นส่วนตัวพบหลักฐานเพิ่มขึ้นว่า โมเดลภาษาขนาดใหญ่ (LLM) เช่น Gemini ของ Google และ ChatGPT ของ OpenAI กำลังสร้างความเสี่ยงจากการเปิดเผยข้อมูลระบุตัวตน (PII) ของบุคคลจริง โดยมีการพบกรณีที่ผู้ใช้สอบถามข้อมูลติดต่อบริษัท แต่ AI กลับตอบด้วยเบอร์โทรศัพท์ส่วนตัวของบุคคลที่ไม่เกี่ยวข้อง หรือแม้กระทั่งบอกที่อยู่บ้านของอาจารย์มหาวิทยาลัยเมื่อถูกถามด้วยวิธีการสืบค้นเชิงรุก
สาเหตุหลักมาจากการที่โมเดลเหล่านี้ถูกฝึกสอนด้วยข้อมูลมหาศาลที่กวาดมาจากอินเทอร์เน็ต (Scraping) ซึ่งรวมถึงข้อมูลส่วนตัวที่อาจเคยถูกแชร์ไว้เมื่อหลายปีก่อน แม้บริษัทเทคโนโลยีจะมีการติดตั้งระบบป้องกัน (Guardrails) เพื่อกรองข้อมูล PII ออก แต่ผู้เชี่ยวชาญชี้ว่าระบบเหล่านี้ยังไม่สมบูรณ์และสามารถถูกข้ามผ่านได้ด้วยการถามคำถามที่เจาะจงมากขึ้น กรณีเหล่านี้ตอกย้ำถึงปัญหา 'ความจำ' (Memorization) ของโมเดล AI ที่สามารถจดจำและผลิตซ้ำข้อมูลที่เป็นความลับได้หากเคยปรากฏในฐานข้อมูลฝึกสอน