AI & MACHINE LEARNING

วิจัยชี้ ความน่าเชื่อถือของโมเดล VLM ซ่อนอยู่ใน Hidden States ไม่ใช่ความคมชัดของ Attention

arXiv12 May 2026
1 min read
Key Takeaways
  • อย่าหลงเชื่อแผนภาพ Attention ที่ดูสวยงามและตรงจุด เพราะความแม่นยำที่แท้จริงถูกตัดสินด้วยกลไกในช่วงเลเยอร์ท้ายๆ ของโมเดล

ทำไมเรื่องนี้ถึงสำคัญ

ช่วยเปลี่ยนทิศทางการตรวจสอบความน่าเชื่อถือของ AI จากการดู 'แผนภาพความร้อน' (Heatmaps) มาเป็นการวิเคราะห์โครงสร้างภายในที่ให้ผลลัพธ์แม่นยำกว่า

ทีมนักวิจัยได้ทำการทดสอบสมมติฐานที่เชื่อกันว่า หากโมเดลมัลติโมดอล (VLM) มีการเพ่งความสนใจ (Attention) ไปที่บริเวณที่ถูกต้องในรูปภาพ จะแสดงว่าโมเดลนั้นมีความมั่นใจและให้คำตอบที่ถูกต้อง ผลการศึกษาด้วยเครื่องมือ VLM Reliability Probe (VRP) กับโมเดลตระกูล LLaVA-1.5, PaliGemma และ Qwen2-VL กลับพบว่าความคมชัดของ Attention แทบไม่มีผลในการทำนายความถูกต้องของคำตอบเลย

สิ่งที่น่าสนใจคือ ความน่าเชื่อถือจะปรากฏขึ้นในช่วงท้ายของกระบวนการประมวลผล โดยการตรวจสอบค่า Hidden States เพียงอย่างเดียวสามารถทำนายความถูกต้องได้แม่นยำสูง (AUROC > 0.95) นอกจากนี้ยังพบความแตกต่างเชิงโครงสร้าง โดยโมเดลแบบ Late-fusion (เช่น LLaVA) จะเก็บความน่าเชื่อถือไว้ที่คอขวดช่วงท้ายเพียงไม่กี่จุด ทำให้เปราะบางต่อการถูกรบกวน ในขณะที่โมเดลแบบ Early-fusion (เช่น PaliGemma) จะกระจายความน่าเชื่อถือไปทั่วโครงสร้าง ทำให้ทนทานต่อการสูญเสียข้อมูลมากกว่า

สรุปประเด็นหลัก

Attention map ไม่สามารถใช้ทำนายความถูกต้องของคำตอบ AI ได้ (ความสัมพันธ์ใกล้ศูนย์)

Hidden state geometry ในเลเยอร์ท้ายๆ เป็นตัวบ่งชี้ความน่าเชื่อถือที่แม่นยำที่สุด

โมเดลแบบ Early-fusion มีโครงสร้างที่ทนทานต่อการถูกทำลายข้อมูลมากกว่า Late-fusion

นวัตกรรมและเทคโนโลยี

research

VLM Reliability Probe (VRP)

เครื่องมือวิเคราะห์เชิงลึกที่ตรวจสอบความสัมพันธ์ระหว่าง Attention, โครงสร้างภายใน และความถูกต้องของคำตอบ

Developer Impact
นักพัฒนาที่ต้องการสร้างระบบ Monitoring สำหรับ VLM ควรเลิกใช้ Attention maps เป็นตัววัดความมั่นใจ และควรเปลี่ยนมาใช้เทคนิค Linear Probing บน Hidden States แทนเพื่อให้ได้ระบบที่เชื่อถือได้จริง
Keywords
#vision-language models #mechanistic interpretability #attention mechanism #vlm reliability #neural networks
Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

arXiv