ทีมนักวิจัยได้ทำการทดสอบสมมติฐานที่เชื่อกันว่า หากโมเดลมัลติโมดอล (VLM) มีการเพ่งความสนใจ (Attention) ไปที่บริเวณที่ถูกต้องในรูปภาพ จะแสดงว่าโมเดลนั้นมีความมั่นใจและให้คำตอบที่ถูกต้อง ผลการศึกษาด้วยเครื่องมือ VLM Reliability Probe (VRP) กับโมเดลตระกูล LLaVA-1.5, PaliGemma และ Qwen2-VL กลับพบว่าความคมชัดของ Attention แทบไม่มีผลในการทำนายความถูกต้องของคำตอบเลย
สิ่งที่น่าสนใจคือ ความน่าเชื่อถือจะปรากฏขึ้นในช่วงท้ายของกระบวนการประมวลผล โดยการตรวจสอบค่า Hidden States เพียงอย่างเดียวสามารถทำนายความถูกต้องได้แม่นยำสูง (AUROC > 0.95) นอกจากนี้ยังพบความแตกต่างเชิงโครงสร้าง โดยโมเดลแบบ Late-fusion (เช่น LLaVA) จะเก็บความน่าเชื่อถือไว้ที่คอขวดช่วงท้ายเพียงไม่กี่จุด ทำให้เปราะบางต่อการถูกรบกวน ในขณะที่โมเดลแบบ Early-fusion (เช่น PaliGemma) จะกระจายความน่าเชื่อถือไปทั่วโครงสร้าง ทำให้ทนทานต่อการสูญเสียข้อมูลมากกว่า