ปัจจุบันการทำความเข้าใจว่าข้อมูลประเภทใดที่ส่งผลดีต่อขั้นตอนต่างๆ ของ LLM (เช่น การเทรน, การปรับจูน หรือ Alignment) ยังคงอาศัยการทดลองแบบลองผิดลองถูกกับชุดข้อมูลขนาดใหญ่ ซึ่งสิ้นเปลืองทรัพยากร บทความเชิงจุดยืน (Position Paper) นี้จึงเสนอการพัฒนา 'Data Probes' ซึ่งเป็นลำดับข้อมูลสังเคราะห์ที่สร้างขึ้นจากกระบวนการสุ่มที่กำหนดไว้อย่างชัดเจน
แนวทางนี้ช่วยให้นักวิจัยสามารถสังเกตพฤติกรรมของโมเดลผ่านมุมมองทางทฤษฎีสถิติ เพื่อเปิดเผยข้อมูลเชิงลึกว่าความซับซ้อนหรือลักษณะบางอย่างของข้อมูลมีอิทธิพลต่อประสิทธิภาพและการขยายผล (Generalization) ของโมเดลอย่างไร ซึ่งจะช่วยเปลี่ยนผ่านจากการใช้ heuristics แบบเดิมไปสู่ความเข้าใจที่เป็นระบบมากขึ้น