ในขณะที่การทดสอบ AI ส่วนใหญ่เน้นไปที่การอ่านแผนภูมิใบเดียว แต่ในโลกความเป็นจริงเรามักต้องเปรียบเทียบข้อมูลระหว่างแผนภูมิสองใบ งานวิจัยนี้จึงนำเสนอ ChartDiff ซึ่งเป็น Benchmark แรกที่เน้นการสรุปความแตกต่างเชิงเปรียบเทียบ (Cross-chart comparative summarization)
ชุดข้อมูลนี้ประกอบด้วยคู่แผนภูมิกว่า 8,541 คู่ ครอบคลุมหลากหลายรูปแบบและสไตล์ โดยมีสรุปความแตกต่างทั้งในด้านแนวโน้ม (Trends) ความผันผวน (Fluctuations) และจุดผิดปกติ (Anomalies) จากการทดสอบพบว่าแม้โมเดลรุ่นใหม่ๆ จะทำผลงานได้ดี แต่ยังคงมีช่องว่างขนาดใหญ่ระหว่างการสรุปเชิงภาษา (ROUGE scores) และความถูกต้องตามการประเมินของมนุษย์ โดยเฉพาะในแผนภูมิที่มีข้อมูลหลายชุด (Multi-series charts) ซึ่งยังคงเป็นโจทย์ที่ท้าทายมากสำหรับ AI ในปัจจุบัน