งานวิจัยชิ้นนี้ศึกษาการใช้ Large Language Models (LLMs) ในกระบวนการตรวจทานบทความวิจัย (Peer Review) โดยใช้ข้อมูลจาก 2025 ACL Rolling Review (ARR) เพื่อประเมินในสองมุมมองหลัก คือความสอดคล้องกับมาตรฐานของมนุษย์ และโอกาสในการถูกเอาชนะระบบ (Gameability) ผลการศึกษาพบว่าการวิจารณ์โดย AI มีความสอดคล้องกับมนุษย์ในระดับที่จำกัด และผลลัพธ์มีความผันผวนสูงตามรูปแบบของคำสั่ง (Prompt) และรุ่นของโมเดลที่เลือกใช้
นอกจากนี้ ทีมวิจัยยังได้ทดลองในสถานการณ์ที่ผู้เขียนบทความใช้ LLM ช่วยในการปรับแก้บทความแบบซ้ำๆ ตามคำแนะนำของ AI ผลการวิจัยพบว่าวิธีนี้สามารถเพิ่มคะแนนรวมของบทความได้อย่างมีนัยสำคัญทางสถิติในบางกรณี โดยมีบทความมากถึง 35% ที่ได้รับคะแนนสูงขึ้นจากการปรับแต่งในลักษณะดังกล่าว งานวิจัยนี้จึงเป็นการเตือนถึงความเสี่ยงในการนำ AI มาใช้ในกระบวนการพิจารณาผลงานทางวิชาการอย่างเป็นทางการ