การวัดผล AI (Benchmarks) ในปัจจุบันมักมุ่งเน้นไปที่ความสามารถในการทำภารกิจเดี่ยวๆ ให้ชนะมนุษย์ แต่ในความเป็นจริง AI ถูกนำไปใช้ในสภาพแวดล้อมที่ซับซ้อนซึ่งต้องทำงานร่วมกับคนและระบบองค์กร งานวิจัยระบุว่าแม้โมเดล AI จะทำคะแนนได้สูงถึง 98% ในห้องแล็บ แต่เมื่อนำไปใช้จริงในโรงพยาบาลกลับทำให้การทำงานช้าลงเนื่องจากผลลัพธ์ไม่สอดคล้องกับมาตรฐานการรายงานหรือขั้นตอนการทำงานของทีม
จึงมีการเสนอแนวทาง 'HAIC benchmarks' (Human–AI, Context-Specific Evaluation) ซึ่งเน้นการวัดผล 4 ด้านหลัก คือ ประสิทธิภาพของเวิร์กโฟลว์, ผลกระทบระยะยาว, คุณภาพการประสานงานระหว่างมนุษย์กับ AI และผลกระทบเชิงระบบ เพื่อให้แน่ใจว่า AI สามารถสร้างคุณค่าได้จริงในเชิงเศรษฐกิจและสังคมโดยไม่ถูกทิ้งไว้ใน 'สุสาน AI' หลังการทดลองใช้งาน