งานวิจัยชิ้นนี้แนะนำ ItinBench ซึ่งเป็นเบนชมาร์กที่ออกแบบมาเพื่อประเมินความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) ในด้านการวางแผนและการให้เหตุผลที่ซับซ้อนขึ้น โดยเน้นไปที่การวางแผนการเดินทาง (Trip Itinerary Planning) ซึ่งเป็นโจทย์ที่ท้าทายในโลกจริง ความโดดเด่นของ ItinBench คือการเพิ่มมิติการให้เหตุผลเชิงพื้นที่ (Spatial Reasoning) เช่น การหาเส้นทางที่เหมาะสม (Route Optimization) เข้าไปร่วมกับการให้เหตุผลทางภาษาแบบเดิม
จากการทดสอบโมเดลชั้นนำหลายค่าย เช่น Llama 3.1 8B, Mistral Large, Gemini 1.5 Pro และตระกูล GPT พบว่าโมเดลเหล่านี้ยังมีปัญหาในการรักษาประสิทธิภาพให้คงที่เมื่อต้องจัดการกับมิติทางพุทธิปัญญาหลายด้านพร้อมกัน ผลลัพธ์นี้ชี้ให้เห็นว่าการสร้างระบบ AI ที่มีความสามารถในการให้เหตุผลครอบคลุมทุกด้านยังคงเป็นเรื่องที่ท้าทายและต้องการการพัฒนาต่อยอดอีกมาก