การประเมินโมเดลขับขี่อัตโนมัติในปัจจุบันมักเน้นที่แบบ Open-loop หรือการตอบคำถามจากภาพนิ่ง ซึ่งไม่สามารถสะท้อนความสามารถในการขับขี่จริงเมื่อเกิดข้อผิดพลาดสะสมได้ Bench2Drive-VL จึงถูกพัฒนาขึ้นเพื่อเป็นส่วนขยายของ Bench2Drive โดยเน้นไปที่โมเดล Vision-Language (VLM) ในรูปแบบวงปิด (Closed-loop)
ระบบนี้มาพร้อมกับ 'DriveCommenter' ซึ่งเป็นเครื่องมือสร้างคู่คำถาม-คำตอบตามพฤติกรรมจริงในสถานการณ์ต่างๆ ของโปรแกรมจำลอง CARLA รวมถึงกรณีการขับออกนอกเส้นทางอย่างรุนแรง นอกจากนี้ยังมีเฟรมเวิร์กที่ยืดหยุ่นรองรับอินพุตภาพหลายรูปแบบและการประมวลผลแบบ Chain-of-thought ช่วยให้การเปรียบเทียบระหว่างโมเดล VLM และระบบขับขี่แบบดั้งเดิมเป็นไปอย่างยุติธรรมและมีประสิทธิภาพ