ในการฝึกฝน AI สำหรับขับรถ มักมีการรวมตัวชี้วัดหลายอย่าง (เช่น ความปลอดภัย, ความเร็ว, ความสบาย) เข้าเป็นตัวเลขเดียว (Scalar Reward) ซึ่งมักทำให้ AI ยอมสละความปลอดภัยเพื่อแลกกับความเร็ว งานวิจัยนี้จึงเสนอ Preordered Multi-Objective MDP (Pr-MOMDP) ที่กำหนดโครงสร้างรางวัลตามลำดับความสำคัญที่ชัดเจน
ทีมวิจัยยังได้นำเทคนิค Quantile Dominance (QD) มาใช้ในงาน Distributional RL เพื่อประเมินการกระจายตัวของผลลัพธ์โดยไม่ต้องลดรูปข้อมูล วิธีนี้ช่วยให้ระบบตัดสินใจเลือกการกระทำที่อยู่ในเซต 'Non-dominated' ภายใต้ลำดับความสำคัญที่กำหนด เมื่อทดสอบในโปรแกรมจำลอง Carla พบว่ามีอัตราความสำเร็จสูงขึ้นและลดการชนหรือการตกถนนได้อย่างมีนัยสำคัญ