การฝึกฝนระบบจำลองการจราจรในปัจจุบันมักใช้แนวทาง Supervised Open-loop ซึ่งมักจะล้มเหลวในการจับคู่ปฏิกิริยาระหว่างผู้ขับขี่ที่ซับซ้อนและมีการเปลี่ยนแปลงตลอดเวลา คณะผู้วิจัยจึงได้นำเสนอ RLFTSim ซึ่งเป็นเฟรมเวิร์กที่ใช้ Reinforcement Learning (RL) เข้ามาช่วยในการ Fine-tuning เพื่อให้การเคลื่อนที่ของยานพาหนะจำลองมีความสอดคล้องกับพฤติกรรมในโลกจริงมากขึ้น
หัวใจสำคัญของ RLFTSim คือการออกแบบระบบรางวัล (Reward Signal) ที่มีความแปรปรวนต่ำและมีความหนาแน่นสูง ช่วยให้กระบวนการฝึกฝนใช้ตัวอย่างข้อมูลน้อยลงกว่าวิธีการเดิมๆ แต่ยังคงรักษาความสมจริงไว้ได้ นอกจากนี้ยังรองรับการกำหนดเป้าหมาย (Goal-conditioned) เพื่อให้ผู้พัฒนาสามารถควบคุมสถานการณ์ที่ต้องการจำลองได้อย่างแม่นยำ เหมาะสำหรับการนำไปใช้พัฒนาและทดสอบระบบขับขี่อัตโนมัติในสภาพแวดล้อมที่หลากหลาย