การทำให้หุ่นยนต์เข้าใจและปฏิบัติตามกฎความปลอดภัยที่มนุษย์กำหนดไว้ในรูปแบบภาษาธรรมชาติเป็นเรื่องท้าทาย งานวิจัยนี้จึงนำเสนอสถาปัตยกรรมเชิงทฤษฎีที่เชื่อมโยงภาษาเข้ากับตรรกะ เพื่อการนำทางที่ปลอดภัยในสภาพแวดล้อมภายนอกที่ไม่มีโครงสร้างชัดเจน
ระบบนี้จะรับคำสั่งภาษาธรรมชาติจากผู้ควบคุม แล้วแปลให้เป็นข้อกำหนดตรรกะทางเวลา (Signal Temporal Logic - STL) โดยใช้โมเดล Vision-Language Models (VLMs) ทำหน้าที่ทำความเข้าใจภาพและสภาพแวดล้อมแบบ Zero-shot ข้อมูลจาก VLM จะถูกนำไปสร้างเป็นแผนที่ต้นทุน (Cost map) แบบ 2 มิติ และใช้ในการตรวจสอบเงื่อนไขความปลอดภัยแบบไดนามิกตลอดเวลาที่หุ่นยนต์เคลื่อนที่
โครงสร้างนี้ช่วยให้หุ่นยนต์สามารถตอบสนองต่อทั้งกฎเกณฑ์ที่คงที่ (เช่น ประเภทของพื้นผิวที่อนุญาต) และเงื่อนไขที่เปลี่ยนแปลงตามเวลา (เช่น ลำดับการทำงาน) โดยมีตัวชี้วัดความพึงพอใจในเชิงตรรกะที่พิสูจน์ได้ ซึ่งช่วยเพิ่มระดับความไว้วางใจในการใช้งานหุ่นยนต์ร่วมกับมนุษย์