การสร้างภาพสเก็ตช์จากข้อความ (Text-to-Vector Sketch) มักมีปัญหาเรื่องการควบคุมองค์ประกอบย่อย งานวิจัยนี้จึงนำเสนอเทคนิคการฝึกโมเดลภาษาแบบ Multi-modal ให้ทำหน้าที่เป็น Agent ที่วาดภาพทีละส่วน (Part-by-part) โดยใช้กระบวนการที่เรียกว่า Multi-turn Process-reward Reinforcement Learning หลังจากการปรับแต่งเบื้องต้น
หัวใจสำคัญคือชุดข้อมูลใหม่ ControlSketch-Part ที่มีการระบุรายละเอียดของแต่ละชิ้นส่วนในภาพสเก็ตช์อย่างชัดเจนผ่านกระบวนการทำ Automatic Annotation วิธีการนี้ช่วยให้การสร้างภาพเวกเตอร์มีความโปร่งใส ตรวจสอบขั้นตอนการวาดได้ และที่สำคัญที่สุดคือทำให้ผู้ใช้สามารถเลือกแก้ไขเฉพาะชิ้นส่วนใดชิ้นส่วนหนึ่ง (Local Editing) ได้โดยไม่กระทบกับภาพรวม