งานวิจัยชิ้นนี้มุ่งเน้นไปที่การถกเถียงเรื่องการฝึกฝนโมเดลภาษาขนาดใหญ่ในช่วง Post-training โดยระบุว่าการแบ่งประเภทแบบเดิมระหว่าง Supervised Fine-tuning (SFT) และ Reinforcement Learning (RL) นั้นยังไม่ชัดเจนพอ ผู้วิจัยจึงได้นำเสนอมุมมองใหม่ที่ใช้หลักการ Free-energy เพื่อแยกแยะระหว่าง 'Capability Elicitation' (การดึงความสามารถเดิมที่มีอยู่แล้วในโมเดลออกมาให้เข้าถึงได้ง่ายขึ้น) และ 'Capability Creation' (การสร้างความสามารถใหม่ที่อยู่นอกเหนือขอบเขตเดิมของโมเดล)
หัวใจสำคัญของงานวิจัยนี้คือการแนะนำนิยามของ 'Accessible Support' หรือชุดพฤติกรรมที่โมเดลสามารถผลิตได้จริงภายใต้งบประมาณการประมวลผลที่จำกัด หากการฝึกฝนเป็นการจัดลำดับความสำคัญของพฤติกรรมที่อยู่ในขอบเขตนี้จะถือเป็นการดึงความสามารถเดิม (Elicitation) แต่ถ้าเป็นการขยายขอบเขตพฤติกรรมให้กว้างขึ้นผ่านการสืบค้น การโต้ตอบ หรือการใช้เครื่องมือ จะถือเป็นการสร้างความสามารถใหม่ (Creation) ซึ่งกรอบแนวคิดนี้จะช่วยให้นักวิจัยเข้าใจผลกระทบที่แท้จริงของการปรับแต่งโมเดลได้ดียิ่งขึ้น