หนึ่งในความท้าทายที่ยิ่งใหญ่ของ LLM คือปัญหา 'Catastrophic Forgetting' หรือการลืมความรู้เก่าเมื่อได้รับการฝึกข้อมูลใหม่ รวมถึงความล่าช้าและต้นทุนที่สูงในการทำ Fine-tuning งานวิจัยนี้จึงนำเสนอ SOLAR (Self-Optimizing Lifelong Autonomous Reasoner)
SOLAR ใช้แนวคิดการเรียนรู้แบบ Meta-learning ในระดับพารามิเตอร์ โดยมองว่าน้ำหนักของโมเดลคือสภาพแวดล้อมที่สามารถสำรวจและปรับเปลี่ยนได้ ระบบนี้ใช้ Reinforcement Learning หลายระดับเพื่อค้นหากลยุทธ์การปรับตัวที่เหมาะสมกับสถานการณ์ (Test-time Adaptation) และมี 'หน่วยความจำเชิงเหตุการณ์' (Episodic Memory Buffer) เพื่อเก็บสะสมกลยุทธ์ที่ได้ผล ทำให้โมเดลสามารถเรียนรู้สิ่งใหม่ๆ ไปพร้อมกับรักษาความเสถียรของความรู้เดิมไว้ได้ในระดับสูง