AI & MACHINE LEARNING

เปิดตัว ZAYA1-8B: โมเดล MoE ขนาดเล็กที่เน้นทักษะการใช้เหตุผลด้วยสถาปัตยกรรม Zyphra

arXiv08 May 2026
1 min read
Key Takeaways
  • ZAYA1-8B พิสูจน์ว่าโมเดลขนาด 700M active parameters สามารถเอาชนะโมเดลขนาดใหญ่ในงานด้านคณิตศาสตร์และโค้ดได้ด้วยเทคนิค MoE++
  • Markovian RSA

ทำไมเรื่องนี้ถึงสำคัญ

แสดงให้เห็นว่าโมเดลขนาดเล็กที่มีพารามิเตอร์ทำงานไม่ถึง 1 พันล้านรายการ สามารถมีทักษะการใช้เหตุผลที่ยอดเยี่ยมได้หากใช้สถาปัตยกรรมและการฝึกฝนที่เหมาะสม ช่วยลดต้นทุนในการรันโมเดล AI ขั้นสูง

ZAYA1-8B เป็นโมเดลภาษาขนาดใหญ่ที่เน้นความสามารถด้านการใช้เหตุผล (Reasoning) โดยใช้สถาปัตยกรรม MoE++ ของ Zyphra โมเดลนี้มีความโดดเด่นที่มีจำนวนพารามิเตอร์รวม 8 พันล้าน (8B) แต่มีพารามิเตอร์ที่ทำงานจริง (Active Parameters) เพียง 700 ล้านรายการเท่านั้น ซึ่งช่วยให้มีประสิทธิภาพสูงในขณะที่ใช้ทรัพยากรการคำนวณต่ำ กระบวนการฝึกฝนโมเดลนี้ทำบนแพลตฟอร์มของ AMD ทั้งระบบ และมีการป้อนข้อมูลด้านการใช้เหตุผลตั้งแต่ขั้นตอน Pretraining

จุดเด่นสำคัญคือการนำเสนอวิธี Markovian RSA ซึ่งเป็นเทคนิคการคำนวณในช่วงการทดสอบ (Test-time compute) ที่ช่วยเพิ่มประสิทธิภาพในโจทย์ที่ซับซ้อน จากผลการทดสอบพบว่า ZAYA1-8B สามารถทำคะแนนในระดับที่เทียบเท่าหรือเหนือกว่าโมเดลที่มีขนาดใหญ่กว่ามาก เช่น DeepSeek-R1-0528 ในด้านคณิตศาสตร์และการเขียนโปรแกรม และยังลดช่องว่างประสิทธิภาพเมื่อเทียบกับโมเดลระดับแนวหน้าอย่าง GPT-5-High หรือ Gemini-2.5 Pro ในบางเกณฑ์มาตรฐาน

สรุปประเด็นหลัก

ใช้สถาปัตยกรรม MoE++ ที่มีพารามิเตอร์ทำงานจริงเพียง 700 ล้านรายการ

พัฒนาเทคนิค Markovian RSA เพื่อช่วยในการประมวลผลการใช้เหตุผลที่ซับซ้อน

ทำคะแนน AIME'25 ได้สูงถึง 91.9% ผ่านการคำนวณแบบ Test-time compute

นวัตกรรมและเทคโนโลยี

infrastructure

สถาปัตยกรรม MoE++

ระบบการจัดการพารามิเตอร์ที่ช่วยให้โมเดลมีขนาดรวม 8B แต่ใช้พลังงานประมวลผลเทียบเท่าโมเดลขนาด 700M

research

Markovian RSA

วิธีการรวบรวมร่องรอยการใช้เหตุผลแบบขนานในช่วง Test-time เพื่อเพิ่มความแม่นยำในโจทย์ยาก

Developer Impact
นักพัฒนาสามารถเข้าถึงโมเดลที่รันได้บนฮาร์ดแวร์ระดับล่างแต่มีประสิทธิภาพด้านการใช้เหตุผลสูง รวมถึงได้เรียนรู้เทคนิคการฝึกฝนบนระบบ AMD และวิธีการทำ RL สี่ขั้นตอน
Keywords
#zaya1-8b #moe #reasoning model #markovian rsa #zyphra
Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

arXiv