AI & MACHINE LEARNING

Google แนะนำ DiffusionGemma โมเดลสร้างข้อความแบบใหม่ที่เร็วกว่าเดิม 4 เท่า

Google DeepMind10 Jun 2026

1 min read

Key Takeaways

DiffusionGemma ใช้เทคนิค Diffusion สร้างข้อความแบบขนาน ทำให้การประมวลผลบน GPU มีประสิทธิภาพและรวดเร็วกว่าเดิมหลายเท่า

ทำไมเรื่องนี้ถึงสำคัญ

นี่คือการเปลี่ยนผ่านวิธีการทำงานของ AI จาก 'เครื่องพิมพ์ดีด' (พิมพ์ทีละตัว) ไปสู่ 'แท่นพิมพ์' (พิมพ์ทั้งแผ่น) ซึ่งจะช่วยแก้ปัญหา Latency ในการรัน AI บนเครื่อง Local ได้อย่างมีนัยสำคัญ

Google เปิดตัว DiffusionGemma โมเดลทดลองขนาด 26B MoE ที่นำเทคนิคการประมวลผลแบบ Diffusion ซึ่งมักใช้ในงานสร้างรูปภาพมาประยุกต์ใช้กับข้อความ แทนที่จะสร้างข้อความทีละคำ (Token) แบบโมเดลทั่วไป (Autoregressive) DiffusionGemma จะสร้างข้อความทั้งบล็อกจำนวน 256 คำพร้อมกันในครั้งเดียวผ่านการขัดเกลาจากสัญญาณรบกวน (Noise) จนกลายเป็นข้อความที่สมบูรณ์

จุดเด่นของเทคโนโลยีนี้คือการเปลี่ยนข้อจำกัดจากการรอแบนด์วิดท์หน่วยความจำมาเป็นการใช้พลังประมวลผลของ GPU อย่างเต็มที่ ส่งผลให้มีความเร็วสูงกว่า 1,000 คำต่อวินาทีบน NVIDIA H100 นอกจากนี้ยังมาพร้อมกับ Bi-directional Attention ที่ทำให้คำแต่ละคำสามารถรับรู้บริบทของทั้งประโยคได้พร้อมกัน เหมาะสำหรับงานที่ต้องการความเร็วสูงหรืองานแก้ไขข้อความแบบเฉพาะจุด (In-line editing)

สรุปประเด็นหลัก

สร้างข้อความได้สูงสุด 256 Token พร้อมกันในหนึ่งรอบการประมวลผล

เร็วกว่าโมเดลแบบปกติถึง 4 เท่าบน GPU เฉพาะทาง

ใช้ Bi-directional Attention ช่วยให้เข้าใจบริบทข้อความทั้งบล็อกได้ดีกว่า

นวัตกรรมและเทคโนโลยี

research

Parallel Text Generation

เปลี่ยนจากการทำนายคำถัดไปทีละคำเป็นการสร้างทั้งย่อหน้าพร้อมกัน ช่วยลดปัญหาคอขวดด้าน Latency

models

Bi-directional Attention

คำทุกคำในบล็อกสามารถสื่อสารกันได้ทั้งหน้าและหลัง มีประโยชน์มากในงาน Coding และงานแก้ไขข้อความ

Developer Impact

เหมาะสำหรับวิศวกรที่พัฒนาแอปพลิเคชันที่ต้องการความเร็วในการตอบสนองระดับ Interactive หรือระบบที่ต้องรันบน GPU ของผู้ใช้ทั่วไปที่มีทรัพยากรจำกัดแต่ต้องการประสิทธิภาพสูง

Keywords

#diffusiongemma #text diffusion #parallel decoding #fast inference #google ai

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

Google DeepMind