Google เปิดตัว DiffusionGemma โมเดลทดลองขนาด 26B MoE ที่นำเทคนิคการประมวลผลแบบ Diffusion ซึ่งมักใช้ในงานสร้างรูปภาพมาประยุกต์ใช้กับข้อความ แทนที่จะสร้างข้อความทีละคำ (Token) แบบโมเดลทั่วไป (Autoregressive) DiffusionGemma จะสร้างข้อความทั้งบล็อกจำนวน 256 คำพร้อมกันในครั้งเดียวผ่านการขัดเกลาจากสัญญาณรบกวน (Noise) จนกลายเป็นข้อความที่สมบูรณ์
จุดเด่นของเทคโนโลยีนี้คือการเปลี่ยนข้อจำกัดจากการรอแบนด์วิดท์หน่วยความจำมาเป็นการใช้พลังประมวลผลของ GPU อย่างเต็มที่ ส่งผลให้มีความเร็วสูงกว่า 1,000 คำต่อวินาทีบน NVIDIA H100 นอกจากนี้ยังมาพร้อมกับ Bi-directional Attention ที่ทำให้คำแต่ละคำสามารถรับรู้บริบทของทั้งประโยคได้พร้อมกัน เหมาะสำหรับงานที่ต้องการความเร็วสูงหรืองานแก้ไขข้อความแบบเฉพาะจุด (In-line editing)