NVIDIA ประกาศเพิ่มความเร็วในการประมวลผลให้กับ DiffusionGemma ซึ่งเป็นโมเดลภาษาแบบ Open Model ล่าสุดจาก Google DeepMind โดยโมเดลนี้มีความแตกต่างจาก LLM ทั่วไปตรงที่ใช้เทคนิค Diffusion ในการสร้างข้อความ แทนการทำนายทีละคำ (Autoregressive) ทำให้สามารถประมวลผลข้อความได้สูงสุดถึง 256 Token พร้อมกันในขั้นตอนเดียว
จากการทดสอบบนฮาร์ดแวร์ของ NVIDIA พบว่า DiffusionGemma สามารถทำความเร็วได้ถึง 1,000 Token ต่อวินาทีบน GPU H100 และเร็วกว่าโมเดลปกติ 4 เท่าบนระบบ DGX Spark และ RTX PRO การปรับปรุงนี้เน้นไปที่การใช้งานแบบผู้ใช้คนเดียว (Single-user) ซึ่งเหมาะอย่างยิ่งสำหรับการพัฒนาระบบ AI บนเครื่องคอมพิวเตอร์ส่วนบุคคลที่ต้องการความล่าช้าต่ำ (Low latency) เช่น ตัวช่วยอัจฉริยะแบบ On-device หรือระบบ Agentic loops