ประสิทธิภาพในการรัน AI ไม่ได้ขึ้นอยู่กับฮาร์ดแวร์เพียงอย่างเดียว แต่ยังขึ้นอยู่กับซอฟต์แวร์ที่ประสานงานกันเป็นระบบ NVIDIA แสดงให้เห็นว่าการใช้ซอฟต์แวร์สแต็กสำหรับ Inference เช่น TensorRT-LLM และ Dynamo บนสถาปัตยกรรม Blackwell สามารถเพิ่มความเร็วและลดต้นทุนต่อ Token ได้อย่างมหาศาล โดยเฉพาะในโมเดล DeepSeek V4 ที่ต้นทุนลดลงเหลือเพียง 1 ใน 5 ในช่วงเวลาสั้นๆ
การเพิ่มขึ้นของประสิทธิภาพนี้เกิดจากการรวมหลายเทคนิคเข้าด้วยกัน เช่น การประมวลผลแบบ Disaggregated Serving, การใช้ความแม่นยำแบบ NVFP4 และการทำ Multi-token Prediction (MTP) ซึ่งเมื่อทำงานร่วมกับโอเพนซอร์สเฟรมเวิร์กอย่าง PyTorch, vLLM และ SGLang จะช่วยให้นักพัฒนาสามารถแปลงงานวิจัยล่าสุดให้กลายเป็นระบบที่ใช้งานได้จริงในต้นทุนที่ต่ำลง