NVIDIA ร่วมกับผู้นำอุตสาหกรรมอย่าง OpenAI, Microsoft และ Oracle เปิดตัว Multipath Reliable Connection (MRC) ซึ่งเป็นโปรโตคอลการขนส่งข้อมูลแบบ RDMA สำหรับโครงสร้างพื้นฐาน NVIDIA Spectrum-X Ethernet โดย MRC ถูกออกแบบมาเพื่อแก้ปัญหาคอขวดในเครือข่ายระดับ Gigascale ด้วยการยอมรับให้หนึ่งการเชื่อมต่อ RDMA สามารถกระจายทราฟฟิกไปตามเส้นทางเครือข่ายที่แตกต่างกันได้พร้อมกัน ช่วยให้การใช้ทรัพยากร GPU มีประสิทธิภาพสูงสุดและรักษาแบนด์วิดท์ได้แม้ในช่วงที่มีการจราจรหนาแน่น
ปัจจุบัน MRC ได้ถูกนำไปใช้งานจริงแล้วในซูเปอร์คอมพิวเตอร์ขนาดใหญ่ เช่น Fairwater ของ Microsoft และ Abilene ของ Oracle Cloud ซึ่งใช้ในการฝึกโมเดลภาษาขนาดใหญ่ (LLMs) รุ่นล่าสุด นอกจากนี้ เทคโนโลยีดังกล่าวยังมีความสามารถในการตรวจจับและเปลี่ยนเส้นทางข้อมูลโดยอัตโนมัติในระดับฮาร์ดแวร์เมื่อเกิดความล้มเหลวในระดับไมโครวินาที ซึ่งช่วยลดเวลาว่างของ GPU และป้องกันไม่ให้งานฝึกโมเดลขนาดใหญ่ต้องหยุดชะงัก