CLOUD & INFRA

NVIDIA และพันธมิตรเปิดตัวโปรโตคอล MRC มาตรฐานใหม่สำหรับเครือข่าย AI ระดับ Gigascale

NVIDIA Blog06 May 2026
1 min read
Key Takeaways
  • MRC คือโปรโตคอลเครือข่ายที่เปลี่ยนการรับส่งข้อมูลแบบเส้นทางเดียวเป็นการกระจายหลายเส้นทาง (Packet Spraying) เพื่อลดความแออัดและเพิ่มความทนทานให้กับการฝึกโมเดล AI ระดับโลก

ทำไมเรื่องนี้ถึงสำคัญ

ประสิทธิภาพของเครือข่ายเป็นปัจจัยสำคัญในการฝึกโมเดล AI ยุคใหม่ มาตรฐาน MRC ช่วยให้โครงสร้างพื้นฐานระดับศูนย์ข้อมูลสามารถรองรับ GPU จำนวนหลายแสนตัวได้โดยไม่เกิดปัญหาความล่าช้าสะสมจากเครือข่าย ซึ่งเป็นการยกระดับจาก Ethernet แบบเดิมให้มีความเสถียรเทียบเท่าหรือสูงกว่าเทคโนโลยีเฉพาะทาง

NVIDIA ร่วมกับผู้นำอุตสาหกรรมอย่าง OpenAI, Microsoft และ Oracle เปิดตัว Multipath Reliable Connection (MRC) ซึ่งเป็นโปรโตคอลการขนส่งข้อมูลแบบ RDMA สำหรับโครงสร้างพื้นฐาน NVIDIA Spectrum-X Ethernet โดย MRC ถูกออกแบบมาเพื่อแก้ปัญหาคอขวดในเครือข่ายระดับ Gigascale ด้วยการยอมรับให้หนึ่งการเชื่อมต่อ RDMA สามารถกระจายทราฟฟิกไปตามเส้นทางเครือข่ายที่แตกต่างกันได้พร้อมกัน ช่วยให้การใช้ทรัพยากร GPU มีประสิทธิภาพสูงสุดและรักษาแบนด์วิดท์ได้แม้ในช่วงที่มีการจราจรหนาแน่น

ปัจจุบัน MRC ได้ถูกนำไปใช้งานจริงแล้วในซูเปอร์คอมพิวเตอร์ขนาดใหญ่ เช่น Fairwater ของ Microsoft และ Abilene ของ Oracle Cloud ซึ่งใช้ในการฝึกโมเดลภาษาขนาดใหญ่ (LLMs) รุ่นล่าสุด นอกจากนี้ เทคโนโลยีดังกล่าวยังมีความสามารถในการตรวจจับและเปลี่ยนเส้นทางข้อมูลโดยอัตโนมัติในระดับฮาร์ดแวร์เมื่อเกิดความล้มเหลวในระดับไมโครวินาที ซึ่งช่วยลดเวลาว่างของ GPU และป้องกันไม่ให้งานฝึกโมเดลขนาดใหญ่ต้องหยุดชะงัก

สรุปประเด็นหลัก

กระจายข้อมูลผ่านหลายเส้นทางเพื่อลดปัญหาความแออัด (Network Congestion)

ระบบ Failure Bypass ระดับไมโครวินาทีป้องกันการหยุดชะงักของงานฝึกโมเดล

รองรับการขยายตัวได้ถึงระดับแสน GPU ด้วยสถาปัตยกรรม Multiplane

นวัตกรรมและเทคโนโลยี

infrastructure

Multipath Reliable Connection (MRC)

โปรโตคอลที่ช่วยให้การเชื่อมต่อ RDMA เดียวสามารถส่งข้อมูลผ่านหลายเส้นทางเครือข่ายพร้อมกันได้

security

Hardware-accelerated Failure Bypass

ความสามารถในการตรวจจับและเปลี่ยนเส้นทางข้อมูลใหม่ในระดับฮาร์ดแวร์ภายในเวลาไม่กี่ไมโครวินาที

Developer Impact
ทีมวิศวกรโครงสร้างพื้นฐานและผู้ออกแบบระบบ AI จะสามารถลดความซับซ้อนในการจัดการเครือข่ายระดับใหญ่ลงได้ โดย MRC ช่วยลดความจำเป็นในการปรับแต่งเส้นทางข้อมูลแบบแมนนวลและเพิ่มเสถียรภาพให้กับงานที่ต้องการการประมวลผลต่อเนื่องเป็นเวลานาน
Keywords
#nvidia spectrum-x #mrc protocol #rdma #ai factory #networking
Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

NVIDIA Blog