NVIDIA Spectrum-X — 개방형 AI 네이티브 이더넷 패브릭 — MRC와 함께 기가스케일 AI의 새로운 기준을 세우다

멀티패스 신뢰 연결(Multipath Reliable Connection) — NVIDIA Spectrum-X 이더넷 하드웨어에서 처음 검증되고 최적화된 새로운 전송 프로토콜 — 이 이제 업계에 공개됩니다.
by NVIDIA Korea

멀티패스 신뢰 연결(Multipath Reliable Connection) — NVIDIA Spectrum-X 이더넷 하드웨어에서 처음 검증되고 최적화된 새로운 전송 프로토콜 — 이 이제 업계에 공개됩니다.

세계에서 가장 강력한 AI 팩토리를 구축하기 위한 경쟁은 AI의 발전 속도에 발맞출 수 있는 네트워킹을 요구하는데요,

NVIDIA Spectrum-X 이더넷 스케일아웃 인프라는 현재 이용 가능한 가장 진보한 AI 네트워킹 기술로서 이 경쟁의 최전선에 서 있으며, 성능, 복원력, 확장성에서 타협할 수 없는 업계 선도 기업들이 채택하고 있습니다.

여기에는 OpenAI, Microsoft, Oracle이 포함됩니다.

NVIDIA, Microsoft, OpenAI를 비롯한 기업들은 RDMA 전송 프로토콜인 멀티패스 신뢰 연결(MRC)을 도입하며 업계 기술 리더십을 입증했는데요, MRC는 단일 RDMA 연결로 여러 네트워크 경로에 걸쳐 트래픽을 분산시킬 수 있도록 하여, 대규모 AI 학습 패브릭의 처리량, 부하 분산, 가용성을 향상시킵니다.

이는 마을을 가로지르는 단일 차선 도로를, 정교하게 설계된 도로망 시스템과 실시간 교통 앱의 조합으로 대체하는 것과 같습니다. 마치 운전자들이 정체 구간이나 도로 폐쇄를 우회할 수 있게 되는 것이죠.

OpenAI의 산업 컴퓨팅 부문 총괄 Sachin Katti는 “Blackwell 세대에 MRC를 배포한 것은 매우 성공적이었으며, NVIDIA와의 긴밀한 협업 덕분에 가능했습니다”라고 말했습니다. “MRC의 엔드 투 엔드 접근 방식 덕분에 일반적인 네트워크 관련 속도 저하나 중단을 대부분 피하고, 대규모 프론티어 학습 실행의 효율성을 유지할 수 있었습니다.”

또한 Microsoft와 NVIDIA는 차세대 AI에 필요한 인프라를 발전시키기 위해 오랜 기간 협업을 이어 오고 있습니다. 최첨단 프론티어 LLM을 학습하고 배포하기 위해 특별히 구축된 세계 최대 규모의 AI 팩토리 두 곳, 즉 Microsoft의 FairwaterOracle Cloud Infrastructure(OCI)의 Abilene 데이터 센터는 성능, 규모, 효율성 요구 사항을 충족하기 위해 MRC에 의존하고 있습니다. NVIDIA Spectrum-X 이더넷은 이러한 환경에 적합하며, 대규모 AI 모델과 애플리케이션을 안정적으로 실행하는 데 필요한 네트워크 기반을 제공하고 있죠.

NVIDIA Spectrum-X 이더넷 하드웨어에서 성능이 최적화된 채 프로덕션 환경에서 가장 먼저 검증된 MRC는, 이제 Open Compute Project를 통해 오픈 사양으로 공개됐습니다. 이는 Spectrum-X 이더넷 플랫폼의 강점을 잘 보여줍니다. 즉, 전용 하드웨어, 심층 텔레메트리, 지능형 패브릭 제어가 함께 작동하여 새로운 프로토콜 — 네트워크상에서 두 시스템 간 데이터 이동을 제어하는 규칙 집합 — 을 개념 단계에서 기가스케일 AI 프로덕션 단계까지 이끌어 낸다는 것입니다.

MRC는 사용 가능한 모든 경로에 트래픽을 부하 분산함으로써 높은 GPU 활용도를 제공하며, 학습 실행 내내 모든 GPU가 필요한 대역폭을 확보할 수 있도록 합니다. 또한 실시간으로 과부하된 경로를 동적으로 회피하여 혼잡 상황에서도 높은 대역폭을 유지합니다.

데이터 손실이 발생하면 지능형 재전송이 신속하고 정확한 복구를 가능하게 하여, 장기 실행 작업에 발생하는 단기 중단의 영향을 최소화하고 GPU 유휴 시간을 방지하는 데 도움을 줍니다.

관리자는 또한 트래픽 경로에 대한 세밀한 가시성과 제어권을 확보하여 대규모 운영을 단순화하고 문제 해결 속도를 높일 수 있습니다.

Spectrum-X 이더넷에 배포된 MRC는 대규모 환경에서의 복원력에 최적화되도록 엔지니어링됐습니다. 장애 우회 기술은 단 수 마이크로초 만에 네트워크 경로 장애를 감지하고 하드웨어에서 트래픽을 자동으로 재라우팅할 수 있습니다.

이러한 장애 우회 기술은 수천 개의 GPU가 동기화 상태를 유지해야 하는 AI 학습 클러스터에서 매우 중요합니다. 짧은 네트워크 중단조차 전체 학습 작업을 지연시키거나 중단시킬 수 있기 때문입니다. Spectrum-X 이더넷은 하드웨어 속도로 응답하여 기가스케일 AI 패브릭 전반에서 정확한 경로를 따라 트래픽이 계속 흐르도록 함으로써 이를 방지합니다.

기가스케일 AI 팩토리를 실현하는 또 다른 핵심 혁신은 멀티플레인 네트워크 설계로, OpenAI는 이를 Spectrum-X 이더넷에 MRC와 함께 배포하고 있습니다. 멀티플레인 네트워크는 여러 개의 독립적인 네트워크 패브릭, 즉 플레인으로 구성되며, 각 플레인은 GPU 간의 대체 통신 경로를 제공합니다.

NVIDIA Spectrum-X Multiplane 기능은 플레인 전반에서 하드웨어 가속 부하 분산을 지원하여, 성능을 희생하지 않으면서 복원력과 확장성을 높이는 방식으로 이 네트워크 아키텍처를 한층 강화합니다. 이를 통해 수십만 개의 GPU로 확장하면서도 지연 시간을 예측 가능하게 낮은 수준으로 유지할 수 있습니다.

Spectrum-X 이더넷에서는 고객이 다양한 RDMA 전송 모델을 선택할 수 있습니다. Spectrum-X 이더넷 Adaptive RDMA와 MRC 프로토콜은 물론 기타 커스텀 프로토콜도 NVIDIA ConnectX SuperNICSpectrum-X 이더넷 스위치 전반에서 네이티브로 실행되며, 기가스케일 환경의 멀티플레인 네트워크 설계를 지원합니다.

이처럼 오늘날 가장 큰 규모의 AI 클러스터를 구동하는 Spectrum-X 이더넷 하드웨어 및 소프트웨어 인프라는 고객이 자신의 워크로드에 맞는 적절한 전송 방식을 선택할 수 있는 유연성을 제공합니다.

MRC 전송 프로토콜은 업계가 Spectrum-X 이더넷을 현대 AI 인프라 전반에 통합되는 유연하고 구성 가능한 플랫폼으로 활용하고 있음을 보여 주는 최신 사례입니다.

AI 팩토리가 계속 확장됨에 따라, 네트워크는 단순히 데이터를 빠르게 이동시키는 것 이상을 해야 합니다. 지능적이고, 복원력이 있으며, 오픈 표준에 기반해야 합니다. NVIDIA Spectrum-X 이더넷은 이 세 가지를 모두 충족하며, MRC와 함께 첨단 AI 네트워킹의 새로운 기준을 계속 세워 나가고 있습니다.

NVIDIA는 AMD, Broadcom, Intel, Microsoft, OpenAI와 협력하여 MRC를 개발했습니다.

NVIDIA Spectrum-X 이더넷에 대해 자세히 알아보려면 웹페이지, 데이터시트, 기술 백서를 참조하세요.