NVIDIA, 파트너들과 함께 Vera Rubin 대비 차세대 고효율 기가와트급 AI 팩토리 추진

50개 이상의 NVIDIA MGX 파트너들이 NVIDIA Vera Rubin NVL144에 대비하고 있으며, 20개가 넘는 기업들이 800VDC 데이터 센터를 지원하는 NVIDIA의 확장 중인 파트너 생태계에 합류해 미래의 기가와트급 AI 팩토리 구현을 준비하고 있습니다.
by NVIDIA Korea

OCP Global Summit에서 NVIDIA는 차세대 기가와트급 AI 팩토리를 위한 핵심 기술들을 공개했습니다.

이번 행사에서 NVIDIA는 점점 늘어나는 AI 추론 수요에 대응하기 위해 설계된 NVIDIA Vera Rubin NVL144 MGX 세대의 오픈 아키텍처 랙 서버 사양을 소개했습니다. 이 서버는 50개 이상의 MGX 파트너들이 함께 준비 중이며, 576개의 Rubin Ultra GPU를 연결하는 NVIDIA Kyber와의 통합을 통해 성능 확장을 극대화합니다.

또한, 20개 이상의 업계 파트너들이 NVIDIA Kyber 랙 아키텍처를 지원하기 위한 새로운 실리콘, 부품, 전력 시스템과 함께, 차세대 800VDC(볼트 직류) 기반 데이터 센터를 위한 기술들을 선보였습니다.

Foxconn은 대만 가오슝에 800VDC 기반으로 구축 중인 40메가와트 규모의 데이터 센터, Kaohsiung-1의 세부 사항을 공개했습니다. CoreWeave, Lambda, Nebius, Oracle Cloud Infrastructure, Together AI를 포함한 여러 선도 기업들도 800볼트 기반 데이터 센터 설계에 적극 참여하고 있습니다. Vertiv는 공간, 비용, 에너지 효율을 모두 고려한 800VDC MGX 참조 아키텍처를 선보였으며, 전력과 냉각을 통합한 완전한 인프라 설계를 제시했습니다. HPE는 NVIDIA Kyber뿐만 아니라, Spectrum-X Ethernet 플랫폼의 확장 기술인 NVIDIA Spectrum-XGS Ethernet 에 대한 제품 지원도 함께 발표했습니다.

기존의 415V 또는 480V AC 3상 시스템에서 800VDC 인프라로 전환하면 데이터 센터의 확장성과 에너지 효율이 크게 향상되며, 자재 사용을 줄이고 전력 처리 용량도 높일 수 있습니다. 이러한 이유로 전기차와 태양광 산업에서는 이미 800VDC 인프라가 널리 활용되고 있습니다.

한편, Meta가 설립한 Open Compute Project(OCP)는 수백 개의 컴퓨팅 및 네트워킹 기업이 참여하는 업계 컨소시엄으로, 급증하는 컴퓨팅 수요에 대응하기 위한 하드웨어 기술 재설계를 중심으로 협업하고 있습니다.

Vera Rubin NVL144: AI 팩토리를 위한 확장형 설계

Vera Rubin NVL144 MGX 컴퓨트 트레이는 에너지 효율적이고 100% 액체 냉각 방식의 모듈형 설계를 제공합니다. 중앙 인쇄회로기판(midplane)은 기존 케이블 기반 연결을 대체해 조립과 유지보수를 더욱 빠르게 할 수 있으며, 대용량 컨텍스트 추론을 위한 NVIDIA Rubin CPX와 800GB/s 속도의 NVIDIA ConnectX-9 네트워킹을 위한 모듈형 확장 슬롯을 갖추고 있습니다.

NVIDIA Vera Rubin NVL144는 가속 컴퓨팅 아키텍처와 AI 성능 면에서 획기적인 도약을 이루었습니다. 고도화된 추론 엔진과 AI 에이전트의 요구를 충족하도록 설계되었습니다.

이 시스템은 설계의 핵심이 MGX 랙 아키텍처에 내재되어 있으며, 50개 이상의 MGX 시스템 및 부품 파트너들의 지원을 받게 됩니다. NVIDIA는 업그레이드된 랙과 컴퓨트 트레이의 혁신을 OCP 컨소시엄에 오픈 스탠다드로 기여할 계획입니다.

컴퓨트 트레이와 랙에 대한 이 표준은 파트너들이 모듈 방식으로 조합하고 아키텍처를 기반으로 보다 빠르게 확장할 수 있도록 지원합니다. Vera Rubin NVL144 랙 설계는 에너지 효율적인 45도 액체 냉각, 고성능을 위한 새로운 액체 냉각 버스바, 그리고 전력 안정을 위한 기존 대비 20배 확장된 에너지 저장 용량을 특징으로 합니다.

MGX 기반 컴퓨트 트레이와 랙 아키텍처의 업그레이드는 AI 팩토리의 성능을 향상시키는 동시에 조립을 단순화하여 기가와트 규모 AI 인프라로의 신속한 확장을 가능하게 합니다.

NVIDIA는 여러 세대에 걸친 하드웨어에서 OCP 표준을 선도적으로 기여해 왔으며, 여기에는 NVIDIA GB200 NVL72 시스템의 핵심 전기·기계 설계 일부도 포함됩니다. 동일한 MGX 랙 풋프린트는 GB300 NVL72를 지원하며, 고성능과 빠른 배포를 위해 Vera Rubin NVL144, Vera Rubin NVL144 CPX, Vera Rubin CPX 또한 지원할 예정입니다.

NVIDIA Kyber, 고밀도 AI 컴퓨팅을 위한 랙 서버 혁신

OCP 생태계도 800VDC 전력 공급, 액체 냉각, 기계 설계 등 NVIDIA Kyber의 핵심 혁신에 발맞춰 인프라를 함께 준비하고 있습니다.

이러한 기술은 NVIDIA Oberon의 후속 모델인 Kyber 랙 서버 세대로의 전환을 뒷받침하며, 이 플랫폼은 2027년까지 576개의 NVIDIA Rubin Ultra GPU를 탑재한 고밀도 구성을 목표로 하고 있습니다.

고전력 분배의 복잡성을 해결하는 가장 효과적인 방법은 전압을 높이는 것입니다. 기존의 415V 또는 480V AC 3상 시스템에서 800VDC 아키텍처로 전환하면 효율성과 확장성 면에서 다양한 이점을 얻을 수 있습니다.

이러한 전환을 통해 랙 서버 파트너들은 기존 54VDC 구성에서 800VDC 기반 설계로 옮겨가 성능과 효율을 동시에 끌어올릴 수 있게 됩니다. 이번 행사에는 MGX 랙 서버 참조 아키텍처의 오픈 스탠더드를 기반으로 협력 중인 직류 전력 인프라 업체, 냉각 및 전력 시스템 파트너, 실리콘 제조사들이 대거 참여했습니다.

NVIDIA Kyber는 랙 내 GPU 밀도를 극대화하고, 네트워크 확장성과 대규모 AI 인프라의 성능을 끌어올릴 수 있도록 설계되었습니다. 컴퓨트 블레이드를 책처럼 수직으로 배치한 설계를 적용해, 하나의 섀시에 최대 18개의 블레이드를 장착할 수 있으며, 케이블 없이 연결되는 미드플레인 구조를 통해 전용 NVIDIA NVLink 스위치 블레이드가 후면에 깔끔하게 통합됩니다.

800VDC를 활용하면 동일한 구리 케이블로 150% 이상의 전력을 전달할 수 있어, 기존처럼 랙 하나에 200kg 가까운 구리 버스바를 설치할 필요가 없습니다.

Kyber는 향후 하이퍼스케일 AI 데이터 센터의 핵심 인프라로 자리 잡게 될 것이며, 생성형 AI 워크로드에 요구되는 높은 성능과 효율, 신뢰성을 모두 충족합니다. 또한 Kyber 랙은 고객이 사용하는 구리의 양을 수 톤 단위로 줄여 수백만 달러에 달하는 비용 절감 효과도 기대할 수 있습니다.

NVIDIA NVLink Fusion 생태계 확장

하드웨어뿐 아니라, NVIDIA의 NVLink Fusion도 빠르게 주목받고 있습니다. 이 기술은 기업들이 반맞춤형 실리콘을 고도로 최적화된 대규모 데이터 센터 아키텍처에 손쉽게 통합할 수 있게 해, 시스템 복잡성을 줄이고 시장 출시 속도를 앞당길 수 있도록 돕습니다.

Intel과 Samsung Foundry는 맞춤형 실리콘 설계사, CPU 및 IP 파트너들이 함께하는 NVLink Fusion 생태계에 새롭게 합류했습니다. 이를 통해 AI 팩토리는 모델 학습이나 에이전트 기반 AI 추론처럼 높은 성능을 요구하는 작업을 보다 빠르게 확장할 수 있게 됩니다.

  • 최근 발표된 NVIDIA와 Intel의 협력의 일환으로, Intel은 NVLink Fusion을 활용해 NVIDIA 인프라 플랫폼에 통합되는 x86 CPU를 개발할 예정입니다.
  • Samsung Foundry는 맞춤형 CPU 및 XPU에 대한 수요 증가에 대응하기 위해 NVIDIA와 협력하고 있으며, 맞춤형 실리콘의 설계부터 제조까지 전 과정을 지원하는 역량을 제공합니다.

차세대 AI 팩토리를 위한 오픈 생태계 구축

20개가 넘는 NVIDIA 파트너들이 오픈 스탠더드 기반의 랙 서버 공급에 참여함으로써, 미래의 기가와트급 AI 팩토리를 가능하게 하고 있습니다.

NVIDIA와 Open Compute Project에 대한 더 많은 정보는 10월 13일부터 16일까지 San Jose Convention Center에서 열리는 OCP Global Summit에서 확인할 수 있습니다.