AI 인프라 혁신을 위한 NVIDIA의 선택, NVIDIA Blackwell 플랫폼 설계 공유

NVIDIA는 OCP(Open Compute Project)에 Blackwell 가속 컴퓨팅 플랫폼 설계를 제공해 AI 인프라 혁신 가속화에 나섭니다.

NVIDIA는 개방적이고 효율적이며 확장 가능한 데이터센터 기술 개발을 촉진하기 위해, Blackwell 가속 컴퓨팅 플랫폼 설계의 기본 요소를 OCP에 제공하고 있습니다. 또한 NVIDIA는 OCP 표준에 대한 NVIDIA Spectrum-X™ 지원을 확대할 예정입니다.

NVIDIA는 올해 OCP 글로벌 서밋(OCP Global Summit)에서 OCP 커뮤니티와 NVIDIA GB200 NVL72 시스템의 전자 기계 설계의 주요 부분을 공유할 예정입니다. 여기에는 더 높은 컴퓨팅 밀도와 네트워킹 대역폭을 지원하기 위한 랙 아키텍처, 컴퓨팅과 스위치 트레이 기계 구조, 액체 냉각과 열 환경 사양, NVIDIA NVLink™ 케이블 카트리지 용적 측정 등이 포함됩니다.

NVIDIA는 이미 NVIDIA HGX™ H100 베이스보드 설계 사양을 비롯해 여러 세대의 하드웨어에 걸쳐 OCP에 공식적으로 기여하고 있습니다. 이를 통해 전 세계 컴퓨터 제조업체의 제품 선택 폭을 넓히고, AI 채택을 확대할 수 있도록 생태계에 도움을 주고 있죠.

또한 OCP 커뮤니티에서 개발한 사양에 맞춰 확장된 NVIDIA Spectrum-X 이더넷 네트워킹 플랫폼을 통해 기업은 투자를 보호하고 소프트웨어 일관성을 유지하면서, OCP 인증 장비를 배포하는 AI 팩토리의 성능 잠재력을 활용할 수 있게 됐습니다.

NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “NVIDIA는 OCP와의 10년간의 협력을 바탕으로 업계 리더들과 함께 전체 데이터센터에 널리 채택될 수 있는 사양과 설계를 만들기 위해 노력하고 있습니다. 우리는 개방형 표준을 발전시킴으로써 전 세계 조직이 가속 컴퓨팅의 잠재력을 최대한 활용하고, 미래의 AI 팩토리를 만들 수 있도록 돕고 있습니다”고 말했습니다.

차세대 산업 혁명을 위한 가속 컴퓨팅 플랫폼

NVIDIA의 가속 컴퓨팅 플랫폼은 새로운 AI 시대를 구현하도록 설계됐습니다.

GB200 NVL72는 컴퓨터 제조업체가 방대한 데이터센터 인프라 설계를 빠르고 비용 효율적으로 구축할 수 있도록 지원하는 NVIDIA MGX™ 모듈형 아키텍처를 기반으로 합니다.

이 수냉식 시스템은 36개의 NVIDIA Grace™ CPU와 72개의 NVIDIA Blackwell GPU를 랙 스케일 설계로 연결합니다. 72개의 GPU로 구성된 NVIDIA NVLink 도메인은 단일 대규모 GPU로 작동하며, NVIDIA H100 Tensor 코어 GPU보다 30배 빠른 실시간 1조 개 매개변수 대규모 언어 모델(LLM) 추론을 제공합니다.

차세대 NVIDIA ConnectX-8 SuperNIC™를 포함하는 NVIDIA Spectrum-X 이더넷 네트워킹 플랫폼은 OCP의 스위치 앱스트랙션 인터페이스(Switch Abstraction Interface, SAI)와 소닉(Software for Open Networking in the Cloud, SONiC) 표준을 지원합니다. 이를 통해 고객은 Spectrum-X의 적응형 라우팅과 원격 측정 기반 혼잡 제어를 사용해 스케일 아웃(scale-out) AI 인프라를 위한 이더넷 성능을 가속화할 수 있습니다.

ConnectX-8 SuperNIC는 최대 800Gb/s 속도의 가속화된 네트워킹과 대규모 AI 워크로드에 최적화된 프로그래밍 가능한 패킷 처리 엔진을 제공합니다. OCP 3.0용 ConnetX-8 SuperNIC는 내년에 출시될 예정이며, 이를 통해 기업은 매우 유연한 네트워크를 구축할 수 있습니다.

데이터센터를 위한 핵심 인프라

전 세계가 범용 컴퓨팅에서 가속화된 AI 컴퓨팅으로 전환하면서 데이터센터 인프라는 점점 더 복잡해지고 있습니다. 개발 프로세스를 간소화하기 위해 NVIDIA는 AI 팩토리 구축을 위한 핵심 구성 요소를 제공하는 40개 이상의 글로벌 전자 제품 제조업체와 긴밀히 협력하고 있죠.

또한 GB200 NVL72 기반의 카탈리나 AI(Catalina AI) 랙 아키텍처를 OCP에 제공할 계획인 메타(Meta)를 비롯해 다양한 파트너가 Blackwell 플랫폼을 기반으로 혁신과 구축을 진행하고 있습니다. 이를 통해 컴퓨터 제조업체는 높은 컴퓨팅 밀도 시스템을 구축하고 데이터센터의 증가하는 성능과 에너지 효율 요구 사항을 충족할 수 있는 유연한 옵션을 제공할 수 있습니다.

이 지운 송(Yee Jiun Song) 메타 엔지니어링 부사장은 “NVIDIA는 지난 2년간 그랜드 티턴(Grand Teton) 서버의 기반이 된 고성능 컴퓨팅 플랫폼을 비롯해 수년 동안 개방형 컴퓨팅 표준에 크게 기여해 왔습니다. 대규모 AI의 컴퓨팅 수요 증가를 충족하기 위해 발전하는 과정에서 랙 설계와 모듈식 아키텍처에 대한 NVIDIA의 최신 기여는 업계 전반에서 AI 인프라의 개발과 구현 속도를 높이는 데 도움이 될 것”이라고 말했습니다.

10월 15일부터 17일까지 미국 새너제이 컨벤션 센터(San Jose Convention Center)에서 개최되는 2024 OCP 글로벌 서밋에서 오픈 컴퓨트 프로젝트에 대한 NVIDIA의 공헌에 대해 자세히 알아보세요.