차세대 AI 슈퍼컴퓨터 ‘NVIDIA DGX SuperPOD’

차세대 AI 슈퍼컴퓨터인 NVIDIA GB200 Grace Blackwell Superchip 기반의 NVIDIA DGX SuperPOD을 발표합니다! 이 슈퍼컴퓨터는 초대형 생성형 AI 훈련과 추론 작업을 위해 일정한 가동 시간동안 수조 개의 파라미터 모델을 처리합니다.

새로운 DGX SuperPOD은 새로운 고효율 수냉식 랙 스케일 아키텍처를 특징으로, NVIDIA DGX GB200 시스템으로 구축됐습니다. FP4 정밀도에서 11.5 엑사플롭(exaflops)의 AI 슈퍼컴퓨팅과 240테라바이트의 고속 메모리를 제공하며, 랙을 추가하면 추가 확장이 가능합니다.

각 DGX GB200 시스템에는 36개의 NVIDIA Grace CPU와 72개의 NVIDIA Blackwell GPU를 포함하는 36개의 NVIDIA GB200 Superchip이 5세대 NVIDIA NVLink를 통해 하나의 슈퍼컴퓨터처럼 연결되죠. GB200 Superchip은 거대 언어 모델(LLM) 추론 작업을 위한 NVIDIA H100 Tensor Core GPU에 비해 최대 30배 향상된 성능을 제공합니다.

NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “NVIDIA DGX AI 슈퍼컴퓨터는 AI 산업 혁명의 공장입니다. 새로운 DGX SuperPOD은 NVIDIA 가속 컴퓨팅, 네트워킹, 소프트웨어의 최신 기술을 결합해 모든 기업과 산업, 국가가 자체 AI를 개선하고 생성하도록 지원합니다”고 말했습니다.

Grace Blackwell 기반 DGX SuperPOD은 8대 이상의 DGX GB200 시스템을 갖추고 있으며, NVIDIA Quantum InfiniBand를 통해 연결된 수만 개의 GB200 Sueprchip으로 확장할 수 있죠. 고객들은 8개의 DGX GB200 시스템에 있는 576개의 Blackwell GPU를 NVLink로 연결해 차세대 AI모델에 필요한 대규모 공유 메모리 공간을 구성할 수 있습니다.

생성형 AI 시대를 위한 새로운 랙 스케일 DGX SuperPOD 아키텍처

DGX GB200 시스템으로 이루어진 새로운 DGX SuperPOD은 시스템들 간에 서로 통합된 컴퓨팅 패브릭을 갖추고 있습니다. 이 패브릭에는 5세대 NVIDIA NV링크 외 NVIDIA BlueField-3 DPU가 포함됩니다. 또한, 별도로 발표된 NVIDIA Quantum-X800 InfiniBand 네트워킹을 지원할 예정입니다. 이 아키텍처는 플랫폼에서 각 GPU에 초당 최대 1,800기가바이트의 대역폭을 제공합니다.

또한 4세대 NVIDIA SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 기술은 차세대 DGX SuperPOD 아키텍처에서 이전 세대 대비 4배 증가한 14.4테라플롭의 인네트워크 컴퓨팅을 제공합니다.

턴키(Turnkey) 아키텍처와 고급 소프트웨어의 결합으로 전례 없는 가동 시간 제공

새로운 DGX SuperPOD은 데이터센터 규모의 완벽한 AI 슈퍼컴퓨터로, NVIDIA 인증 파트너의 고성능 스토리지와 통합돼 생성형 AI 워크로드의 수요를 충족합니다. 각 슈퍼컴퓨터는 공장에서 구축돼 케이블 연결과 테스트를 거쳐 고객 데이터센터에 배포하는 속도를 획기적으로 높입니다.

Grace Blackwell 기반 DGX SuperPOD은 지능형 예측 관리 기능을 갖추고 있습니다. 따라서 하드웨어와 소프트웨어 전반에 걸쳐 수천 개의 데이터 포인트를 지속적으로 모니터링해 다운타임과 비효율성의 원인을 예측하고 차단하는 기능으로 시간과 에너지, 컴퓨팅 비용 등을 절감할 수 있죠.

이 소프트웨어는 시스템 관리자가 없는 상태에서도 우려되는 영역을 식별하고 유지보수 계획을 수립합니다. 또한 컴퓨팅 리소스를 유연하게 조정하고, 작업을 자동으로 저장하고 재개해 다운타임을 방지합니다.

아울러 소프트웨어에서 교체가 필요한 구성 요소가 감지되면 클러스터는 대기 용량을 활성화해 작업이 제시간에 완료되도록 합니다. 필요한 하드웨어 교체를 미리 예정할 수 있어 예기치 않은 다운타임도 방지할 수 있습니다.

산업 위한 AI 슈퍼컴퓨팅 발전시키는 NVIDIA DGX B200 시스템

NVIDIA는 AI 모델 훈련, 미세 조정, 추론을 위한 통합 AI 슈퍼컴퓨팅 플랫폼인 NVIDIA DGX B200 시스템을 공개했습니다.

DGX B200은 전 세계 산업에서 사용하는 6세대 공랭식 랙 마운트형 DGX 설계의 최신 버전인데요. 새로운 Blackwell 아키텍처 DGX B200 시스템에는 8개의 NVIDIA Blackwell GPU와 2개의 5세대 인텔 제온(Intel Xeon) 프로세서가 포함됩니다. 또한 고객은 DGX B200 시스템으로 DGX SuperPOD을 구축해 다양한 작업을 수행하는 대규모 개발자 팀의 작업을 지원할 수 있는 AI 전문 센터(AI Centers of Excellence)를 만들 수 있습니다.

DGX B200 시스템에는 새로운 Blackwell 아키텍처의 FP4 정밀 기능이 탑재돼 최대 144페타플롭의 AI 성능, 1.4테라바이트의 대용량 GPU 메모리, 64TB/s의 메모리 대역폭을 제공합니다. 이를 통해 이전 세대에 비해 1조 개 파라미터 모델에 대해 15배 빠른 실시간 추론이 가능하죠.

DGX B200 시스템에는 8개의 NVIDIA ConnectX-7 NIC와 2개의 BlueField-3 DPU를 갖춘 고급 네트워킹이 적용됩니다. 이는 연결당 최대 초당 400기가비트의 대역폭을 제공해 NVIDIA Quantum-2 인피니밴드와 NVIDIA Spectrum-X Ethernet 네트워킹 플랫폼과 함께 빠른 AI 성능을 제공합니다.

프로덕션 AI 확장을 위한 소프트웨어와 전문가 지원

모든 NVIDIA DGX 플랫폼에는 엔터프라이즈급 개발과 배포를 위한 NVIDIA AI Enterprise 소프트웨어가 포함됩니다. DGX 고객은 소프트웨어 플랫폼에 포함된 사전 훈련된 NVIDIA 파운데이션 모델, 프레임워크, 툴킷, 새로운 NVIDIA NIM 마이크로서비스 등으로 작업을 가속화할 수 있습니다.

NVIDIA DGX 전문가와 DGX 플랫폼을 지원하도록 인증 받은 엄선된 NVIDIA 파트너는 배포의 모든 단계에서 고객을 지원하므로 고객은 신속하게 AI솔루션을 생산 단계로 이행할 수 있습니다. 시스템이 운영되면 DGX 전문가는 고객이 AI 솔루션의 모든 단계와 인프라를 최적화할 수 있도록 지속적으로 지원합니다.