NVIDIA DGX A100와 함께 ‘AI 시대의 무기’로 새로운 지평을 여는 DGX SuperPOD

세계에서 20번째로 빠른 성능으로 미래 데이터 센터의 초석이 될 엔비디아 DGX A100을 만나보세요
by NVIDIA Korea
5.27블로그 메인이미지

철은 오랫동안 산업화의 상징으로 여겨졌습니다. AI 시대에는 새로운 상징이 현대 데이터 센터의 초석 역할을 것입니다. 바로 ‘엔비디아 DGX A100’입니다.

현재 기업들이 직면한 가장 큰 위기와 기회는 ‘데이터’에 그 뿌리를 두고 있습니다. 세계 최고의 AI 시스템인 DGX A100는 분석, 훈련, 추론 부문에서 AI 컴퓨팅의 유연성과 신속성을 획기적으로 향상시켜 기업들이 당면한 과제를 기록적인 시간 내에 해결할 수 있게 지원하죠.

지난 해 여러 DGX 시스템을 결합한 엔비디아 DGX 슈퍼POD(DGX SuperPOD)가 처음 출시됐습니다. DGX 슈퍼POD는 세계에서 20번째로 빠른 슈퍼컴퓨터이면서도 일반 슈퍼컴퓨터 대비 매우 저렴하고 에너지 효율성도 높은 것이 특징인데요.

약 2주 전에는 엔비디아 DGX 슈퍼POD의 2세대 모델이 공개됐습니다. 엔비디아 DGX A100 시스템과 멜라녹스(Mellanox) 네트워크 패브릭을 기반으로 불과 3주만에 구축된 DGX 슈퍼POD는 몇 주가 소요되는 복잡한 언어 이해 모델의 처리시간을 단 한시간 내로 단축시킵니다.

인프라 확장

멜라녹스 기술과 결합된 엔비디아 솔루션은 가장 복잡한 문제를 병렬로 처리하고 최대한 빠르게 문제를 해결할 수 있는 아키텍처로 데이터센터를 재정의하고 있습니다. DGX A100에는 시스템 당 최대 9개의 인터페이스를 갖는 200Gbps HDR 인피니밴드(InfiniBand)를 갖춘 새로운 멜라녹스 ConnectX-6 VPI 네트워크 어댑터가 제공됩니다. 엔비디아는 시스템 간 상호연결성을 높이고 획기적인 성능을 제공하기 위해 멜라녹스 스위치가 사용됩니다. 또한, 엔비디아 DGX 슈퍼POD와 DGX A100을 통해 사용량 기반 지불방식(pay-as-you-grow) 모델로 쉽게 확장이 가능하면서도 운영에 미치는 영향을 최소화하는 AI 네트워크 패브릭을 설계했습니다.

엔비디아 DGX 슈퍼POD는 확장가능한 20개의 DGX A100 시스템 그룹으로 모듈화 됐습니다. 각각은 멜라녹스 HDR 인피니밴드를 사용하는 2티어 팻트리(Fat-Tree) 스위치 네트워크 토폴로지로 지원되어, 초과가입(Oversubscription) 없이 완전한 바이섹션 대역폭을 제공합니다. 또한, 세 번째 스위칭 티어를 추가하면 드래곤플라이+(DragonFly+) 또는 팻트리 토폴로지를 사용해 수천 대의 시스템으로 확장 가능하죠. 이를 통해 기업들은 시스템 모듈 추가 관련 비용은 줄이면서 인프라 확장에 유연하게 대처할 수 있습니다.

700페타플롭(PF)의 AI 성능 제공

DGX 새턴V(SATURNV)는 연구개발(R&D)부터 자율주행차 시스템 개발, 게이밍, 그리고 로보틱스에 이르는 엔비디아의 가장 중요한 작업들을 지원합니다. DGX 새턴V는 비즈니스 요구에 따라 계속해서 확장이 가능하여, 새로운 슈퍼POD 설계를 위한 완벽한 성능 시험장 역할을 하고 있습니다.

약 700페타플롭(PF)의 AI 성능을 제공하는 2세대 DGX 슈퍼POD의 주요 특징은 다음과 같습니다.

  • 140개의 DGX A100 시스템
  • 1,120개의 엔비디아 A100 GPU
  • 170개의 멜라녹스 퀀텀(Quantum) 200G 인피니밴드 스위치
  • 15km의 광 케이블
  • 4PB 고성능 스토리지

2세대 DGX 슈퍼POD의 스토리지 인프라는 DDN과의 협업으로 탄생했는데요. DDN은 DGX POD 파트너사 중 하나로 AI 인프라 제공에 필요한 성능과 확장성 향상을 지원합니다. DGX 슈퍼POD는 DDN의 기술을 사용해 엔비디아의 최신 시스템에서 발생할 수 있는 가장 까다로운 워크로드를 지원합니다.

AI 도전과제 해결

모든 업계의 선도적인 기업들은 고객 충성도 유지, 비용절감, 경쟁 업체와의 차별화를 위해 AI를 적극 활용하고 있습니다. 기업들은 엔비디아 DGX 슈퍼POD와 DGX A100가 제공하는 획기적인 성능, 신속성, 그리고 확장성을 활용해 당면한 AI 관련 도전과제를 해결하고 비즈니스 성과를 달성할 수 있습니다.