마이크로소프트 애저, 엔비디아 A100 GPU 탑재한 최초 인스턴스 공개

최첨단 AI 슈퍼컴퓨팅과 차세대 AI를 가능케 하는 새로운 종류의 대규모 AI 모델이 Azure 클라우드를 통해 가능해졌습니다
by NVIDIA Korea

마이크로소프트 애저(Microsoft Azure)가 엔비디아 A100 GPU가 탑재된 최초의 인스턴스를 공개했습니다.

마이크로소프트는 자사의 연례 개발자 행사인 빌드 2020(Build 2020)에서 대규모 AI(AI at Scale)에 대한 비전을 소개했는데요. 해당 이니셔티브는 최첨단 AI 슈퍼컴퓨팅과 차세대 AI를 가능케 하는 새로운 종류의 대규모 AI 모델을 골자로 합니다.

대규모 모델의 장점은 AI 슈퍼컴퓨팅을 이용해 방대한 양의 데이터를 한 번만 훈련하면 훨씬 작은 데이터셋과 리소스를 가진 다양한 작업 및 도메인을 정밀 조정할 수 있다는 점이죠. 모델이 더 많은 파라미터를 가질수록 데이터의 어려운 뉘앙스를 잘 파악할 수 있습니다.

이는 170억개의 파라미터를 가진 마이크로소프트의 언어 모델로, 처음 본 질문에 답하거나 문서를 요약할 수 있을 정도의 언어 이해력을 가진 Turing-NLG에 의해 이미 입증됐습니다. 이 같은 자연어 모델들은 1년 전의 최신 모델보다 그 규모가 훨씬 크며, 과거의 이미지 중심 모델보다 수십 배 큰 규모로 빙(Bing), 워드(Word), 아웃룩(Outlook), 다이나믹스(Dynamics)에서 다양한 작업을 수행하고 있습니다.

이러한 규모의 훈련 모델은 머신 내부와 전체에 걸쳐 고대역폭 네트워크로 상호 연결된 전문 AI 가속기가 갖춰진 수백 대의 머신으로 구성된 대규모 클러스터를 필요로 합니다. 마이크로소프트는 제품 전반에 걸쳐 새로운 자연어 생성 능력과 이해력을 구현하고, 안전한 AI를 개발한다는 오픈AI(OpenAI)의 미션을 지원하기 위해 이러한 클러스터를 애저에 구축했습니다.

마이크로소프트의 최신 클러스터는 AI 슈퍼컴퓨터라고 불릴 만큼 많은 통합된 컴퓨팅 성능을 제공합니다. 또한, 오픈AI를 위해 구축된 클러스터는 현재까지 공개된 전세계 상위 5대 슈퍼컴퓨터 성능에 도달했습니다. 지난 5월, 오픈AI는 해당 슈퍼컴퓨터를 사용해 1,750억개의 파라미터를 가진 GP5-3 모델과 함께, 이 모델이 시를 쓰거나 번역을 하는 등 특별히 훈련되지 않은 광범위한 작업을 어떻게 지원하는지 선보이기도 했습니다.

마이크로소프트가 대규모 컴퓨팅 클러스터, 선도적인 네트워크 설계, 그리고 애저 머신러닝(Azure Machine Learning), 오닉스 런타임(ONNX Runtime), 기타 애저 AI 서비스를 포함한 소프트웨어 스택에서 이를 관리하기 위해 수행한 작업들은 대규모 AI 전략과 직결됩니다.

이러한 과정을 통해 창출되는 혁신은 궁극적으로 애저가 규모에 상관없이 모든 고객의 AI 요구사항을 보다 효과적으로 충족시키도록 하고 있습니다. 일례로, NDv2 VM 시리즈를 통해 애저는 엔비디아 멜라녹스 인피니밴드(NVIDIA Mellanox InfiniBand) 네트워킹으로 연결된 엔비디아 V100 텐서 코어(Tensor Core) GPU를 탑재한 가상머신(VM) 클러스터를 제공하는 최초이자 유일한 퍼블릭 클라우드가 됐습니다.

새로운 ND A100 v4 VM 시리즈도 공개

더불어, 마이크로소프트는 새로운 ND A100 v4 VM 시리즈도 공개했습니다. 이는 마이크로소프트의 가장 강력하면서도 대규모로 확장 가능한 AI VM으로, 수백 대의 VM에 걸쳐 8개부터 수천 개에 이르는 상호 연결된 엔비디아 GPU를 탑재해 온디맨드 방식으로 이용 가능합니다.

ND A100 v4 VM 시리즈는 단일 VM과 8개의 엔비디아 암페어(Ampere) A100 텐서 코어 GPU로 시작하지만, 인간의 두뇌가 상호 연결된 뉴런으로 구성된 것처럼 ND A100 v4 기반 클러스터는 전례없는 VM당 1.6TB/s의 상호연결 대역폭으로 최대 수천 개의 GPU까지 확장 가능합니다.

각 GPU에는 토폴로지 제한이 없는 전용 200GB/s 엔비디아 멜라녹스 HDR 인피니밴드 연결이 제공됩니다. 수십, 수백, 또는 수천 개의 GPU가 멜라녹스 인피니밴드 HDR 클러스터의 일부로 함께 작동해 모든 수준의 AI 목표를 달성할 수 있습니다. 여타 퍼블릭 클라우드 보다 16배 높은 전용 GPU-투-GPU 대역폭을 통해 모델을 처음부터 훈련하거나, 자체 데이터로 훈련을 계속하거나, 혹은 원하는 작업에 맞게 미세 조정하는 등 어떤 AI 목표든 훨씬 빠르게 달성할 수 있습니다.

ND A100 v4 VM 시리즈는 PCIe 4.0과 같은 최신 하드웨어 표준을 모든 주요 시스템 구성요소에 적용하여, 애저용으로 완전히 새롭게 설계된 AMD 롬(Rome) 기반 플랫폼으로 지원됩니다. 각 VM 내에 있는 PCIe 4.0과 GPU-투-GPU 상호연결을 위한 엔비디아의 3세대 NV링크(NVLINK) 아키텍처는 이전보다 2배 이상 빠른 속도로 시스템간 데이터 이동을 가능케 합니다.

이를 통해 고객들은 엔지니어링 작업없이 엔비디아 V100 GPU를 기반으로 하는 이전 세대 시스템 대비 두 배에서 세 배까지 컴퓨팅 성능을 즉시 향상시킬 수 있습니다. 희소성 가속(Sparsity Acceleration)이 가능한 다중 정밀도 텐서 코어, MIG(Multi Instance GPU)와 같은 새로운 A100 기능을 활용하는 고객들은 컴퓨팅 성능을 최대 20배까지 개선 가능합니다

엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄 이안 벅(Ian Buck)은 “애저는 엔비디아의 가장 진보된 컴퓨팅 및 네트워킹 기능을 통해 클라우드 상에서 혁신적인 AI 플랫폼을 설계했습니다. 엔비디아 A100 GPU의 단일 파티션에서부터 엔비디아 멜라녹스 인피니밴드 상호연결을 사용하는 수천 개의 A100 GPU까지 확장될 수 있는 유연한 아키텍처를 통해, 애저 고객은 세계에서 가장 까다로운 AI 워크로드를 실행할 수 있게 될 것입니다”이라고 설명했습니다.

ND A100 v4 VM 시리즈는 VM 스케일 세트(VM Scale Set)와 같은 애저의 확장성 블록을 활용해 모든 크기의 클러스터를 자동적 및 동적으로 투명하게 구성합니다. 이를 통해 누구나 어디서든지 원하는 규모의 AI를 구현할 수 있어 AI 슈퍼컴퓨터까지 온디맨드형으로 단 몇 분 만에 인스턴스화할 수 있습니다. 이후 개별적으로 VM에 액세스하거나 애저 머신러닝 서비스를 사용해 클러스터 전반에서 훈련 작업을 시작하고 관리할 수 있습니다.

ND A100 v4 VM 시리즈 및 클러스터는 현재 프리뷰 버전으로 제공되고 있고, 향후 애저 제품 포트폴리오에 추가될 계획입니다.