Microsoft Azure가 발표한 NVIDIA A100 GPU 기반 가상 머신

by NVIDIA Korea

마이크로소프트 애저(Microsoft Azure)가 ND A100 v4 VM(가상머신) 시리즈의 공식 출시를 알렸습니다. ND A100 v4 VM 시리즈는 NVIDIA A100 Tensor Core GPU와 NVIDIA HDR InfiniBand로 구동되며, 슈퍼컴퓨터급 AI와 고성능컴퓨팅(HPC) 워크로드를 위한 마이크로소프트의 가장 강력한 VM입니다.

NVIDIA는 애저와의 협업을 통해 스케일 업(scale-up)과 스케일 아웃(scale-out) 형태의 AI 플랫폼을 새롭게 설계했습니다. 이 플랫폼은 혁신적인 NVIDIA Ampere 아키텍처 기반 GPU, NVIDIA 네트워킹 기술과 애저의 고성능 인터커넥트, VM 패브릭을 결합하여 누구나 손쉽게 사용 가능한 AI 슈퍼컴퓨팅을 구현합니다.

AI와 HPC와 관련된 주요 과제를 해결하는 열쇠는 규모(scale)입니다. 자연어 처리, 추천 시스템, 헬스케어 연구, 약물 발견, 에너지와 같은 분야는 가속 컴퓨팅을 통해 비약적인 발전을 이뤄오고 있는데요.

이러한 발전의 많은 부분은 거대한 규모로 구동되는 애플리케이션에서 비롯됩니다. 이 같은 추세가 더 가속화되기 위해서는 애플리케이션이 실행되는 아키텍처가 유연하고 접근성이 높으며, 스케일 업과 스케일 아웃 형태를 모두 취해야 합니다.

ND A100 v4 VM은 단일 VM에서 8개의 NVIDIA A100 GPU와 GPU당 200GB/s의 데이터 대역폭을 지원하는 NVIDIA HDR InfiniBand를 결합합니다. 이를 통해, VM당 무려 1.6Tb/s에 이르는 인터커넥트 대역폭을 구현하죠.

또한 가장 까다로운 AI와 HPC 워크로드의 경우에는 동일한 저지연 인피니밴드 패브릭에서 수천 개의 NVIDIA A100 GPU로 확장하여, 다중 노드 분산 컴퓨팅을 위한 컴퓨팅과 네트워킹 기능 모두를 지원할 수 있습니다.

개발자를 위한 다양한 옵션

개발자들은 애플리케이션 개발은 물론, 애플리케이션을 배포한 후 인프라 관리 단계에서도 ND A100 v4 VM 상의 NVIDIA A100 GPU 성능을 극대화할 수 있는 다양한 옵션을 누릴 수 있습니다.

개발을 간소화하고 개발시간을 단축할 수 있도록 NVIDIA NGC 카탈로그는 즉시 사용 가능한 GPU 최적화 애플리케이션 프레임워크와 컨테이너, 사전 훈련된 모델, 라이브러리, SDK, 헬름 차트를 제공합니다. 애저 마켓플레이스(Azure Marketplace) 상의 사전 구축된 AI와 HPC용 NVIDIA GPU 최적화 이미지를 통해, 개발자들은 단 몇 번의 클릭만으로 NGC 카탈로그에서 GPU 가속 소프트웨어 사용을 시작할 수 있습니다. ND A100 v4 VM은 또한 대화형 AI 개발, 분산 훈련, 배치 추론, ML Ops를 통한 자동화를 위해 애저 머신러닝(Azure Machine Learning) 서비스에서도 지원됩니다.

NVIDIA Triton Inference 서버를 사용하면 생산단계에서 ND A100 v4 VM을 통해 머신 러닝 파이프라인을 구축하는 작업을 더욱 간소화할 수 있습니다. NVIDIA Triton은 오픈소스 소프트웨어입니다. 애저 머신 러닝 서비스와 결합되어 GPU와 CPU의 성능과 활용도를 모두 극대화함으로써 운영비를 최소화합니다.

또한, 개발자와 인프라 관리자들은 머지않아 완전 관리형 서비스인 애저 쿠버네티스 서비스(Azure Kubernetes Service)를 통해 NVIDIA A100 GPU를 장착한 ND A100 v4 VM에서 컨테이너형 애플리케이션을 배포하고 관리할 수 있게 될 전망입니다.