NVIDIA와 마이크로소프트, 대규모 클라우드 AI 컴퓨터 구축한다 │ NVIDIA Blog

NVIDIA는 마이크로소프트(Microsoft)와의 다년간 협력을 통해 세계에서 가장 강력한 AI 슈퍼컴퓨터 중 하나를 구축합니다. 이 슈퍼컴퓨터는 NVIDIA GPU, 네트워킹, AI 소프트웨어 풀 스택과 결합된 마이크로소프트 애저(Azure)의 고급 슈퍼컴퓨팅 인프라로, 기업의 대규모 최신 모델을 포함해 AI 훈련과 배포, 확장을 지원합니다.

애저의 클라우드 기반 AI 슈퍼컴퓨터에는 AI 분산 훈련과 추론에 최적화된 강력하고 확장 가능한 ND 및 NC 시리즈 가상 머신이 포함됩니다. 이는 NVIDIA의 고급 AI 스택을 통합한 최초의 퍼블릭 클라우드인데요. 플랫폼에는 수만 개의 NVIDIA A100, H100 GPU, NVIDIA Quantum-2 400Gb/s InfiniBand 네트워킹, NVIDIA AI Enterprise 소프트웨어 제품군이 추가됐습니다.

협업의 일환으로 NVIDIA는 애저의 확장 가능한 가상 머신 인스턴스를 활용해 생성형 AI(Generative AI)의 발전을 연구하고 더욱 가속화할 것입니다. 생성형 AI는 AI 분야에서 빠르게 부상하고 있는 분야인데요. Megatron Turing NLG 530B와 같은 기본 모델이 새로운 텍스트, 코드, 디지털 이미지, 비디오 또는 오디오를 생성하는 자율 학습 알고리즘의 기반이 됩니다.

또한 NVIDIA와 마이크로소프트는 마이크로소프트의 딥스피드(DeepSpeed) 딥 러닝 최적화 소프트웨어의 활용성을 높이기 위해 협력합니다. 애저 엔터프라이즈 고객에게는 애저에 최적화된 NVIDIA의 전체 AI 워크플로우, 소프트웨어 개발 키트 스택이 제공되죠.

NVIDIA 엔터프라이즈 컴퓨팅 부사장인 마누비르 다스(Manuvir Das)는 “AI 기술 발전과 산업 채택이 가속화되고 있습니다. 기초 모델의 혁신은 연구의 물결을 촉발시켰고 신생 스타트업을 육성했으며, 새로운 엔터프라이즈 애플리케이션을 가능하게 했습니다. 마이크로소프트와의 협력은 연구원들과 기업들에게 AI의 혁신적인 힘을 활용할 수 있는 최첨단 AI 인프라와 소프트웨어를 제공할 것입니다”고 말했습니다.

마이크로소프트 클라우드 및 AI 그룹 수석 부사장인 스콧 거스리(Scott Guthrie)는 “AI는 기업과 산업용 컴퓨팅 전반에 걸쳐 차세대 자동화 물결을 촉진하고 있으며, 조직이 경제적 불확실성을 다루면서 더 적은 것으로 더 많은 일을 할 수 있도록 합니다. NVIDIA와의 협력을 통해 마이크로소프트 애저를 사용하는 모든 기업에 최첨단 AI 기능을 제공하며, 세계에서 가장 확장성이 뛰어난 슈퍼컴퓨터 플랫폼을 구축할 수 있었습니다”라고 전했죠.

애저의 NVIDIA 컴퓨팅, Quantum-2 InfiniBand를 통한 확장 가능한 최고 성능

NVIDIA의 최첨단 데이터센터 GPU로 설계된 마이크로소프트 애저의 AI 최적화 가상 머신 인스턴스는 NVIDIA Quantum-2 400Gb/s InfiniBand 네트워킹을 통합한 최초의 퍼블릭 클라우드 인스턴스입니다. 고객은 단일 클러스터에 수천 개의 GPU를 배포해 가장 방대한 대규모 언어 모델도 교육하고, 가장 복잡한 추천 시스템을 대규모로 구축하며, 대규모로 생성 AI를 활성화할 수 있죠.

현재 애저 인스턴스는 NVIDIA A100 GPU와 함께 NVIDIA Quantum 200Gb/s InfiniBand 네트워킹을 제공합니다. 미래에는 NVIDIA Quantum -2 400Gb/s InfiniBand 네트워킹, NVIDIA H100 GPU와 통합될 예정인데요. 애저의 고급 컴퓨팅 클라우드 인프라, 네트워킹 및 스토리지와 결합된 이러한 AI 최적화 제품은 모든 규모의 AI 교육과 딥 러닝 추론 워크로드에 대해 확장 가능한 최고 성능을 제공합니다.

AI 개발 및 구축 가속화

이 플랫폼은 마이크로소프트 딥스피드와 NVIDIA AI 엔터프라이즈 소프트웨어 제품군을 포함해 광범위한 AI 애플리케이션과 서비스를 지원합니다.

마이크로소프트 딥소프트는 NVIDIA H100 Transformer Engine을 활용하는데요. 이를 통해 다른 애플리케이션 중에서 대규모 언어 모델, 생성 AI, 컴퓨터 코드 작성에 사용되는 트랜스포머 기반 모델을 가속화하죠. 이 기술은 8비트 부동 소수점 정밀도 기능을 딥스피드에 적용해 16비트 연산 처리량의 2배인 트랜스포머용 AI 계산을 획기적으로 가속화합니다.

NVIDIA AI 엔터프라이즈는 전 세계적으로 채택된 NVIDIA AI 플랫폼 소프트웨어인데요. 이는 NVIDIA A100 GPU를 사용하는 마이크로프트 애저 인스턴스에서 인증되고 지원됩니다. NVIDIA H100 GPU를 사용하는 애저 인스턴스에 대한 지원은 소프트웨어 릴리스에 추가될 예정입니다.

NVIDIA AI 엔터프라이즈는 음성 AI용 NVIDIA Riva와 NVIDIA Morpheus 사이버 보안 애플리케이션 프레임워크를 포함하여, 데이터 처리와 AI 모델 훈련에서 시뮬레이션, 대규모 배포에 이르는 AI 워크플로우의 각 단계를 간소화합니다.

애저에서의 NVIDIA AI 기술을 여기에서 자세히 알아보세요.