머신러닝용 아마존 EC2 캐퍼시티 블록에 엔비디아 H100 GPU 탑재

업계 최초 소비형 모델인 고성능 아마존 EC2 울트라클러스터, 엔비디아 GPU 탑재로 생성형 AI 개발 가속화 가능
by NVIDIA Korea
머신러닝용 아마존 EC2 캐퍼시티 블록에 엔비디아 H100 GPU 탑재

아마존웹서비스(Amazon Web Services, AWS)의 차세대 머신 러닝(machine learning, ML) 워크로드용 아마존 EC2 캐퍼시티 블록(Amazon Elastic Compute Cloud Capacity Blocks)엔비디아(NVIDIA) H100 텐서 코어 GPU(H100 Tensor Core GPUs)가 탑재될 예정입니다!

이번 협력을 통해 고객들은 아마존 일래스틱 컴퓨트 클라우드(EC2)로 고성능 머신러닝 워크로드용 아마존 EC2 울트라클러스터(UltraCluster)에 구축된 수백 개의 엔비디아 GPU를 확보할 수 있습니다.

머신러닝의 발전으로 모든 규모의 산업 분야 조직은 새로운 제품을 개발하고 비즈니스를 혁신할 수 있는 기회가 생겼습니다. 기존 머신러닝 워크로드에는 상당한 컴퓨팅 용량이 필요합니다. 여기에 생성형 AI의 등장으로 파운데이션 모델(foundation models, FM)과 대규모 언어 모델(LLM)을 훈련하는 데 사용되는 방대한 데이터세트를 처리하기 위해서는 보다 더 큰 컴퓨팅 용량이 요구됩니다. GPU 클러스터는 병렬 처리 기능이 결합돼 훈련과 추론 프로세스를 가속화함으로써 이 과제에 매우 적합합니다.

기업들이 생성형 AI의 혁신적인 역량을 알게 되면서, GPU에 대한 수요가 공급을 능가하고 있습니다. 따라서, 최신 머신러닝 기술을 활용하고자 하는 고객, 특히 도입 단계에 따라 필요한 용량이 변동하는 고객은 머신러닝 워크로드를 실행하는 데 필요한 GPU 클러스터에 액세스하는 데 어려움을 겪을 수 있습니다. 고객들은 장기 계약을 맺지 않고도 보다 유연하고 예측 가능하도록 필요한 GPU 용량을 확보할 방법을 모색하고 있습니다.

새로운 아마존 EC2 P5 인스턴스

머신러닝용 아마존 EC2 캐퍼시티 블록은 업계 최초 새로운 소비형 아마존 EC2 사용 모델로, GPU 인스턴스에 쉽게 액세스해 머신러닝과 생성형 AI 모델을 훈련하고 배포할 수 있도록 함으로써 머신러닝을 더욱 대중화합니다. EC2 캐퍼시티 블록을 통해 고객은 고성능 머신러닝 워크로드로 설계된 EC2 울트라클러스터에 배치된 수백 개의 엔비디아 GPU를 예약할 수 있습니다. 페타비트(peta-bit) 규모의 논블로킹(non-blocking) 네트워크에서 EFA(Elastic, Fabric Adapter) 네트워킹을 사용해 아마존 EC2에서 사용 가능한 최고의 네트워크 성능을 제공할 수 있습니다.

EC2 캐퍼시티 블록은 최대 8주 전에 미리 확보할 수 있으며, 예약 가능한 총 일수는 1일 단위로 1~14일이다. EC2 캐퍼시티 블록은 1~64개 인스턴스(512개 GPU)의 클러스터 크기로 엔비디아 H100 텐서 코어 GPU 기반의 아마존 EC2 P5 인스턴스(EC2 P5 Instances)에서 사용할 수 있습니다. 이를 통해 고객은 광범위한 머신러닝 워크로드를 유연하게 실행하고 필요한 GPU 시간만큼만 비용을 지불할 수 있습니다. EC2 캐퍼시티 블록은 고객이 중요한 머신러닝 프로젝트에 필요한 GPU 컴퓨팅 용량에 안정적이고 예측 가능하며 중단 없이 액세스할 수 있도록 지원합니다.

EC2 캐퍼시티 블록을 통해 EC2에서 머신러닝을 훈련하는 데 최고 성능을 제공하는 EC2 P5 인스턴스를 예측 가능하도록 쉽게 이용할 수 있습니다. 또한 이를 통해 단 몇 번의 클릭만으로 GPU 인스턴스를 확보하고 자신 있게 머신러닝 개발을 계획할 수 있습니다. EC2 캐퍼시티 블록이 예약되면, 고객은 필요할 때 GPU 용량을 확보할 수 있다는 것을 알고 확실하게 머신러닝 워크로드 배포를 계획할 수 있습니다.

더불어 EC2 캐퍼시티 블록은 머신러닝 모델을 훈련하고 미세 조정과 짧은 실험, 향후 머신러닝 애플리케이션에 대한 수요 급증에 대비하기 위해 용량 보장이 필요할 때 사용될 수 있습니다. 또는 비즈니스 핵심 애플리케이션, 규제 요구 사항 또는 재해 복구 등 컴퓨팅 용량 보장이 필요한 다른 모든 워크로드 유형에 대해 온디맨드 용량 예약(On-Demand Capacity Reservations)을 계속 사용할 수 있습니다.

주요 고객 후기

AWS의 컴퓨팅과 네트워킹 담당 부사장인 데이비드 브라운(David Brown)은 “AWS와 엔비디아는 확장 가능한 고성능 GPU 솔루션을 제공하기 위해 12년 이상 협력해 왔으며, 우리 고객들이 산업을 혁신하는 놀라운 생성형 AI 애플리케이션을 구축하는 것을 목격하고 있습니다. AWS는 자체 개발한 트레이니움(Trainium)과 인퍼런시아(Inferentia) 칩을 제공할 뿐만 아니라 클라우드에서 엔비디아 GPU 기반 컴퓨팅을 제공하는 데 있어 최고의 경험을 보유하고 있습니다. 아마존 EC2 캐퍼시티 블록을 통해 기업과 스타트업이 장기적인 자본 투자 없이도 예측 가능하게 엔비디아 GPU 용량을 확보해 생성형 AI 애플리케이션을 구축, 훈련과 배포할 수 있는 새로운 방법을 추가하고 있습니다. 이는 AWS가 생성형 AI 기능에 대한 액세스를 확대하기 위해 혁신하고 있는 최신 방법 중 하나입니다”라고 밝혔습니다.

엔비디아 하이퍼스케일, HPC(Hyperscale and HPC) 담당 부사장인 이안 벅(Ian Buck)은 “전 세계 기업들이 비즈니스 혁신을 위해 생성형 AI를 도입하면서 가속 컴퓨팅에 대한 수요가 폭발적으로 증가하고 있습니다. 이제 전 세계 AI 기업들은 AWS의 새로운 머신러닝용 EC2 캐퍼시티 블록을 통해 한 번에 한 개의 서버가 아닌 AWS에서만 사용할 수 있는 전용 규모로 H100을 임대할 수 있습니다. 이를 통해 대규모 언어 모델을 신속하고 비용 효율적으로 훈련하고 필요할 때 클라우드에서 추론을 실행할 수 있습니다”고 말했습니다.

앰플리파이 파트너(Amplify Partners)는 엔지니어, 교수, 연구원, 오픈소스 프로젝트 제작자들과 협력해 이들의 대담한 아이디어가 사랑받는 제품과 회사로 발전할 수 있도록 지원합니다. 앰플리파이 파트너의 파트너인 마크 라로사(Mark LaRosa)는 “저희는 딥 러닝과 대규모 언어 모델을 통해 획기적인 혁신을 시장에 선보이는 여러 창업자들과 파트너십을 맺었습니다. 창업자들이 아이디어를 빠르게 실현하고 비전을 계속 반복하며, 고객에게 더 많은 가치를 제공할 수 있도록 GPU 컴퓨팅 용량에 대한 예측 가능하고 시기적절한 액세스가 필수적입니다. EC2 캐퍼시티 블록을 통해 최대 512개의 엔비디아 H100 GPU를 사용할 수 있게 된 것은 공급이 제한된 현재의 환경에서 획기적인 변화입니다. 스타트업이 장기적인 자본 투자 없이 필요한 GPU 컴퓨팅 용량을 제공할 수 있기 때문입니다. GPU 캐퍼시티 블록과 업계를 선도하는 머신 러닝과 생성형 AI 서비스 포트폴리오를 활용해 AWS를 기반으로 구축하는 창업자를 지원할 수 있기를 기대합니다”고 말했습니다.

캔바(Canva)는 전 세계 모든 사람이 디자인을 할 수 있도록 지원한다는 사명을 가진 무료 온라인 비주얼 커뮤니케이션 및 협업 플랫폼으로, 2013년 출시되었습니다. 캔바의 데이터 플랫폼 책임자인 그렉 루트(Greg Roodt)는 “현재 캔바는 월 1억 5천만 명 이상의 활성 사용자가 어디서나 게시할 수 있는 매력적인 시각적 자산을 만들 수 있도록 지원합니다. 저희는 EC2 P4de 인스턴스를 통해 새로운 생성 AI 도구를 지원하는 멀티모달(multi-modal) 모델을 훈련시켜 사용자가 아이디어를 자유롭고 빠르게 실험할 수 있도록 하고 있습니다. 더 큰 규모의 모델을 훈련하려면 훈련 중 수백 개의 GPU를 예측 가능하게 확장할 수 있는 기능이 필요합니다. AWS가 P5 인스턴스를 지원하는 EC2 캐퍼시티 블록을 출시해 매우 기쁩니다. 이제 레이턴시가 짧은 EC2 울트라클러스터에서 최대 512개의 엔비디아 H100 GPU에 예측 가능하게 액세스해 이전보다 훨씬 더 큰 모델을 훈련할 수 있습니다”고 밝혔습니다.

레오나르도 Ai(Leonardo.Ai)는 최첨단 생성형 AI 기술과 독보적인 크리에이터 제어 기능을 결합한 크리에이티브 제작을 위한 강력하고 역동적인 플랫폼을 제공합니다. 레오나르도 Ai CTO인 피터 런햄(Peter Runham)은 “레오나르도 팀은 생성형 AI로 크리에이티브 전문가와 애호가들이 최고의 품질, 속도, 스타일 일관성을 갖춘 시각적 콘텐츠를 제작할 수 있도록 지원합니다. 저희의 기반은 세밀하게 조정된 AI 모델과 강력한 툴을 기반으로 하며, 생성 전후에 세분화된 제어 기능을 제공합니다. 또한 다양한 AWS 서비스를 활용해 모델을 구축과 훈련할 뿐만 아니라 수백만 명의 월간 활성 고객의 사용을 지원하기 위해 모델을 호스팅합니다. 이를 통해 훈련과 실험을 위한 GPU 용량에 탄력적으로 액세스하는 동시에 컴퓨팅 요구 사양을 더 잘 충족할 수 있는 다른 EC2 인스턴스로 전환할 수 있는 옵션을 유지할 수 있습니다”고 말했습니다.

옥토AI(OctoAI)의 사명은 개발자가 가장 효율적인 하드웨어에서 실행되는 빠른 모델을 활용해 사용자를 만족시키는 AI 애플리케이션을 구축할 수 있도록 지원하는 것입니다. 옥토ML(OctoML) CEO인 루이스 세즈(Luis Ceze)는 “옥토ML에서는 애플리케이션 개발자가 생성형 AI를 쉽게 실행, 조정, 확장할 수 있도록 지원한다. 이를 통해 모델 실행을 최적화하고 자동화를 통해 서비스를 확장하고 엔지니어링 부담을 줄일 수 있습니다. 특히 제품 출시에 맞춰 머신러닝 애플리케이션을 0명에서 수백만 명의 사용자로 빠르게 확장하려는 고객과 협력할 때, 단기간에 GPU 용량을 확장할 수 있는 능력은 매우 중요합니다. EC2 캐퍼시티 블록을 사용하면 장기 용량 커밋(commit)이나 온프레미스 배포에 비해 잠재적인 비용 절감 효과를 제공함으로써 고객의 계획된 확장에 맞춰 다양한 크기의 GPU 클러스터를 예측 가능하게 가동할 수 있습니다”고 말했습니다.

가용성

고객은 AWS 관리 콘솔(Management Console), AWS 커맨드 라인 인터페이스(Command Line interface) 또는 AWS SDK를 통해 사용 가능한 캐퍼시티 블록을 찾아 예약할 수 있습니다. EC2 캐퍼시티 블록으로 고객은 예약한 시간만큼만 비용을 지불하면 됩니다. EC2 캐퍼시티 블록은 AWS 미국 동부 오하이오 지역에서 사용할 수 있으며, 추가 AWS 지역과 로컬 영역에서 사용 예정입니다.

자세한 내용은 EC2 캐퍼시티 블록 설명서를 확인하고 EC2용 AWS 리포스트(Re:Post) 또는 일반적인 AWS 지원 연락처로 피드백을 보내면 됩니다.