NVIDIA는 아마존웹서비스(Amazon Web Services, AWS)와 함께 대규모 언어 모델(LLM)과 생성형 AI 애플리케이션 개발을 위한 협력을 진행합니다.
이번 협력에는 최대 20 엑사플롭(exaFLOPS)의 컴퓨팅 성능을 제공하는 NVIDIA H100 Tensor Core GPU와 AWS의 최첨단 네크워킹, 확장성을 기반으로 하는 차세대 Amazon Elastic Compute Cloud(EC2) P5 인스턴스가 사용됩니다. 이를 통해 세계 최대 규모의 딥 러닝 모델을 구축하고 훈련할 계획입니다.
P5 인스턴스는 3,200Gbps의 저지연, 고대역폭 네트워킹 처리량을 제공하는 AWS의 2세대 Elastic Fabric Adapter(EFA) 네트워킹을 활용하는 최초의 GPU 기반 인스턴스인데요. 고객들은 EC2 울트라클러스터(UltraCluster)에서 최대 20,000개의 H100 GPU를 확장해 AI용 슈퍼컴퓨터급 성능에 온디맨드 방식으로 액세스할 수 있습니다.
AWS의 CEO 아담 셀립스키(Adam Selipsky)는 “AWS와 NVIDIA는 12년이 넘는 긴 시간 동안 협력을 통해 AI/머신 러닝, 그래픽, 게이밍, HPC 등 다양한 애플리케이션을 위한 대규모의 비용 효율적인 GPU 기반 솔루션을 온디맨드 방식으로 제공해 왔습니다. AWS는 세대를 거듭할 때마다 확장성의 한계를 뛰어넘는 GPU 기반 인스턴스를 제공해 온 독보적인 경험을 보유하고 있으며, 현재 많은 고객들이 머신 러닝 트레이닝 워크로드를 10,000개 이상의 GPU로 확장하고 있습니다. 2세대 EFA에서는 P5 인스턴스를 20,000개 이상의 NVIDIA H100 GPU로 확장함으로써 스타트업부터 대기업에 이르는 다양한 고객이 즉시 슈퍼컴퓨터 기능을 활용할 수 있습니다”고 말했습니다.
NVIDIA 설립자 겸 CEO 젠슨 황(Jensen Huang)은 “때마침 가속 컴퓨팅과 AI가 등장했습니다. 가속 컴퓨팅은 비용과 전력을 절감하면서도 기능 속도를 향상시킴으로써, 기업들이 적은 자원으로도 보다 많은 일을 할 수 있도록 지원합니다. 생성형 AI는 기업들이 제품과 비즈니스 모델을 재구상하고, 혁신에 휩쓸리는 것이 아니라 스스로 혁신을 일으켜야 함을 일깨워줬습니다. AWS는 오랜 파트너이자 NVIDIA GPU를 제공한 최초의 클라우드 서비스 제공업체입니다. NVIDIA와 AWS의 전문성, 규모, 네트워크를 결합해 고객들을 지원할 수 있게 돼 기쁩니다. 고객들은 가속 컴퓨팅과 생성형 AI를 활용해 앞으로의 엄청난 기회를 활용할 수 있을 것”이라고 말했습니다.
새로운 슈퍼컴퓨팅 클러스터
새로운 P5 인스턴스는 AI와 HPC 인프라를 제공하기 위해 AWS와 NVIDIA의 10년 넘게 이어진 협력을 기반으로 구축됐습니다. P2, P3, P3dn, P4d(e) 인스턴스를 포함한 과거 4번의 협업을 바탕으로, P5 인스턴스는 NVIDIA GPU를 탑재한 AWS의 5세대 제품입니다. 이 제품은 CG1 인스턴스를 시작으로 NVIDIA GPU를 처음 배포한 지 약 13년 만에 출시됐습니다.
P5 인스턴스는 질의 응답, 코드 생성, 비디오와 이미지 생성, 음성 인식 등 가장 까다롭고 컴퓨팅 집약적인 생성형 AI 애플리케이션을 비롯해 갈수록 복잡해지는 LLM와 컴퓨터 비전 모델의 훈련, 추론 실행에 매우 적합하죠.
더불어 이 인스턴스는 기업과 스타트업 모두가 AI 기반의 혁신을 시장에 출시할 수 있도록 확장 가능하고 안전한 방식으로 설계됐는데요. 단일 EC2 인스턴스에서 16페타플롭스의 혼합 정밀도 성능, 640GB의 고대역폭 메모리, 3,200Gbps 네트워킹 연결(이전 세대 대비 8배 증가)을 지원하는 8개의 NVIDIA H100 GPU를 갖췄습니다. P5 인스턴스의 향상된 성능은 머신 러닝 모델 훈련 시간을 최대 6배까지 가속화해 훈련 시간을 며칠에서 몇 시간으로 단축시켰고, 이는 복잡한 대규모 모델의 훈련에 있어 이상적입니다. 또한 추가된 GPU 메모리는 고객이 보다 크고 복잡한 모델을 훈련시키는 데 도움이 됩니다. P5 인스턴스는 이전 세대에 비해 머신 러닝 모델 훈련 비용을 최대 40%까지 절감할 것으로 예상됩니다. 이는 유연성이 떨어지는 클라우드 서비스나 고가의 온프레미스 시스템에 비해 큰 효율성을 제공할 수 있습니다.
아마존 EC2 P5 인스턴스는 클라우드에서 최고 성능의 컴퓨팅, 네트워킹, 스토리지로 구성된 초대형 클러스터 EC2 울트라클러스터에 배포됩니다. 각 EC2 울트라클러스터는 세계에서 가장 강력한 슈퍼컴퓨터 중 하나로, 고객들이 가장 복잡한 멀티노드 머신 러닝 훈련과 분산형 HPC 워크로드를 실행할 수 있도록 지원하죠. 이들은 AWS EFA로 구동되는 페타비트 규모의 논블로킹(non-blocking) 네트워킹을 특징으로 합니다. AWS EFA는 아마존 EC2 인스턴스용 네트워크 인터페이스로, AWS에서 높은 수준의 노드 간 통신이 필요한 애플리케이션을 구동할 수 있도록 지원합니다. EFA의 맞춤형 운영 체제(OS) 바이패스 하드웨어 인터페이스와 NVIDIA GPUDirect RDMA의 통합은 지연 시간을 줄이고 대역폭 활용률을 높여, 인스턴스 간 통신 성능을 향상시킵니다. 이는 수백 개의 P5 노드에서 딥 러닝 모델의 훈련을 확장하는 데 핵심입니다.
P5 인스턴스와 EFA를 사용하면 머신 러닝 애플리케이션은 NCCL(NVIDIA Collective Communications Library)을 통해 최대 20,000개의 H100 GPU까지 확장할 수 있습니다. 그 결과, 고객들은 온프레미스 HPC 클러스터의 애플리케이션 성능은 물론, AWS의 온디맨드 탄력성과 유연성 또한 모두 누릴 수 있습니다. 최첨단 컴퓨팅 기능 외에도 오브젝트 스토리지용 아마존 S3, 고성능 파일 시스템용 아마존 FSx, 딥 러닝 애플리케이션 구축, 트레이닝 및 배포용 아마존 세이지메이커(SageMaker) 등 업계 내 가장 광범위하고 심층적인 서비스 포트폴리오 또한 사용 가능한데요. 해당 기능으로 객체 저장, 고성능 파일 시스템 및 딥 러닝 애플리케이션 구축, 훈련, 배포 등의 작업을 할 수 있습니다. P5 인스턴스는 가까운 시일 내 제한된 미리 보기 형태로 제공될 예정입니다. 여기에서 액세스를 요청하세요.
EC2 P5 인스턴스를 사용하는 기업들
새로운 EC2 P5 인스턴스를 사용하면 앤트로픽(Anthropic), 코히어(Cohere), 허깅페이스(Hugging Face), 핀터레스트(Pinterest), 스터빌리티AI(Stability AI)와 같은 고객들이 대규모 머신 러닝 모델을 구축하고 훈련시킬 수 있습니다. 한편 추가 세대의 EC2 인스턴스를 통한 협업은 스타트업, 엔터프라이즈, 연구자들이 머신 러닝 요구 사항을 충족하기 위해 매끄럽게 확장할 수 있도록 도움을 줄 수 있습니다.
앤트로픽은 신뢰할 수 있고 해석 가능하며 조정 가능한 AI 시스템을 구축합니다. 이들은 공익적, 상업적 가치를 창출할 수 있는 많은 기회를 가지고 있죠. 앤트로픽의 공동 설립자 톰 브라운(Tom Brown)은 “앤트로픽은 신뢰할 수 있고 해석 가능하며, 조정 가능한 AI 시스템을 구축하기 위해 노력하고 있습니다. 오늘날의 대규모 일반 AI 시스템은 상당한 이점을 제공할 수 있지만, 예측이 어렵고 신뢰할 수 없으며 불투명할 수 있다는 단점이 있습니다. 우리의 목표는 이러한 문제들을 해결하고 사람들이 유용하게 사용할 수 있는 시스템을 배포하는 것입니다. 앤트로픽은 딥 러닝 연구의 기초 모델을 구축하는 세계에서 몇 안 되는 단체 중 하나입니다. 딥 러닝 연구의 기초 모델은 매우 복잡하며, 이러한 최첨단 모델을 개발하고 훈련하려면, 해당 모델을 대규모 GPU 클러스터에 효율적으로 분산시켜야 합니다. 우리는 현재 아마존 EC2 P4 인스턴스를 광범위하게 사용하고 있으며, 곧 출시될 P5 인스턴스에도 큰 기대를 걸고 있습니다. P5 인스턴스는 P4d 인스턴스에 비해 상당한 가성비(가격 대비 성능 이점)을 제공할 것으로 기대되며, 차세대 LLM과 관련 제품을 구축할 때 대규모로 사용할 수 있을 것”이라고 말했죠.
언어 AI 분야의 선두주자 코히어는 모든 개발자와 기업들이 데이터를 안전하게 보호하면서 세계 최고 수준의 자연어 처리(NLP) 기술로 놀라운 제품을 개발할 수 있도록 지원합니다. 코히어의 CEO 에이단 고메즈(Aidan Gomez)는 “코히어는 모든 기업이 언어 AI의 힘을 활용해 자연스럽고 직관적인 방식으로 정보를 탐색, 생성, 검색, 조치할 수 있도록 앞장서고 있습니다. 더불어 정보를 각 고객에게 가장 적합한 데이터 환경에서 여러 클라우드 플랫폼에 배포할 수 있도록 지원합니다. NVIDIA H100을 탑재한 아마존 EC2 P5 인스턴스는 코히어의 최첨단 LLM과 생성형 AI 기능을 결합해 비즈니스가 더욱 빠르게 성장하고 확장할 수 있는 컴퓨팅 파워를 제공할 것입니다”고 말했습니다.
허깅 페이스는 우수한 머신 러닝을 대중화하겠다는 사명을 가지고 있는데요. 허깅페이스 공동 창립자 겸 CTO 줄리앙 쇼몽(Julien Chaumond)은 “허깅페이스는 머신 러닝 분야에서 가장 빠르게 성장하는 머신 러닝 오픈 소스 커뮤니티입니다. 현재 NLP, 컴퓨터 비전, 생물학, 강화 학습 등을 위한 플랫폼에서 15만 개 이상의 사전 훈련 모델과 25,000개 이상의 데이터 세트를 제공하고 있습니다. 허깅페이스는 LLM과 생성형 AI 분야의 커다란 발전에 발맞춰 AWS와 함께 미래의 오픈 소스 모델을 구축하고 기여하고자 노력하고 있습니다. EFA가 포함된 울트라클러스터에서 아마존 세이지메이커를 통해 대규모 아마존 EC2 P5 인스턴스를 사용하여 모두를 위한 새로운 기반 AI 모델의 제공을 가속화할 수 있기를 기대합니다”고 언급했습니다.
오늘날 전 세계 4억 5,000만 명 이상의 사람들이 핀터레스트 플랫폼을 사용해 시각적 영감을 얻고 있습니다. 자신의 취향에 맞는 제품을 쇼핑하고, 오프라인에서 실행할 수 있는 아이디어를 찾으며, 영감을 불어넣는 크리에이터를 발견하는 것인데요. 핀터레스트 수석 아키텍트 데이비드 셰이큰(David Chaiken)은 “우리는 P3, 최신 P4d 인스턴스와 같은 AWS GPU 인스턴스를 활용해 플랫폼 전반에 걸쳐 딥 러닝을 광범위하게 사용하고 있습니다. 아울러 업로드 된 수십억 장의 사진을 라벨링하고 분류하는 작업에도 활용하고 있으며, 비주얼 검색 기능을 통해 사용자가 영감을 받은 내용을 직접 현실에서 실행할 수 있도록 돕는 기능을 제공하고 있습니다. NVIDIA H100 GPU, EFA, 울트라클러스터가 탑재된 아마존 EC2 P5 인스턴스를 사용해 제품 개발을 가속화하고 고객에게 새로운 공감형 AI 기반 경험을 제공할 수 있기를 기대하고 있습니다”고 말했죠.
멀티모달(multimodal) 오픈소스 AI 모델 개발 및 배포의 선두주자인 스터빌리티AI는 공공 및 민간 부문의 파트너와 협력해 차세대 인프라를 전 세계 고객들에게 제공하고 있습니다. 스터빌리티AI CEO 에마드 모스타크(Emad Mostaque)는 “우리의 목표는 최신 AI의 접근성을 극대화해 전 세계의 창의성과 혁신에 영감을 불어넣는 것입니다. 우리는 지난 2021년 AWS와 파트너십을 맺고 아마존 EC2 P4d 인스턴스를 활용해 잠재적 텍스트 투 이미지(text-to-image, TTI) 확산 모델인 스테이블 디퓨전(Stable Diffusion)을 최초로 구축했습니다. 이는 모델 훈련 시간을 몇 달에서 몇 주로 단축하는 효과를 제공합니다. 차세대 오픈 소스 생성형 AI 모델을 개발하고 새로운 방식으로 확장하는 과정에서 2세대 EC2 울트라클러스터에서 아마존 EC2 P5 인스턴스를 사용할 것입니다. P5 인스턴스는 모델 훈련 시간을 최대 4배 단축해 더 빠르고 저렴하게 첨단 AI를 제공할 수 있을 것입니다”고 말했습니다.
확장 가능하고 효율적인 AI를 위한 새로운 서버 설계
H100 출시를 앞두고 열, 전기, 기계 분야의 전문성을 갖춘 NVIDIA와 AWS 엔지니어링 팀은 GPU를 활용해 대규모로 AI를 제공하는 서버를 설계하기 위해 협력했습니다. 특히 이 과정에서 AWS 인프라의 에너지 효율성에 중점을 뒀죠. GPU는 일반적으로 특정 AI 워크로드에서 CPU보다 에너지 효율이 20배 더 높으며, LLM의 경우 H100가 CPU에 비해 최대 300배 높은 효율성을 보입니다.
NVIDIA와 AWS가 공동으로 작업할 내용에는 시스템 방열 설계, 통합 보안, 시스템 관리, AWS 니트로(Nitro) 하드웨어 가속 하이퍼바이저를 통한 보안, AWS 커스텀 EFA 네트워크 패브릭을 위한 NVIDIA GPUDirect 최적화 개발 등이 포함됩니다.
NVIDIA와 AWS는 서버 최적화에 중점을 두고 진행한 작업을 기반으로 차세대 시스템 설계, 냉각 기술, 네트워크 확장성 향상을 위한 서버 설계에 대한 협업을 개시합니다.