NVIDIA와 구글 클라우드, 생성형 AI 개발 확장 위해 파트너십 확대

NVIDIA와 구글 클라우드(Google Cloud)의 파트너십이 강화됩니다. NVIDIA는 머신 러닝(ML) 커뮤니티가 생성형 AI 애플리케이션을 쉽게 구축, 확장, 관리할 수 있도록 지원할 예정입니다.

구글은 자사 제품과 개발자에게 AI 혁신을 지속적으로 제공하기 위해 새로운 NVIDIA Grace Blackwell AI 컴퓨팅 플랫폼을 도입하고, 구글 클라우드에 NVIDIA DGX Cloud 서비스를 적용한다고 발표했는데요. NVIDIA H100 기반 DGX 클라우드 플랫폼은 이제 구글 클라우드에서 정식으로 사용할 수 있습니다.

구글은 최근 개방형 모델인 젬마(Gemma) 제품군 최적화를 위한 협력을 기반으로, NVIDIA NIM 추론 마이크로서비스도 도입합니다. 이를 통해 구글은 개발자들이 선호하는 툴과 프레임워크를 사용해 훈련하고 배포할 수 있는 개방적이고 유연한 플랫폼을 제공할 계획입니다. 또한, NVIDIA와 구글 클라우드는 NVIDIA GPU, NVIDIA H100 그리고 L4 Tensor Core GPU 기반의 버텍스 AI(Vertex AI) 인스턴스에서 JAX를 지원한다고 발표했습니다.

구글 클라우드의 CEO 토마스 쿠리안(Thomas Kurian)은 “NVIDIA와의 오랜 파트너십은 하드웨어 수준에서 시작해 최첨단 GPU 가속기, 소프트웨어 에코시스템, 관리형 버텍스 AI 플랫폼에 이르기까지 포트폴리오 전반으로 확장됐습니다. 우리는 NVIDIA와 함께 ML 개발자를 위한 접근성이 높고 개방적이며 포괄적인 AI 플랫폼을 제공하기 위해 최선을 다하고 있습니다”고 말했습니다.

NVIDIA의 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “기업들은 몇 년이 아닌 몇 주, 몇 달 안에 생성형 AI를 최대한 활용할 수 있는 솔루션을 찾고 있습니다. 확장된 인프라 서비스와 NVIDIA의 풀스택 AI와의 새로운 통합을 통해 구글 클라우드는 생성형 AI 애플리케이션을 쉽게 확장할 수 있는 개방적이고 유연한 플랫폼을 고객에게 지속적으로 제공하고 있습니다”고 말했습니다.

NVIDIA와 구글 클라우드 간의 새로운 통합은 AI 스택의 모든 계층에서 선도적인 기능을 AI 커뮤니티에 제공하려는 두 회사의 오랜 노력의 결실이죠. 파트너십 확장의 주요 내용은 이렇습니다.

NVIDIA Grace Blackwell 채택: 새로운 Grace Blackwell 플랫폼을 통해 조직은 수조 개의 매개변수를 가진 거대 언어 모델(LLM)에서 실시간 추론을 구축하고 실행할 수 있는데요. 구글은 다양한 내부 배포를 위해 이 플랫폼을 채택하고 있으며, Blackwell 기반 인스턴스를 제공하는 최초의 클라우드 제공업체 중 하나가 될 것입니다.
Grace Blackwell 기반 DGX 클라우드, 구글 클라우드에서 사용 가능: 구글은 확장성과 성능이 뛰어난 클라우드 인프라에 5세대 NVLink로 상호 연결된 72개의 Blackwell GPU와 36개의 Grace CPU를 결합한 NVIDIA GB200 NVL72 시스템을 도입할 예정입니다. 이는 조 단위 파라미터를 가진 LLM 시대에 에너지 효율적인 훈련과 추론을 위한 것인데요. LLM을 구축하고 제공하는 엔터프라이즈 개발자에게 서버리스 경험을 제공하는 AI 플랫폼인 DGX Cloud를 통해 해당 시스템을 이용할 수 있습니다. 또한 DGX Cloud는 이제 NVIDIA H100 Tensor Core GPU로 구동되는 구글 클라우드 A3 VM 인스턴스에서 정식으로 사용할 수 있습니다.
GPU에서 JAX 지원: 양사의 협업으로 JAX의 장점을 NVIDIA GPU에 제공해 더 광범위한 ML 커뮤니티에서 대규모 LLM 훈련에 대한 접근성이 강화됐습니다. JAX는 고성능 ML을 위한 프레임워크로, 컴파일러 지향적이며 파이썬(Python) 기반으로 제작돼 사용하기가 매우 쉽고 성능이 가장 뛰어난 LLM 훈련용 프레임워크 중 하나입니다. 이제 AI 실무자들은 맥스텍스트(MaxText)와 XPK(Accelerated Processing Kit)를 통해 구글 클라우드에서 NVIDIA H100 GPU와 함께 JAX를 사용할 수 있습니다.
구글 쿠버네티스 엔진(GKE, Google Kubernetes Engine)의 NVIDIA NIM: NVIDIA AI Enterprise 소프트웨어 플랫폼의 일부인 NVIDIA NIM 추론 마이크로서비스가 GKE에 통합됩니다. TensorRT-LLM을 비롯한 추론 엔진을 기반으로 구축된 NIM은 기업에서 생성형 AI 배포 속도를 높입니다. 아울러 광범위하고 선도적인 AI 모델을 지원하며, 원활하고 확장 가능한 AI 추론까지 보장하죠.
NVIDIA NeMo 지원: 구글 클라우드는 GKE과 구글 클라우드 HPC 툴킷을 통해 플랫폼 전반에서 NVIDIA NeMo 프레임워크를 보다 쉽게 배포할 수 있도록 지원합니다. 이를 통해 개발자는 생성형 AI 모델의 훈련과 제공을 자동화하거나 확장할 수 있으며, 개발 프로세스를 빠르게 시작하는 맞춤형 청사진을 통해 턴키 환경을 신속하게 배포할 수 있죠. NVIDIA AI Enterprise의 일부인 NVIDIA NeMo는 구글 마켓플레이스에서도 사용할 수 있습니다. 이를 통해 고객은 NeMo와 기타 프레임워크에 쉽게 액세스해 AI 개발을 가속화하는 또 다른 방법을 활용할 수 있습니다.
버텍스 AI와 데이터플로우(Dataflow), NVIDIAGPU에 대한 지원 확대: 데이터 사이언스와 분석을 발전시키기 위해 이제 버텍스 AI는 NVIDIA H100 GPU 기반의 구글 클라우드 A3 VM과 NVIDIA L4 Tensor Core GPU 기반의 G2 VM을 지원합니다. 따라서 MLOps 팀은 확장 가능한 인프라와 툴을 통해 AI 애플리케이션을 자신 있게 관리하고 배포할 수 있죠. 데이터플로우 또한 NVIDIA GPU에서 가속화된 데이터 처리에 대한 지원을 확대했습니다.

구글 클라우드는 오랫동안 NVIDIA의 최첨단 하드웨어와 구글의 선도적인 혁신이 결합된 GPU VM 인스턴스를 제공해 왔는데요. NVIDIA GPU는 성능 최적화된 하드웨어, 개방형 소프트웨어, 유연한 소비 모델을 통합하는 슈퍼컴퓨팅 아키텍처인 구글 클라우드 AI 하이퍼컴퓨터(AI Hypercomputer)의 핵심 구성요소입니다. 이번 파트너십을 통해 AI 연구자, 과학자, 개발자들은 가장 크고 정교한 AI 모델을 훈련, 미세 조정, 서비스할 수 있습니다. 또한, 이제 더 많은 도구와 프레임워크를 공동으로 최적화해 구글 클라우드에서 사용할 수 있습니다.

런웨이(Runway)의 CTO 겸 공동 창립자인 아나스타시스 게르마니디스(Anastasis Germanidis)

“런웨이의 텍스트 투 비디오 플랫폼은 AI 하이퍼컴퓨터로 구동됩니다. 기본적으로는 NVIDIA H100 GPU로 구동되는 A3 VM을 통해 A2 VM에 비해 훈련 성능이 크게 향상돼 2세대 모델에 대한 대규모 훈련과 추론이 가능해졌죠. GKE를 사용해 훈련 작업을 조율함으로써 단일 패브릭에서 수천 개의 H100 GPU로 확장해 고객의 증가하는 요구를 충족할 수 있게 됐습니다.”

팔로알토 네트웍스(Palo Alto Networks)의 시니어 스태프 머신 러닝 엔지니어인 애쉬윈 카난(Ashwin Kannan)

“구글 클라우드로 이전하고 NVIDIA T4 GPU가 탑재된 AI 하이퍼컴퓨터 아키텍처, NVIDIA L4 GPU 기반 G2 VM과 Triton Inference Server를 활용함으로써 모델 추론 성능이 크게 향상됐습니다. 또한 구글 클라우드가 제공하는 유연성으로 구현된 새로운 기술을 사용해 호스팅 비용을 15% 절감할 수 있었습니다.”

라이터(Writer)의 얼라이언스 디렉터인 대니 렁(Danny Leung)

“구글과 NVIDIA의 매우 생산적인 파트너십을 통해 라이터의 플랫폼이 모두 하나로 통합됐습니다. 훈련과 추론에 NVIDIA GPU를 최적으로 사용할 수 있게 됐죠. 라이터는 NVIDIA NeMo를 사용해 초당 990,000개의 단어를 생성하고 매달 1조 건 이상의 API 호출을 처리하는 산업 수준의 모델을 구축하고 있습니다. 우리는 더 큰 규모의 팀과 더 큰 예산을 가진 기업의 모델을 능가하는 최고 품질의 모델을 제공하고 있으며, 이 모든 것이 NVIDIA와 구글의 파트너십을 통해 가능해졌습니다. AI 전문성에 힘입어 라이터의 기업 고객은 몇 달이나 몇 년이 아닌 단 며칠 만에 의미 있는 AI 워크플로우를 구축할 수 있습니다.”