NVIDIA는 구글 클라우드(Google Cloud)와의 협력 하에 전 세계 스타트업의 생성형 AI 애플리케이션과 서비스 개발 가속화를 지원합니다.
9일 미국 라스베이거스에서 개최된 ‘구글 클라우드 넥스트(Google Cloud Next) 2024’에서는 스타트업을 위한 NVIDIA Inception 프로그램과 구글 포 스타트업 클라우드(Google for Startups Cloud) 프로그램을 통합한다는 양사의 협업 소식이 발표됐습니다. 이번 협업으로 NVIDIA와 구글 클라우드는 클라우드 크레딧, 시장 진출 지원, 그리고 기술 전문 지식에 대한 접촉 기회 확대를 통해 고객에게 더 빠르게 스타트업의 가치를 제공하도록 지원합니다.
18,000개 이상의 스타트업을 지원하는 NVIDIA Inception 글로벌 프로그램의 회원 중 특히 AI에 중점을 둔 스타트업의 경우, 최대 35만 달러의 구글 클라우드 크레딧을 제공받고 구글 클라우드 인프라 사용 가속화 경로를 확보할 수 있죠.
구글 포 스타트업 클라우드 프로그램 멤버는 NVIDIA Inception에 가입해 기술 전문 지식, NVIDIA Deep Learning Institute(DLI) 과정 크레딧, NVIDIA 하드웨어와 소프트웨어 등을 이용할 수 있습니다. 또한 구글 포 스타트업 클라우드 프로그램의 스타트업 회원은 해당 분야에 관심이 있는 벤처 투자 기관에 노출될 기회를 주는 NVIDIA Inception Capital Connect 플랫폼에 참여할 수 있습니다.
두 프로그램 모두에서 급성장한 신생 소프트웨어 제조업체는 구글 클라우드 마켓플레이스(Marketplace) 등록, 공동 마케팅, 제품 개발 가속화 지원을 우선적으로 받을 수 있습니다.
이번 협력은 다양한 규모의 기업이 생성형 AI 애플리케이션을 개발하는 데 드는 비용을 절감하고 장벽을 완화하기 위해 공개된 일련의 발표들 중 가장 최근에 이뤄진 것인데요. 특히 스타트업은 AI 투자에 대한 높은 비용으로 인해 많은 제약을 받고 있는 상황입니다.
풀스택 AI 플랫폼의 필요성
지난 2월에 구글 딥마인드(DeepMind)는 최첨단 개방형 모델 제품군 젬마(Gemma)를 공개했습니다. NVIDIA는 최근 구글과 협력해 모든 젬마 전용 NVIDIA AI 플랫폼에 대한 최적화를 실시하고, 고객 비용 절감과 특정 도메인별 사용 사례 혁신을 가속했는데요.
젬마는 구글 딥마인드의 가장 뛰어난 모델 제미나이(Gemini) 제작에 사용된 동일한 연구와 기술로 구축됐습니다. 양사의 긴밀한 협력으로 거대 언어 모델(large language models, LLM) 추론 최적화를 위한 오픈 소스 라이브러리 NVIDIA TensorRT-LLM을 통해 NVIDIA GPU로 젬마를 실행, 젬마의 성능을 신속히 발전시켰습니다.
NVIDIA AI Enterprise 소프트웨어 플랫폼의 일종인 NVIDIA NIM 마이크로서비스는 구글 쿠버네티스 엔진(Kubernetes Engine, GKE)과 함께 AI 기반 앱을 개발하고 최적의 AI 모델을 생산 단계에 배포하기 위한 간소화된 경로를 제공합니다. NVIDIA Triton Inference Server와 TensorRT-LLM을 포함한 추론 엔진을 기반으로 구축된 NIM은 광범위한 선도적 AI 모델을 지원하고, 확장성 있고 원활한 AI 추론을 제공하여 기업의 생성형 AI 배포를 가속합니다.
젬마 7B(Gemma 7B), 리커런트젬마(RecurrentGemma), 코드젬마(CodeGemma)를 포함한 젬마 모델 제품군은 NVIDIA API 카탈로그에서 사용 가능하며, 사용자는 이를 브라우저에서 사용하거나, API 엔드포인트로 프로토타입을 제작하거나, NIM을 통한 셀프 호스팅을 할 수 있습니다.
구글 클라우드를 사용하면 GKE와 구글 클라우드 HPC 툴킷으로 플랫폼 전반에 NVIDIA NeMo 프레임워크를 배포하기 쉬워지는데요. 이를 통해 개발자는 생성형 AI 모델의 훈련과 제공을 확장하고 자동화할 수 있으며, 개발 과정에 빠르게 착수하는 맞춤형 청사진을 통해 턴키 환경을 신속히 구축할 수 있습니다.
NVIDIA AI Enterprise의 일부인 NVIDIA NeMo는 구글 클라우드 마켓플레이스에서도 이용할 수 있습니다. 고객들은 NeMo, 기타 프레임워크에 쉽게 액세스해 AI 개발을 가속할 수 있죠.
구글 클라우드는 NVIDIA 생성형 AI 가속 컴퓨팅의 가용성 확대를 위해 다음 달 A3 메가(Mega)의 정식 출시를 발표했습니다. 해당 인스턴스는 NVIDIA H100 Tensor Core GPU로 구동되는 A3 가상 머신(VM) 제품군의 확장으로, A3 VM에서 GPU 대 GPU 네트워크 대역폭이 두 배로 늘었습니다.
A3에 탑재된 구글 클라우드의 새로운 컨피덴셜(Confidential) VM에는 컨피덴셜 컴퓨팅에 대한 지원도 포함돼 있습니다. 그래서 고객이 H100 GPU 가속에 액세스하는 동안 코드를 변경하지 않고도 민감 데이터의 기밀성과 무결성을 보호하고 학습과 추론 도중 애플리케이션과 AI 워크로드를 보호할 수 있죠. 이 GPU 기반 컨피덴셜 VM은 올해 미리 보기로 제공될 예정입니다.
다음 단계: NVIDIA Blackwell 기반 GPU
NVIDIA Blackwell 플랫폼에 기반한 NVIDIA의 최신 GPU는 내년 초에 두 가지 버전인 NVIDIA HGX B200과 NVIDIA GB200 NVL72로 구글 클라우드에 출시될 예정입니다.
HGX B200은 가장 까다로운 AI, 데이터 분석, 고성능 컴퓨팅 워크로드를 위해 설계됐으며, GB200 NVL72는 차세대, 대규모, 조 단위의 매개변수 모델 학습과 실시간 추론을 위해 설계됐습니다.
NVIDIA GB200 NVL72는 각각 2개의 NVIDIA Blackwell GPU와 NVIDIA Grace CPU가 결합된 36개의 Grace Blackwell Superchip을 900GB/s의 칩투칩(chip-to-chip) 인터커넥트를 통해 연결합니다. 이는 하나의 NVIDIA NVLink 도메인에서 최대 72개의 Blackwell GPU와 130TB/s의 대역폭을 지원하죠. 통신 병목 현상을 극복하고 단일 GPU처럼 작동해 이전 세대 대비 30배 빠른 실시간 LLM 추론과 4배 빠른 트레이닝을 제공합니다.
NVIDIA GB200 NVL72는 멀티 노드 랙 스케일 시스템으로, 구글 클라우드의 4세대 고급 액체 냉각 시스템과 결합될 예정입니다.
NVIDIA는 지난달 생성형 AI의 요구사항에 최적화된 엔터프라이즈 개발자용 AI 플랫폼인 NVIDIA DGX Cloud를 H100 GPU 기반의 A3 VM에서 사용할 수 있다고 발표했는데요. GB200 NVL72가 탑재된 DGX Cloud는 2025년 구글 클라우드에서도 제공될 예정입니다.