AI 추론 모델과 에이전트는 산업을 혁신할 것이지만, 그 잠재력을 대규모로 구현하려면 대규모 컴퓨팅과 최적화된 소프트웨어가 필요합니다. 이 “추론” 프로세스에는 여러 모델이 포함되며, 많은 추가 토큰을 생성하고, 실시간 고품질 결과를 보장하기 위해 고속 통신, 메모리 및 컴퓨팅이 결합된 인프라가 필요합니다.
이러한 수요를 충족시키기 위해 CoreWeave는 NVIDIA GB200 NVL72 기반 인스턴스를 출시하여, 클라우드 서비스 제공업체 중 최초로 NVIDIA Blackwell 플랫폼을 일반에게 제공하게 되었습니다.
72개의 NVIDIA Blackwell GPU와 36개의 NVIDIA Grace CPU에 걸친 랙 스케일의 NVIDIA NVLink와 NVIDIA Quantum-2 InfiniBand 네트워킹으로 최대 110,000개의 GPU까지 확장되는 이 인스턴스는 차세대 AI 추론 모델 및 에이전트를 구축하고 배포하는 데 필요한 규모와 성능을 제공합니다.
CoreWeave의 NVIDIA GB200 NVL72
NVIDIA GB200 NVL72는 수냉식 랙 스케일 솔루션으로, 72개의 GPU가 하나의 대규모 GPU처럼 작동하는 72-GPU NVLink 도메인을 갖추고 있어 6개의 GPU가 하나의 거대한 GPU처럼 작동합니다.
NVIDIA Blackwell은 추론 토큰 생성을 가속화하고 성능을 향상시키면서 서비스 비용을 절감하는 여러 가지 혁신적인 기술을 갖추고 있습니다. 예를 들어, 5세대 NVLink는 하나의 72-GPU NVLink 도메인에서 130TB/s의 GPU 대역폭을 구현하고, 2세대 트랜스포머 엔진은 높은 정확도를 유지하면서 더 빠른 AI 성능을 위해 FP4를 지원합니다.
CoreWeave의 관리형 클라우드 서비스 포트폴리오는 Blackwell을 위해 특별히 설계되었습니다. CoreWeave Kubernetes Service는 NVLink 도메인 ID를 노출하여 워크로드 오케스트레이션을 최적화하고 동일한 랙 내에서 효율적인 스케줄링을 가능케 합니다. 또한 SUNK(Slurm on Kubernetes)는 토폴로지 블록 플러그인(Topology block plug-in)을 지원하여 GB200 NVL72 랙 전체에 지능적인 워크로드 분배를 가능하게 합니다. 또한, CoreWeave의 Observability Platform은 NVLink 성능, GPU 사용률 및 온도에 대한 실시간 인사이트를 제공합니다.
CoreWeave의 GB200 NVL72 인스턴스는 최대 110,000개의 GPU 클러스터를 위해 GPU당 400Gb/s의 대역폭을 제공하는 NVIDIA Quantum-2 InfiniBand 네트워킹을 특징으로 하는데요, 또한 NVIDIA BlueField-3 DPU는 이러한 인스턴스를 위해 가속화된 멀티테넌트 클라우드 네트워킹, 고성능 데이터 액세스와 GPU 컴퓨팅 탄력성을 제공합니다.
엔터프라이즈 AI를 위한 풀스택 가속 컴퓨팅 플랫폼
NVIDIA의 풀스택 AI 플랫폼은 최첨단 소프트웨어와 Blackwell 기반 인프라를 결합하여 기업이 빠르고 정확하며 확장 가능한 AI 에이전트를 구축할 수 있도록 지원합니다.
NVIDIA Blueprints는 개발자가 실제 애플리케이션을 제작할 수 있도록 사전 정의되고, 커스터마이징이 가능하며 바로 배포할 수 있는 레퍼런스 워크플로우를 제공합니다. NVIDIA NIM은 추론을 위한 고성능 AI 모델의 안전하고 안정적인 배포를 위해 설계된 사용하기 쉬운 마이크로서비스 세트입니다. NVIDIA NeMo에는 최신 엔터프라이즈 사용 사례를 위한 AI 모델의 트레이닝, 커스터마이징, 그리고 지속적인 향상을 위한 도구가 포함되어 있습니다. 기업은 NVIDIA Blueprints, NIM, 그리고 NeMo를 사용하여 전문화된 AI 에이전트를 위한 모델을 구축하고 파인튜닝할 수 있습니다.
NVIDIA AI Enterprise 소프트웨어 플랫폼의 일부인 이러한 소프트웨어 구성 요소는 모두 에이전틱 AI를 대규모로 제공하는 데 핵심적인 역할을 하며, CoreWeave에 쉽게 배포할 수 있습니다.
클라우드에 차세대 AI 도입
CoreWeave에서 NVIDIA GB200 NVL72 기반 인스턴스의 일반 출시는 클라우드에 최신 가속 컴퓨팅 솔루션을 제공하는 데 중점을 둔 NVIDIA와의 최신 협업을 보여줍니다. 이 인스턴스의 출시로 기업들은 이제 차세대 AI 추론 모델과 에이전트를 구동하는 데 필요한 규모와 성능을 이용할 수 있게 되었습니다.