AI 추론 모델의 효율 극대화하는 오픈소스 라이브러리 ‘NVIDIA Dynamo’

AI 팩토리에서 AI 추론 모델을 최저 비용, 최고 효율로 가속하고 확장할 수 있는 오픈소스 추론 소프트웨어인 NVIDIA Dynamo를 공개합니다.

대규모 GPU 플릿에서는 AI 추론 요청을 효율적으로 조직하고 조정하는 작업이 매우 중요한데요. 이러한 작업은 AI 팩토리의 운영 비용을 최소화하고 토큰 수익 창출을 극대화합니다.

AI 추론이 보편화됨에 따라 모든 AI 모델은 매 프롬프트마다 ‘생각’에 사용되는 토큰을 수만 개씩 생성하게 될 것입니다. 추론 성능을 높이면서 비용을 지속적으로 낮추면, 서비스 제공업체의 성장이 가속화되고, 수익 창출 기회가 증가하죠.

NVIDIA Triton Inference Server™의 후속 제품인 NVIDIA Dynamo는 추론형 AI 모델을 배포하는 AI 팩토리의 토큰 수익 창출을 극대화하도록 고안된 AI 추론 서빙 소프트웨어입니다. 수천 개의 GPU에서 추론 통신을 조정, 가속한 뒤 분리 서빙 방식을 통해 거대 언어 모델(LLM)의 처리와 생성 단계들을 서로 다른 GPU에 분리하죠. 이를 통해 각 단계에서는 특정 요구 사항에 맞춰 독립적 최적화가 가능하고, GPU 리소스 활용을 극대화할 수 있습니다.

NVIDIA 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “전세계 산업계가 AI 모델의 사고와 학습에 필요한 훈련의 방식을 다양화하면서, 이러한 AI 모델이 보다 정교해지고 있습니다. NVIDIA Dynamo는 추론 맞춤형 AI를 구현하기 위해 모델의 대규모 서빙을 지원합니다. 이를 통해 AI 팩토리 전반에서 비용을 절감하고 효율을 높입니다”고 말했습니다.

Dynamo는 같은 수의 GPU를 사용해 NVIDIA Hopper™ 플랫폼에서 라마(Llama) 모델을 지원하는 AI 팩토리의 성능과 수익을 두 배로 증가시킵니다. GB200 NVL72 랙으로 구성된 대형 클러스터에서 딥시크(DeepSeek)-R1 모델을 구동할 경우, NVIDIA Dynamo의 지능형 추론 최적화를 통해 GPU당 생성되는 토큰의 수는 30배 이상 증가합니다.

NVIDIA Dynamo는 추론 성능 개선을 위해 처리량 증가와 비용 절감에 필요한 기능들을 통합했습니다. 변동성이 심한 요청의 양과 유형에 따라 GPU를 동적으로 추가, 제거, 재할당할 수 있으며, 대형 클러스터에서 특정 GPU를 정확히 찾아내 응답에 필요한 계산과 쿼리 라우팅을 최소화합니다. 또한 추론 데이터를 보다 저렴한 메모리나 저장장치로 오프로드하고 필요할 때 신속하게 검색해 추론 비용을 최소화할 수 있습니다.

Dynamo는 완전한 오픈소스 형태로 제공되며, 파이토치(PyTorch), SG랭(SGLang), 텐서RT(TensorRT)-LLM, vLLM을 지원합니다. 이를 통해 기업, 스타트업, 연구자들이 분산된 추론 환경에서 AI 모델을 제공하고 최적화할 수 있는 방법을 개발할 수 있도록 지원하죠. 결과적으로 사용자들은 AI 추론 도입을 가속할 수 있게 될 것입니다. 여기에는 아마존 웹 서비스(Amazon Web Services, AWS), 코히어(Cohere), 코어위브(CoreWeave), 델(Dell), 파이어웍스(Fireworks), 구글 클라우드(Google Cloud), 람다(Lambda), 메타(Meta), 마이크로소프트 애저(Microsoft Azure), 네비우스(Nebius), 넷앱(NetApp), OCI, 퍼플렉시티(Perplexity), 투게더 AI(Together AI), 바스트(VAST) 등이 포함됩니다.

추론 강화

NVIDIA Dynamo는 추론 시스템이 이전 요청을 처리하면서 메모리에 저장한 지식(KV 캐시)을 잠재적으로 수천 개의 GPU에 매핑합니다. 그런 다음, 새로운 추론 요청을 가장 적합한 지식이 저장된 GPU로 라우팅해 비용이 많이 드는 재계산을 피하고, 향후 요청에 응답할 GPU도 확보하죠.

퍼플렉시티 AI의 CTO인 데니스 야라츠(Denis Yarats)는 “매월 수억 건의 요청을 처리해야 하는 상황에서, 퍼플렉시티는 NVIDIA GPU와 추론 소프트웨어를 활용해 성능과 신뢰성을 높이면서 자사 업무와 사용자의 수요에 부응하고 있습니다. 보다 향상된 분리 서빙 기능을 제공하는 Dynamo를 활용해 추론 서빙의 효율을 높이고 새로운 AI 추론 모델의 컴퓨팅 요구 조건들을 만족시킬 수 있기를 기대합니다”고 말했습니다.

에이전틱 AI

AI 제공업체 코히어는 NVIDIA Dynamo를 활용해 자사 모델 시리즈인 커맨드(Command)의 에이전틱 AI(Agentic AI) 기능을 강화할 계획입니다.

코히어 엔지니어링 부문 수석 부사장인 사우라브 바지(Saurabh Baji)는 “고급 AI 모델을 확장하려면 정교한 GPU 스케줄링과 빈틈없는 조율, 메모리와 스토리지 전반에서 추론 컨텍스트를 원활히 전송해줄 저지연 통신 라이브러리가 필요합니다. NVIDIA Dynamo의 도움으로 코히어 고객들에게 최고의 사용자 경험을 제공할 수 있기를 기대합니다”고 말했습니다.

분리 서빙

NVIDIA Dynamo 추론 플랫폼은 분리 서빙을 지원합니다. 이를 통해 사용자 쿼리 이해를 구축하고 최상의 응답을 생성하는 등 다양한 LLM 계산 단계를 서로 다른 GPU에 할당하죠. 이 접근 방식은 새로운 NVIDIA Llama Nemotron 모델 제품군과 같은 추론 모델에 이상적이며, 이 모델은 향상된 맥락 이해와 응답 생성을 위한 고급 추론 기술을 사용합니다. 분리 서빙을 통해 각 단계의 미세 조정과 리소스 확보를 독립적으로 수행하면서 처리량을 개선하고 보다 빠른 응답을 제공할 수 있습니다.

AI 가속 클라우드(AI Acceleration Cloud)인 투게더 AI는 자체 개발한 투게더 인퍼런스 엔진(Together Inference Engine)을 NVIDIA Dynamo와 통합해, GPU 노드 전반에서 추론 워크로드를 원활히 확장되도록 지원하는 방안을 계획하고 있습니다. 이를 통해 모델 파이프라인의 다양한 단계에서 트래픽 병목 현상을 동적으로 해결할 수 있습니다.

투게더 AI의 CTO인 세 장(Ce Zhang)은 “추론 모델을 비용 효율적으로 확장하려면 분리 서빙과 맥락 인식 라우팅 등 새로운 고급 추론 기술이 필요합니다. 투게더 AI는 자체 추론 엔진을 사용해 업계 최고의 성능을 제공하죠. NVIDIA Dynamo의 개방성과 모듈성을 통해 구성 요소들을 엔진에 원활히 연결해 더 많은 요청을 처리할 수 있습니다. 또한, 리소스 활용을 최적화하면서 가속 컴퓨팅에 대한 투자를 극대화할 수 있을 것입니다. 이 플랫폼의 혁신적인 기능을 통해 투게더 AI 사용자에게 비용 효율적으로 오픈소스 추론 모델을 제공할 수 있게 돼 기쁩니다”고 소감을 밝혔습니다.

NVIDIA Dynamo의 구성

NVIDIA Dynamo는 추론 서빙 비용을 절감하고 사용자 경험을 개선하는 4가지 혁신 기능을 포함합니다.

GPU 플래너(GPU Planner): 변동성 강한 사용자 수요에 맞춰 GPU를 동적으로 추가하거나 제거해 GPU의 과잉 또는 과소 프로비저닝을 방지하는 계획 엔진입니다.
스마트 라우터(Smart Router): 반복되거나 중복되는 요청에 대한 비용이 많이 드는 GPU 재연산 최소화를 위해 대규모 GPU 제품군 전체에 요청을 지시하는 LLM 인식 라우터입니다. 새로운 수신 요청에 응답할 수 있도록 GPU를 확보합니다.
로우 레이턴시 커뮤니케이션 라이브러리(Low-Latency Communication Library): 최첨단 ‘GPU-to-GPU’ 통신을 지원하고 이질적인 장치 간 데이터 교환 복잡성을 줄여 데이터 전송을 가속하는 추론 최적화 라이브러리입니다.
메모리 매니저(Memory Manager): 사용자 경험에 영향을 주지 않으면서 추론 데이터를 저비용 메모리나 저장장치에 지능적으로 오프로드 또는 리로드하는 엔진입니다.

NVIDIA Dynamo는 NVIDIA NIM 마이크로서비스에서 제공되며, 향후 NVIDIA AI Enterprise 소프트웨어 플랫폼의 릴리즈에서 프로덕션급 보안, 지원, 안정성과 함께 지원될 예정입니다.

NVIDIA GTC 키노트를 시청하고, Dynamo에 대한 자세한 내용을 확인해 보세요.