AI 어시스턴트가 심층적인 리서치를 수행하거나 자율주행 차량이 순식간에 주행 결정을 내리는 등, 다양한 산업 분야에서 AI 도입이 폭발적으로 증가하고 있습니다.
이러한 모든 상호작용의 이면에는 추론이 있습니다. 추론은 학습 이후, AI 모델이 입력을 처리하고 실시간으로 출력을 생성하는 단계입니다.
오늘날 가장 진보된 AI 추론 모델들은 다단계 논리 처리와 복잡한 의사결정을 수행할 수 있으며, 이전 모델보다 훨씬 많은 토큰을 한 번의 상호작용에서 생성합니다. 이로 인해 토큰 사용량이 급증하고, 대규모로 인사이트를 생성할 수 있는 인프라에 대한 수요가 늘어나고 있습니다.
AI 팩토리는 이러한 증가하는 요구를 충족할 수 있는 방법 중 하나입니다.
하지만 대규모로 추론을 실행한다고 해서 단순히 연산 자원을 늘리는 것만으로 해결되지는 않습니다.
AI를 최대한 효율적으로 배포하려면, 추론을 Think SMART 프레임워크에 따라 평가해야 합니다:
-
Scale and complexity (확장성과 복잡성)
-
Multidimensional performance (다차원 성능)
-
Architecture and software (아키텍처와 소프트웨어)
-
Return on investment driven by performance (성능 기반의 투자 수익률)
-
Technology ecosystem and install base (기술 생태계와 설치 기반)
확장성과 복잡성
모델이 소형 애플리케이션에서 수많은 전문가가 결합된 대형 시스템으로 진화함에 따라, 추론 역시 점점 다양해지는 워크로드를 감당할 수 있어야 합니다. 이는 단순한 단일 질문 응답부터 수백만 개의 토큰을 포함하는 다단계 추론까지 모두 포함합니다.
AI 모델의 크기와 복잡성이 커지면서, 추론 단계에서는 연산 자원 소모, 지연 시간과 처리량, 에너지 소비와 비용, 그리고 다양한 활용 사례 등 여러 측면에서 중요한 과제가 생깁니다.
이러한 복잡성에 대응하기 위해, AI 서비스 제공업체와 기업들은 인프라를 대폭 확장하고 있으며, CoreWeave, Dell Technologies, Google Cloud, Nebius.와 같은 파트너들이 새로운 AI 팩토리를 구축하고 있습니다.
다차원 성능
복잡한 AI 배포 환경을 확장하려면, AI 팩토리는 다양한 활용 사례에 걸쳐 토큰을 유연하게 처리하면서도 정확도, 지연 시간, 비용 간의 균형을 유지할 수 있어야 합니다.
예를 들어, 실시간 음성-텍스트 변환과 같은 워크로드는 매우 낮은 지연 시간과 사용자당 대량의 토큰 처리를 요구하며, 최대 응답성을 위해 연산 자원을 극도로 소모하게 됩니다. 반면, 수십 개의 복잡한 질문에 동시에 응답하는 작업처럼 지연 시간에 덜 민감하고 처리량이 중요한 워크로드도 있습니다.
하지만 대부분의 실시간 시나리오는 이 중간 지점에 위치합니다. 사용자 만족을 위한 빠른 응답과 동시에 수백만 명에게 서비스를 제공할 수 있는 높은 처리량이 요구되며, 이 모든 과정을 토큰당 비용을 최소화하면서 수행해야 합니다.
예를 들어, NVIDIA의 추론 플랫폼은 지연 시간과 처리량 간의 균형을 맞추도록 설계되어 있으며, gpt-oss, DeepSeek-R1, Llama 3.1. 같은 모델의 추론 벤치마크를 지원합니다.
최적의 다차원 성능을 달성하기 위한 평가 기준
-
처리량: 시스템이 초당 얼마나 많은 토큰을 처리할 수 있는가? 처리량이 많을수록 워크로드와 수익을 확장하는 데 유리합니다.
-
지연 시간: 각 개별 프롬프트에 시스템이 얼마나 빠르게 응답하는가? 지연 시간이 낮을수록 사용자 경험이 향상되며, 이는 인터랙티브한 애플리케이션에서 매우 중요합니다.
-
확장성: 수요가 증가할 때, 복잡한 재구성이나 자원 낭비 없이 단일 GPU에서 수천 개 GPU로 신속하게 확장할 수 있는가?
-
비용 효율성: 성능 대비 비용이 높은가, 그리고 수요 증가에 따라 이러한 효율성이 지속 가능한가?
아키텍처와 소프트웨어
AI 추론 성능은 하드웨어와 소프트웨어가 완벽하게 조화를 이루도록 처음부터 설계되어야 합니다. GPU, 네트워크, 코드가 병목 현상을 피하고 모든 연산 주기를 최대한 활용하도록 정밀하게 조정되어야 진정한 성능이 나옵니다.
강력한 아키텍처도 효율적인 오케스트레이션이 없다면 잠재력을 낭비하게 되고, 훌륭한 소프트웨어도 빠르고 지연이 낮은 하드웨어가 없다면 성능이 떨어질 수밖에 없습니다. 핵심은 프롬프트를 빠르고 효율적이며 유연하게 유용한 응답으로 바꿔줄 수 있는 시스템을 설계하는 것입니다.
기업은 NVIDIA 인프라를 활용해 최적의 성능을 제공하는 시스템을 구축할 수 있습니다.
AI 팩토리 규모의 추론에 최적화된 아키텍처
NVIDIA Blackwell 플랫폼은 AI 팩토리에서의 추론 생산성을 50배 향상시켜, 복잡한 모델을 실행할 때도 처리량과 인터랙티브 응답성을 최적화할 수 있도록 합니다.
NVIDIA GB200 NVL72 랙 규모 시스템은 36개의 NVIDIA Grace CPU와 72개의 Blackwell GPU를 NVIDIA NVLink 인터커넥트로 연결해, 까다로운 AI 추론 워크로드에 대해 수익 잠재력 40배, 처리량 30배, 에너지 효율 25배, 수냉 효율 300배 향상을 제공합니다.
또한, NVFP4는 NVIDIA Blackwell에서 최고의 성능을 발휘하는 저정밀 형식으로, 정확도를 유지하면서도 에너지, 메모리, 대역폭 요구를 대폭 줄여 와트당 더 많은 쿼리를 처리하고 토큰당 비용을 절감할 수 있습니다.
Blackwell 기반의 풀스택 추론 플랫폼
AI 팩토리 규모의 추론을 실현하려면 단순한 하드웨어 가속을 넘어, 여러 계층의 솔루션과 도구가 유기적으로 연동되는 풀스택 플랫폼이 필요합니다.
현대의 AI 배포 환경에서는 수요에 따라 GPU를 1개에서 수천 개까지 동적으로 확장할 수 있어야 합니다. NVIDIA Dynamo 플랫폼은 분산 추론을 지능적으로 조율해 GPU 할당과 데이터 흐름을 최적화하며, 비용 증가 없이 최대 4배의 성능 향상을 제공합니다. 클라우드 통합 기능도 개선되어 확장성과 배포 편의성이 향상되었습니다.
특히, 전문가 혼합 모델(MoE)과 같이 GPU당 최적의 성능을 추구하는 추론 워크로드에 대해서는 NVIDIA TensorRT-LLM 같은 프레임워크가 획기적인 성능 향상을 지원합니다.
TensorRT-LLM은 새로운 PyTorch 중심 워크플로우를 통해 수동 엔진 관리를 제거하고 AI 배포를 간소화합니다. 이러한 솔루션들은 개별적으로도 강력하지만, 상호 연동되도록 설계되었습니다. 예를 들어, Dynamo와 TensorRT-LLM을 함께 사용하면, Baseten과 같은 핵심 추론 제공업체는 gpt-oss와 같은 최신 모델도 즉시 고성능으로 서비스할 수 있습니다.
모델 측면에서는 NVIDIA Nemotron 시리즈가 투명성을 위해 공개 학습 데이터를 기반으로 구축되었으며, 고정확도의 고난도 추론도 빠르게 처리하면서 연산 비용은 증가시키지 않습니다. NVIDIA NIM을 활용하면 이들 모델을 바로 실행 가능한 마이크로서비스로 패키징할 수 있어, 다양한 환경에 쉽게 배포하고 확장할 수 있으며 총 소유 비용을 최소화할 수 있습니다.
이러한 레이어들은 — 동적 오케스트레이션, 최적화된 실행, 잘 설계된 모델, 간소화된 배포 — 클라우드 제공업체와 기업 모두에게 추론 기반 구축의 핵심을 이룹니다.
성능 기반의 투자 수익률
AI 도입이 확산됨에 따라, 조직들은 사용자 쿼리당 투자 수익률을 극대화하려는 요구가 커지고 있습니다.
이때 성능이 가장 중요한 ROI 결정 요소입니다. NVIDIA Hopper 아키텍처에서 Blackwell로의 전환을 통해 성능이 4배 향상되면, 동일한 전력 예산 내에서 최대 10배의 수익 증가가 가능합니다.
전력에 제약이 있는 데이터 센터와 AI 팩토리에서는 와트당 더 많은 토큰을 생성하는 것이 곧 랙당 수익 증가로 이어집니다. 지연 시간, 정확도, 사용자 부하 간의 균형을 유지하면서 토큰 처리량을 효율적으로 관리하는 것이 비용 절감의 핵심입니다.
업계 전반에서는 전체 스택 최적화를 통해 백만 토큰당 비용을 최대 80%까지 절감하는 등 빠른 비용 개선이 이루어지고 있습니다. 이러한 성과는 gpt-oss 및 NVIDIA 추론 생태계의 오픈소스 모델을 활용해 하이퍼스케일 데이터 센터는 물론, 로컬 AI PC 환경에서도 구현할 수 있습니다.
기술 생태계와 설치 기반
모델이 발전하면서 더 긴 컨텍스트 윈도우, 더 많은 토큰, 더 정교한 런타임 동작을 포함하게 되었고, 이에 따라 추론 성능도 함께 확장되고 있습니다.
이러한 흐름의 중심에는 개방형 모델이 있습니다. 오늘날 전체 AI 추론 워크로드의 70% 이상을 오픈 모델이 가속하고 있으며, 스타트업과 대기업 모두가 이를 기반으로 맞춤형 에이전트, 코파일럿, 애플리케이션을 다양한 산업에서 구축하고 있습니다.
오픈소스 커뮤니티는 생성형 AI 생태계에서 핵심적인 역할을 수행하며, 협업을 촉진하고, 혁신을 가속하며, 접근성을 민주화하고 있습니다. NVIDIA는 GitHub에 1,000개 이상의 오픈소스 프로젝트를 보유하고 있으며, Hugging Face에는 450개 이상의 모델과 80개 이상의 데이터셋을 제공하고 있습니다. 이는 JAX, PyTorch, vLLM, TensorRT-LLM 등 인기 프레임워크를 NVIDIA 추론 플랫폼에 통합하여 다양한 구성에서 최대의 추론 성능과 유연성을 보장하는 데 기여합니다.
이러한 이유로 NVIDIA는 llm-d 같은 오픈소스 프로젝트에 지속적으로 기여하고 있으며, Llama, Google Gemma, NVIDIA Nemotron, DeepSeek, gpt-oss 등과 같은 오픈 모델을 중심으로 업계 리더들과 협력하고 있습니다. 이를 통해 AI 애플리케이션을 아이디어 단계에서 제품화까지 그 어느 때보다 빠르게 전환할 수 있도록 지원합니다.
최적화된 추론을 위한 핵심 정리
NVIDIA 추론 플랫폼은 Think SMART 프레임워크와 결합되어, 최신 AI 워크로드를 효과적으로 배포할 수 있도록 지원하며, 빠르게 진화하는 모델의 요구를 기업 인프라가 충분히 따라갈 수 있도록 해줍니다. 이를 통해 생성되는 각 토큰이 최대의 가치를 창출할 수 있도록 보장합니다.
AI 팩토리에서 추론이 어떻게 수익 창출 잠재력을 높이는지에 대해 더 알아보세요.