빠르고 저렴한 추론 솔루션, AI 수익 창출의 핵심

NVIDIA 추론 플랫폼은 AI 추론 성능을 향상시켜 소매, 통신 등 다양한 분야에서 수백만 달러를 절감합니다.
by NVIDIA Korea

올해 들어 모든 산업 분야의 기업들이 AI 서비스를 속속 출시하고 있습니다. Microsoft, Oracle, Perplexity, Snap을 비롯한 수백 개의 선도 기업들이 세계 최고 수준의 반도체, 시스템, 소프트웨어로 구성된 NVIDIA AI 추론 플랫폼을 활용하고 있습니다. 이 플랫폼은 높은 처리량과 짧은 지연 시간을 제공해 비용을 절감하면서도 뛰어난 사용자 경험을 구현하는 데 핵심적인 역할을 합니다.

NVIDIA의 추론 소프트웨어 최적화 및 Hopper 플랫폼의 발전은 다양한 산업이 최신 생성형 AI 모델을 활용할 수 있도록 지원하며, 뛰어난 사용자 경험을 제공하는 동시에 총 소유 비용(TCO)을 최적화하는 데 도움을 줍니다. 또한, Hopper 플랫폼은 이전 세대와 비교하여 추론 작업의 에너지 효율성을 최대 15배 향상시키는 데 기여합니다.

AI 추론은 처리량과 사용자 경험 간의 최적 균형을 맞추기 위해 여러 단계를 거쳐야 하기 때문에 기술적으로 가장 까다로운 분야 중 하나로 꼽힙니다.

하지만 궁극적인 목표는 더 적은 비용으로 더 많은 토큰을 생성하는 것입니다. 토큰은 거대 언어 모델(LLM) 시스템에서 단어를 구성하는 기본 단위로, AI 추론 서비스는 일반적으로 생성된 토큰이 백만 개 단위로 비용이 청구됩니다. 따라서 이 목표를 달성하는 것은 작업당 소비 에너지를 줄이고, AI 투자에 대한 가시적인 수익을 극대화하는 핵심 요소가 됩니다.

풀스택 소프트웨어 최적화는 AI 추론 성능을 개선하고, 이러한 목표를 실현하는 열쇠가 됩니다.

비용 효율적인 사용자 처리량

기업들은 추론 워크로드의 성능과 비용 간 균형을 맞추는 데 어려움을 겪는 경우가 많습니다. 일부 고객이나 사용 사례는 기본 제공 또는 호스팅된 모델로 충분할 수 있지만, 특정 요구에 맞춰 커스터마이징이 필요한 경우도 있습니다. NVIDIA 기술은 모델 배포를 간소화하는 동시에 AI 추론 워크로드의 비용과 성능을 최적화합니다. 이를 통해 고객들은 배포하는 모델을 자유롭게 선택하면서 유연성과 맞춤화된 환경을 경험할 수 있습니다.

NVIDIA는 사용자의 필요에 맞춰 NVIDIA NIM 마이크로서비스, NVIDIA Triton 추론 서버 및 NVIDIA TensorRT 라이브러리 등 다양한 추론 솔루션을 제공합니다:

  • NVIDIA NIM 추론 마이크로서비스: 클라우드, 데이터센터, 엣지, 워크스테이션 등 모든 인프라에서 AI 파운데이션 모델을 빠르게 배포할 수 있도록 사전 패키징된 고성능 최적화 솔루션을 제공합니다.
  • NVIDIA Triton 추론 서버: 가장 인기 있는 오픈 소스 프로젝트 중 하나로, 학습된 AI 프레임워크에 관계없이 모든 모델을 패키징하고 배포할 수 있습니다.
  • NVIDIA TensorRT: 고성능 딥 러닝 추론 라이브러리로, 런타임 및 모델 최적화를 통해 프로덕션 애플리케이션에서 짧은 지연 시간과 높은 처리량을 제공합니다.

또한, NVIDIA AI 엔터프라이즈 소프트웨어 플랫폼은 모든 주요 클라우드 마켓플레이스에서 사용 가능하며, 위의 모든 솔루션을 포함하고 있습니다. 이를 통해 엔터프라이즈급 지원, 안정성, 관리 용이성, 보안까지 갖춘 완전한 AI 인프라 환경을 제공합니다.

NVIDIA AI 추론 플랫폼은 특정 프레임워크에 종속되지 않아 기업이 생산성 향상, 개발 간소화, 인프라 최적화, 설정 비용 절감을 실현할 수 있습니다. 또한, NVIDIA 기술을 활용하면 다운타임과 사기 거래를 방지하고, 전자상거래의 쇼핑 전환율을 높이며, AI 기반의 새로운 수익원을 창출해 비즈니스 수익을 극대화할 수 있습니다.

클라우드 기반 LLM 추론

LLM 배포를 쉽게 하기 위해 NVIDIA는 모든 주요 클라우드 서비스 제공업체와 협력하여 코드를 최소화하거나 아예 사용하지 않고도 NVIDIA 추론 플랫폼을 클라우드에서 원활하게 배포할 수 있도록 지원합니다. NVIDIA NIM은 다음과 같은 클라우드 네이티브 서비스와 통합됩니다:

  • NVIDIA NIM은 Amazon SageMaker AI, Amazon Bedrock Marketplace, Amazon Elastic Kubernetes 서비스
  • Google Cloud의 Vertex AI 및 Google Kubernetes 엔진
  • 곧 출시될 Microsoft Azure AI 파운드리 및 Azure Kubernetes 서비스
  • Oracle 클라우드 인프라의 데이터 과학 도구 및 Oracle 클라우드 인프라 Kubernetes 엔진과 통합됩니다.

또한, 맞춤형 추론 배포를 위해 NVIDIA Triton 추론 서버는 모든 주요 클라우드 서비스 제공업체와 긴밀히 통합되어 있습니다.

예를 들어, OCI 데이터 사이언스 플랫폼을 사용하면 모델 배포 중에 명령줄 인수에서 스위치를 켜는 것처럼 간단하게 NVIDIA Triton 추론 엔드포인트를 즉시 실행하여 NVIDIA Triton을 배포할 수 있습니다.

마찬가지로, Azure Machine Learning을 사용하면 Azure Machine Learning Studio에서 코드 없이 배포하거나 Azure Machine Learning CLI를 활용해 전체 코드 기반 배포를 통해 NVIDIA Triton을 배포할 수 있습니다. AWS는 SageMaker Marketplace에서 NVIDIA NIM을 위한 원클릭 배포를 제공하며, Google Cloud는 Google Kubernetes Engine(GKE)에서 원클릭 배포 옵션을 제공합니다. 또한, AWS는 AWS 딥 러닝 컨테이너에서 NVIDIA Triton을 제공합니다.

NVIDIA AI 추론 플랫폼은 널리 사용되는 통신 방식을 활용해 AI 예측을 제공하며, 클라우드 기반 인프라 내에서 사용자의 변화하는 요구 사항을 자동으로 조정하여 수용합니다.

LLM 가속화부터 크리에이티브 워크플로우 향상, 계약 관리 혁신에 이르기까지 NVIDIA의 AI 추론 플랫폼은 산업 전반에 걸쳐 실질적인 영향력을 발휘하고 있습니다.

매월 4억 건의 검색 쿼리를 처리하는 Perplexity AI

Perplexity AI는 매월 4억 3,500만 건 이상의 검색 쿼리를 처리하며, 각 쿼리는 여러 개의 AI 추론 요청을 포함합니다. 이러한 수요를 충족하기 위해 Perplexity AI 팀은 NVIDIA H100 GPU, Triton 추론 서버, TensorRT-LLM을 선택했습니다.

8B 및 70B와 같은 Llama 3 변형을 포함해 20개 이상의 AI 모델을 지원하는 Perplexity는 검색, 요약 및 질문 답변과 같은 다양한 작업을 처리합니다. 더 작은 분류기 모델을 사용하여 NVIDIA Triton이 관리하는 GPU 포드로 작업을 라우팅함으로써 엄격한 서비스 수준 계약에 따라 비용 효율적이고 응답성이 뛰어난 서비스를 제공합니다.

Perplexity는 LLM을 GPU에 분할하는 모델 병렬화를 통해 낮은 지연 시간과 높은 정확도를 유지하면서 3배의 비용 절감을 달성했습니다. 이 모범 사례 프레임워크는 IT 팀이 증가하는 AI 수요를 충족하고 총소유비용을 최적화하며 NVIDIA 가속 컴퓨팅으로 원활하게 확장할 수 있는 방법을 보여줍니다.

ReDrafter를 통한 응답 시간 단축

오픈 소스 연구의 발전은 AI 추론의 대중화를 돕고 있습니다. 최근 NVIDIA는 Apple에서 발표한 추측 디코딩에 대한 오픈 소스 접근 방식인 ReDrafter를 NVIDIA TensorRT-LLM에 통합했습니다.

ReDrafter는 더 작은 “초안” 모듈을 사용해 토큰을 병렬로 예측한 다음 메인 모델에서 검증합니다. 이 기술은 특히 트래픽이 적은 기간 동안 LLM의 응답 시간을 크게 줄입니다.

Docusign을 통한 계약 관리 혁신

디지털 계약 관리 분야의 선두주자인 Docusign은 인텔리전트 계약 관리 플랫폼을 강화하기 위해 NVIDIA를 선택했습니다. 전 세계 150만 명 이상의 고객을 보유한 Docusign은 처리량을 최적화하고 인프라 비용을 관리하는 동시에 AI 기반 인사이트를 제공해야 했습니다.

NVIDIA Triton은 모든 프레임워크에 통합된 추론 플랫폼을 제공하여 계약 데이터를 실행 가능한 인사이트로 변환함으로써 시장 출시 시간을 단축하고 생산성을 향상시켰습니다. Docusign의 NVIDIA 추론 플랫폼 도입은 확장 가능한 AI 인프라가 고객 경험과 운영 효율성에 미치는 긍정적인 영향을 보여줍니다.

Docusign의 수석 제품 관리자 Alex Zakhvatov는 “NVIDIA Triton은 우리의 삶을 더 쉽게 만들어줍니다.”라고 말합니다. “더 이상 AI 모델을 위해 프레임워크별 맞춤형 추론 서버를 배포할 필요가 없습니다. 우리는 모든 AI 프레임워크를 위한 통합 추론 서버로 Triton을 활용하고 있으며, 비용과 성능을 절감하는 엔지니어링 작업을 최적화하기 위해 올바른 프로덕션 시나리오를 식별하는 데도 사용합니다.”

Amdocs를 통한 통신업계의 고객 관리 강화

통신 및 미디어 제공업체를 위한 소프트웨어 및 서비스를 제공하는 선도적인 기업인 Amdocs는 통신사를 위한 개방적이고 안전하며 비용 효율적이고 LLM에 독립적인 프레임워크인 도메인별 생성형 AI 플랫폼인 amAIz를 구축했습니다. Amdocs는 상용 LLM과 도메인에 적합한 모델에 기반한 솔루션을 제공하기 위해 NVIDIA DGX 클라우드 및 NVIDIA AI 엔터프라이즈 소프트웨어를 사용하여 서비스 제공업체가 엔터프라이즈급 생성형 AI 애플리케이션을 구축 및 배포할 수 있도록 지원합니다.

Amdocs는 NVIDIA NIM을 사용하여 배포된 사용 사례에 사용되는 토큰 수를 데이터 전처리에서 최대 60%, 추론에서 40%까지 줄였으며, 다양한 요소와 사용량에 따라 토큰당 훨씬 낮은 비용으로 동일한 수준의 정확도를 제공했습니다. 또한 이번 협업으로 쿼리 지연 시간이 약 80% 단축되어 최종 사용자는 실시간에 가까운 응답을 경험할 수 있습니다. 이러한 가속화는 커머스, 고객 서비스, 운영 등 다양한 분야에서 사용자 경험을 향상시킵니다.

Snap의 AI를 통한 리테일 혁신

Snap의 Screenshop 기능 덕분에 원하는 의상을 찾는 것이 더욱 쉬워졌습니다. 스냅챗에 통합된 이 AI 기반 도구는 사용자가 사진 속 패션 아이템을 쉽게 검색할 수 있도록 도와줍니다. NVIDIA Triton은 TensorFlow와 PyTorch 등 다양한 프레임워크를 활용해 이미지를 처리하는 Screenshop의 파이프라인을 구현하는 데 핵심적인 역할을 했습니다.

Snap은 파이프라인을 단일 추론 서비스 플랫폼으로 통합하여 개발 시간과 비용을 절감하는 동시에 최신 모델을 원활하게 배포할 수 있었습니다. 이를 통해 AI 기반의 더욱 직관적이고 매끄러운 사용자 경험을 제공할 수 있게 되었습니다.

Snap의 머신 러닝 엔지니어 Ke Ma는 “Screenshop 파이프라인을 위해 TensorFlow는 TF 서빙, PyTorch는 TorchServe 등 개별적으로 맞춤형 추론 서빙 플랫폼을 배포하고 싶지 않았습니다.”라고 설명합니다. “Triton의 프레임워크에 구애받지 않는 설계와 TensorFlow, PyTorch, ONNX 등 여러 백엔드 지원은 매우 매력적이었습니다. 덕분에 단일 추론 서비스 플랫폼을 활용해 엔드투엔드 파이프라인을 구축할 수 있었고, 추론 서비스 비용과 프로덕션에서 모델을 업데이트하는 데 필요한 개발자의 시간을 줄일 수 있었습니다.”

NVIDIA Triton에서 Screenshop 서비스를 성공적으로 출시한 후, Ma와 그의 팀은 시스템 성능을 더욱 향상시키기 위해 NVIDIA TensorRT로 전환했습니다. 기본 NVIDIA TensorRT 설정을 적용한 결과, 컴파일 과정에서 처리량이 3배 이상 증가했고, Screenshop 팀은 이를 통해 66%의 비용 절감 효과를 얻을 수 있었습니다.

AI를 통한 재정적 자유를 누리도록 돕는 Wealthsimple

300억 캐나다 달러 이상의 자산을 관리하는 캐나다 투자 플랫폼 Wealthsimple은 NVIDIA AI 추론 플랫폼을 활용해 머신 러닝 접근 방식을 재정의했습니다. 인프라를 표준화해 모델 제공 시간을 수개월에서 15분 이내로 단축했으며, 이를 통해 다운타임을 없애고 머신 러닝을 서비스로 제공할 수 있는 역량을 강화했습니다.

Wealthsimple은 NVIDIA Triton을 도입하고 AWS에서 모델을 실행하여 99.999%의 가동 시간을 달성했으며, 이를 통해 연간 1억 4,500만 건 이상의 트랜잭션을 원활하게 예측할 수 있게 되었습니다. 이러한 변화는 강력한 AI 인프라가 금융 서비스를 어떻게 혁신할 수 있는지를 잘 보여줍니다.

“Wealthsimple의 머신 러닝 성공에 NVIDIA AI 추론 플랫폼이 핵심적인 역할을 했습니다. 모델 배포 방식을 혁신하고 다운타임을 줄였으며, 고객에게 더욱 뛰어난 서비스를 제공할 수 있도록 만들었습니다.”라고 Wealthsimple의 수석 소프트웨어 개발 매니저 Mandy Gu는 말합니다.

Let’s Enhance를 통한 크리에이티브 워크플로우 향상

AI 기반 이미지 생성은 크리에이티브 워크플로우를 혁신하며, 특히 전자상거래 및 마케팅 비주얼 제작에서 중요한 역할을 합니다. 그러나 확산 모델을 활용한 이미지 생성은 높은 계산 비용이 요구됩니다.

AI 스타트업 Let’s EnhanceStable Diffusion XL(SDXL) 모델을 프로덕션 환경에서 활용하며, 최적의 워크플로우를 구현하기 위해 NVIDIA AI 추론 플랫폼을 선택했습니다.

Let’s Enhance의 최신 제품인 AI 포토샷은 SDXL 모델을 활용해 일반적인 제품 사진을 전자상거래 웹사이트 및 마케팅 캠페인을 위한 고품질 비주얼 에셋으로 변환합니다.

NVIDIA Triton의 다양한 프레임워크 및 백엔드 지원, 동적 배치 기능 덕분에 Let’s Enhance는 엔지니어링 팀의 개입을 최소화하면서도 SDXL 모델을 기존 AI 파이프라인에 원활하게 통합할 수 있었습니다. 이를 통해 연구 및 개발에 더 많은 시간을 투자할 수 있게 되었습니다.

OCI와 함께 클라우드 기반 Vision AI 가속화

Oracle Cloud Infrastructure(OCI)는 예측 처리량을 최대 76% 향상하고 지연 시간을 51% 단축하기 위해 NVIDIA Triton을 통합하여 Vision AI 서비스를 강화했습니다.

Triton의 하드웨어 독립적인 기능을 활용해 OCI는 AI 서비스 포트폴리오를 확장하고 있으며, 글로벌 데이터센터 전반에서 강력하고 효율적인 AI 솔루션을 제공하고 있습니다.

“우리의 AI 플랫폼은 고객의 이익을 위해 Triton을 인식합니다.”라고 OCI의 데이터 과학 서비스 제품 관리 이사인 Tzvi Keisar는 말합니다.

Microsoft를 통한 실시간 컨텍스트 인텔리전스 및 검색 효율성 향상

Azure는 NVIDIA Blackwell 및 NVIDIA Hopper 시스템을 포함한 다양한 NVIDIA GPU 기반 및 최적화된 가상 머신을 제공하며, 광범위한 선택 옵션을 갖춘 클라우드 환경을 제공합니다.

이러한 협력을 바탕으로 NVIDIA GPU와 NVIDIA Triton은 Microsoft 365용 Copilot의 AI 추론을 가속화하는 데 활용되고 있습니다. Windows PC에서 전용 물리적 키보드 키를 통해 실행되는 Microsoft 365 Copilot은 LLM의 성능과 엔터프라이즈 데이터를 결합하여 실시간 컨텍스트 인텔리전스를 제공합니다. 이를 통해 사용자들의 창의성, 생산성, 기술 역량을 극대화할 수 있도록 지원합니다.

Microsoft Bing은 또한 지연 시간, 비용, 속도 등의 문제를 해결하기 위해 NVIDIA 추론 솔루션을 사용했습니다. Microsoft는 NVIDIA TensorRT-LLM 기술을 통합하여 최적화된 웹 결과를 제공하는 딥 검색 기능의 추론 성능을 크게 향상시켰습니다.

전 세계 사용자들이 사진을 쿼리로 활용해 콘텐츠를 검색할 수 있도록 지원하는 Microsoft Bing 비주얼 검색은 이미지와 텍스트를 공유된 고차원 공간에 매핑하는 Microsoft의 TuringMM 시각적 임베딩 모델을 기반으로 합니다. 이 모델은 웹상의 수십억 개 이미지에서 작동해야 하므로 성능이 매우 중요합니다.

Microsoft Bing은 CV-CUDA, nvImageCodec과 같은 NVIDIA 가속 라이브러리 및 NVIDIA TensorRT를 활용해 TuringMM 파이프라인을 최적화했습니다. 그 결과 5.13배의 속도 향상과 상당한 총소유비용(TCO) 절감을 달성했습니다.

하드웨어 혁신을 통한 AI 추론의 잠재력 극대화

AI 추론 워크로드의 효율성을 개선하려면 하드웨어와 소프트웨어 전반에 걸쳐 혁신적인 기술이 필요합니다.

NVIDIA GPU는 AI 모델을 위한 높은 효율성과 성능을 제공하는 동시에 업계에서 가장 에너지 효율적인 솔루션을 갖추고 있습니다. NVIDIA Blackwell 아키텍처의 가속 컴퓨팅은 지난 10년 동안 1조 개 매개변수 AI 모델 추론에서 토큰 생성당 에너지를 10만 배 절감하는 성과를 거두었습니다.

또한, NVIDIA NVLink-C2C를 활용해 Grace CPU와 Hopper GPU 아키텍처를 결합한 NVIDIA Grace Hopper 슈퍼칩은 다양한 산업에서 추론 성능을 획기적으로 향상시킵니다.

Meta Andromeda – ML을 통한 광고주 가치 실현

Meta Andromeda는 효율적이고 성능이 뛰어난 맞춤형 광고 검색을 위해 슈퍼칩을 사용하고 있습니다. 계산 복잡성과 병렬성을 높인 심층 신경망을 생성하여 Facebook과 Instagram에서 일부 세그먼트의 광고 품질을 8% 개선하고, 리콜률을 6% 향상시켰습니다.

최적화된 검색 모델과 짧은 지연 시간, 높은 처리량, 메모리-IO 인식 GPU 연산자를 갖춘 Andromeda는 이전 CPU 기반 구성 요소에 비해 100배 향상된 기능 추출 속도를 제공합니다. 검색 단계에 AI를 통합한 덕분에 Meta는 광고 검색 분야에서 업계를 선도하며 확장성 및 지연 시간과 같은 문제를 해결하여 더 나은 사용자 경험과 더 높은 광고 지출 수익을 제공할 수 있었습니다.

최첨단 AI 모델의 규모가 계속 커짐에 따라 각 토큰을 생성하는 데 필요한 연산량도 증가하고 있습니다. 최첨단 LLM을 실시간으로 실행하려면 기업에는 여러 개의 GPU가 함께 작동해야 합니다. NVIDIA Collective Communication Library(NCCL)와 같은 도구를 사용하면 멀티 GPU 시스템에서 최소한의 통신 시간으로 GPU 간에 대량의 데이터를 빠르게 교환할 수 있습니다.

미래의 AI 추론 혁신

AI 추론의 미래는 성능과 비용 모두에서 상당한 발전을 가져올 것입니다.

NVIDIA 소프트웨어, 새로운 기술 및 고급 하드웨어의 결합으로 데이터센터는 점점 더 복잡하고 다양한 워크로드를 처리할 수 있게 될 것입니다. AI 추론은 더 정확한 예측, 더 빠른 의사 결정, 더 나은 사용자 경험을 가능하게 함으로써 의료 및 금융과 같은 산업에서 계속 발전을 주도할 것입니다.

이러한 트렌드가 계속 진화함에 따라, 조직은 최신 추론 최적화를 통해 최신 상태를 유지하고 투자를 극대화하여 AI 시대에 경쟁력을 유지하는 것이 필수적입니다.

NVIDIA가 어떻게 획기적인 추론 성능 결과를 제공하는지 자세히 알아보고 최신 AI 추론 성능 업데이트에 대한 최신 정보를 받아보세요.