추론의 경제학이 AI 가치를 어떻게 극대화시키고 있는가

프로덕션에서 AI의 비용을 이해하면 사용자가 고품질의 성능과 수익성을 달성하는 데 도움이 될 수 있습니다.
by NVIDIA Korea

AI 모델이 고도화됨과 동시에 비즈니스로의 도입 또한 확대됨에 따라, 기업들은 AI 모델을 통한 최대 가치를 실현하기 위해 섬세한 균형을 이뤄야 하는 또 다른 과제에 맞닥뜨리고 있습니다.

바로 추론(Inference), 즉 데이터를 모델에 입력해 결과를 얻는 과정이 모델을 학습시키는 것과는 다른 연산 과제를 제공하기 때문입니다.

모델을 사전학습(pretraining)한다는 것은 데이터를 수집해 토큰으로 분해하고 패턴을 찾는 과정으로, 본질적으로 한 번만 발생하는 비용입니다. 하지만 추론에서는 모델에 입력되는 모든 프롬프트가 토큰을 생성하며, 각각의 토큰마다 비용이 발생하게 됩니다.

즉, AI 모델의 성능과 사용량이 증가할수록 생성되는 토큰의 양과 이에 따른 연산 비용도 함께 증가하게 되는데요, AI 역량을 구축하려는 기업에게 핵심은 가능한 한 많은 토큰을 최대한 빠르고 정확하며 높은 서비스 품질로 생성하면서도, 동시에 컴퓨팅 비용이 급증하지 않도록 하는 것입니다.

이러한 이유로 글로벌 AI 생태계는 추론 비용을 더 저렴하고 효율적으로 만들기 위해 노력해왔습니다. 지난 1년간 모델 최적화의 비약적인 발전 덕분에 추론 비용은 하락세를 보여왔으며, 점점 더 발전된 에너지 효율적 가속 컴퓨팅 인프라와 풀스택 솔루션이 등장하고 있습니다.

스탠포드 대학교 인간 중심 AI 연구소(Stanford University Institute for Human-Centered AI)의 2025 AI 인덱스 보고서에 따르면, GPT-3.5 수준의 성능을 내는 시스템의 추론 비용은 2022년 11월부터 2024년 10월까지 280배 이상 감소했습니다. 하드웨어 측면에서 비용은 연간 30%씩 하락했고, 에너지 효율성은 매년 40%씩 향상되었습니다. 오픈 웨이트(open-weight) 모델도 폐쇄형 모델과의 성능 격차를 1년 만에 8%에서 1.7%로 줄이며 빠르게 따라잡고 있습니다. 이러한 추세는 최첨단 AI의 진입 장벽을 빠르게 낮추고 있습니다.

모델이 발전하고 수요가 증가해 더 많은 토큰을 생성할수록, 기업들은 차세대 AI 추론 도구를 제공하기 위해 가속 컴퓨팅 자원을 확장해야 하며, 그렇지 않으면 비용과 에너지 소비가 증가할 위험이 있습니다.

이번 글에서는 추론 경제학의 개념을 이해하기 위한 입문 가이드를 소개하려고 합니다. 이를 통해 기업들은 효율적이고 비용 효과적이며 수익성 있는 AI 솔루션을 대규모로 구현할 수 있는 기반을 마련할 수 있습니다.

AI 추론의 경제학에 관한 주요 용어

아래와 같은 추론의 경제학에 대한 주요 용어들의 의미를 알고 나면 추론의 중요성을 이해하는 데 큰 도움이 됩니다.

토큰은 AI 모델에서 데이터를 이루는 기본 단위입니다. 텍스트, 이미지, 오디오 클립, 비디오 등의 데이터는 학습 과정에서 토큰화(tokenization)라는 프로세스를 통해 더 작은 구성 단위로 분해됩니다. 모델은 학습 중에 토큰 간의 관계를 이해함으로써 추론을 수행하고 정확하며 관련성 높은 출력을 생성할 수 있습니다.

**처리량(Throughput)**은 모델이 특정 시간 내에 출력할 수 있는 데이터량(일반적으로 토큰 단위)을 의미하는데요, 모델을 실행하는 인프라의 성능에 따라 결정됩니다. 초당 생성되는 토큰 수로 측정되며, 처리량이 높을수록 인프라 투자 대비 수익이 증가합니다.

**대기 시간(Latency)**은 사용자가 프롬프트를 입력한 시점부터 모델이 응답을 시작하기까지 걸리는 시간입니다. 주요 측정 지표는 두 가지입니다:

  • 첫 번째 토큰까지의 시간(Time to First Token, TTFT): 사용자 프롬프트 후 모델이 첫 출력 토큰을 생성하는 데 필요한 초기 처리 시간.

  • 출력 토큰당 시간(Time per Output Token, TPOT): 연속된 토큰 간의 평균 시간(동시에 모델을 쿼리하는 각 사용자당 완성 토큰 생성 시간). “토큰 간 대기 시간”으로도 불립니다.

이 두 지표는 유용한 벤치마크이지만 수많은 성능 평가 요소 중 일부에 불과합니다. 이를 독립적으로 최적화하면 전체적인 성능 저하나 비용 증가를 초래할 수 있죠. 이를 보완하기 위해 IT 리더들은 **굿풋(goodput)**이라는 개념을 도입했습니다. 이는 목표 TTFT와 TPOT 수준을 유지하면서 시스템이 달성하는 처리량을 의미하며, 처리량·대기 시간·비용을 종합적으로 평가해 사용자 경험과 운영 효율성을 동시에 확보하기 위함입니다.

에너지 효율성은 AI 시스템이 전력을 계산 출력으로 변환하는 효율성을 와트당 성능(performance per watt)으로 나타낸 것입니다. 가속 컴퓨팅 플랫폼을 활용하면 와트당 토큰 수를 극대화하면서 에너지 소비를 최소화할 수 있습니다.

스케일링 법칙이 추론 비용에 적용되는 방식

아래 세 가지 AI 스케일링 법칙은 추론의 경제학을 이해하는 데에 핵심적인 역할을 합니다:

  • 사전 학습 스케일링(Pretraining Scaling): 모델의 지능과 정확도를 예측 가능하게 향상시키기 위해 훈련 데이터 세트 크기, 모델 파라미터 수, 컴퓨팅 자원을 확장하는 초기 스케일링 법칙입니다. 이는 모델의 기본 성능을 결정하는 핵심 요소로 작용됩니다.
  • 사후 학습(Post-Training): 이미 훈련된 모델을 특정 애플리케이션 개발에 맞게 정확도와 특수성을 높이는 파인 튜닝 과정입니다. 예를 들어 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술을 통해 기업 데이터베이스에서 관련성 높은 답변을 추출할 수 있습니다.
  • 테스트 타임 스케일링(Test-Time Scaling, “긴 사고” 또는 “추론”): 추론 단계에서 추가 컴퓨팅 자원을 할당해 여러 가능한 결과를 평가한 후 최적의 답변을 도출하는 기술입니다. 복잡한 문제 해결 시 단일 추론 대비 100배 이상의 연산이 필요할 수 있지만, 정확도를 크게 향상시킵니다.

AI 기술이 진화하면서 사후 학습과 테스트 타임 스케일링 기법이 정교해지고 있지만, 사전 학습은 여전히 중요한 역할을 수행합니다. 사전 학습은 다른 두 기법의 기반이 되며, 향상된 모델 성능을 지원하기 위해 꾸준히 필요합니다.

수익성 있는 AI를 위한 풀스택 접근 방식

사전 학습과 사후 학습만 거친 모델의 추론과 비교할 때, 테스트 타임 스케일링을 활용하는 모델은 복잡한 문제를 해결하기 위해 여러 토큰을 생성하게 됩니다. 이는 더 정확하고 관련성 높은 모델 출력을 만들어내지만, 동시에 훨씬 더 많은 연산 비용을 낳게 되죠.

더 스마트한 AI는 문제 해결을 위해 더 많은 토큰을 생성한다는 의미입니다. 그리고 양질의 사용자 경험은 가능한 한 빠르게 해당 토큰을 생성하는 것을 의미합니다. AI 모델이 더 스마트하고 빠를수록 기업과 고객에게 더 큰 유틸리티를 제공할 수 있습니다.

기업들은 비용 급증 없이 복잡한 문제 해결, 코딩 및 다단계 계획 수립을 지원할 수 있는 차세대 AI 추론 도구를 제공하기 위해 가속 컴퓨팅 자원을 확장해야 합니다.

이를 위해서는 최첨단 하드웨어와 완전히 최적화된 소프트웨어 스택이 모두 필요한데요, NVIDIA의 AI 팩토리 제품 로드맵은 이같은 추론의 복잡성을 해결하고 더 높은 효율성을 달성함과 동시에 많은 연산 수요를 충족하도록 설계되었습니다.

AI 팩토리는 대규모로 지능을 생산하기 위해 고성능 AI 인프라, 고속 네트워킹 및 최적화된 소프트웨어를 통합합니다. 이러한 구성 요소는 유연하고 프로그래밍 가능하도록 설계되어 기업들이 모델 또는 추론 요구 사항에 가장 중요한 영역에 우선순위를 두고 집중할 수 있게 도와줍니다.

대규모 AI 추론 모델을 배포할 때 운영을 더욱 간소화하기 위해, AI 팩토리는 고성능·저지연의 추론 관리 시스템에서 실행되는데요, 이 시스템은 AI 추론에 필요한 속도와 처리량을 최소 비용으로 충족시켜 토큰 수익 창출을 극대화시켜 줍니다.

보다 자세한 내용은 “AI 추론: 비용, 대기 시간 및 성능의 균형” 전자책을 읽어보며 알아보세요.