AI는 신약 개발 연구자부터 금융 시장의 변화를 분석하는 퀀트 애널리스트에 이르기까지, 모든 사람에게 가치를 창출하고 있습니다.
AI 시스템이 출력 결과를 구성하는 데이터 단위인 토큰을 빠르게 생성할수록, 그 영향력도 커집니다.
그래서 AI 팩토리는 중요합니다. 첫 번째 토큰을 생성하는 시간에서 첫 번째 가치를 실현하는 시간까지, 가장 효율적인 경로를 제공하기 때문입니다.
AI 팩토리는 현대 인프라의 경제학을 새롭게 정의하고 있습니다. 이들은 데이터를 대규모로 처리해 토큰, 예측값, 이미지, 단백질 등 다양한 형태의 가치 있는 결과로 바꿔 지능을 만들어냅니다.
AI 팩토리는 데이터 수집, 모델 학습, 대규모 추론이라는 AI 여정의 핵심 단계를 향상시키는 데 기여합니다. 이러한 팩토리는 AI 모델, 가속 컴퓨팅 인프라, 기업용 소프트웨어라는 세 가지 핵심 기술을 바탕으로, 토큰을 더 빠르고 정확하게 생성할 수 있도록 구축되고 있습니다.
전 세계 기업과 조직이 가장 가치 있는 디지털 자산인 데이터를 어떻게 수익으로 전환하고 있는지, AI 팩토리가 그 과정을 어떻게 돕는지 계속 읽어보세요.
추론 경제학에서 가치 창출로
AI 팩토리를 구축하기에 앞서, 추론의 경제학 — 즉 비용, 에너지 효율, 그리고 갈수록 높아지는 AI 수요 간의 균형 — 을 이해하는 것이 중요합니다.
처리량은 모델이 생성할 수 있는 토큰의 총량을 의미합니다. 지연 시간(Latency)은 일정 시간 안에 모델이 출력할 수 있는 토큰의 양을 뜻하며, 일반적으로 첫 번째 출력이 나타날 때까지 걸리는 시간(time to first token)과 이후 토큰이 얼마나 빠르게 생성되는지를 보여주는 토큰당 시간으로 측정됩니다. 굿풋(Goodput)은 비교적 새로운 지표로, 목표 지연 시간 내에 시스템이 실제로 얼마나 유용한 출력을 낼 수 있는지를 측정합니다.
사용자 경험은 모든 소프트웨어에서 핵심 요소이며, AI 팩토리도 마찬가지입니다. 높은 처리량은 더 똑똑한 AI를 의미하고, 낮은 지연 시간은 신속한 응답을 보장합니다. 이 두 요소가 적절히 균형을 이루면, AI 팩토리는 유용한 결과를 빠르게 전달해 몰입도 높은 사용자 경험을 제공할 수 있습니다.
예를 들어, AI 기반 고객 상담 서비스가 0.5초 만에 응답한다면, 같은 양의 토큰을 생성하더라도 5초 만에 응답하는 시스템보다 훨씬 더 유용하고 만족스러운 경험을 줄 수 있습니다.
기업은 이러한 성능을 기반으로 추론 결과에 경쟁력 있는 가격을 책정할 수 있으며, 토큰당 수익 기회를 높일 수 있습니다.
하지만 이러한 균형을 측정하고 시각화하는 일은 쉽지 않습니다. 이때 사용하는 개념이 바로 파레토 프론티어(Pareto frontier)입니다
AI 팩토리 생산량: 효율적인 토큰의 가치
아래 그림으로 표현된 파레토 프론티어는 서로 상충하는 목표 간의 균형 — 예를 들어 빠른 응답 속도와 동시에 더 많은 사용자 처리 — 을 어떻게 최적으로 맞출 수 있는지를 시각화하는 데 도움을 줍니다. 이는 대규모 AI를 운영할 때 특히 유용한 개념입니다.
세로축은 에너지 사용량 대비 처리 효율, 즉 초당 토큰 수(TPS, Tokens Per Second)를 나타냅니다. 이 수치가 높을수록 AI 팩토리가 동시에 처리할 수 있는 요청의 수가 많아집니다.
가로축은 한 명의 사용자에 대한 TPS를 의미하며, 이는 모델이 프롬프트에 대한 첫 번째 응답을 제공하는 데 걸리는 시간을 나타냅니다. 값이 높을수록 사용자 입장에서 빠른 응답을 기대할 수 있어 더 나은 사용자 경험으로 이어집니다. 챗봇이나 실시간 분석 도구처럼 상호작용이 중요한 애플리케이션에서는 지연 시간이 짧고 응답 속도가 빠를수록 좋습니다.
파레토 프론티어 곡선의 최고점은 주어진 운영 조건에서 얻을 수 있는 최상의 출력을 의미합니다. 목표는 다양한 AI 워크로드와 애플리케이션에 대해 처리량과 사용자 경험 간의 최적 균형을 찾는 것입니다.
우수한 AI 팩토리는 가속 컴퓨팅을 활용해 와트당 토큰 수를 높임으로써 AI 성능을 극대화하고, 동시에 에너지 효율까지 극적으로 개선합니다. 이로 인해 AI 팩토리 전체와 다양한 응용 분야에서 효율적인 운영이 가능해집니다.
위 애니메이션은 사용자당 초당 32토큰 속도로 설정된 NVIDIA H100 GPU와, 사용자당 초당 344토큰으로 작동하는 NVIDIA B300 GPU의 사용자 경험을 비교한 것입니다. 같은 사용자 경험 기준에서 Blackwell Ultra는 10배 이상의 뛰어난 응답 성능과 거의 5배 높은 처리량을 제공하며, 최대 50배의 수익 잠재력을 가능하게 합니다.
AI 팩토리는 실제로 어떻게 작동할까
AI 팩토리는 데이터를 지능으로 바꾸는 다양한 구성 요소가 결합된 시스템입니다. 반드시 고성능의 온프레미스 데이터센터일 필요는 없으며, 가속 컴퓨팅 인프라 위에서 구동되는 AI 전용 클라우드나 하이브리드 모델일 수도 있습니다. 또는 네트워크 최적화와 엣지 추론을 동시에 수행할 수 있는 통신 인프라일 수도 있습니다.
데이터를 AI를 통해 지능으로 바꾸는 소프트웨어가 결합된 전용 가속 컴퓨팅 인프라가 있다면, 그것이 곧 AI 팩토리입니다.
AI 팩토리를 구성하는 핵심 요소로는 가속 컴퓨팅, 네트워킹, 소프트웨어, 스토리지, 시스템, 그리고 다양한 도구와 서비스가 포함됩니다.
사용자가 AI 시스템에 프롬프트를 입력하면, AI 팩토리의 전체 스택이 작동을 시작합니다. 팩토리는 프롬프트를 토크나이즈하여, 데이터를 이미지 조각, 소리, 단어 등의 작은 의미 단위로 변환합니다.
각 토큰은 GPU 기반의 AI 모델을 통해 처리되며, 이 모델은 복잡한 연산을 수행해 최적의 응답을 생성합니다. 각 GPU는 고속 네트워크 및 인터커넥트를 통해 병렬 연산을 수행하며, 동시에 다량의 데이터를 처리합니다.
이러한 과정은 전 세계 사용자들의 다양한 프롬프트에 대해 실시간으로 반복되며, 산업 규모의 지능을 실시간으로 생성해내는 것이 바로 AI 팩토리입니다.
AI 팩토리는 AI의 전체 라이프사이클을 통합하기 때문에, 시스템은 지속적으로 개선됩니다. 추론 과정이 자동으로 기록되고, 엣지 케이스는 재학습 대상으로 표시되며, 최적화 루프는 시간이 지날수록 정교해집니다. 이 모든 과정이 수작업 없이 이뤄지며, 이는 굿풋(goodput)이 실제로 작동하는 좋은 예입니다.
글로벌 보안 기술 선도 기업 록히드 마틴은 자사 전반에 걸친 다양한 활용 사례를 지원하기 위해 자체 AI 팩토리를 구축했습니다. 록히드 마틴 AI 센터는 생성형 AI 워크로드를 NVIDIA DGX SuperPOD에 통합하여 AI 모델 학습과 커스터마이징을 수행하고, 전문 인프라의 모든 성능을 활용하면서 클라우드 환경에서 발생하는 운영 비용도 줄였습니다.
“온프레미스 AI 팩토리를 통해 토크나이즈, 모델 학습, 배포까지 모두 자체적으로 처리하고 있습니다.”– 록히드 마틴 AI 파운데이션 디렉터 Greg Forrest. “DGX SuperPOD 덕분에 우리는 주당 10억 개 이상의 토큰을 처리할 수 있고, 이를 통해 파인튜닝, 검색 기반 생성(RAG), 추론 등을 LLM에 적용하고 있습니다. 이 솔루션은 토큰 사용량 기반의 비용 모델이 가지는 한계와 비용 증가 문제를 효과적으로 피할 수 있게 해줍니다.”
AI 팩토리를 위한 NVIDIA 풀스택 기술
AI 팩토리는 개별적인 실험에 머물던 AI를 확장 가능하고 반복 가능한, 신뢰도 높은 혁신 엔진으로 바꿔줍니다.
NVIDIA는 AI 팩토리를 구축하는 데 필요한 모든 구성 요소를 제공합니다. 여기에는 가속 컴퓨팅, 고성능 GPU, 고대역폭 네트워킹, 최적화된 소프트웨어가 포함됩니다.
예를 들어, NVIDIA Blackwell GPU는 네트워킹으로 연결되어 액체 냉각을 통해 에너지 효율을 높이고, AI 소프트웨어로 통합 관리될 수 있습니다.
NVIDIA의 오픈소스 추론 플랫폼인 NVIDIA Dynamo는 AI 팩토리를 위한 운영체제 역할을 합니다. 이 플랫폼은 AI의 효율성과 확장성을 극대화하고 비용은 최소화할 수 있도록 설계되었습니다.
Dynamo는 추론 요청을 지능적으로 라우팅하고, 스케줄링 및 최적화를 수행하여 GPU의 연산 자원을 완전히 활용하며, 최대 성능으로 토큰을 생성하도록 돕습니다.
NVIDIA Blackwell GB200 NVL72 시스템과 NVIDIA InfiniBand 네트워킹은 와트당 토큰 처리량을 극대화하도록 설계되어, 총 처리량과 지연 시간 측면 모두에서 AI 팩토리를 매우 효율적으로 만들어줍니다.
최적화된 풀스택 솔루션을 검증하고 구축함으로써, 기업은 최신 AI 시스템을 효율적으로 운영할 수 있습니다. 풀스택 기반의 AI 팩토리는 기업이 AI의 잠재력을 빠르게 실현하고, 더 높은 신뢰를 바탕으로 운영 성과를 달성할 수 있도록 지원합니다.