“NVIDIA가 산업 혁신을 주도하는 세 가지 방식

GPU로 구동되는 NVIDIA의 가속 컴퓨팅 플랫폼은 이제 발명의 엔진으로서 CPU를 대신하고 있습니다. 또한, 이 플랫폼은 세 가지 스케일링 법칙을 실현하며, 앞으로 다가올 AI 발전의 새로운 단계까지 이끌고 있습니다.
by NVIDIA Korea

GPU로 구동되는 NVIDIA 가속 컴퓨팅 플랫폼은 이제 발명의 엔진으로서 CPU를 대신하고 있으며, 세 가지 스케일링 법칙은 물론 앞으로 다가올 AI의 발전까지 뒷받침하고 있습니다. NVIDIA 가속 컴퓨팅 플랫폼은 한때 CPU가 지배하던 슈퍼컴퓨팅 벤치마크를 이제 선도하고 있으며, 전 세계의 AI, 과학, 비즈니스 전반에 걸쳐 컴퓨팅 효율을 높이고 있습니다.

무어의 법칙은 이미 한계에 도달했으며, 앞으로는 병렬 처리가 나아가야 할 길입니다. 이러한 변화에 따라, NVIDIA GPU 플랫폼은 이제 차세대 추천 시스템과 대규모 언어 모델(LLM)은 물론 AI 에이전트 등 그 이상의 모든 분야에서, 사전 학습(pretraining), 후속 학습(post-training), 추론(test-time compute)에 이르는 세 가지 스케일링 법칙을 구현할 수 있는 독보적인 위치에 서게 되었습니다.

CPU에서 GPU로의 전환: 컴퓨팅 역사상 중대한 변화

SC25에서 NVIDIA의 창립자이자 CEO인 Jensen Huang은 이러한 변화하는 판도를 강조했습니다. 세계 최고 성능 슈퍼컴퓨터 목록인 TOP500 중 상위 100대 시스템인 TOP100을 살펴보면, 85%가 넘는 시스템이 GPU를 사용하고 있죠.  이러한 전환은 CPU 기반의 직렬 처리 패러다임에서, 대규모 병렬 가속 아키텍처로의 역사적인 변화를 의미합니다.

2012년 이전까지 머신러닝은 프로그래밍된 논리에 기반을 두고 있었습니다. 당시에는 통계 모델이 사용되었으며, 이는 일련의 하드코딩된 규칙 집합을 CPU에서 효율적으로 실행하였습니다. 그러나 이러한 방식은 AlexNet이 게이밍 GPU 위에서 구동되면서 완전히 바뀌게 되었습니다. AlexNet은 이미지 분류를 규칙이 아닌 ‘예시를 통해 학습할 수 있다’는 사실을 입증하였고, 이는 인공지능의 미래에 막대한 영향을 미치는 계기가 되었습니다. 그 결과 GPU 상에서 방대한 데이터를 병렬로 처리할 수 있게 되면서, 컴퓨팅의 새로운 물결이 시작되었습니다.

이 변화는 단순히 하드웨어의 전환만을 의미하지 않습니다. 이는 새로운 과학적 발견을 가능하게 하는 플랫폼의 진화를 뜻합니다. GPU는 와트당 훨씬 더 많은 연산을 처리할 수 있어, 과도한 에너지 소모 없이도 엑사스케일(Exascale) 컴퓨팅을 현실화하고 있습니다.

최근 발표된 세계에서 가장 에너지 효율적인 슈퍼컴퓨터 순위인 Green500 결과는 GPU와 CPU 간의 차이를 명확히 보여주고 있습니다. 산업 표준 벤치마크인 이 순위에서 상위 다섯 시스템은 모두 NVIDIA GPU 기반이었으며, 평균적으로 와트당 70.1 기가플롭스(GFLOPS)를 달성하였습니다. 반면, CPU 전용 시스템의 평균은 와트당 15.5 플롭스(FLOPS)에 불과했습니다. 이처럼 GPU가 CPU보다 약 4.5배 높은 에너지 효율을 보임으로써, 시스템을 GPU로 이전할 경우 총소유비용(TCO)을 크게 절감할 수 있다는 점이 입증되었습니다.

또한 CPU와 GPU 간의 에너지 효율성과 성능 격차는 Graph500 결과에서도 뚜렷하게 확인되었습니다. NVIDIA는 초당 410조 개의 엣지를 처리하는 신기록을 세우며 Graph500 너비 우선 탐색(BFS) 부문 1위를 차지하였습니다. 이번 성과는 이전 최고 기록의 두 배 이상을 넘는 결과였으며, 총 2.2조 개의 정점과 35조 개의 엣지로 구성된 그래프를 처리하기 위해 8,192개의 NVIDIA H100 GPU가 사용되었습니다. 비교를 위해, 동일한 작업 부하를 처리하기 위해 다음 순위 시스템은 약 15만 개의 CPU를 필요로 했습니다. 이처럼 하드웨어 규모를 대폭 줄임으로써 시간, 비용, 에너지를 모두 절약할 수 있게 되었습니다.

더 나아가, NVIDIA는 SC25에서 자사의 AI 슈퍼컴퓨팅 플랫폼이 단순한 GPU 집합이 아님을 보여주었습니다. 네트워킹, CUDA 라이브러리, 메모리, 스토리지, 오케스트레이션(Orchestration)이 모두 공동 설계되어, 완전한 형태의 풀스택(Full-stack) 플랫폼을 구현하고 있음을 강조하였습니다.

NVIDIA는 CUDA에 의해 구동되는 풀스택(Full-stack) 플랫폼을 제공합니다. CUDA-X 생태계에 포함된 오픈소스 라이브러리와 프레임워크가 바로 큰 속도 향상이 일어나는 곳이죠. 최근 Snowflake는 NVIDIA A10 GPU를 통합하여 데이터 사이언스 워크플로우를 대폭 강화한다고 발표했습니다. 이제 Snowflake ML에는 NVIDIA의 cuML과 cuDF 라이브러리가 기본적으로 설치되어, GPU를 통해 인기 있는 머신러닝 알고리즘을 가속할 수 있도록 지원하고 있습니다.

이러한 네이티브 통합을 통해 Snowflake 사용자들은 별도의 코드 수정 없이도 손쉽게 모델 개발 주기를 단축할 수 있게 되었습니다. NVIDIA의 벤치마크 결과에 따르면, NVIDIA A10 GPU는 Random Forest 실행 시간을 CPU 대비 5배 단축하고, HDBSCAN의 경우 최대 200배 빠른 성능을 보여주었습니다.

이러한 전환은 하나의 결정적인 전환점이었으며, 스케일링 법칙은 앞으로의 발전 방향을 제시하고 있습니다. 그리고 그 모든 단계에서 GPU는 인공지능을 다음 장으로 이끄는 핵심 엔진으로 작동하고 있습니다.

특히 CUDA-X와 다양한 오픈소스 소프트웨어 라이브러리 및 프레임워크는 이 같은 ‘마법’이 일어나는 중심입니다. CUDA-X 라이브러리는 산업과 응용 분야를 가리지 않고, 공학, 금융, 데이터 분석, 유전체학, 생명과학, 화학, 통신, 로보틱스 등 거의 모든 영역에서 워크로드를 가속화하고 있습니다.

NVIDIA 젠슨 황 CEO는 최근 실적 발표 콜에서 이렇게 말했습니다. “전 세계는 비(非)AI 소프트웨어에 막대한 투자를 해왔습니다. 데이터 처리부터 과학 및 공학 시뮬레이션에 이르기까지 매년 수천억 달러가 클라우드 컴퓨팅 비용으로 지출되고 있습니다.”

이처럼 과거에는 CPU에서만 실행되던 많은 응용 프로그램들이 이제 빠르게 CUDA GPU로 전환되고 있습니다. 젠슨 황 CEO는 여기에 덧붙여 말했습니다. “가속 컴퓨팅은 이미 임계점을 넘어섰습니다. AI 또한 마찬가지입니다. 기존의 애플리케이션을 변화시키는 동시에 완전히 새로운 애플리케이션의 등장을 가능하게 하고 있습니다.”

에너지 효율성을 높이기 위한 과제로 시작된 변화가 이제는 시뮬레이션과 인공지능이 대규모로 융합된 과학 플랫폼으로 발전하였습니다. TOP100 슈퍼컴퓨터 목록에서 NVIDIA GPU가 보여주는 독보적인 리더십은 이러한 발전 궤적의 명확한 증거이며, 동시에 앞으로 전개될 전 분야의 혁신을 예고하는 신호입니다.

그 결과, 연구자들은 이제 1조 개 이상의 파라미터를 가진 모델을 학습하고, 핵융합로를 시뮬레이션하며, 신약 발견을 가속화하는 등 CPU만으로는 결코 도달할 수 없던 규모의 연구를 수행할 수 있게 되었습니다.

AI의 미래를 이끄는 세 가지 스케일링 법칙

CPU에서 GPU로의 변화는 단순한 슈퍼컴퓨팅의 이정표가 아닙니다. 이는 AI의 다음 워크플로우, 즉 사전 훈련(pretraining), 사후 훈련(post-training), 그리고 테스트 시간(test-time) 스케일링을 위한 로드맵을 나타내는 세 가지 스케일링 법칙의 기반입니다.

사전 훈련(Pre-training) 스케일링은 업계를 지원한 첫 번째 법칙이었습니다. 연구원들은 데이터셋, 파라미터 수, 그리고 컴퓨팅 자원이 증가함에 따라 모델 성능이 예측 가능하게 향상된다는 것을 발견했습니다. 데이터나 파라미터를 두 배로 늘리는 것은 정확도와 다재다능함의 비약적인 발전을 의미했습니다.

최신 MLPerf Training 산업 벤치마크에서 NVIDIA 플랫폼은 모든 테스트에서 최고의 성능을 제공했으며, 모든 테스트에 제출한 유일한 플랫폼이었습니다. GPU가 없었다면, AI 연구의 “클수록 좋다”는 시대는 전력 예산과 시간 제약의 무게로 인해 정체되었을 것입니다.

사후 훈련(Post-training) 스케일링이 그 이야기를 이어갑니다. 일단 기반 모델(foundation model)이 구축되면, 산업, 언어 또는 안전 제약 조건에 맞게 모델을 개선하고 조정해야 합니다. 인간 피드백 기반 강화 학습(reinforcement learning from human feedback), 프루닝(pruning), 증류(distillation)와 같은 기술은 막대한 추가 컴퓨팅 자원을 필요로 합니다. 어떤 경우에는 그 수요가 사전 훈련 자체와 맞먹을 정도입니다. 이는 기초 교육을 마친 학생이 계속 발전하는 것과 같습니다. GPU는 다시 한번 동력을 제공하여, 모든 영역에 걸쳐 지속적인 미세 조정과 적응을 가능하게 합니다.

가장 새로운 법칙인 테스트 시간(Test-time) 스케일링은 가장 혁신적이라는 것이 입증될 수 있습니다. MoE(Mixture-of-Experts) 아키텍처로 구동되는 최신 모델들은 실시간으로 추론하고, 계획하며, 여러 솔루션을 평가할 수 있습니다. 사고의 사슬(Chain-of-thought) 추론, 생성형 검색(generative search), 그리고 에이전트형 AI(agentic AI)는 동적이고 재귀적인 컴퓨팅을 요구하며, 이는 종종 사전 훈련 요구 사항을 능가합니다. 이 단계는 데이터 센터에서 엣지 디바이스에 이르기까지 추론 인프라에 대한 기하급수적인 수요를 촉진할 것입니다.

이 세 가지 법칙은 새로운 AI 워크로드에 대한 GPU 수요를 함께 설명합니다. 사전 훈련 스케일링은 GPU를 필수불가결하게 만들었습니다. 사후 훈련 스케일링은 개선 작업에서 GPU의 역할을 강화했습니다. 테스트 시간 스케일링은 훈련이 끝난 후에도 GPU가 계속해서 중요하도록 보장하고 있습니다. 이것이 가속 컴퓨팅의 다음 장입니다. 즉, GPU가 학습부터 추론, 배포에 이르기까지 AI의 모든 단계를 지원하는 라이프사이클입니다.

생성형 AI, 에이전트형 AI, 물리적 AI 그리고 그 너머

AI의 세계는 기본적인 추천 시스템, 챗봇, 텍스트 생성을 훨씬 뛰어넘어 확장되고 있습니다. VLM(Vision Language Models), 즉 비전 언어 모델은 컴퓨터 비전과 자연어 처리를 결합하여 이미지와 텍스트를 이해하고 해석하는 AI 시스템입니다. 그리고 개인 맞춤형 쇼핑, 스트리밍, 소셜 피드의 동력인 추천 시스템은 CPU에서 GPU로의 대규모 전환이 AI를 어떻게 재편하고 있는지 보여주는 많은 예시 중 하나일 뿐입니다.

한편, 생성형 AI는 로봇 공학 및 자율 주행 차량부터 서비스형 소프트웨어(SaaS) 기업에 이르기까지 모든 것을 변화시키고 있으며, 스타트업에 대한 막대한 투자를 나타냅니다.

NVIDIA 플랫폼은 모든 주요 생성형 AI 모델에서 실행되고 140만 개의 오픈 소스 모델을 처리할 수 있는 유일한 플랫폼입니다.

한때 CPU 아키텍처에 의해 제약받았던 추천 시스템은 대규모 사용자 행동의 복잡성을 포착하는 데 어려움을 겪었습니다. 그러나 CUDA GPU를 통해 사전 훈련 스케일링이 가능해지면서, 모델들은 클릭, 구매, 선호도에 대한 방대한 데이터셋으로부터 학습하여 더욱 풍부한 패턴을 발견할 수 있게 되었습니다. 사후 훈련 스케일링은 이러한 모델들을 특정 영역에 맞게 미세 조정하여 소매업에서 엔터테인먼트에 이르는 산업 전반의 개인화를 더욱 날카롭게 만듭니다. 세계적인 주요 온라인 사이트에서 추천 관련 정확도가 단 1%만 증가해도 수십억 달러 이상의 매출 증가를 가져올 수 있습니다.

Emarketer에 따르면, 2025년 전 세계 전자상거래 매출은 6조 4천억 달러에 달할 것으로 예상됩니다.

조(Trillion) 달러 규모의 산업인 전 세계 하이퍼스케일러(Hyperscaler)들은 검색, 추천, 콘텐츠 이해를 기존 머신러닝에서 생성형 AI로 전환하고 있습니다. NVIDIA CUDA는 이 두 영역 모두에서 탁월하며, 수천억 달러 규모의 인프라 투자를 주도하는 이러한 전환을 위한 이상적인 플랫폼입니다.

이제, 테스트 시간 스케일링이 추론 자체를 혁신하고 있습니다. 추천 엔진은 실시간으로 여러 옵션을 평가하며 동적으로 추론하여 상황 인식적인 제안을 제공할 수 있습니다. 그 결과는 정확도와 관련성의 비약적인 발전으로 이어졌습니다 즉, 정적인 목록보다는 지능적인 안내와 같이 느껴지는 추천이죠. GPU와 스케일링 법칙은 추천을 단순한 배경 기능이 아닌, 에이전트형 AI의 최전선 역량으로 바꾸고 있으며, 수십억 명의 사람들이 인터넷상의 수많은 정보를 불가능했을 방식으로 손쉽게 분류할 수 있도록 하고 있습니다.

LLM(대규모 언어 모델)에 의해 구동되는 대화형 인터페이스로 시작된 것이 이제는 전 세계 경제의 거의 모든 부문을 재편할 태세를 갖춘 지능적이고 자율적인 시스템으로 진화하고 있습니다.

현재 인류는 AI가 가상 기술에서 물리적 세계로 진입하는 근본적인 변화를 경험하고 있습니다. 이러한 변화는 컴퓨팅 인프라의 폭발적인 성장과 인간 및 기계 간의 새로운 형태의 협력을 요구합니다.

생성형 AI는 새로운 텍스트와 이미지뿐만 아니라 코드, 디자인, 심지어 과학적 가설까지 생성할 수 있음을 입증했습니다. 이제, 인지하고, 추론하고, 계획하고, 자율적으로 행동하는 시스템인 에이전트형 AI가 도래하고 있습니다. 이 에이전트들은 도구보다는 디지털 동료처럼 행동하며, 산업 전반에 걸쳐 복잡하고 다단계적인 작업을 수행합니다. 법률 연구에서 물류에 이르기까지, 에이전트형 AI는 자율적인 디지털 작업자로서 생산성을 가속화할 것을 약속합니다.

아마도 가장 혁신적인 도약은 물리적 AI(Physical AI), 즉 모든 형태의 로봇에 지능이 구현되는 것입니다. 물리적 AI가 구현된 로봇을 구축하기 위해서는 세 가지 컴퓨터가 필요합니다. 추론 비전-언어-행동(VLA) 모델을 훈련하기 위한 NVIDIA DGX GB300, 옴니버스(Omniverse)를 기반으로 구축된 가상 세계에서 모델을 시뮬레이션, 테스트 및 검증하기 위한 NVIDIA RTX PRO, 그리고 실시간 속도로 VLA 추론을 실행하기 위한 Jetson Thor입니다.

자율 이동 로봇, 협동 로봇, 휴머노이드가 제조, 물류, 의료 분야를 혁신하면서, 몇 년 안에 로봇 공학의 획기적인 순간이 예상됩니다. 모건 스탠리는 2050년까지 10억 대의 휴머노이드 로봇이 등장하고 5조 달러의 매출을 창출할 것으로 추정합니다.

이는 AI가 물리적 경제에 얼마나 깊이 뿌리내릴 것인지를 보여주는 신호이며, 앞으로 다가올 일의 단지 시작일 뿐입니다.

NVIDIA 젠슨 황 CEO는 GTC DC 2025 컨퍼런스의 기조연설 동안 9대의 첨단 휴머노이드 로봇들과 함께 무대에 섰습니다. 보스턴 다이내믹스(Boston Dynamics), 피규어(Figure), 애질리티 로보틱스(Agility Robotics), 그리고 디즈니 리서치(Disney Research)의 모델들을 포함한 이 로봇들은 휴머노이드 로봇과 인공지능의 역량을 발전시키는 것을 목표로 하는 NVIDIA의 새로운 프로젝트 GR00T(General-purpose foundation model)를 선보이기 위해 한자리에 모였습니다.

AI는 더 이상 단순한 도구가 아닙니다. AI는 업무를 수행하며, 전 세계 100조 달러 규모의 모든 시장을 변화시킬 잠재력을 가지고 있습니다. 그리고 AI의 선순환(virtuous cycle)이 도래하여, 전체 컴퓨팅 스택을 근본적으로 바꾸고 있으며, 모든 컴퓨터를 훨씬 더 거대한 기회를 위한 새로운 슈퍼컴퓨팅 플랫폼으로 전환시키고 있습니다.