NVIDIA, AI 팩토리로 데이터센터와 차세대 AI 시대 혁신하다

AI는 새로운 산업 혁명을 촉진하고 있으며, AI 팩토리에 의해 주도되고 있습니다.

전통적인 데이터센터와 달리 AI 팩토리는 데이터를 저장하고 처리하는 것 이상의 기능을 수행합니다. AI 팩토리는 대규모로 인텔리전스를 만들어 원시 데이터를 실시간 인사이트로 변환합니다. 이를 통해 전 세계의 기업과 국가는 가치 창출의 속도를 극적으로 가속화해, AI를 장기 투자에서 즉각적인 경쟁 우위의 원동력으로 전환하고 있죠. 오늘날 맞춤형 AI 팩토리에 투자하는 기업이 내일의 혁신, 효율성 그리고 시장 차별화를 선도할 것입니다.

전통적인 데이터센터는 일반적으로 다양한 워크로드를 처리하고 일반 목적의 컴퓨팅을 위해 구축됩니다. 하지만 AI 팩토리는 AI에서 가치를 창출하도록 최적화돼 있습니다. AI 팩토리는 데이터 수집에서 훈련, 미세 조정, 그리고 가장 중요한 고용량 추론에 이르는 전체 AI 라이프사이클을 조율합니다.

AI 팩토리에서 인텔리전스는 부산물이 아니라 핵심 생산물입니다. 이 인텔리전스는 AI 토큰 처리량으로 측정되는데요. 이는 의사 결정과 자동화 그리고 완전히 새로운 서비스로 이어지는 실시간 예측을 의미합니다.

기존 데이터센터가 당장 사라지지는 않겠지만, 이들이 AI 팩토리로 진화할지 아니면 AI 팩토리에 연결될지는 기업의 비즈니스 모델에 따라 달라집니다.

기업이 어떤 방식으로 적응하든, NVIDIA가 지원하는 AI 팩토리는 이미 대규모로 인텔리전스를 생산하고 있으며, AI의 구축, 정제, 배포 방식을 혁신하고 있습니다.

컴퓨팅 수요를 이끄는 스케일링 법칙

지난 몇 년 동안 AI는 대형 모델 훈련을 중심으로 발전해왔습니다. 그러나 최근 AI 추론 모델의 급증으로 인해 추론이 AI 경제의 주요 원동력이 됐는데요. 그 이유를 보여주는 3가지 주요 스케일링 법칙은 다음과 같습니다.

사전 훈련 스케일링: 더 큰 데이터세트와 모델 파라미터는 예측 가능한 인텔리전스 향상을 가져오지만, 이 단계에 도달하기 위해서는 숙련된 전문가, 데이터 큐레이션, 컴퓨팅 자원에 대한 상당한 투자가 필요합니다. 지난 5년 동안 사전 훈련 스케일링은 컴퓨팅 요구 사항을 5천만 배까지 증가시켰는데요. 그러나 모델이 훈련된 후에는 다른 사람들이 이를 기반으로 구축하는 데 필요한 장벽이 크게 낮아집니다.
사후 훈련 스케일링: 특정 실제 응용 프로그램을 위해 AI 모델을 미세 조정할 때, AI 추론 중에 사전 훈련보다 30배 더 많은 컴퓨팅 자원이 필요합니다. 조직이 기존 모델을 고유한 필요에 맞게 조정함에 따라 AI 인프라에 대한 누적 수요가 급증합니다.
테스트 타임 스케일링(test-time scaling, TTS): 에이전틱 AI(Agentic AI)나 피지컬 AI와 같은 고급 AI 응용 프로그램은 반복적 추론을 요구하며, 모델이 최상의 응답을 선택하기 전에 여러 가능한 응답을 탐색합니다. 이러한 과정은 전통적인 추론보다 최대 100배 더 많은 컴퓨팅 자원을 소모하죠.

기존의 데이터센터는 이러한 새로운 AI 시대에 맞춰 설계되지 않았습니다. AI 팩토리는 이러한 막대한 컴퓨팅 수요를 최적화하고 지속하기 위해 목적에 맞게 구축됐으며, AI 추론과 배포를 위한 이상적인 경로를 제공합니다.

토큰으로 산업과 경제 재편

전 세계적으로 정부와 기업들이 경제 성장, 혁신, 효율성을 촉진하기 위해 AI 팩토리 구축 경쟁에 나서고 있습니다.

유럽연합고성능컴퓨팅공동사업(European High-Performance Computing Joint Undertaking, EuroHPC)은 최근 17개 EU 회원국과 협력해 7개의 AI 팩토리를 구축할 계획을 발표했습니다.

이는 전 세계적으로 AI 팩토리에 대한 투자 물결이 이어지는 가운데 이루어졌으며, 기업과 국가들이 모든 산업과 지역에서 AI 기반 경제 성장을 가속화하고 있음을 보여줍니다.

인도: 요타 데이터 서비스(Yotta Data Services)는 NVIDIA와 협력해 샥티 클라우드 플랫폼(Shakti Cloud Platform)을 출시했습니다. 이를 통해 고급 GPU 자원에 대한 접근을 대중화하고 있죠. NVIDIA AI Enterprise 소프트웨어와 오픈 소스 도구를 통합해 요타 데이터 서비스는 AI 개발과 배포를 위한 원활한 환경을 제공합니다.
일본: GMO 인터넷 그룹(GMO Internet Group), 하이레소(Highreso), KDDI, 루틸레아(Rutilea), 사쿠라 인터넷(SAKURA internet) 등 주요 클라우드 제공업체들이 NVIDIA 기반 AI 인프라를 구축해 로보틱스, 자동차, 헬스케어, 통신과 같은 산업을 변화시키고 있습니다.
노르웨이: 텔레노어(Telenor)는 NVIDIA 기반 AI 팩토리를 구축해 북유럽 지역 전반에 걸쳐 AI 채택을 가속화하고 있으며, 인력 재교육과 지속 가능성에 중점을 두고 있습니다.

이러한 이니셔티브는 AI 팩토리가 통신과 에너지와 견줄 수 있는 필수 국가 인프라로 빠르게 자리 잡고 있다는 점을 보여줍니다.

AI 팩토리 내부에서 제조되는 인텔리전스

파운데이션 모델, 안전한 고객 데이터, AI 도구는 AI 팩토리를 가동하는 원자재를 제공합니다. 여기서 추론 서비스, 프로토타입 제작, 미세 조정이 이루어져 강력하고 맞춤화된 모델이 생산 준비를 마치죠.

이 모델들이 실제 응용 프로그램에 배포되면, 새로운 데이터로부터 지속적으로 학습하며, 이는 데이터 플라이휠(flywheel)을 사용해 저장되고 정제돼 시스템에 다시 공급됩니다. 이 최적화 사이클은 AI가 적응적이고 효율적이며 지속적으로 개선되도록 보장하고, 기업 인텔리전스를 전례 없는 규모로 추진합니다.

NVIDIA 기반 AI 팩토리는 대규모로 기업 인텔리전스를 제조하는 데 최적화돼 있습니다.

풀스택 NVIDIA AI를 통해 얻는 AI 팩토리의 이점

NVIDIA는 실리콘부터 소프트웨어까지 모든 계층이 대규모로 훈련, 미세 조정, 추론을 위해 최적화된 완전하고 통합된 AI 팩토리 스택을 제공합니다. 이 풀스택 접근 방식은 기업이 비용 효율적이고 고성능이며 AI의 기하급수적 성장에 대비할 수 있는 AI 팩토리를 배포할 수 있도록 보장하죠.

NVIDIA는 생태계 파트너와 함께 풀스택 AI 팩토리를 위한 빌딩 블록을 만들었으며, 이를 통해 다음과 같은 기능을 제공합니다.

강력한 컴퓨팅 성능
고급 네트워킹
인프라 관리와 워크로드 조정
가장 큰 AI 추론 생태계
스토리지와 데이터 플랫폼
설계와 최적화를 위한 블루프린트
참조 아키텍처
모든 기업을 위한 유연한 배포

강력한 컴퓨팅 성능

모든 AI 팩토리의 핵심은 컴퓨팅 파워입니다. NVIDIA는 NVIDIA Hopper부터 NVIDIA Blackwell까지, 이 새로운 산업 혁명을 위한 세계에서 가장 강력한 가속 컴퓨팅을 제공합니다. NVIDIA Blackwell Ultra 기반의 GB300 NVL72 랙 스케일 솔루션을 통해 AI 팩토리는 AI 추론을 위해 최대 50배의 출력을 달성할 수 있습니다. 이는 효율성과 규모의 새로운 기준을 설정합니다.

NVIDIA DGX SuperPOD은 기업을 위한 턴키 AI 팩토리의 대표적인 사례로, NVIDIA 가속 컴퓨팅의 최선을 통합하고 있습니다. NVIDIA DGX Cloud는 클라우드에서 고성능의 NVIDIA 가속 컴퓨팅을 제공하는 AI 팩토리를 제공합니다.

글로벌 시스템 파트너들은 NVIDIA 가속 컴퓨팅을 기반으로 고객을 위한 풀스택 AI 팩토리를 구축하고 있으며, 이제 NVIDIA GB200 NVL72과 GB300 NVL72 랙 스케일 솔루션도 포함합니다.

고급 네트워킹

대규모로 인텔리전스를 이동시키기 위해서는 전체 AI 팩토리 스택 전반에 걸쳐 원활한 고성능 연결성이 필요한데요. NVIDIA NVLink와 NVLink Switch는 고속의 다중 GPU 통신을 가능하게 해, 노드 내 또는 노드 간 데이터 이동을 가속화합니다.

또한, AI 팩토리는 견고한 네트워크 백본을 요구합니다. NVIDIA Quantum InfiniBand, NVIDIA Spectrum-X 이더넷, 그리고 NVIDIA BlueField 네트워킹 플랫폼은 병목 현상을 줄여 대규모 GPU 클러스터 간의 효율적인 고처리량 데이터 교환을 보장합니다. 이러한 엔드 투 엔드 통합은 AI 워크로드를 백만 GPU 수준으로 확장하는 데 필수적이며, 훈련과 추론에서 획기적인 성능을 가능하게 합니다.

인프라 관리와 워크로드 오케스트레이션

기업들은 AI 인프라의 강력한 성능을 하이퍼스케일러의 민첩성, 효율성, 규모로 활용할 수 있는 방법이 필요하지만, 비용, 복잡성, IT 전문 지식에 대한 부담은 줄여야 하죠.

NVIDIA Run:ai를 통해 조직은 AI 워크로드 오케스트레이션과 GPU 관리를 원활하게 수행할 수 있습니다. 이를 통해 자원 활용을 최적화하고 AI 실험을 가속화하며 워크로드를 확장할 수 있죠. NVIDIA Mission Control 소프트웨어는 NVIDIA Run:ai 기술을 포함하고 있으며, 워크로드에서 인프라까지 AI 팩토리 운영을 간소화하고, 풀 스텍 인텔리전스를 제공해 세계적 수준의 인프라 복원력을 보장합니다.

NVIDIA Mission Control은 AI 팩토리 스택 전반에 걸쳐 워크플로우를 간소화합니다.

가장 큰 AI 추론 생태계

AI 팩토리는 데이터를 인텔리전스로 변환할 수 있는 적합한 도구가 필요한데요. NVIDIA AI 추론 플랫폼은 NVIDIA TensorRT 생태계, NVIDIA Dynamo, NVIDIA NIM 마이크로서비스를 포함하며, 모두 NVIDIA AI Enterprise 소프트웨어 플랫폼의 일환으로 제공되거나 곧 포함 예정입니다. 이 플랫폼은 AI 가속 라이브러리와 최적화된 소프트웨어의 가장 포괄적인 모음을 제공하며, 최고의 추론 성능, 초저지연 시간, 높은 처리량을 보장합니다.

스토리지와 데이터 플랫폼

데이터는 AI 애플리케이션의 연료이지만, 기업 데이터의 빠르게 성장하는 규모와 복잡성은 이를 효율적으로 활용하는 데 많은 비용과 시간이 소요됩니다. AI 시대에 성공하려면, 기업들은 데이터의 잠재력을 완전히 발휘할 수 있어야 합니다.

NVIDIA AI Data 플랫폼은 요구 사항이 높은 AI 추론 워크로드를 위한 맞춤형 참조 설계입니다. 이는 기업 데이터가 복잡한 쿼리에 대해 추론하고 응답할 수 있도록 지원하는 AI 데이터 플랫폼을 구축하는 데 필요한 기반을 제공하죠. 또한, NVIDIA-Certified Storage 파트너들은 맞춤형 AI 데이터 플랫폼을 구축하기 위해 협력하고 있으며, 이를 통해 기업 데이터는 보다 효율적으로 활용될 수 있습니다.

설계와 최적화를 위한 Blueprint

AI 팩토리 설계와 운영을 위한 NVIDIA Omniverse Blueprint를 활용하면, 엔지니어들이 디지털 트윈을 사용해 AI 팩토리 인프라를 설계, 테스트, 최적화한 후 배포할 수 있습니다. 이를 통해 리스크와 불확실성을 줄이고, 비용이 많이 드는 다운타임을 예방할 수 있죠.

1기가와트 규모의 AI 팩토리에서 하루 다운타임은 1억 달러 이상의 비용이 발생할 수 있는데요. 이 Blueprint는 초기 단계에서 복잡성을 해결하고, IT, 기계, 전기, 전력, 네트워크 엔지니어링 등 개별적으로 운영되던 팀들이 병렬로 협업할 수 있도록 지원합니다. 이를 통해 기업은 배포 속도를 높이고 운영 안정성을 보장할 수 있죠.

레퍼런스 아키텍처

NVIDIA Enterprise Reference 아키텍처와 NVIDIA Cloud Partner Reference 아키텍처는 AI 팩토리를 설계하고 배포하는 파트너를 위한 로드맵을 제공합니다. 이를 통해 기업과 클라우드 제공업체가 NVIDIA-Certified System과 NVIDIA AI 소프트웨어 스택, 파트너 생태계를 기반으로 확장 가능하고 고성능이며 안전한 AI 인프라를 구축하도록 돕습니다.

NVIDIA Reference 아키텍처에서 구축된 NVIDIA 풀스택 AI 팩토리(*NVIS는 NVIDIA infrastructure specialists를 의미합니다.)

AI 팩토리 스택의 모든 계층은 효율적인 컴퓨팅에 의존해 증가하는 AI 수요를 충족해야 하는데요. NVIDIA 가속 컴퓨팅은 스택 전반에 걸쳐 기반을 제공하며, 와트당 최고 성능을 실현해 AI 팩토리가 최대 에너지 효율로 운영될 수 있도록 지원합니다. 에너지 효율적인 아키텍처와 액체 냉각 기술을 통해 기업들은 에너지 비용을 절감하면서 AI를 확장할 수 있습니다.

모든 기업을 위한 유연한 배포

NVIDIA의 풀스택 기술을 통해 기업들은 고객의 IT 소비 모델과 운영 요구 사항에 맞춰 AI 팩토리를 손쉽게 구축하고 배포할 수 있습니다.

일부 기업들은 데이터와 성능을 완전히 제어하기 위해 온프레미스 AI 팩토리를 선택하며, 다른 기업들은 확장성과 유연성을 위해 클라우드 기반 솔루션을 활용합니다. 또한, 많은 기업들이 신속한 AI 팩토리 배포를 위해 글로벌 시스템 파트너와 협력해 사전 통합된 솔루션을 도입하고 있습니다.

DGX GB300은 AI 추론 시대를 위해 설계된 기업을 위한 최고 성능의 대규모 AI 팩토리 인프라입니다.

온프레미스

NVIDIA DGX SuperPOD은 AI 팩토리를 위한 턴키 인프라 솔루션으로, 가장 까다로운 AI 훈련과 추론 워크로드를 처리할 수 있도록 확장 가능한 가속 인프라를 제공합니다. AI 컴퓨팅, 네트워크 패브릭, 스토리지, NVIDIA Mission Control 소프트웨어를 최적화된 설계로 통합합니다. 이를 통해 기업들이 AI 팩토리를 몇 개월이 아닌 몇 주 만에 구축하고 운영할 수 있도록 지원하며 최고 수준의 가동 시간, 복원력, 자원 활용도를 보장합니다.

또한, AI 팩토리 솔루션은 NVIDIA 글로벌 엔터프라이즈 기술 파트너 생태계를 통해 제공되며, NVIDIA-Certified 시스템을 기반으로 합니다. 이를 통해 업계를 선도하는 하드웨어와 소프트웨어 기술과 데이터센터 시스템 전문성, 액체 냉각 혁신 기술이 결합되죠. 이는 기업들이 AI 프로젝트의 리스크를 최소화하고 AI 팩토리 구축에 대한 투자 회수를 가속화할 수 있도록 돕습니다.

이들 글로벌 시스템 파트너는 NVIDIA Reference 아키텍처를 기반으로 한 풀스택 솔루션을 제공합니다. 이 솔루션은 NVIDIA 가속 컴퓨팅, 고성능 네트워킹, 그리고 AI 소프트웨어가 통합된 형태로 기업들이 AI 팩토리를 성공적으로 구축하고 대규모 AI 인텔리전스를 구현할 수 있도록 지원합니다.

클라우드

AI 팩토리를 구축하려는 기업을 위해 NVIDIA DGX Cloud는 주요 클라우드에서 AI 애플리케이션을 개발, 맞춤화, 배포할 수 있는 통합 플랫폼을 제공합니다. DGX Cloud의 모든 계층은 NVIDIA에 의해 최적화되고 완전히 관리되며, 클라우드에서 NVIDIA AI의 최고 성능을 제공합니다. 또한, 엔터프라이즈급 소프트웨어와 대규모 연속 클러스터를 주요 클라우드 공급업체에서 제공해 가장 까다로운 AI 훈련 워크로드에도 적합한 확장 가능한 컴퓨팅 리소스를 지원합니다.

또한, DGX Cloud는 하이브리드와 멀티 클라우드 환경에서 AI 토큰을 고속으로 처리할 수 있는 동적이고 확장 가능한 서버리스 추론 플랫폼을 포함하고 있습니다. 이로써 인프라의 복잡성을 크게 줄이고 운영 부담을 완화하게 됩니다.

NVIDIA는 하드웨어, 소프트웨어, 생태계 파트너, 레퍼런스 아키텍처를 통합한 풀스택 플랫폼을 제공합니다. 이를 통해 기업들이 비용 효율적이고 확장 가능하며 고성능을 갖춘 AI 팩토리를 구축하고 다가오는 산업 혁명 시대를 대비할 수 있도록 돕고 있습니다.

NVIDIA AI 팩토리에 대해 더 자세히 알아보세요.

소프트웨어 제품 정보와 관련된 내용을 참조하세요.