NVIDIA H100 Tensor Core GPU가 본격 생산됩니다. 그리고 글로벌 기술 파트너들은 10월에 획기적인 NVIDIA Hopper 아키텍처를 기반으로 한 첫 번째 제품과 서비스를 출시할 계획입니다.
지난 4월에 공개된 H100은 800억 개의 트랜지스터로 제작됐고 다양한 기술 혁신이 적용됐습니다. 그 중에는 강력한 새로운 트랜스포머 엔진(Transformer Engine)과 NVLink 인터커넥트가 포함되어 있는데요. 이를 통해 고급 추천 시스템, 대용량 언어 모델과 같은 최대 AI 모델을 가속화하고 대화형 AI, 약물 발견과 같은 분야의 혁신을 주도할 수 있습니다.
NVIDIA의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “Hopper는 언어 기반 AI, 로보틱스, 헬스케어, 생명과학의 발전을 이끄는 데 사용되는 수조 개의 매개 변수를 가진 모델을 훈련시키기 위해 무수한 데이터를 처리하고 정제하는 AI 공장의 새로운 엔진입니다. Hopper의 트랜스포머 엔진은 성능을 수십 배까지 끌어 올려, 기업과 연구자의 손이 닿는 곳에 대규모 AI와 HPC를 배치합니다”고 설명했죠.
H100 GPU는 Hopper의 아키텍처와 트랜스포머 엔진 외에도 몇 가지 주요 혁신 기술을 탑재하고 있습니다. 이로써 NVIDIA의 가속화된 컴퓨팅 데이터센터 플랫폼은 2세대 멀티 인스턴스 GPU, 컨피덴셜 컴퓨팅, 4세대 NVLink, DPX 명령어 등 큰 발전을 이룰 수 있습니다.
이제 NVIDIA AI Enterprise 소프트웨어 제품군에 대한 5년 사용권이 메인스트림 서버용 H100에 포함됩니다. 이를 통해 AI 워크플로우의 개발과 배치를 최적화하고 사용기관이 AI 챗봇, 추천 엔진, 비전 AI 등을 구축하는 데 필요한 AI 프레임워크와 도구에 액세스할 수 있습니다.
Hopper 글로벌 출시
H100을 통해 기업은 이전 세대보다 5배 적은 서버 노드를 사용하면서 3.5배 더 높은 에너지 효율성과 3배 더 낮은 총 소유 비용으로 동일한 AI 성능을 제공하여 AI 배포 비용을 절감할 수 있습니다.
새로운 기술을 즉시 사용해보고자 원하는 고객을 위해 NVIDIA는 현재 델 파워엣지(Dell PowerEdge) 서버의 H100을 NVIDIA LaunchPad에서 사용할 수 있도록 제공하고 있습니다. NVIDIA LaunchPad는 기업들이 최신 하드웨어와 NVIDIA AI 소프트웨어에 액세스할 수 있도록 지원합니다.
또한 8개의 H100 GPU를 포함, 32페타플롭의 성능을 FP8 정밀도로 제공하는 NVIDIA DGX™ H100 시스템도 주문이 가능합니다. NVIDIA Base Command™와 NVIDIA AI 엔터프라이즈 소프트웨어가 모든 DGX 시스템에 전원을 공급해 단일 노드에서 NVIDIA DGX SuperPOD™로 배포하여 대규모 언어 모델과 기타 대규모 워크로드의 고급 AI 개발을 지원합니다.
세계 유수의 컴퓨터 제조업체들의 H100 동력 시스템은 앞으로 몇 주 안에 출하될 것으로 예상됩니다. 연말까지 50개 이상의 서버 모델이 시장에 출시되고, 2023년 상반기에는 수십 개가 더 출시될 예정이죠. 시스템을 구축하는 파트너에는 아토스(Atos), 시스코(Cisco), 델 테크놀로지스(Dell Technologies), 후지쯔(Fujitsu), 기가바이트(GIGABYTE), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise), 레노버(Lenovo), 슈퍼마이크로(Supermicro)가 포함됩니다.
그리고 세계의 선도적인 고등 교육과 연구 기관들 중 일부가 차세대 슈퍼컴퓨터에 전력을 공급하기 위해 H100을 사용할 예정인데요. 그 중에는 바르셀로나 슈퍼컴퓨팅 센터, 로스 알라모스 국립 연구소, 스위스 국립 슈퍼컴퓨팅 센터(CSCS), 텍사스 고급 컴퓨팅 센터, 츠쿠바 대학 등이 포함되어 있습니다.
클라우드에서 H100 사용 가능
아마존 웹서비스(Amazon Web Services), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라(Oracle Cloud Infrastructure)가 내년부터 H100 기반 인스턴스를 클라우드에 가장 먼저 구축합니다.
니디 차펠(Nidhi Chappell) 애저 AI 인프라 총괄은 “마이크로소프트 애저에서 최신 H100 GPU의 차세대 AI 모델이 가능해지기를 기대합니다. 애저 AI 슈퍼컴퓨팅에 대한 투자 어우러진 Hopper 아키텍처의 발전으로, 우리는 전 세계 AI의 개발을 가속화하는 데 기여할 수 있을 것입니다”고 말했죠.
오라클 클라우드(OCI)의 카란 바타(Karan Bata) 제품 관리 부사장은 “NVIDIA의 최신 H100 GPU를 제공함으로써 고객이 가장 복잡한 머신 러닝과 HPC 워크로드를 가속화할 수 있도록 지원하고 있습니다. 또한 NVIDIA의 차세대 H100 GPU를 사용하면 까다로운 내부 워크로드를 지원할 수 있으며, 의료, 자율주행 자동차, 로보틱스와 IoT 전반에 걸친 획기적인 발전을 상호 고객에게 제공할 수 있습니다”고 말했습니다.
NVIDIA 소프트웨어 지원
H100의 고급 트랜스포머 엔진 기술을 통해 기업은 대규모 언어 모델을 높은 정확도로 신속하게 개발할 수 있습니다. 이러한 모델의 규모가 계속 증가함에 따라 복잡성도 증가하며 때로는 교육하는 데 몇 달이 소요되기도 하는데요.
이를 해결하기 위해 NVIDIA NeMo Megatron, 마이크로소프트 딥스피드(Microsoft DeepSpeed), 구글 JAX(Google JAX), 파이토치(PyTorch), 텐서플로우(TensorFlow), XLA 등 세계 최고의 대규모 언어 모델과 딥 러닝 프레임워크 중 일부가 H100에 최적화되고 있습니다. Hopper 아키텍처와 결합된 이러한 프레임워크는 AI 성능을 크게 향상시켜 며칠에서 몇 시간 내에 대규모 언어 모델을 교육할 수 있도록 지원합니다.
젠슨 황의 GTC 키노트에서 NVIDIA Hopper와 H100에 대해 자세히 알아보세요.
더불어 NVIDIA와 업계 선두업체와의 세션은 GTC에 무료 등록하여 참여할 수 있습니다.