‘NVIDIA Hopper 아키텍처’ 차세대 가속 컴퓨팅 공개

차세대 인공지능(AI) 데이터센터를 지원하기 위해 이전 제품보다 성능이 크게 향상된 차세대 가속 컴퓨팅 플랫폼인 NVIDIA Hopper 아키텍처를 공개합니다.

미국의 선구적인 컴퓨터 과학자 그레이스 호퍼(Grace Hopper)의 이름을 딴 이 새로운 아키텍처는 2년 전에 출시된 NVIDIA Ampere 아키텍처를 계승합니다.

또한 800억 개의 트랜지스터를 탑재한 최초의 Hopper 기반의 GPU인 NVIDIA H100도 발표했습니다. H100은 세계에서 가장 크고 강력한 액셀러레이터이며, 혁신적인 트랜스포머 엔진, 확장성이 뛰어난 NVIDIA NVLink 인터커넥트 등의 획기적인 기능을 갖추고 있습니다. 대형 AI 언어 모델, 딥 추천 시스템, 유전체학과 복잡한 디지털 트윈을 지원합니다.

NVIDIA 설립자 겸 CEO인 젠슨 황(Jensen Huang)은 “데이터센터는 AI 공장이 되고 있으며, NVIDIA H100은 기업들이 AI가 주도하는 비즈니스를 가속화하기 위해 사용하는 세계 AI 인프라의 엔진”이라고 말했습니다.

H100 테크놀로지의 비약적인 발전

NVIDIA H100 GPU는 대규모 AI와 HPC를 가속화하는 새로운 표준을 확립하여 다음과 같은 6가지 획기적인 혁신을 제공합니다:

세계에서 가장 고도화된 칩 — NVIDIA의 가속화된 컴퓨팅 요구에 맞게 설계된 최첨단 TSMC 4N 프로세스를 사용하여 800억 개의 트랜지스터로 구축된 H100은 AI, HPC, 메모리 대역폭, 상호 연결 및 통신을 가속화하며 초당 5TB에 가까운 외부 연결이 가능합니다. H100은 PCIe Gen5를 지원하고 HBM3를 사용하는 최초의 GPU로 3TB/s의 메모리 대역폭을 실현합니다. 20대의 H100 GPU는 전 세계 인터넷 트래픽과 동등한 성능을 유지할 수 있기 때문에 고객들은 데이터 추론을 실행하는 고급 추천 시스템과 대규모 언어 모델을 실시간으로 제공 가능합니다.
새로운 트랜스포머 엔진 — 이제 자연어 처리의 표준 모델이 된 트랜스포머는 지금까지 발명된 가장 중요한 딥 러닝 모델 중 하나입니다. H100 액셀러레이터의 트랜스포머 엔진은 정확성을 잃지 않고 이전 세대와 비교하여 최대 6배의 속도를 낼 수 있도록 설계됐습니다.
2세대 보안 멀티 인스턴스 GPU — MIG 기술을 통해 단일 GPU를 7개의 소형 절연 인스턴스로 분할하여 다양한 유형의 작업을 처리할 수 있습니다. Hopper 아키텍처는 각 GPU 인스턴스을 통해 클라우드 환경에서 안전한 멀티테넌트 구성을 제공함으로써 이전 세대보다 MIG 기능을 최대 7배 확장합니다.
기밀 컴퓨팅 — H100은 세계 최초로 기밀 컴퓨팅 기능을 갖춘 가속기로, AI 모델과 고객 데이터가 처리되는 동안 이를 보호합니다. 또한 고객은 개인 정보 보호에 민감한 의료, 금융 서비스 등의 산업 및 공유 클라우드 인프라에 대한 페더레이티드 러닝에도 기밀 컴퓨팅을 적용할 수 있습니다.
4세대 NVIDIA NVLink — 가장 큰 AI 모델을 가속화하기 위해 NVLink는 새로운 외부 NVLink 스위치와 결합하여 서버를 넘어 스케일업 네트워크로 확장되며, 이전 버전보다 9배 더 높은 대역폭으로 최대 256개의 H100 GPU를 NVIDIA HDR Quantum InfiniBand를 사용하여 연결합니다.
DPX 명령 — 새로운 DPX 명령은 경로 최적화, 유전체학 등 광범위한 알고리즘에 사용되는 동적 프로그래밍을 이전 세대 CPU 대비 40배, GPU 대비 7배 가속화합니다. 여기에는 동적 창고 환경에서 자동화 로봇 집단을 위해 최적의 경로를 찾기 위한 Floyd-Warshall 알고리즘과 DNA 및 단백질 분류, 폴딩을 위한 시퀀스 정렬에 사용되는 스미스-워터맨(Smith-Waterman) 알고리즘이 포함됩니다.

H100의 결합된 기술 혁신은 NVIDIA의 AI 추론과 훈련 리더십을 확장하여 대규모 AI 모델을 사용한 실시간 몰입형 애플리케이션을 가능하게 합니다. H100은 세계에서 가장 강력한 단일 트랜스포머 언어 모델인 Megatron 530B를 사용하여 실시간 대화 AI에 필요한 1초 미만의 지연 시간을 충족하면서 이전 세대보다 처리량을 30배까지 향상시키죠. 또한 H100을 사용하면 3,950억 개의 매개변수를 사용하여 전문가 혼합과 같은 대규모 모델을 최대 9배 빠르게 교육할 수 있어 교육 시간을 몇 주에서 몇 일로 단축할 수 있습니다.

NVIDIA H100의 폭넓은 도입

NVIDIA H100은 사내, 클라우드, 하이브리드 클라우드, 엣지 등 모든 유형의 데이터센터에 도입할 수 있는데요. 올해 말 세계 유수의 클라우드 서비스 제공자, 컴퓨터 제조사와 NVIDIA에서 사용할 수 있을 것으로 예상됩니다.

NVIDIA의 4세대 DGX 시스템인 DGX H100은 8대의 H100 GPU를 탑재하여 새로운 FP8 정밀도로 32페타플롭의 AI 퍼포먼스를 제공하며, 대형 언어 모델, 추천 시스템, 의료 연구 및 기후 과학에 관한 방대한 컴퓨팅 요건을 충족하는 확장성도 제공합니다.

DGX H100 시스템의 모든 GPU는 4세대 NVLink로 접속 가능하며, 이전 세대보다 1.5배 향상된 900GB/s의 커넥티비티를 제공합니다. NVSwitch를 통해 8개의 H100 GPU를 모두 NVLink를 통해 연결할 수 있습니다. 외부 NVLink 스위치는 차세대 NVIDIA DGX SuperPOD 슈퍼컴퓨터에서 최대 32개의 DGX H100 노드를 네트워크할 수 있습니다.

Hopper는 H100 기반 인스턴스를 제공할 예정인 주요 클라우드 서비스 공급자 알리바바 클라우드(Alibaba Cloud), AWS, 바이두 AI 클라우드(Baidu AI Cloud), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드(Oracle Cloud) 및 텐센트 클라우드(Tencent Cloud)로부터 광범위한 지원을 받아왔습니다.

아토스(Atos), 박스 테크놀로지(BOXX Technologies), 시스코(Cisco), 델 테크놀로지(Dell Technologies), 후지쯔(Fujitsu), 기가바이트(GIGABYTE), H3C, 휴렛패커드 엔터프라이즈(Hewlett Packard Enterprise), 인스퍼(Inspur), 레노버(Lenovo), 넷트릭스(Nettrix), 슈퍼마이크로(Supermicro) 등 세계 유수의 시스템 제조사가 H100 액셀러레이터를 탑재한 다양한 서버를 준비하고 있습니다.

다양한 규모의 NVIDIA H100

H100은 폭넓은 서버 설계 요건을 지원하기 위해 SXM 및 PCIe 폼 팩터로 제공됩니다. H100 GPU를 NVIDIA ConnectX®-7 400Gb/s InfiniBand 및 이더넷 스마트NIC와 페어링하는 통합된 가속기도 이용할 수 있죠.

NVIDIA H100 SXM은 4방향 및 8방향 구성의 HGX H100 서버 보드로 제공되며, 애플리케이션을 서버 내 또는 여러 서버에 걸쳐 여러 GPU로 확장할 수 있는 기업용으로 제공됩니다. HGX H100 기반 서버는 데이터 분석, HPC 애플리케이션과 함께 AI 훈련 및 추론을 위한 최고의 애플리케이션 성능을 제공합니다.

H100 PCIe는 2개의 GPU를 접속할 수 있는 NVLink를 탑재하여 PCIe 5.0의 7배 이상의 대역폭을 제공하여 메인스트림 엔터프라이즈 서버에서 실행되는 어플리케이션에 탁월한 성능을 제공합니다. 폼 팩터를 통해 기존 데이터센터 인프라에 쉽게 통합할 수 있습니다.

새로운 통합 액셀러레이터인 H100 CNX는 H100과 I/O 부하가 높은 어플리케이션에 기업 데이터센터의 멀티노드 AI 트레이닝이나 엣지에서의 5G 신호 처리 등 획기적인 퍼포먼스를 제공하기 위해 ConnectX-7 SmartNIC를 결합합니다.

NVIDIA Hopper 아키텍처 기반의 GPU는 NVIDIA Grace CPU와 조합하여 초고속 NVLink-C2C 인터커넥트를 통해 PCIe 5.0에 비해 CPU와 GPU 간의 통신이 7배 이상 빨라집니다. Grace Hopper Superchip은 대규모 HPC 및 AI 어플리케이션을 지원하도록 설계된 통합 모듈입니다.

NVIDIA 소프트웨어 지원

NVIDIA H100 GPU는 파워풀한 소프트웨어 툴에 의해 지원되며, 개발자와 기업은 AI에서 HPC까지 어플리케이션을 구축하고 가속화할 수 있습니다. 여기에는 음성, 추천 시스템, 초거대 인퍼런스 등의 워크로드용 NVIDIA AI 소프트웨어의 주요 업데이트가 포함됩니다.

또한 NVIDIA는 양자 컴퓨팅, 6G 연구, 사이버 보안, 유전체학 및 약학 연구 작업의 가속화를 위해 CUDA-X 라이브러리, 도구 및 기술 모음에 대한 60개 이상의 업데이트를 발표했습니다.