미국 캘리포니아주 스탠포드 대학교에서 열린 핫칩스 2024(Hot Chips 2024)에서 NVIDIA Blackwell 플랫폼을 지원하는 최신 발전 사항에 대해 발표했습니다. 데이터센터용 액체 냉각과 칩 설계용 AI 에이전트에 대한 연구도 함께 선보였습니다.
프로세서와 시스템 설계자를 위한 업계와 학계의 심층 기술 콘퍼런스인 핫칩스는 수조 달러 규모의 데이터센터 컴퓨팅 시장의 핵심 포럼입니다.
NVIDIA가 발표한 내용은 다음과 같습니다.
- NVIDIA Blackwell이 여러 칩과 시스템, NVIDIA CUDA 소프트웨어를 결합해 여러 사용 사례, 산업, 국가 전반에 걸쳐 차세대 AI를 지원하는 법
- 72개의 Blackwell GPU와 36개의 Grace CPU를 연결하는 멀티 노드, 수냉식, 랙 스케일 솔루션인 NVIDIA GB200 NVL72가 AI 시스템 설계의 기준을 높이는 방법
- NVLink 인터커넥트 기술이 올투올(all-to-all) GPU 통신을 제공해 생성형 AI를 위한 기록적으로 높은 처리량과 짧은 지연 시간의 추론을 구현하는 방법
- NVIDIA Quasar Quantization 시스템이 물리학의 한계를 뛰어넘어 AI 컴퓨팅을 가속화하는 방법
- NVIDIA 연구원들이 AI용 프로세서를 구축하는 데 도움이 되는 AI 모델을 구축하는 법
8월 26일에 열린 NVIDIA Blackwell 강연에서는 새로운 아키텍처 세부 사항과 Blackwell 실리콘에서 실행되는 생성형 AI 모델의 사례에 집중했습니다.
앞선 8월 25일에는 세 가지 튜토리얼을 진행했는데요. 여기서는 하이브리드 액체 냉각 솔루션이 데이터센터가 에너지 효율적인 인프라로 전환하는 데 어떻게 도움이 되는지, 거대 언어 모델(Large Language Model, LLM) 기반 에이전트를 포함한 AI 모델이 엔지니어가 차세대 프로세서를 설계하는 데 어떻게 도움이 될 수 있는지를 다뤘습니다.
이 발표에서는 데이터센터 컴퓨팅과 설계의 모든 영역에서 NVIDIA 엔지니어들이 전례 없는 성능, 효율성, 최적화를 제공하기 위해 혁신하고 있는 방법을 소개했습니다.
Blackwell을 위한 준비
NVIDIA Blackwell은 궁극의 풀스택 컴퓨팅에 대한 도전 과제입니다. 이는 Blackwell GPU, Grace CPU, BlueField 데이터 처리 장치, ConnectX 네트워크 인터페이스 카드, NVLink Switch, Spectrum Ethernet 스위치, Quantum InfiniBand 스위치 등 여러 NVIDIA 칩으로 구성됩니다.
NVIDIA의 아키텍처 담당 이사인 아제이 티루말라(Ajay Tirumala)와 레이몬드 웡(Raymond Wong)은 이 플랫폼을 소개했습니다. 그리고 이러한 기술들이 어떻게 함께 작동해 에너지 효율성을 향상시키고, AI와 가속화된 컴퓨팅 성능의 새로운 표준을 제공하는지 이야기했죠.
멀티 노드 NVIDIA GB200 NVL72 솔루션이 바로 완벽한 예시입니다. LLM 추론에는 지연 시간이 짧고 처리량이 높은 토큰 생성이 필요한데요. GB200 NVL72는 LLM 워크로드에 최대 30배 빠른 추론을 제공하는 통합 시스템으로 작동해 수조 개의 파라미터 모델을 실시간으로 실행할 수 있는 기능을 제공합니다.
또한 티루말라와 웡은 알고리즘 혁신, NVIDIA 소프트웨어 라이브러리와 도구, Blackwell의 2세대 트랜스포머 엔진을 결합한 NVIDIA Quasar Quantization 시스템이 어떻게 저정밀도 모델에서 높은 정확도를 지원하는지 논의했습니다. LLM과 시각 생성형 AI를 사용한 사례도 중점적으로 소개했습니다.
데이터센터의 냉각 유지
연구자들은 공냉식과 액체 냉각을 결합한 하이브리드 냉각을 사용하는 보다 효율적이고 지속 가능한 솔루션을 개발했습니다. 이에 따라 기존의 공냉식 데이터센터의 윙윙거리는 소음이 해결될 수 있죠.
액체 냉각 기술은 공기보다 시스템에서 열을 더 효율적으로 이동시켜 대규모 워크로드를 처리하는 동안에도 컴퓨팅 시스템의 냉각 상태를 쉽게 유지할 수 있습니다. 또한 액체 냉각용 장비는 공냉식 냉각 시스템보다 공간을 덜 차지하고 전력을 덜 소비하므로 시설 내에 더 많은 서버 랙을 추가해 데이터센터의 컴퓨팅 성능을 높일 수 있죠.
NVIDIA 데이터센터 냉각과 인프라 담당 이사인 알리 헤이다리(Ali Heydari)는 하이브리드 냉각 데이터센터를 위한 몇 가지 설계를 소개했습니다.
그중 일부는 기존 공냉식 데이터센터에 액체 냉각 장치를 장착해 기존 랙에 액체 냉각 기능을 빠르고 쉽게 추가할 수 있는 솔루션을 제공합니다. 또 다른 설계에서는 냉각 분배 장치를 사용하거나 침수 냉각 탱크에 서버를 완전히 담그는 방식으로 직접 칩 액체 냉각을 위한 배관을 설치해야 합니다. 이러한 옵션은 초기 투자 비용이 더 많이 들지만 에너지 소비와 운영 비용을 크게 절감할 수 있습니다.
알리 헤이다리 이사는 첨단 데이터센터 냉각 기술을 개발하는 미국 에너지부 프로그램인 쿨러칩스(COOLERCHIPS)의 일환으로 NVIDIA 팀이 수행한 작업을 공유했습니다. 이 프로젝트에서 연구 팀은 NVIDIA Omniverse 플랫폼을 사용하고 있습니다. 이는 데이터센터 설계 최적화를 위한 에너지 소비와 냉각 효율 모델링에 도움이 되는 물리 정보 기반 디지털 트윈 생성을 지원합니다.
프로세서 설계를 위한 AI 에이전트
반도체 설계는 미시적 규모의 거대한 도전입니다. 최첨단 프로세서를 개발하는 엔지니어들은 몇 인치 남짓한 실리콘 조각에 최대한 많은 컴퓨팅 성능을 탑재하기 위해 물리적으로 가능한 한계를 시험하며 작업하죠.
AI 모델은 설계 품질과 생산성을 개선하고 수작업 프로세스의 효율성을 높이며 시간이 많이 걸리는 일부 작업을 자동화함으로써 이들의 작업을 지원합니다. 이러한 모델에는 엔지니어가 설계를 빠르게 분석하고 개선하는 데 도움이 되는 예측, 최적화 도구와 질문에 대한 답변, 코드 생성, 설계 문제 디버깅 등을 지원하는 LLM이 포함됩니다.
NVIDIA 설계 자동화 연구 담당 이사인 마크 렌(Mark Ren)은 튜토리얼을 통해 이러한 모델과 그 사용법에 대한 개요를 소개했습니다. 두 번째 세션에서는 칩 설계를 위한 에이전트 기반 AI 시스템을 집중적으로 설명했습니다.
LLM으로 구동되는 AI 에이전트는 자율적으로 작업을 완료하도록 지시할 수 있어 산업 전반에 걸쳐 광범위한 애플리케이션을 활용할 수 있습니다. 마이크로프로세서 설계 분야에서 NVIDIA 연구원들은 에이전트 기반 시스템을 개발하고 있습니다. 맞춤형 회로 설계 도구를 사용해 추론하고 조치를 취할 수 있으며, 숙련된 설계자와 상호 작용하며 인간과 에이전트 경험의 데이터베이스로부터 학습할 수 있죠.
NVIDIA 전문가들은 이 기술을 단순히 구축하는 데 그치지 않고 실제로 활용하고 있습니다. 마크 렌 이사는 엔지니어가 타이밍 보고서 분석과 셀 클러스터 최적화 프로세스, 코드 생성 등에 AI 에이전트를 사용하는 방법에 대한 사례를 공유했습니다. 셀 클러스터 최적화 작업은 최근 제1회 IEEE LAD 국제 워크숍(IEEE International Workshop on LLM-Aided Design)에서 최우수 논문상을 수상한 바 있습니다.