NVIDIA는 메타(Meta)의 차세대 AI 플랫폼 그랜드 테톤(Grand Teton)에 NVIDIA Hopper를 지원합니다.
오픈 컴퓨팅 프로젝트 컨퍼런스인 2022 OCP 글로벌 서밋에서 메타 인프라 하드웨어 부사장인 알렉시스 비욜린(Alexis Bjorlin)은 “그랜드 테톤 시스템은 이전 세대 자이언(Zion) EX 플랫폼에 비해 더 많은 메모리, 네트워크 대역폭, 컴퓨팅 용량을 제공합니다”고 말했는데요.
AI 모델은 뉴스 피드, 콘텐츠 추천, 혐오 발언 식별과 같은 서비스를 위해 페이스북에서 광범위하게 사용됩니다.
비욜린은 콘퍼런스 준비 연설에서 “이번 정상 회담에서 새로운 가족을 선보이게 되어 매우 기쁩니다”고 말하며, 그랜드 테톤의 설계에 대한 깊은 협력과 OCP의 지속적인 지원에 대해 NVIDIA에 감사를 표했습니다.
데이터센터 규모에 맞춤 설계
미국 와이오밍의 두 국립공원 중 한 곳에 있는 13,000피트 산의 이름을 따서 명명된 그랜드 테톤(Grand Teton)은 NVIDIA H100 Tensor Core GPU를 사용해 크기와 기능이 빠르게 성장하고 있는 더 많은 컴퓨팅이 필요한 AI 모델을 훈련 및 실행합니다.
H100의 기반으로 하는 NVIDIA Hopper 아키텍처는 이러한 신경망 작업을 가속화하기 위한 트랜스포머 엔진을 포함하죠. 이는 자연어 처리에서 의료, 로보틱스 등으로 확장되는 애플리케이션 세트를 처리할 수 있기 때문에 기반 모델이라고 불립니다.
NVIDIA H100은 성능과 에너지 효율성을 위해 설계됐습니다. H100 가속 서버는 하이퍼스케일 데이터센터에 있는 수천 대의 서버에 걸쳐 NVIDIA 네트워킹과 연결될 경우 CPU 전용 서버보다 300배 더 에너지 효율적일 수 있죠.
NVIDIA 하이퍼스케일 및 고성능 컴퓨팅 담당 부사장인 이안 벅(Ian Buck)은 “NVIDIA Hopper GPU는 더 큰 에너지 효율성과 향상된 성능으로 가속화된 컴퓨팅을 제공하는 동시에 확장성을 추가하고 비용을 낮추면서 세계의 어려운 문제를 해결하기 위해 제작됐습니다. 메타가 H100 기반 그랜드 테톤 플랫폼을 공유함으로써 전 세계 시스템 빌더는 곧 하이퍼스케일 데이터센터 컴퓨팅 인프라를 위한 개방형 설계에 액세스하여 산업 전반에 걸쳐 AI를 강화하게 될 것입니다”라고 말했습니다.
기계의 산
그랜드 테톤은 자이언 시스템에 비해 2배의 네트워크 대역폭과 4배의 호스트 프로세서와 GPU 가속기 대역폭을 자랑합니다.
비욜린은 추가된 네트워크 대역폭을 통해 메타는 AI 모델 교육을 위한 더 큰 시스템 클러스터를 만들 수 있다고 말했죠. 아울러 이는 더 큰 AI 모델을 저장하고 실행하기 위해 자이언보다 더 많은 메모리를 포장합니다.
구축 간소화, 안정성 향상
비욜린은 “이러한 모든 기능을 하나의 통합 서버에 통합함으로써 시스템 구축을 획기적으로 단순화해 훨씬 더 신속하게 차량을 설치, 프로비저닝할 수 있으며 안정성을 높일 수 있습니다”라고 말했습니다.