대규모 AI 연구 슈퍼컴퓨터 개발 위한 NVIDIA와 Meta의 협력

메타 플랫폼스(Meta Platforms)는 지금까지의 연구 시스템 중 가장 강력할 것이라고 믿고 있는 NVIDIA의 기술을 선택하며 NVIDIA에 큰 신뢰를 보였습니다.

AI 리서치 슈퍼클러스터(RSC)는 이미 AI를 발전시키기 위한 새로운 모델을 훈련시키고 있습니다.

메타의 RSC가 완전히 구축되면 NVIDIA DGX A100 시스템의 최대 고객 설치가 될 것으로 예상됩니다.

메타는 블로그를 통해 “RSC가 서로 다른 언어를 사용하는 대규모 집단에게 실시간 음성 통역을 지원해 연구 프로젝트 협력을 원활히 하거나 AR 게임을 함께 할 수 있도록 하는 완전히 새로운 AI 시스템을 구축하는 데 도움이 되기를 바랍니다”라고 밝혔습니다.

최대 인공지능 모델 훈련

메타는 RSC가 완전히 구축되면 올해 말 이를 활용해 매개 변수가 1조 개가 넘는 AI 모델을 훈련하는 것을 목표로 합니다. 이는 실시간으로 유해한 내용을 파악하는 것과 같은 작업에 대한 자연어 처리와 같은 분야를 발전시킬 수 있죠.

메타는 대규모 성능 외에도 RSC의 핵심 기준으로 높은 신뢰성, 보안성, 프라이버시, 그리고 ‘광범위한 AI 모델’을 다룰 수 있는 유연성을 꼽았습니다.

Meta RSC system — 메타의 AI 리서치 슈퍼클러스터는 수백 개의 NVIDIA DGX 시스템을 NVIDIA Quantum InfiniBand 네트워크에 연결해 AI 연구팀의 작업을 가속화합니다

후드 아래

신형 AI 슈퍼컴퓨터는 현재 760개의 NVIDIA DGX A100 시스템을 컴퓨팅 노드로 사용하고 있습니다. NVIDIA Quantum 200Gb/s InfiniBand 네트워크에 연결된 총 6,080개의 NVIDIA A100 GPU를 패키징해 1,895 페타플롭스(petaflops)급 TF32 성능을 제공합니다.

코로나19로 인한 어려움에도 불구하고, RSC는 메타 RSC의 기초에 깔린 NVIDIA DGX A100 기술 덕분에 18개월 만에 서류상 아이디어를 작동하는 AI 슈퍼컴퓨터로 만들어낼 수 있었죠. 관련 영상은 여기에서 확인할 수 있습니다.

20배 향상된 성능

메타가 연구 인프라 기반으로 NVIDIA 기술을 선택한 것은 이번이 두 번째입니다. 메타는 2017년 하루 3만5000개의 AI 훈련 작업을 처리하는 NVIDIA V100 Tensor Core GPU 2만2000개로 AI 연구용 1세대 인프라를 구축한 바 있습니다.

메타의 초기 벤치마크는 RSC가 이전 시스템보다 대형 NLP 모델을 3배 더 빠르게 훈련하고 컴퓨터 비전 작업을 20배 더 빠르게 실행할 수 있음을 보여줍니다.

올해 말 두 번째 단계에서 RSC는 메타가 5 엑사플롭스(exaflops)급의 엄청난 양의 혼합 정밀 AI 성능을 제공할 것으로 보고 있는 1만 6천개의 GPU로 확대할 예정입니다. 또한 메타는 RSC의 스토리지 시스템을 확장해 초당 16 테라바이트의 속도로 최대 1엑사바이트의 데이터를 제공하는 것을 목표하고 있습니다.

확장 가능한 아키텍처

NVIDIA AI 기술은 기업의 규모에 관계없이 사용할 수 있습니다.

전체 NVIDIA AI 소프트웨어 스택이 포함된 NVIDIA DGX는 단일 시스템에서 온프레미스 또는 코 로케이션 프로바이더에서 실행되는 DGX SuperPOD로 쉽게 확장할 수 있습니다. 또한 고객은 NVIDIA DGX Foundry를 통해 DGX 시스템을 대여할 수 있습니다.