MLPerf는 엔비디아가 세계에서 가장 빠른 인공지능(AI) 학습 성능을 제공한다고 밝혔습니다. MLPerf는 구글, 바이두, 하버드대, 스탠포드대, UC 버클리 엔지니어들이 공동 설립한 조직이자, 30여개의 IT 업계 선두 기업과 대학 소속 엔지니어 200여명이 공동 개발한 머신 러닝 하드웨어, 소프트웨어, 서비스의 학습과 추론 성능 측정 기준입니다.
A100 텐서 코어(Tensor Core) GPU는 8개의 모든 MLPerf 벤치마크에서 가속기 중 가장 빠른 성능을 보여줬는데요, HDR 인피니밴드(InfiniBand)로 상호 연결된 DGX A100 시스템의 대규모 클러스터인 DGX SuperPOD 시스템 역시 가장 빠른 시간 기록을 달성하며, 8개의 새로운 기록을 세웠습니다. 하지만 진정한 승자는 AI로 보다 저렴한 비용에 더 빠른 속도로 사업을 추진하기 위해 해당 제품들을 도입하고 있는 고객들입니다.
이로써 엔비디아는 2018년 5월 설립된 MLPerf의 학습 테스트에서 3회 연속으로 가장 강력한 성과를 거두게 됐습니다. 2년 전인 2018년 12월 첫 번째 MLPerf 학습 벤치마크에서 처음으로 6개의 기록을 세우고 다음해인 2019년 7월에는 8개의 기록을 세웠죠.
엔비디아는 고객들이 가장 중요시하는 상용제품 부문에서 기록을 세웠습니다. 이번 테스트는 새로운 엔비디아 암페어(Ampere) 아키텍처와 볼타(Volta) 아키텍처를 대상으로 진행됐습니다.
엔비디아는 MLPerf 테스트 참여 기업 중 모든 테스트에 상용 제품을 제출한 유일한 회사였는데요, 다른 기업의 경우 제품이 향후 몇 개월간 혹은 한동안 상용화 되지 않을 것으로 예상될 때는 각각 프리뷰 부문과 연구 부문에 참여했습니다.
기록적인 시간 내에 스케일업에 성공한 엔비디아 암페어
최초의 엔비디아 암페어 아키텍처 기반 프로세서인 A100은 기록을 경신했을 뿐 아니라 엔비디아의 그 어떤 GPU 대비 단기간 내에 출시됐습니다. 또 출시와 동시에 엔비디아의 3세대 DGX 시스템을 구동하며 불과 6주 후에는 구글 클라우드 서비스에 적용됐습니다.
아마존웹서비스(AWS), 바이두 클라우드, 마이크로소프트 애저(MS Azure), 텐센트 클라우드 등 글로벌 클라우드 기업들을 비롯해 델, 휴렛팩커드(HP), 인스퍼(Inspur), 슈퍼마이크로(Supermicro) 등 수십 개의 주요 서버 제조업체들도 A100를 적극 도입하고 있습니다.
전세계 사용자들은 AI, 데이터 사이언스, 과학 컴퓨팅(scientific computing) 분야의 가장 복잡한 과제들을 해결하기 위해 A100을 사용하고 있습니다.
일부 사용자들은 A100 기반의 새로운 추천 시스템이나 대화형 AI 트렌드를 이끌고 있고 또 다른 사용자들은 코로나19 치료제를 개발하는데 A100를 사용하고 있죠. 공통점이 있다면 모두 8세대 엔비디아 GPU를 통틀어 가장 급격히 향상된 성능을 경험하고 있다는 것입니다.
18개월만에 4배 향상된 성능
이번 발표는 엔비디아가 현재 프로세서, 네트워킹, 소프트웨어, 시스템이 결합된 AI 플랫폼을 지속적으로 개발하는데 주력해왔다는 것을 보여주고 있습니다.
과거 MLPerf 테스트 결과와 비교해 보면 DGX A100 시스템이 V100 GPU기반 시스템 대상으로 진행됐던 첫 번째 MLPerf 학습 테스트 대비 최대 4배 높은 성능을 제공한다는 것을 볼 수 있습니다. 또한 소프트웨어 최적화 덕분에 기존 엔비디아 V100 기반 DGX-1 시스템 성능은 최대 2배 향상됐죠.
AI 플랫폼의 전반적인 혁신으로 2년 미만의 시간 동안 이런 성능 향상이 있었던 겁니다. 엔비디아 A100 GPU는 CUDA-X 라이브러리 소프트웨어 업데이트와 함께 멜라녹스 HDR 200Gb/s 인피니밴드 네트워크로 구축되어 그 규모가 지속적으로 확대돼 가고 있는 클러스트를 구동하고 있습니다.
HDR 인피니밴드는 극적으로 짧은 지연시간(latency)과 높은 수준의 데이터 처리량을 제공하며 동시에 SHARP(확장 가능한 계층형 통합 및 감소 프로토콜) 기술을 통한 스마트 딥 러닝 컴퓨팅 가속 엔진을 제공합니다.
추천 시스템, 대화형 AI, 강화 학습 부문에서 경이로운 성과를 기록한 엔비디아
MLPerf 벤치마크는 아마존, 바이두, 페이스북, 구글, 하버드대, 인텔, 마이크로소프트, 스탠포드대 등의 IT 공룡들과 대학의 지원 속에 AI 기술의 발전에 발맞춰 지속적으로 혁신하고 있는데요.
최신 벤치마크에는 엔비디아가 탁월한 기록을 보인 두 가지 새로운 테스트와 대대적인 수정을 거친 테스트가 포함됐습니다. 첫 번째 테스트는 바로 추천 시스템으로 갈수록 널리 사용되고 있는 AI 과제였고, 두 번째 테스트는 현재 사용중인 뉴럴 네트워크 모델 중 최고 수준의 뉴럴 네트워크 중 하나인 BERT를 이용한 대화형 AI 테스트입니다. 마지막으로 19X19 풀사이즈 바둑판이 사용된 미니 바둑을 기반으로 한 강화학습 테스트에서 게임 플레이부터 훈련까지 다양한 운영방식을 이용한 최고 난이도의 테스트가 진행됐습니다.
이미 많은 기업들이 AI를 자사 서비스에 전략적으로 적용해 그 효과를 톡톡히 보고 있는데요.
세계적인 전자상거래 기업 알리바바는 엔비디아 GPU를 사용해 CPU 대비 초당 100배 이상의 쿼리를 추천 시스템에 제공하며 숫자 ‘1’이 4 번 겹쳐 있어 중국에서 ‘솔로 데이’라고 알려진 11월 11일에 380억 달러의 매출을 기록했습니다. 한편 대화형 AI 역시 현지에서 큰 관심을 끌며 금융에서 의료 분야에 이르는 수많은 기업들의 매출을 높이는데 한 몫하고 있습니다.
이처럼 엔비디아는 고도의 성능이 요구되는 작업에 그에 맞는 기술력과 편의성을 모두 제공하고 있죠.
전략적인 AI 기술 사용을 지원하는 엔비디아 소프트웨어
지난 5월 엔비디아는 두 가지 애플리케이션 프레임워크를 발표했습니다. 바로 대화형 AI를 위한 Riva와 추천 시스템을 위한 멀린(Merlin)인데요, 멀린에는 최신 MLPerf 결과를 만든 학습용 프레임워크 HugeCTR이 포함돼 있습니다.
Riva와 멀린은 자동차(엔비디아 드라이브), 의료(클라라), 로봇(아이작), 리테일/스마트 시티(메트로폴리스) 등 다양한 산업분야에 적용되며 점점 증가하고 있는 애플리케이션 프레임워크 제품군 중 가장 최근 추가된 프레임워크입니다.
고속 스케일업 인프라를 구현하는 DGX SuperPOD 아키텍처
엔비디아는 단 몇 주만에 배포가 가능한 대규모 GPU 클러스트용 퍼블릭 레퍼런스 아키텍처인 DGX SuperPOD 기반 내부 클러스터 셀린(Selene) 시스템을 대상으로 MLPerf 테스트를 진행했습니다. 이 아키텍처에는 DGX POD에 사용된 설계 원칙과 우수 사례가 동일하게 적용돼 현존하는 AI 과제 중 가장 어려운 문제들을 해결하는데 사용되고 있습니다.
셀린은 1 엑사플롭스(exaflops) 이상의 AI 성능을 선보이며 최근 세계에서 가장 강력한 500대의 컴퓨터 시스템의 순위인 TOP500 프로젝트에 이름을 올렸습니다. 또한 세계에서 가장 높은 전력 효율성을 갖춘 슈퍼컴퓨터를 선정하는 Green500 리스트에서 2위를 차지했죠.
고객은 벌써부터 이런 레퍼런스 아키텍처를 기반으로 자체 DGX POD와 DGX SuperPOD를 구축하고 있습니다. 미국 플로리다 대학교가 다양한 전공분야를 망라해 진행 중인 AI 이니셔티브에서 핵심 역할을 하는 하이퍼게이터(HiPerGator)도 그 중 하나인데요, 하이퍼게이터는 미국 내 학계 최고 속도의 AI 슈퍼컴퓨터입니다.
한편, 최고의 슈퍼컴퓨팅 센터인 미국 에너지국(DOE)의 아르곤국립연구소(Argonne National Laboratory)는 DGX A100을 사용해 코로나19 퇴치 방안을 연구하고 있습니다. 아르곤연구소는 HPC 컴퓨팅 센터 중 가장 먼저 A100 GPU를 채택한 곳 중 하나였죠.
DGX SuperPOD는 이미 자동차 산업에서는 콘티넨탈(Continental), 항공우주 분야에서는 록히드마틴(Lockheed Martin), 클라우드 컴퓨팅 서비스 분야에서는 마이크로소프트와 같은 글로벌 대기업들의 매출을 높이는데 주도적인 역할을 하고 있습니다.
이런 시스템들은 일정 부분 엔비디아 GPU와 DGX 시스템을 지원하는 대규모 생태계 덕분에 성공적으로 구동되고 있습니다.
엔비디아 생태계의 높은 MLPerf
MLPerf 결과를 제출한 9곳의 기업 중 클라우드 서비스 공급업체인 알리바바 클라우드, 구글 클라우드, 텐센트 클라우드와 서버 제조업체인 델, 후지쯔(Fujitsu), 인스퍼(Inspur) 등이 엔비디아 GPU를 사용했습니다.
그 중 상당수는 MLPerf 테스트 대상 제품·서비스에 엔비디아의 소프트웨어 허브인 NGC의 컨테이너와 함께 공개 프레임워크를 사용했습니다.
MLPerf 파트너사들은 엔비디아 A100 GPU를 사용하는 온라인 인스턴스, 서버, PCIe 카드용 제품이나 사업 계획을 갖고 있는 약 20여 곳의 클라우드 서비스 공급업체와 OEM으로 구성된 생태계를 구축하고 있습니다.
오늘 NGC에서 검증된 소프트웨어를 사용해보세요
NGC에서 엔비디아와 엔비디아 파트너사들이 최근 진행된 MLPerf 벤치마크에서 사용한 것과 동일한 소프트웨어 중 상당수를 지금 사용하실 수 있습니다.
NGC는 여러 GPU에 최적화된 컨테이너, 소프트웨어 스크립트, 사전 학습된 모델과 SDK를 제공하고 있는데요, 데이터 사이언티스트와 개발자들이 이를 통해 텐서플로우(TensorFlow)나 파이토치(PyTorch) 같은 인기 프레임워크의 AI 워크플로우를 가속화하고 있습니다.
조직들은 의미 있는 사업성과를 보다 빠르게 실현하기 위해 컨테이너를 적극 도입하고 있습니다. 사실, 이것보다 더 중요한 벤치마크가 있을까요?
메인 이미지: 2,000개 이상의 엔비디아 A100 GPU를 탑재, 한 달도 채 안 된 기간 내에 구축된 엔비디아의 새로운 DGX SuperPOD(사진: 렌더링 이미지)는 시중 제품 중 대규모 배치 성능 기준으로 MLPerf 벤치마크 테스트 모든 부문에서 최고 순위를 차지했습니다.