엑사스케일급 AI 슈퍼컴퓨터를 위한 NVIDIA Mellanox InfiniBand 출시

전세계 서버 및 스토리지 파트너들이 세계 유일의 네트워크 가속화 플랫폼인 NVIDIA Mellanox 400G을 채택하고 있습니다
by NVIDIA Korea
1118 블로그 [이미지] 엔비디아 멜라녹스 400G 인피니밴드 아키텍처

차세대 NVIDIA Mellanox 400G InfiniBand가 공개됐습니다. 인공지능(AI) 개발자와 과학 연구진들에게 가장 빠른 네트워킹 성능을 제공해 세계에서 제일 까다로운 문제를 해결할 수 있도록 지원하는데요.

1118 블로그 [이미지] 엔비디아 멜라녹스 400G 인피니밴드 아키텍처
NVIDIA Mellanox 400G InfiniBand 아키텍처
최근 신약 개발, 기후 연구, 유전체학과 같은 분야에서 컴퓨팅 요구사항이 계속해서 기하급수적으로 증가하고 있습니다. NVIDIA Mellanox 400G InfiniBand는 전세계에서 유일하게 완전히 오프로드 가능한 네트워크 내(in-network) 컴퓨팅 플랫폼에서 제공되는 뛰어난 성능으로 이러한 작업을 가속화합니다.

7세대 Mellanox InfiniBand는 NDR 400Gb/s로 지연시간을 극도로 낮추는 동시에 기존 대비 두 배나 많은 데이터를 처리합니다. 또 새로운 NVIDIA 네트워크 컴퓨팅 엔진을 추가돼 추가적인 성능 가속화를 지원합니다.

아토스(Atos), 델 테크놀로지스(Dell Technologies), 후지쯔(Fujitsu), 기가바이트(GIGABYTE), 인스퍼(Inspur), 레노버(Lenovo), 슈퍼마이크로(Supermicro)를 포함한 세계 유수의 인프라 제조업체는 엔터프라이즈 솔루션 및 고성능컴퓨팅(HPC) 제품에 NVIDIA Mellanox 400G InfiniBand를 통합할 계획입니다. 또 DDN, IBM 스토리지 등을 비롯한 선도적인 스토리지 인프라 파트너들도 NVIDIA Mellanox 400G InfiniBand에 대한 광범위한 지원을 제공할 예정입니다.

NVIDIA Mellanox 네트워킹 부문 마케팅 담당 수석 부사장 길라드 샤이너(Gilad Shainer)는 “고객의 가장 중요한 업무는 AI와 갈수록 복잡해지는 애플리케이션에 기반하고 있으며, 여기에는 보다 빠르고 스마트하며 확장가능한 네트워크가 필요합니다. NVIDIA Mellanox 400G InfiniBand의 방대한 처리량과 스마트 가속 엔진을 통해 HPC, AI, 하이퍼스케일 클라우드 인프라는 더 적은 비용과 복잡성으로 탁월한 성능을 구현해 낼 수 있습니다”라고 말했습니다.

이번 발표는 Mellanox InfiniBand가 가장 강력한 AI 슈퍼컴퓨팅 솔루션으로 업계를 선도하고 있다는 반증입니다. NVIDIA Mellanox NDR 400G InfiniBand는 3배 높은 스위치 포트 밀도를 제공하고, AI 가속을 32배 향상하는데요. 또한, 스위치 시스템 통합 양방향 처리량을 초당 1.64 페타비트로 5배 증가시켜 사용자가 보다 방대한 워크로드를 처리할 수 있도록 지원합니다.

대규모 워크로드를 지원하기 위한 에코시스템 확대

전세계 주요 과학 연구기관들이 차세대 Mellanox InfiniBand를 도입해 활용하고 있습니다.

마이크로소프트(Microsoft) 애저(Azure) HPC 및 AI 담당 제품 책임자 나이디 샤펠(Nidhi Chappell)은 “마이크로소프트 애저와 NVIDIA의 네트워킹 사업부의 파트너십은 확장가능한 HPC 및 AI를 통해 혁신과 창의성을 지원하고자 하는 양사의 의지에서 비롯됐습니다. HPC 워크로드용 Azure HBv2 가상머신(VM)은 최초로 HDR InfiniBand를 클라우드로 가져왔습니다. 또 MPI 작업에 최대 8만개의 코어를 지원함으로써 MPI 애플리케이션에 최적화된 슈퍼컴퓨터급의 규모와 성능을 제공합니다”라고 설명했습니다. 그는 이어 “AI 혁신에 대한 요구를 충족하기 위해 Azure NDv4 VM은 GPU당 200GB/s의 속도를 제공하는 NVIDIA Mellanox HDR InfiniBand를 사용해 VM당 1.6TB/s의 상호연결 대역폭으로 동일한 저지연 InfiniBand 패브릭 하에서 최대 수 천 개의 GPU로 확장이 가능하여 AI 슈퍼컴퓨팅에 대한 접근성을 높여줍니다. 마이크로소프트는 NVIDIA Mellanox InfiniBand 제품군의 지속적인 혁신에 경의를 표하며, 앞으로도 굳건한 파트너십을 이어 나가기를 기대합니다”라고 밝혔습니다.

미 로스 앨러모스(Los Alamos) 국립연구소 차세대 플랫폼 수석 아키텍트인 스티브 풀(Steve Poole)은 “고성능 연결은 엑사스케일급 혹은 그 이상에서 요구되는 기반 기술입니다. 국립연구소는 로스 앨러모스의 다양한 워크로드 요구사항을 해결하기 위해 최신 400Gb/s 기술을 평가하고 분석하는 과정에서 NVIDIA와 협력을 지속할 계획입니다”라고 말했습니다.

독일 율리히(Jülich) 슈퍼컴퓨팅 센터장 토마스 리퍼트(Thomas Lippert) 교수는 “엑사스케일 컴퓨팅의 시대에 연구자와 과학자는 양자화학, 분자역학, 시민 안전에 수학적 모델링을 적용하는데 대한 한계를 뛰어넘고 있습니다. 우리는 차세대 Mellanox InfiniBand를 활용해 유럽 최고의 차세대 슈퍼컴퓨터를 구축했으며, 이러한 성과를 더욱 발전시키기 위해 차세대 Mellanox InfiniBand를 활용할 것입니다”라고 전했습니다.

인터섹트360리서치(Intersect360 Research)의 CEO 애디슨 스넬(Addison Snell)은 “InfiniBand는 HPC와 AI 시스템에 가장 많이 이용되는 고성능 서버 및 스토리지 연결을 제작하면서 구축된 차별성을 바탕으로 혁신과 성능을 유지하고 있습니다. 애플리케이션에서 요구되는 네트워크 처리량이 증가하면서, NVIDIA Mellanox 400G InfiniBand와 같은 고성능 솔루션의 필요성은 새로운 시장으로 확장할 수 있는 잠재력을 제공합니다”라고 말했습니다.

제품 특징 및 출시 정보

AI 워크로드에 있어 오프로드 작업은 매우 중요합니다. 3세대 NVIDIA Mellanox SHARP 기술을 사용하면 InfiniBand 네트워크를 통해 딥 러닝 훈련을 오프로드하고 AI 가속을 32배 향상시킬 수 있습니다. 또한, NVIDIA Magnum IO 소프트웨어 스택과 결합하면 즉시 사용 가능한 가속화된 과학 컴퓨팅을 제공합니다.

Mellanox InfiniBand 아키텍처를 기반으로 하는 엣지 스위치는 51.2Tb/s의 양방향 통합 처리와 초당 665억 패킷 이상의 획기적인 용량을 제공합니다. Mellanox InfiniBand를 기반으로 하는 모듈형 스위치는 이전 세대 대비 5배 높은 초당 1.64페타비트의 양방향 통합 처리량을 지원합니다.

Mellanox InfiniBand 아키텍처는 이전세대와 추후 개발되는 버전에 대한 지속적인 호환성을 지원할 예정이며 기업의 데이터센터 투자를 보호하기 위해 업계 표준을 따릅니다. 해당 아키텍처에 기반한 솔루션은 2021년 2분기에 시제품으로 출시될 예정입니다.