일본의 AI 연구 개발 이끄는 NVIDIA GPU

일본 AIST는 수천 개의 NVIDIA H200 GPU와 NVIDIA Quantum-2 InfiniBand를 채택해 새로운 AI 슈퍼컴퓨터의 역량을 강화합니다
by NVIDIA Korea

일본 산업기술총합연구소(AIST)의 ABCI 3.0 슈퍼컴퓨터에 수천 개의 NVIDIA H200 Tensor 코어 GPU가 통합됩니다. 이를 통해 일본의 AI 소버린과 연구 개발 역량이 강화될 것으로 기대되는데요. 아울러 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise, HPE) 크레이(Cray) XD 시스템은 NVIDIA Quantum-2 InfiniBand 네트워킹을 채택해 우수한 성능과 확장성을 제공할 예정입니다.

ABCI 3.0은 AI 연구 개발을 발전시키기 위해 설계된 일본의 대규모 개방형 AI 컴퓨팅 인프라의 최신 버전입니다. 이번 협력으로 AI 역량을 발전시키고 기술 독립성을 강화하려는 일본의 노력을 알 수 있습니다.

AIST의 이사인 요시오 다나카(Yoshio Tanaka)는 “2018년 8월, 우리는 세계 최초의 대규모 개방형 AI 컴퓨팅 인프라인 ABCI를 출범했습니다. 지난 몇 년간 ABCI를 관리해 온 경험을 바탕으로 이제 ABCI 3.0으로 업그레이드하게 됐죠. NVIDIA, HPE와의 협력을 통해 ABCI 3.0이 일본 생성형 AI 연구 개발 역량을 더욱 발전시킬 컴퓨팅 인프라로 발전하는 것이 목표”라고 말했습니다.

AIST 솔루션스(Solutions) 생산 겸 ABCI 운영 책임자인 히로타카 오가와(Hirotaka Ogawa)는 “생성형 AI가 글로벌 변화를 촉진할 준비를 하고 있는 지금, 일본 내에서 연구 개발 역량을 빠르게 배양하는 것이 매우 중요합니다. NVIDIA와 HPE의 협력을 통한 ABCI의 대대적인 업그레이드는 일본 산업과 학계에서 ABCI의 리더십을 강화해 일본이 AI 개발 분야에서 글로벌 경쟁력을 갖추는 미래 혁신의 기반이 될 것으로 확신합니다”고 말했습니다.

ABCI 3.0 슈퍼컴퓨터는 카시와에 위치한 일본 AIST 운영 시설에 설치될 예정입니다. (이미지 제공: AIST)

ABCI 3.0: 일본 AI 연구 개발의 새로운 시대

ABCI 3.0은 AIST와 그 사업 자회사인 AIST 솔루션스, 시스템 통합업체인 HPE가 구축하고 운영합니다.

ABCI 3.0 프로젝트는 경제 안전 기금을 통해 컴퓨팅 자원을 강화하기 위한 일본 경제산업성(Ministry of Economy, Trade and Industry, METI)의 지원에 따른 것으로, METI의 10억 달러 규모의 광범위한 이니셔티브의 일환입니다. 여기에는 ABCI 노력과 클라우드 AI 컴퓨팅에 대한 투자를 모두 포함되죠.

NVIDIA는 지난해 NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)이 기시다 후미오 일본 총리를 비롯한 정재계 인사들을 만나 AI의 미래를 논의한 이후 꾸준히 연구와 교육 분야에서 METI와 긴밀히 협력하고 있습니다.

일본의 미래에 대한 NVIDIA의 약속

젠슨 황은 특히 생성형 AI, 로보틱스, 양자 컴퓨팅 분야에서의 연구 협력, AI 스타트업 투자, AI에 대한 제품 지원, 훈련, 교육을 제공하기로 약속했습니다.

그는 가장 연산 집약적인 AI 작업을 처리하도록 설계된 차세대 데이터센터인 ‘AI 팩토리’가 방대한 양의 데이터를 지능화하는 데 매우 중요하다고 강조했습니다.

지난 12월 일본 언론과의 간담회에서 그는 “AI 팩토리는 전 세계 현대 경제의 근간이 될 것”이라고 말했죠.

초고밀도 데이터센터와 에너지 효율적인 설계를 갖춘 ABCI는 AI와 빅데이터 애플리케이션 개발을 위한 강력한 인프라를 제공합니다.

이 시스템은 올해 말까지 가동돼 최첨단 AI 연구와 개발 자원을 제공할 것이며, 도쿄 인근 카시와(Kashiwa)에 들어설 예정입니다.

탁월한 컴퓨팅 성능과 효율성

이 시설이 제공하는 것은 다음과 같다:

  • 6 AI 엑사플롭(exaflops)의 컴퓨팅 용량: 희소성(sparsity) 없는 AI 고유 성능 척도
  • 410 배정밀도 페타플롭(petaflops): 일반 컴퓨팅 용량 척도
  • 각 노드는 Quantum-2 InfiniBand 플랫폼을 통해 200GB/s의 양분(bisectional) 대역폭으로 연결

NVIDIA 기술은 이 이니셔티브의 중추를 이루며, 수백 개의 노드에 각각 8개의 NVLink 연결 H200 GPU를 장착해 전례 없는 컴퓨팅 성능과 효율성을 제공합니다.

NVIDIA H200은 초당 4.8테라바이트(TB/s)의 속도로 140기가바이트(GB) 이상의 HBM3e 메모리를 제공하는 최초의 GPU입니다. H200의 더 크고 빠른 메모리는 생성형 AI와 거대 언어 모델(LLM)을 가속화하는 동시에 더 나은 에너지 효율과 낮은 총소유비용으로 HPC 워크로드를 위한 과학 컴퓨팅을 발전시킵니다.

NVIDIA H200 GPU는 LLM 토큰 생성과 같은 AI 워크로드에 대해 ABCI의 이전 세대 아키텍처보다 에너지 효율이 15배 더 높습니다.

네트워킹 장치가 데이터에 대한 연산을 수행해 CPU의 작업을 분산(offloading)시키는 인-네트워크 컴퓨팅(In-Network Computing)과 고급 NVIDIA Quantum-2 InfiniBand의 통합은 집약적인 AI 워크로드와 방대한 데이터 세트를 처리하는 데 필수적인 고효율, 고속, 저지연 통신을 보장합니다.

ABCI는 세계 최고 수준의 컴퓨팅과 데이터 처리 능력을 자랑하며 산학관 공동 AI 연구 개발을 가속화하는 플랫폼 역할을 하고 있습니다.

METI의 막대한 투자는 AI 개발 역량을 강화하고 생성형 AI의 사용을 가속화하려는 일본의 전략적 비전을 입증합니다.

일본은 AI 슈퍼컴퓨터 개발에 보조금을 지원함으로써 차세대 AI 기술 개발에 소요되는 시간과 비용을 줄여 글로벌 AI 환경의 리더로의 자리매김을 목표하고 있습니다.