SC25: 가속 컴퓨팅과 네트워킹이 선도하는 AI 시대 슈퍼컴퓨팅

NVIDIA DGX Spark부터 BlueField-4 DPU, 차세대 네트워킹, 양자 컴퓨팅까지 SC25에서 가속 컴퓨팅의 성과가 발표됐으며, 글로벌 슈퍼컴퓨팅과 AI 발전에 대해서도 조명했습니다.
by NVIDIA Korea

Supercomputing 2025(SC25) 콘퍼런스에서 NVIDIA BlueField DPU, 차세대 네트워킹, 양자 컴퓨팅, 국가 연구, AI 물리 등 다양한 분야의 혁신이 공개됐습니다. 가속화된 시스템으로 AI 슈퍼컴퓨팅의 새로운 장이 열리고 있는 것입니다.

NVIDIA의 가속 컴퓨팅 부문 부사장 겸 총괄 매니저인 Ian Buck이 스페셜 연설을 진행하고 있습니다.

NVIDIA BlueField-4 데이터 처리 장치로 구동되는 스토리지 혁신도 확인할 수 있었는데요. 이는 기가스케일 AI 인프라를 가속화하는 풀스택 BlueField 플랫폼의 일부입니다.

NVIDIA Quantum-X Photonics InfiniBand CPO 네트워킹 스위치에 대한 추가 정보도 공개됐습니다. 이 스위치는 AI 팩토리의 에너지 소비량과 운영 비용을 획기적으로 절감할 수 있도록 지원하며, 텍사스 첨단 컴퓨팅 센터(Texas Advanced Computing Center, TACC), 람다(Lambda), 코어위브(CoreWeave)에 통합될 계획입니다.

NVIDIA 젠슨 황 CEO는 SC25 행사에 깜짝 등장해 참석자들에게 NVIDIA 슈퍼컴퓨팅 관련 소식을 전했죠.

젠슨 황 CEO는 “올해 가장 큰 소식은 Grace Blackwell입니다. 2세대 Grace 플랫폼인 GB300의 생산은 놀라울 정도로 순조롭게 진행되고 있는데요. 저희는 슈퍼컴퓨터를 ‘치클렛(Chiclets)’ 껌처럼 생산하고 있습니다”고 말했습니다.

또한 그는 세계에서 가장 작은 슈퍼컴퓨터인 NVIDIA DGX Spark AI 슈퍼컴퓨터를 선물로 가져왔습니다.

“이것이 바로 DGX Spark로, 10명에게 이 제품을 선물로 드릴 예정입니다. 크리스마스 트리 아래 놓으면 정말 멋질 것입니다.”

지난달 세계에서 가장 작은 AI 슈퍼컴퓨터인 DGX Spark의 출하가 시작됐습니다. DGX Spark는 페타플롭(petaflop) 수준의 AI 성능과 128GB 통합 메모리를 데스크탑 폼팩터에 탑재했는데요. 개발자가 최대 2,000억 개 파라미터 모델에 대한 추론을 실행하고 로컬에서 모델을 미세 조정할 수 있습니다. Grace Blackwell 아키텍처 기반으로 구축된 DGX Spark는 NVIDIA GPU, CPU, 네트워킹, CUDA 라이브러리, NVIDIA AI 소프트웨어 스택 전체를 통합합니다.

DGX Spark의 통합 메모리와 NVIDIA NVLink-C2C는 PCIe 젠5(Gen5) 대비 5배의 대역폭을 제공해 GPU-CPU 간 데이터 교환 속도를 가속화합니다. 이는 데스크탑 폼팩터 내에서 대규모 모델의 훈련 효율성을 높이고, 지연 시간을 줄이며, 원활한 미세 조정 워크플로우를 지원하죠.

AI 물리학 위한 최신 오픈 모델 제품군 ‘NVIDIA Apollo’ 공개

SC25에서는 AI 물리학을 위한 오픈 모델 제품군인 NVIDIA Apollo도 소개됐습니다. 여러 업계 선도 기업들은 전자 장치 자동화와 반도체, 전산 유체 역학, 구조 역학, 전자기학, 기상 등 다양한 분야에서 설계 프로세스를 시뮬레이션하고 가속화하기 위해 이 오픈 모델을 채택하고 있는데요. 여기에는 어플라이드 머티어리얼즈(Applied Materials), 케이던스(Cadence), 램리서치(LAM Research), 루미너리 클라우드(Luminary Cloud), KLA, 피직스X(PhysicsX), 리스케일(Rescale), 지멘스(Siemens), 시놉시스(Synopsys) 등이 있습니다.

오픈 모델 제품군은 최신 AI 물리학 개발을 활용해 신경 연산자(neural operator), 트랜스포머, 확산(diffusion) 방법 등 최고 수준의 머신 러닝 아키텍처를 도메인별 지식과 결합합니다. 아폴로는 사전 훈련된 체크포인트와 훈련, 추론, 벤치마킹을 위한 참조 워크플로우를 제공해 개발자가 특정 요구사항에 맞게 모델을 통합하고 맞춤화할 수 있도록 지원하죠.

NVIDIA Warp, 물리 시뮬레이션 성능 극대화

NVIDIA Warp는 컴퓨팅 물리와 AI를 위한 GPU 가속을 최대 245배까지 제공하는 목적형 오픈소스 파이썬(Python) 프레임워크입니다.

이는 시뮬레이션, 로보틱스, 머신러닝 워크로드에 체계적인 접근 방식을 제공하며, 파이썬의 접근성과 네이티브 CUDA 코드에 준하는 성능을 결합하죠.

워프는 파이토치(PyTorch), JAX, NVIDIA PhysicsNeMo, NVIDIA Omniverse의 머신 러닝 파이프라인과 통합되는 GPU 가속 3D 시뮬레이션 워크플로우 생성을 지원합니다. 이를 통해 개발자는 파이썬 프로그래밍 환경 내에서 복잡한 시뮬레이션 작업을 실행하고 대규모로 데이터를 생성할 수 있습니다.

Warp는 파이썬 수준의 생산성으로 CUDA 수준의 성능을 제공해 고성능 시뮬레이션 워크플로우 개발을 간소화합니다. GPU 프로그래밍의 장벽을 낮춰 고급 시뮬레이션과 데이터 생성을 보다 효율적이고 널리 접근 가능하게 함으로써 AI 연구와 엔지니어링을 가속화하도록 설계됐습니다.

지멘스, 뉴럴 컨셉(Neural Concept), 루미너리 클라우드 등이 NVIDIA Warp를 도입하고 있죠.

AI 팩토리 운영 체제를 구동하는 BlueField-4 공개

GTC Washington D.C.에서 공개된 NVIDIA BlueField-4 DPU는 AI 팩토리의 운영 체제를 구동합니다. 네트워킹, 스토리지, 보안 등 핵심 데이터센터 기능을 오프로드, 가속화, 격리함으로써 CPU와 GPU가 컴퓨팅 집약적 워크로드에 주력할 수 있도록 하죠.

64코어 NVIDIA Grace CPU와 NVIDIA ConnectX-9 네트워킹을 결합한 BlueField-4는 대규모 환경에서 전례 없는 성능, 효율성, 제로 트러스트 보안을 실현합니다. NVIDIA DOCA 마이크로서비스의 네이티브 통합을 통해 확장 가능한 컨테이너화된 AI 운영을 지원하며, 멀티테넌트 환경, 신속한 데이터 접근, 실시간 보호 기능을 제공합니다. 이 기술들은 데이터센터를 지능형 소프트웨어 정의 엔진으로 전환해 1조 토큰 규모의 AI를 포함한 다양한 작업을 가능하게 합니다.

AI 팩토리와 슈퍼컴퓨팅 센터의 규모와 역량이 지속적으로 확대되고 있습니다. 이에 따라, 대규모 훈련과 추론을 위한 구조화 데이터, 비구조화 데이터, AI 네이티브 데이터를 관리하기 위해 더 빠르고 지능적인 스토리지 인프라가 필요해졌죠.

선도적인 스토리지 혁신 기업인 DDN, 바스트 데이터(VAST Data), 웨카(WEKA)는 BlueField-4를 채택해 AI와 과학 워크로드의 성능과 효율성을 재정의하고 있습니다.

  • DDN은 차세대 AI 팩토리를 구축해 데이터 파이프라인을 가속화함으로써 AI와 HPC 워크로드에 대한 GPU 활용도를 극대화하고 있습니다.
  • 바스트 데이터는 대규모 AI 클러스터 전반에 걸쳐 지능형 데이터 이동과 실시간 효율성을 통해 AI 파이프라인을 발전시키고 있습니다.
  • 웨카는 BlueField-4 기반 뉴럴메시(NeuralMesh) 아키텍처를 출시해 DPU에서 직접 스토리지 서비스를 실행함으로써 AI 인프라를 단순화하고 가속화하고 있습니다.

이 HPC 스토리지 선도 기업들은 NVIDIA BlueField-4가 데이터 이동과 관리를 어떻게 혁신하는지 함께 선보이고 있습니다. 이를 통해 스토리지는 차세대 슈퍼컴퓨팅과 AI 인프라를 위한 성능 증폭 장치로 거듭나고 있죠.

NVIDIA ConnectX-9 SuperNIC

NVIDIA CPO 기술 도입으로 속도와 신뢰성 확보

TACC, 람다, 코어위브는 내년부터 차세대 시스템에 NVIDIA Quantum-X Photonics InfiniBand CPO(Co-Packaged Optics) 스위치를 통합할 계획이라고 발표했습니다.

NVIDIA Quantum-X Photonics 네트워킹 스위치는 AI 팩토리와 슈퍼컴퓨팅 센터의 에너지 소비량과 운영 비용을 획기적으로 절감하죠. 저희는 전자 회로와 광통신의 융합을 대규모로 실현했습니다.

AI 팩토리가 전례 없는 규모로 성장함에 따라 네트워크도 이에 발맞춰 진화해야 한다. NVIDIA Photonics 스위치 시스템은 작업 실행 시간 실패의 주요 원인인 기존 플러그형 트랜시버를 제거했습니다. 이로써 전력 효율성을 3.5배 향상시키고 복원력을 10배 높여 애플리케이션이 중단 없이 5배 더 오래 실행될 수 있도록 지원합니다.

실리콘밸리에서 열린 GTC 2024에서 1조 매개변수 규모의 생성형 AI 모델을 구동하기 위해 특별히 설계된 NVIDIA Quantum-X800 InfiniBand 스위치를 공개한 바 있습니다. SHARPv4(scalable hierarchical aggregation and reduction protocol), FP8 지원과 같은 혁신 기술 덕분에 이 플랫폼은 전례 없는 800Gb/s의 종단 간 처리량을 제공하는데요. 기존 제품 대비 2배의 대역폭과 9배의 네트워크 내 컴퓨팅 성능을 구현한 것입니다.

NVIDIA Quantum-X800이 대규모 AI 수요를 충족하기 위해 계속해서 널리 채택되는 가운데, 올해 초 GTC에서 발표된 NVIDIA Quantum-X Photonics는 더 큰 규모의 배포에서 발생하는 중요한 전력, 복원력, 신호 무결성 문제를 해결합니다. 스위치에 광학 장치를 직접 통합함으로써, 플러그형 트랜시버와 Link 플랩으로 인한 장애를 제거해 대규모 워크로드가 중단 없이 실행되도록 하죠. 더불어 플러그형 트랜시버 대비 최대 5배 향상된 성능으로 차세대 컴퓨팅 집약적 애플리케이션을 지원할 수 있는 인프라를 보장합니다.

람다의 클라우드 인프라 제품 매니저 Maxx Garrison은 “NVIDIA Quantum-X Photonics는 복원력을 갖춘 고성능 AI 네트워크 구축의 다음 단계를 상징합니다. 전력 효율성, 신호 무결성, 신뢰성 측면의 이러한 발전은 고객을 위한 효율적인 대규모 워크로드를 지원하는 핵심이 될 것”이라고 말했죠.

SHARPv4는 네트워크 내 집계와 축소 기능을 지원해 GPU 간 통신 오버헤드를 최소화합니다. FP8 정밀도와 결합돼 대역폭과 연산 요구량을 줄여 1조 개 매개변수 모델의 훈련을 가속화하며, 더 빠른 수렴과 높은 처리량을 제공하죠. 이는 NVIDIA Quantum-X800과 Quantum-X Photonics 스위치에 기본 탑재됩니다.

코어위브의 공동 창립자 겸 최고기술책임자(CTO)인 Peter Salanki는 “코어위브는 AI를 위한 에센셜 클라우드(Essential Cloud)를 구축하고 있습니다. NVIDIA Quantum-X Photonics를 통해 전력 효율성을 향상시키고, 대규모 AI 워크로드를 지원하는 데 있어 코어위브가 인정받는 신뢰성을 더욱 강화했는데요. 이를 통해 고객이 차세대 AI의 잠재력을 최대한 발휘할 수 있도록 돕고 있습니다”고 말했습니다.

NVIDIA Quantum-X Photonics 플랫폼은 NVIDIA Quantum Q3450 CPO 기반 InfiniBand 스위치와 ConnectX-8 SuperNIC을 핵심으로 합니다. 이는 최고 성능 환경을 위해 설계됐으며, 동시에 현저히 낮은 전력 소비, 높은 복원력, 낮은 지연 시간을 요구하죠.

전 세계 주요 슈퍼컴퓨팅 센터, NVQLink 도입

전 세계 12곳 이상의 최상위 과학 컴퓨팅 센터들이 가속 컴퓨팅과 양자 프로세서를 연결하는 범용 인터커넥트인 NVQLink를 도입하고 있습니다.

NVIDIA 가속 컴퓨팅 부문 부사장 겸 총괄 매니저인 Ian Buck은 “이번 슈퍼컴퓨팅 행사에서 우리는 전 세계 슈퍼컴퓨팅 센터들과 함께 차세대 양자 GPU, CPU-GPU 슈퍼컴퓨터 구축을 위해 전념했습니다. 이를 각자의 특정 연구 분야나 양자 컴퓨팅 배포 플랫폼에 연결하는 방안을 모색하고 있죠”라고 말했는데요.

NVQLink는 양자 프로세서를 NVIDIA GPU와 연결해 CUDA-Q 소프트웨어 플랫폼으로 구동되는 대규모 워크플로우를 지원합니다. NVQLink의 개방형 아키텍처는 슈퍼컴퓨팅 센터가 다양한 양자 프로세서를 통합하는 데 필요한 핵심 연결을 제공하면서 FP4 정밀도에서 40페타플롭의 AI 성능을 제공합니다.

미래에는 모든 슈퍼컴퓨터가 해결 가능한 문제 영역을 확장하기 위해 양자 프로세서를 활용하게 될 것입니다. 그리고 모든 양자 프로세서는 올바르게 작동하기 위해 GPU 슈퍼컴퓨터에 의존하게 될 전망이죠.

양자 컴퓨팅 기업 퀀티넘(Quantinuum)의 신형 헬리오스(Helios) QPU는 NVQLink를 통해 NVIDIA GPU와 통합됩니다. 그리고 확장 가능한 qLDPC 양자 오류 정정 코드의 실시간 디코딩을 세계 최초로 달성했죠. NVQLink의 마이크로초 단위 저지연 덕분에 이 시스템은 오류 정정 없이 95%에 그치던 정확도를 99%로 유지했습니다.

NVQLink를 통해 과학자, 개발자는 양자와 고전 하드웨어 간 보편적 연결 고리를 확보했으며, 이로 인해 확장 가능한 오류 정정, 하이브리드 애플리케이션, 실시간 양자-GPU 워크플로우 구현이 가능해졌습니다.

아태지역 초기 도입 기관에는 일본 산업기술종합연구소(AIST) 산하의 양자-AI 기술 글로벌 연구개발센터(G-QuAT)와 리켄(RIKEN, 이화학연구소) 고성능컴퓨팅센터, 한국의 한국과학기술정보연구원(KISTI), 대만의 국가고성능컴퓨팅센터(NCHC), 싱가포르의 국가 양자컴퓨팅 허브(싱가포르 양자기술센터, A*STAR 고성능 컴퓨팅 연구소, 싱가포르 국립 슈퍼컴퓨팅 센터의 공동 사업), 호주의 파우시 슈퍼컴퓨팅 연구 센터(Pawsey Supercomputing Research Centre) 등이 포함됩니다.

유럽과 중동지역에서는 다양한 기관에서 NVQLink를 도입하고 있습니다. 여기에는 CINECA, 덴마크 AI 슈퍼컴퓨터 운영사인 덴마크 DCAI, 프랑스 과학 연구 센터(GENCI),      체코 IT4이노베이션스(IT4I) 국립 슈퍼컴퓨팅 센터(National Supercomputing Center), 독일 율리히 슈퍼컴퓨팅 센터(JSC), 폴란드 포즈난 슈퍼컴퓨팅 네트워킹 센터(PCSS), 아랍에미리트 기술혁신연구소(TII), 사우디아라비아 킹 압둘라 과학기술대학교(KAUST) 등이 있습니다.

미국에서는 주요 국립 연구소들이 하이브리드 양자-고전 연구를 발전시키기 위해 NVQLink를 도입하고 있다. 여기에는 브룩헤이븐 국립연구소(Brookhaven National Laboratory), 페르미 국립 가속기 연구소(Fermi National Accelerator Laboratory), 로렌스 버클리 국립연구소(Lawrence Berkeley National Laboratory), 매사추세츠공과대학 링컨 연구소(MIT Lincoln Laboratory), 오크리지 국립연구소(Oak Ridge National Laboratory), 퍼시픽 노스웨스트 국립연구소(Pacific Northwest National Laboratory), 샌디아 국립연구소(Sandia National Laboratories) 등이 포함됩니다.

현실 세계를 위한 하이브리드 애플리케이션 개발

퀀티넘의 NVQLink를 탑재한 헬리오스 QPU가 달성한 성과는 다음과 같습니다.

  • qLDPC 오류 정정 코드의 최초 실시간 디코딩
  • NVQLink 정정 시 최대 99% 정확도, 비정정 시 최대 95% 달성
  • 60마이크로초 반응 시간으로 헬리오스의 1밀리초 요구사항을 16배 초과 달성

NVQLink는 확장 가능한 오류 수정과 하이브리드 애플리케이션을 위해 양자 프로세서와 GPU 슈퍼컴퓨팅을 통합합니다. 과학자들은 CUDA-Q API를 통해 단일 프로그래밍 환경을 확보할 수 있습니다. 개발자들은 실시간으로 양자-GPU 워크플로우를 구축하고 테스트할 수 있는 것이죠.

NVQLink를 통해 전 세계 슈퍼컴퓨팅 센터들은 다양한 양자 프로세서를 NVIDIA 가속 컴퓨팅과 전례 없는 속도와 규모로 연결함으로써 실용적인 양자-고전 시스템의 기반을 마련합니다.

NVIDIA와 리켄, 일본의 과학적 경계를 확장하다

NVIDIA와 리켄은 과학 연구용 AI와 양자 컴퓨팅 분야의 일본 리더십 확장을 위해 두 대의 새로운 GPU 가속 슈퍼컴퓨터를 구축 중입니다. 이 시스템들은 GB200 NVL4 플랫폼과 NVIDIA Quantum-X InfiniBand 네트워킹을 통해 연결된 2,140개의 NVIDIA Blackwell GPU를 탑재해, 일본의 주권형 AI 전략과 안정적인 국내 인프라를 강화할 예정입니다.

  • 과학용 AI 시스템: Blackwell GPU 1,600개가 생명과학, 재료 과학, 기후·기상 예측, 제조, 연구실 자동화 분야의 연구를 지원합니다.
  • 양자 컴퓨팅 시스템: Blackwell GPU 540개가 양자 알고리즘, 하이브리드 시뮬레이션, 양자-고전 방식의 가속화를 실현합니다.

이 파트너십은 후지쯔(Fujitsu)와 NVIDIA의 협력을 바탕으로, 리켄이 후가쿠(Fugaku) 슈퍼컴퓨터의 후속 모델인 후가쿠NEXT를 공동 설계하는 데 기반을 두고 있습니다. 2030년까지 애플리케이션 성능을 100배 향상시키고 양산 수준의 양자 컴퓨터를 통합할 전망입니다.

리켄의 두 신규 시스템은 2026년 봄에 가동될 예정입니다.

Arm, NVIDIA NVLink 퓨전 채택

와트당 효율성이 성공을 좌우하는 아키텍처의 전환 속에서 AI는 데이터센터를 재편하고 있습니다. 그 중심에는 10억 개 이상의 코어에 배포돼 2025년까지 하이퍼스케일러 시장 점유율 50% 달성이 예상되는 암 네오버스(Arm Neoverse)가 있죠. AWS, 구글(Google), 마이크로소프트(Microsoft), 오라클(Oracle), 메타(Meta) 등 모든 주요 공급업체가 네오버스를 기반으로 구축 중이며, 대규모 AI 구동에서 네오버스의 역할은 더욱 두드러지고 있습니다.

급증하는 수요를 충족하기 위해 Arm은 네오버스를 Grace Blackwell에서 최초로 선보인 고대역폭 일관성 인터커넥트인 NVIDIA NVLink Fusion으로 확장합니다. NVLink Fusion은 CPU, GPU, 가속기를 하나의 통합 랙 스케일 아키텍처로 연결해 AI 성능을 제한하는 메모리와 대역폭 병목 현상을 제거합니다. 이는 Arm의 AMBA CHI C2C 프로토콜과 연결되며 Arm 기반 CPU와 파트너사가 선호하는 가속기 간 원활한 데이터 이동을 보장하죠.

NVIDIA는 Arm과 함께 AI 인프라의 새로운 기준을 제시하며, 생태계 파트너들이 차별화된 에너지 효율 시스템을 구축해 AI 시대 전반에 걸친 혁신을 가속화할 수 있도록 지원합니다.

Ian Buck 부사장은 “자체 Arm CPU를 개발하거나 Arm IP를 사용하는 업체들은 실제로 NVLink Fusion에 접근할 수 있으며, 해당 Arm CPU를 NVIDIA GPU와 나머지 NVLink 생태계에 연결할 수 있습니다. 이는 랙과 확장형 인프라 수준에서 실현되고 있습니다”고 말했습니다.

가속 컴퓨팅을 위한 스마트한 전력 관리

AI 팩토리가 확장됨에 따라 에너지가 새로운 병목 현상으로 제기되고 있습니다. NVIDIA Domain Power Service(DPS)는 전력을 동적이고 조율된 자원으로 변화시켜 이러한 제약을 기회로 전환하죠. 쿠버네티스(Kubernetes) 서비스로 운영되는 DPS는 랙부터 룸, 시설에 이르기까지 데이터센터 전반의 에너지 사용을 모델링하고 관리합니다. 운영자는 인프라를 확장하지 않고도 전력을 지능적으로 제어해 메가와트당 더 높은 성능을 추출하고 처리량을 향상시킬 수 있습니다.

DPS는 차세대 데이터센터 설계와 운영 플랫폼인 NVIDIA Omniverse DSX Blueprint와 긴밀하게 통합됩니다. 이 기술은 시설 전반에 걸쳐 워크로드를 균형 있게 분배하는 파워 리저베이션 스티어링(Power Reservation Steering)과 특정 작업 요구에 맞춰 GPU 전력을 조정하는 워크로드 파워 프로파일 솔루션(Workload Power Profile Solution)과 함께 작동하죠. 이 기술들은 에너지 효율을 고려한 제어 계층인 DSX 부스트(Boost)를 구성해 성능 목표를 달성하면서 효율성을 극대화합니다.

또한 DPS는 데이터센터를 넘어 더 넓은 영역으로 확장합니다. 그리드 연동 API를 통해 자동화된 부하 감축과 수요 반응을 지원해 전력사가 피크 시간대에 그리드를 안정화할 수 있도록 지원하는데요. 그 결과, 모든 와트를 실질적인 성과로 전환하는 회복탄력성 있는 그리드 연동형 AI 팩토리를 구현할 수 있습니다.

NVIDIA와 CoreWeave, Graph500 BFS 벤치마크에서 기존 최고 기록을 두 배로 달성

미국 댈러스에 위치한 CoreWeave 데이터센터에서 구축된 8,192개의 NVIDIA H100 GPU를 활용해 제30회 Graph500 너비 우선 탐색(BFS) 부문 1위를 차지했습니다. 초당 410조 개의 에지를 탐색하는 성과를 달성했으며, 이는 기존 최고 기록보다 2배 이상 향상된 성능이죠.

이 벤치마크는 2조 개의 정점과 32조 개의 에지로 구성된 대규모 그래프 데이터셋을 처리하는 시스템의 능력을 측정합니다.

CoreWeave 클러스터에서 8,192개의 H100 GPU를 활용해 수행한 제출 결과는 Graph500 너비 우선 탐색 부문 30위 목록에서 1위를 차지했습니다.

이러한 성과는 NVIDIA Hopper GPU 아키텍처의 성능, NVIDIA Quantum-2 InfiniBand 네트워킹, CoreWeave와의 협력, 그리고 다양한 NVIDIA 기술로 구현된 맞춤형 소프트웨어 덕분에 가능했죠. 여기에는 CUDA 플랫폼, NVSHMEM 병렬 프로그래밍 인터페이스, InfiniBand GPUDirect Async 기술, 그리고 고성능 GPU-to-GPU 활성 메시징을 위해 구축된 라이브러리가 포함됩니다.