엔비디아, OCI에 최신 엔비디아 GPU 가속 컴퓨팅 인스턴스 탑재

NVIDIA H100 Tensor 코어 GPU, 오라클 클라우드 인프라스트럭처에 정식 제공, 추후 NVIDIA L40S GPU도 지원 예정
by NVIDIA Korea

엔비디아는 오라클과 협력해 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, 이하 OCI)에 최신 엔비디아(NVIDIA) GPU 가속 컴퓨팅 인스턴스를 탑재합니다.

생성형 AI대규모 언어 모델(LLM)이 획기적인 혁신을 주도하면서 훈련과 추론에 대한 컴퓨팅 요구가 급증하고 있습니다. 따라서 최신 생성형 AI 애플리케이션에는 대규모 워크로드를 빠르고 정확하게 처리할 수 있는 최첨단 인프라부터 가속화된 풀스택 컴퓨팅이 필요합니다. 이러한 요구를 충족하기 위해 OCI는 OCI 컴퓨트(OCI Compute)에서 엔비디아 H100 텐서 코어 GPU(H100 Tensor Core GPUs)를 정식 제공하고, 엔비디아 L40S GPU도 곧 지원 예정이라고 밝혔습니다.

OCI의 엔비디아 H100 텐서 코어 GPU 인스턴스

OCI 컴퓨트 베어 메탈 인스턴스(bare-metal instances)는 엔비디아 호퍼 아키텍처(Hopper architecture)기반의 엔비디아 H100 GPU가 탑재되었습니다. 이를 통해 모든 워크로드를 위한 탁월한 성능, 확장성, 유연성을 제공하며, 대규모 AI와 고성능 컴퓨팅을 위한 비약적인 도약을 가능하게 합니다.

엔비디아 H100 GPU를 사용하는 조직은 엔비디아 A100 텐서 코어 GPU(A100 Tensor Core GPU)를 활용할 때보다 AI 추론 성능이 최대 30배 향상되고, AI 훈련이 4배 향상됩니다. H100 GPU는 LLM 훈련과 실행 과정에서 추론 등 리소스 집약적인 컴퓨팅 작업을 위해 설계되었습니다.

BM.GPU.H100.8 OCI 컴퓨트 형태에는 각각 80GB의 HBM2 GPU 메모리를 갖춘 8개의 엔비디아 H100 GPU가 포함됩니다. 8개의 GPU 간에3.2TB/s의 이중 대역폭이 제공되므로 각 GPU는 엔비디아 NV스위치(NVSwitch)와 NV링크(NVLink) 4.0 기술을 통해 다른 7개의 모든 GPU와 직접 통신할 수 있습니다. 또한 여기에는 각각 3.84TB 용량의 로컬 NVMe 드라이브 16개, 112코어의 4세대 인텔 제온(4th Gen Intel Xeon) CPU 프로세서와 2TB의 시스템 메모리도 포함됩니다.

즉, 이 형태는 조직의 가장 까다로운 워크로드에 최적화돼 있다고 할 수 있습니다.

아울러 조직은 워크로드의 타임라인과 규모에 따라 OCI 슈퍼클러스터(OCI Supercluster)를 통해 고성능, 초저지연 네트워크를 사용해 단일 노드에서 최대 수만 개의 H100 GPU로 엔비디아 H100 GPU 사용량을 확장할 수 있습니다.

OCI의 엔비디아 L40S GPU 인스턴스

엔비디아 L40S GPU는 엔비디아 에이다 러브레이스 아키텍처(Ada Lovelace architecture)를 기반으로 하는 데이터센터용 유니버설(universal) GPU입니다. L40S GPU는 LLM 추론과 훈련, 비주얼 컴퓨팅과 비디오 애플리케이션을 위한 획기적인 멀티 워크로드 가속화를 제공합니다. 엔비디아 L40S GPU가 탑재된 OCI 컴퓨팅 베어 메탈 인스턴스는 올해 말부터 얼리 액세스가 가능하며, 2024년 초 상용화될 예정입니다.

이 인스턴스는 그래픽, 비디오 컴퓨팅 작업뿐만 아니라 중소 규모의 AI 워크로드를 다루기 위해 엔비디아 H100과 A100 GPU 인스턴스의 대안을 제공할 예정입니다. 엔비디아 L40S GPU는 생성형 AI 워크로드에서 최대 20%의 성능 향상, 엔비디아 A100에 비해 미세 조정(fine-tuning) AI 모델에서 최대 70%의 성능 향상을 제공합니다.

BM.GPU.L40S.4 OCI 컴퓨트 형태에는 4개의 엔비디아 L40S GPU가 포함됩니다. 여기에는 최대 112코어의 최신 세대의 인텔 제온 CPU, 1TB의 시스템 메모리, 데이터 캐싱용(caching) 15.36TB의 저지연 NVMe 로컬 스토리지, 400GB/s의 클러스터 네트워크 대역폭이 함께 제공됩니다. 이 인스턴스는 LLM 훈련, 미세 조정과 추론부터 엔비디아 옴니버스(Omniverse) 워크로드, 산업 디지털화, 3D 그래픽과 렌더링, 비디오 트랜스코딩과 FP32HPC와 같은 다양한 용도를 다루기 위해 만들어졌습니다.

엔비디아와 OCI: 엔터프라이즈 AI(Enterprise AI)

이번 엔비디아와 OCI의 협력은 모든 규모의 조직이 최첨단 엔비디아 H100과 L40S GPU 가속 인프라를 통해 생성형 AI 혁신에 동참할 수 있도록 지원합니다.

그러나 엔비디아 GPU 가속 인스턴스에 대한 액세스만으로는 충분하지 않을 수 있습니다. OCI 컴퓨팅에서 엔비디아 GPU의 잠재력을 최대한 활용하려면 최적의 소프트웨어 레이어가 필요합니다. 엔비디아 AI 엔터프라이즈지원 서비스로 기본 엔비디아 GPU 인프라에 최적화된 오픈 소스 컨테이너와 프레임워크를 활용합니다. 이를 통해 엔터프라이즈급 가속화된 AI 소프트웨어의 개발과 배포를 간소화합니다.

자세한 내용은 9월 20일 오라클 클라우드 월드(Oracle Cloud World) AI 파빌리온(AI Pavillion)에서 진행되는 새로운 OCI 인스턴스에 대한 세션에서 확인할 수 있습니다. 또한 OCI, OCI 컴퓨트, 오라클의 AI 접근 방식, 엔비디아 AI 플랫폼과 관련된 내용은 각 웹사이트에서 확인할 수 있습니다.