기업들은 운영 효율성을 높이고 비용을 절감하며 혁신을 추진하기 위해 생성형 AI, LLM(거대 언어 모델), 최신 그래픽과 디지털 트윈 기술을 빠르게 도입하고 있습니다.
그러나 이러한 기술을 효과적으로 도입하려면 기업은 최첨단 풀스택 가속 컴퓨팅 플랫폼에 액세스해야 합니다. 이러한 수요를 충족하기 위해 OCI(Oracle Cloud Infrastructure)는 NVIDIA L40S GPU 베어메탈 인스턴스와 단일 NVIDIA H100 Tensor 코어 GPU로 가속화된 새로운 가상 머신을 곧 출시할 예정이라고 발표했습니다. 이 새로운 가상 머신은 NVIDIA HGX H100 8-GPU 베어메탈 인스턴스를 포함하는 OCI의 기존 H100 포트폴리오를 확장합니다.
NVIDIA 네트워킹과 결합되어 NVIDIA 소프트웨어 스택을 실행하는 이 플랫폼은 강력한 성능과 효율성을 제공하여 기업이 생성형 AI를 발전시킬 수 있도록 지원합니다.
NVIDIA L40S, OCI에서 제공되다
NVIDIA L40S는 생성형 AI, 그래픽과 비디오 애플리케이션을 위한 획기적인 멀티 워크로드 가속화를 제공하도록 설계된 범용 데이터센터 GPU입니다. 4세대 Tensor 코어를 탑재하고 FP8 데이터 형식을 지원하는 L40S GPU는 다양한 생성형 AI 활용 사례에서 중소규모 LLM의 트레이닝과 파인튜닝, 그리고 추론에 탁월한 성능을 발휘합니다.
예를 들어, 단일 L40S GPU(FP8)는 입력과 출력 시퀀스 길이가 128인 NVIDIA TensorRT-LLM을 사용하는 Llama 3 8B용 단일 NVIDIA A100 Tensor 코어 GPU(FP16)보다 초당 최대 1.4배 더 많은 토큰을 생성할 수 있습니다.
L40S GPU는 또한 동급 최고의 그래픽 및 미디어 가속을 제공합니다. 3세대 NVIDIA 레이 트레이싱 코어(RT 코어)와 다중 인코딩/디코딩 엔진을 탑재하고 있어 고급 시각화 및 디지털 트윈 애플리케이션에 이상적인 성능을 제공합니다.
L40S GPU는 이전 제품 대비 최대 3.8배의 실시간 레이 트레이싱 성능을 제공하는데요, 더 빠른 렌더링과 부드러운 프레임 레이트를 위해 NVIDIA DLSS 3를 지원합니다. 따라서 이 GPU는 실시간의 사실적인 3D 시뮬레이션과 AI 기반 디지털 트윈을 구현하는 NVIDIA Omniverse 플랫폼에서 애플리케이션을 개발하는 데 이상적입니다. 기업들은 L40S GPU의 Omniverse를 통해 산업 디지털화를 위한 최첨단 3D 애플리케이션과 워크플로우를 개발하여 제품, 프로세스 및 시설을 생산하기 전에 실시간으로 설계, 시뮬레이션 및 최적화할 수 있습니다.
OCI는 BM.GPU.L40S.4 베어메탈 컴퓨팅 형태의 L40S GPU를 제공할 예정이며, 각각 48GB의 GDDR6 메모리가 장착된 4개의 NVIDIA L40S GPU가 탑재되어 있습니다. 이 형태에는 7.38TB 용량의 로컬 NVMe 드라이브, 112코어의 4세대 Intel Xeon CPU, 1TB의 시스템 메모리가 포함됩니다.
이러한 형태는 OCI의 베어메탈 컴퓨팅 아키텍처를 통해 높은 처리량과 지연 시간에 민감한 AI 또는 머신러닝 워크로드에 대한 가상화의 오버헤드를 제거합니다. 가속화된 컴퓨팅 셰이프는 서버 효율성을 개선하기 위해 NVIDIA BlueField-3 DPU를 탑재하여 CPU에서 데이터센터 작업을 오프로드하여 네트워킹, 스토리지 및 보안 워크로드를 가속화합니다. BlueField-3 DPU 활용으로 OCI는 전체 장비에 걸쳐 오프박스 가상화 전략을 더욱 강화할 수 있게 되었습니다.
NVIDIA L40S가 탑재된 OCI Supercluster는 최대 3,840개의 GPU를 위한 800Gbps의 인터노드 대역폭과 낮은 지연 시간으로 초고성능을 구현하는데요, OCI의 클러스터 네트워크는 RoCE v2를 통해 NVIDIA ConnectX-7 NIC를 사용하여 AI 트레이닝을 비롯한 높은 처리량과 지연 시간에 민감한 워크로드를 지원합니다.
“저희는 30% 더 효율적인 비디오 인코딩을 위해 베어메탈 인스턴스와 NVIDIA L40S GPU를 갖춘 OCI AI 인프라를 선택했습니다. OCI의 Beamr Cloud로 처리된 비디오는 스토리지 및 네트워크 대역폭 소비를 최대 50%까지 줄여 파일 전송 속도를 2배로 높이고 최종 사용자의 생산성을 향상시킵니다. Beamr은 OCI 고객들에게 비디오 AI 워크플로우를 제공하여 비디오의 미래에 대비할 수 있도록 지원할 것입니다.” 라고 Beamr Cloud의 CEO Sharon Carmel은 사용 소감에 대해 이같이 밝혔습니다.”
OCI에서 단일 GPU H100 VM 출시 예정
단일 NVIDIA H100 텐서 코어 GPU로 가속화된 가상 머신 형태의 VM.GPU.H100.1 컴퓨팅 가상 머신이 곧 OCI에 출시될 예정입니다. 이는 생성형 AI 및 HPC 워크로드에 NVIDIA H100 GPU의 성능을 사용하고자 하는 기업에게 비용 효율적인 온디맨드 액세스를 제공할 것입니다.
단일 H100은 소규모 워크로드 및 LLM 추론에 적합한 플랫폼을 제공합니다. 예를 들어, 하나의 H100 GPU는 128의 입력 및 출력 시퀀스 길이와 FP8 정밀도의 NVIDIA TensorRT-LLM에서 Llama 3 8B의 경우 초당 27,000개 이상의 토큰을 생성할 수 있습니다(단일 A100 GPU보다 최대 4배 더 많은 처리량, FP16 정밀도에서).
VM.GPU.H100.1은 2×3.4TB의 NVMe 드라이브 용량, 13코어의 4세대 인텔 제온 프로세서, 246GB의 시스템 메모리로 구성되어 있어 다양한 AI 작업에 적합합니다.
Altair의 데이터 관리 분석 수석 엔지니어인 Yeshwant Mummaneni는 “Oracle Cloud의 베어메탈 컴퓨팅과 NVIDIA H100과 A100 GPU, 저지연 슈퍼클러스터, 고성능 스토리지는 Altair의 전산 유체 역학와 구조 역학 솔버에 최대 20% 향상된 가격 대비 성능을 제공합니다.”라고 설명합니다. “Altair Unlimited 가상 어플라이언스를 위한 가상 머신에 이러한 GPU를 활용할 수 있기를 기대합니다.”
검증에 사용되는 GH200 베어메탈 인스턴스
OCI는 고객 테스트를 위해 BM.GPU.GH200 컴퓨팅 형태도 제공했습니다. 이 컴퓨팅 형태는 NVIDIA Grace Hopper 슈퍼칩과 NVIDIA Grace CPU와 NVIDIA Hopper GPU 사이의 고대역폭, 캐시 일관성 900GB/s 연결인 NVLink-C2C를 특징으로 합니다. 이를 통해 600GB 이상의 액세스 가능한 메모리를 제공하여 테라바이트급 데이터를 실행하는 애플리케이션에서 NVIDIA A100 GPU에 비해 최대 10배 더 높은 성능을 제공합니다.
엔터프라이즈 AI에 최적화된 소프트웨어
기업들은 OCI에서 AI, HPC 및 데이터 분석 워크로드를 가속화할 수 있는 다양한 NVIDIA GPU를 보유하고 있습니다. 그러나 이러한 GPU 가속 컴퓨팅 인스턴스의 잠재력을 극대화하려면 최적화된 소프트웨어 레이어가 필요합니다.
OCI 마켓플레이스에서 사용 가능한 NVIDIA AI Enterprise 소프트웨어 플랫폼의 일부인 NVIDIA NIM은 고성능 AI 모델 추론을 안전하고 안정적으로 배포하여 세계적인 수준의 생성형 AI 애플리케이션을 배포하도록 설계된 사용하기 쉬운 마이크로서비스 세트입니다.
NVIDIA GPU에 최적화된 NIM 사전 빌드 컨테이너는 개발자에게 향상된 소유 비용, 빠른 출시 시간 및 보안을 제공합니다. 인기 있는 커뮤니티 모델을 위한 NIM 마이크로서비스는 NVIDIA API 카탈로그에서 찾을 수 있으며, OCI에서 쉽게 배포할 수 있습니다.
성능은 시간이 지남에 따라 NVIDIA H200 Tensor 코어 GPU와 NVIDIA Blackwell GPU를 포함한 향후 출시될 GPU 가속 인스턴스를 통해 계속 향상될 것입니다.
OCI에 연락하여 L40S GPU를 주문하고 GH200 슈퍼칩을 테스트해 보세요.
소프트웨어 제품 정보에 관한 서비스 약관을 참조하세요.