‘NVIDIA DGX Cloud’로 NVIDIA AI 슈퍼컴퓨터에 즉시 액세스한다

AI 슈퍼컴퓨팅 서비스인 NVIDIA DGX Cloud를 공개합니다! DGX Cloud는 기업들이 생성형 AI와 기타 획기적인 애플리케이션을 위한 고급 모델을 훈련하는 데 필요한 인프라와 소프트웨어에 즉각적인 액세스를 제공합니다.

DGX Cloud는 NVIDIA AI 소프트웨어와 함께 NVIDIA DGX AI 슈퍼컴퓨팅 전용 클러스터를 제공합니다. 이 서비스를 사용하는 모든 기업은 간단한 웹 브라우저를 사용하여 자체 AI 슈퍼컴퓨터에 액세스할 수 있게 되죠. 따라서 온프레미스 인프라 구축, 배포, 관리의 복잡성을 없앨 수 있습니다.

기업은 DGX Cloud 클러스터를 월(月) 단위로 임대하기 때문에, 수요가 많아진 가속 컴퓨팅 리소스를 기다릴 필요 없이 대규모 멀티 노드 훈련 워크로드의 개발을 빠르고 쉽게 확장할 수 있습니다.

NVIDIA의 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “우리는 아이폰(iPhone)이 출시되는 순간과 같은 혁명을 AI 분야에서 맞이하고 있습니다. 스타트업은 파격적인 제품과 비즈니스 모델을 구축하기 위해 경쟁하고 있으며, 기존 기업도 이에 대한 대응을 모색하고 있습니다. DGX Cloud를 통해 고객은 글로벌 규모의 클라우드에서 NVIDIA AI 슈퍼컴퓨팅에 즉시 액세스할 수 있습니다”고 말했습니다.

NVIDIA는 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI)를 시작으로 DGX Cloud 인프라를 호스팅하기 위해 선도적인 클라우드 서비스 제공업체들과 협력하고 있습니다. OCI RDMA 슈퍼클러스터(OCI RDMA Supercluster)는 32,000개 이상의 GPU 슈퍼클러스터로 확장할 수 있는 전용 RDMA 네트워크, 베어메탈 컴퓨팅, 고성능 로컬, 블록 스토리지를 제공합니다.

마이크로소프트 애저(Microsoft Azure)는 다음 분기에 DGX Cloud 호스팅을 시작할 예정이며, 서비스는 구글 클라우드(Google Cloud) 등으로 확장될 예정입니다.

NVIDIA DGX 클라우드 도입해 성공 가속화하는 선도 기업들

DGX Cloud를 최초로 사용하는 선구적인 AI 활용 기업들로는 세계 최고의 생명공학기업 중 하나인 암젠(Amgen), 보험 기술 선도기업 CCC 인텔리전트 솔루션(CCC Intelligent Solutions), 디지털 비즈니스 플랫폼 기업 서비스나우(ServiceNow)가 있습니다.

암젠은 DGX Cloud와 함께 신약 개발을 가속화하는 NVIDIA BioNeMo 대규모 언어 모델(LLM) 소프트웨어를 사용하고 있죠. 여기에는 NVIDIA RAPIDS 데이터 사이언스 가속 라이브러리가 포함된 NVIDIA AI Enterprise 소프트웨어가 포함됩니다.

암젠 디지털 혁신 연구 가속화 센터의 피터 그랜드서드(Peter Grandsard) 생물 치료학 발견 연구 부문 총괄은 “NVIDIA DGX Cloud와 NVIDIA BioNeMo 덕분에, AI 인프라를 관리하고 머신 러닝 엔지니어링을 구축하는 대신, 생물학에 더욱 집중할 수 있습니다. DGX Cloud의 강력한 컴퓨팅과 멀티 노드 기능 덕분에 우리는 BioNeMo로 단백질 LLM 훈련 속도를 3배로 높이고, NVIDIA RAPIDS로 훈련 후 분석을 다른 대체 플랫폼에 비해 최대 100배 더 빠르게 달성할 수 있었습니다”고 말했죠.

손해보험 경제 분야의 선도적인 클라우드 플랫폼인 CCC는 DGX Cloud를 사용해 AI 모델의 개발과 훈련을 가속화하고 확장하고 있습니다. 이러한 모델은 기업의 혁신적인 자동 보상처리 솔루션을 지원해 업계의 지능형 자동화를 가속화하고, 매일 수백만 명의 비즈니스 사용자와 소비자의 보험금 청구 경험을 개선하는 데 도움을 줍니다.

서비스나우는 유연하고 확장 가능한 하이브리드 클라우드 AI 슈퍼컴퓨팅을 위해 온프레미스 NVIDIA DGX 슈퍼컴퓨터와 함께 DGX 클라우드를 사용하여 대규모 언어 모델(LLM), 코드 생성, 인과관계 분석에 대한 AI 연구를 지원합니다. 또한 서비스나우는 NVIDIA Megatron-LM 프레임워크에서 훈련된 책임 있는 오픈사이언스 생성형 AI 이니셔티브인 빅코드(BigCode) 프로젝트를 공동 주관하고 있습니다.

브라우저를 통해 NVIDIA AI 슈퍼컴퓨팅과 소프트웨어 사용

기업들은 DGX Cloud와 온프레미스 NVIDIA DGX 슈퍼컴퓨터에서 원활한 사용자 경험을 제공하는 NVIDIA Base Command Platform 소프트웨어를 사용해, DGX Cloud 훈련 워크로드를 관리, 모니터링합니다. 고객은 Base Command Platform을 사용하여 각 작업에 필요한 적절한 양과 유형의 DGX 인프라로 워크로드를 실행할 수 있죠.

DGX Cloud에 포함된 NVIDIA AI 플랫폼의 소프트웨어 계층 NVIDIA AI Enterprise는 데이터 사이언스 파이프라인을 가속화하고 프로덕션 AI의 개발, 배포를 간소화하기 위해 엔드 투 엔드(end-to-end) AI 프레임워크와 사전 훈련된 모델을 제공합니다. 새로 출시된 NVIDIA AI Enterprise 3.1에서 제공되는 새로운 사전 훈련된 모델, 최적화된 프레임워크, 가속화된 데이터 사이언스 소프트웨어 라이브러리는 개발자가 AI 프로젝트 시작을 더 쉽게 할 수 있도록 지원합니다.

DGX Cloud의 각 인스턴스는 노드당 총 640GB의 GPU 메모리에 8개의 NVIDIA H100 또는 A100 80GB Tensor Core GPU를 갖추고 있습니다. NVIDIA Networking으로 구축된 저지연 고성능 패브릭은 워크로드를 상호 연결된 시스템의 클러스터 전체로 확장할 수 있도록 지원합니다. 여러 인스턴스가 하나의 대규모 GPU 역할을 하여 고성능 AI 훈련에 필요한 요구사항을 충족할 수 있습니다. 고성능 스토리지는 DGX Cloud에 통합되어 AI 슈퍼컴퓨팅을 위한 완벽한 솔루션을 제공합니다.

DGX Cloud는 AI 개발 파이프라인 전체에 대해 NVIDIA 전문가 지원을 제공합니다. 고객은 NVIDIA 엔지니어와 직접 협력해 모델을 최적화하고, 폭넓은 산업 사용 사례에서 개발 관련 문제를 신속하게 해결할 수 있습니다.