고객이 AI 컴퓨팅 리소스를 보다 효율적으로 활용할 수 있도록 지원하기 위해 NVIDIA는 Kubernetes 기반으로 워크로드 관리 및 오케스트레이션 소프트웨어 제공업체인 Run:ai를 인수하는 최종 계약을 체결했다고 발표했습니다.
클라우드, 엣지, 온프레미스 데이터센터 인프라에 워크로드가 분산되면서 고객의 AI 배포는 점점 더 복잡해지고 있는데요.
생성형 AI, 추천 시스템, 검색 엔진, 그리고 기타 다양한 워크로드를 관리하고 오케스트레이션하려면 시스템 수준과 기본 인프라에서 성능을 최적화하기 위한 정교한 스케줄링이 필요합니다.
엔터프라이즈 고객들은 Run:ai를 통해 온프레미스, 클라우드 또는 하이브리드 환경에서 컴퓨팅 인프라를 관리하고 최적화할 수 있습니다.
이 기업은 최신 AI 및 클라우드 인프라를 위한 오케스트레이션 레이어인 Kubernetes에 개방형 플랫폼을 구축했습니다. 이 플랫폼은 널리 사용되는 모든 Kubernetes 변형을 지원하며 서드파티 AI 도구와 프레임워크에 통합됩니다.
현재 다양한 산업 분야의 세계 최대 기업들이 Run:ai 플랫폼을 사용하여 데이터센터 규모의 GPU 클러스터를 관리하고 있습니다.
“Run:ai는 2020년부터 NVIDIA와 긴밀하게 협력해 왔으며, 양사는 고객들이 인프라를 최대한 활용할 수 있도록 돕는 데 열정을 공유하고 있습니다. NVIDIA와 함께하게 되어 매우 기쁘며, 앞으로도 함께 여정을 이어갈 수 있기를 기대하고 있습니다” 라며 Run:ai의 공동 설립자 겸 CEO인 Omri Geller는 이번 인수에 대한 소감을 밝혔습니다.
Run:ai 플랫폼은 AI 개발자들과 그 팀들을 다음과 같이 지원하고 있습니다.
- 공유 컴퓨팅 인프라를 관리하기 위한 중앙 집중식 인터페이스로, 복잡한 AI 워크로드에 더 쉽고 빠르게 액세스할 수 있게 합니다.
- 사용자를 추가하고, 팀별로 사용자를 큐레이션하고, 클러스터 리소스에 대한 액세스를 제공하고, 할당량, 우선순위 그리고 풀을 제어하고, 리소스 사용을 모니터링 및 보고하는 기능을 제공합니다.
- GPU를 풀링하고 컴퓨팅 성능을 공유하는 기능 – 일부 GPU부터 여러 개의 GPU 또는 여러 노드의 GPU를 서로 다른 클러스터에서 실행하는 기능까지 – 별도의 작업을 위해 GPU를 풀링하고 컴퓨팅 성능을 공유할 수 있습니다.
- 효율적인 GPU 클러스터 리소스 활용으로 고객이 컴퓨팅 투자에서 더 많은 것을 얻을 수 있습니다.
인수 이후에도 NVIDIA는 동일한 비즈니스 모델 하에 Run:ai의 제품을 계속 제공할 예정입니다. 또한 NVIDIA는 엔터프라이즈 개발자들을 위해 주요 클라우드 기업들과 공동 엔지니어링된 AI 플랫폼인 NVIDIA DGX Cloud의 일부로서, 생성형 AI에 최적화된 통합 풀스택 서비스를 제공하는 Run:ai 제품 로드맵에 지속적으로 투자할 예정입니다.
NVIDIA DGX와 DGX Cloud 고객들은 특히 거대 언어 모델 배포를 위한 AI 워크로드에 Run:ai의 기능을 이용할 수 있습니다. Run:ai의 솔루션은 이미 NVIDIA DGX, NVIDIA DGX SuperPOD, NVIDIA Base Command, NGC 컨테이너, NVIDIA AI Enterprise 소프트웨어 등 다양한 제품에 통합되어 있습니다.
또한 NVIDIA의 가속 컴퓨팅 플랫폼과 Run:ai의 플랫폼은 서드파티 솔루션의 광범위한 생태계를 지속적으로 지원하여 고객에게 선택권과 유연성을 제공할 것입니다.
NVIDIA는 Run:ai와 함께 고객이 어디서나 GPU 솔루션에 액세스할 수 있는 단일 패브릭을 구축할 수 있도록 지원할 예정입니다. 이를 통해 고객들은 GPU 활용도 향상, GPU 인프라 관리 개선, 개방형 아키텍처를 통한 유연성 향상 등의 이점들을 누릴 수 있습니다.