NVIDIA NIM와 케이서브의 통합으로 생성형 AI 모델 배포 쉬워진다

기업에서 생성형 AI 배포가 어느 때보다도 쉬워질 것으로 기대됩니다.

생성형 AI 추론 마이크로 서비스 세트인 NVIDIA NIM은 케이서브(Kserve)에서 동작합니다. 오픈 소스 소프트웨어인 케이서브는 AI 모델을 자동으로 클라우드 컴퓨팅 어플리케이션에서 사용할 수 있도록 해주죠.

이로써 이제 다른 엔터프라이즈 애플리케이션과 마찬가지로 생성형 AI 모델을 손쉽게 배포할 수 있게 됐습니다. 또한, 캐노니컬(Canonical), 뉴타닉스(Nutanix), 레드햇(Red Hat) 등 다양한 기업의 플랫폼에서 NIM이 널리 활용될 수 있죠.

아울러 NIM이 케이서브에 적용됨에 따라 NVIDIA의 기술이 오픈 소스 커뮤니티, 생태계 파트너, 고객들에게 더욱 확대됩니다. 이들 모두가 NIM을 통해 NVIDIA AI Enterprise 소프트웨어 플랫폼의 성능, 지원, 보안을 간단한 API 호출로 활용할 수 있게 됐습니다.

쿠버네티스(Kubernetes)에서 AI 서비스 제공

쿠버네티스는 대규모 분산 애플리케이션의 모든 구성 요소를 포함하는 소프트웨어 컨테이너를 배포, 관리하는 오픈소스 시스템입니다. 케이서브는 이러한 쿠버네티스 기반의 머신 러닝 툴킷인 쿠브플로우(Kubeflow)에서 시작됐죠.

쿠브플로우가 AI 추론 분야에서 확장되면서 케이서브로 발전하게 됐고, 점차 독립적인 오픈 소스 프로젝트로 성장했습니다.

많은 기업들이 케이서브 소프트웨어 개발에 기여하고 이를 채택하고 있습니다. 여기에는 NVIDIA를 포함해 아마존웹서비스(Amazon Web Services, AWS), 블룸버그(Bloomberg), 캐노니컬, 시스코(Cisco), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise, HPE), IBM, 레드햇, 질로우(Zillow) 등이 포함됩니다.

케이서브의 기능

케이서브는 쿠버네티스를 확장한 도구로, 강력한 클라우드 애플리케이션 수준의 AI 추론 기능을 제공합니다. 이는 표준 프로토콜을 사용하고 최적화된 성능으로 실행되죠. 또한 파이토치(PyTorch), 사이킷-런(Scikit-learn), 텐서플로우(TensorFlow), XG부스트(XGBoost)를 지원하므로 사용자가 해당 프레임워크의 세부사항을 알 필요가 없습니다.

이러한 케이서브의 특징은 최근 급부상하고 있는 새로운 거대 언어 모델(large language models, LLMs)에 특히 유용합니다.

케이서브는 사용자가 다양한 모델 간에 쉽게 전환하면서 어떤 모델이 가장 적합한지를 테스트할 수 있게 해줍니다. 또한 모델의 업데이트 버전이 출시되면, 케이서브의 ‘카나리아 롤아웃(canary rollouts)’ 기능을 통해 이를 신중하게 검증하고 점진적으로 프로덕션에 배포하는 작업이 자동화되죠.

또 다른 기능인 GPU 오토스케일링(GPU autoscaling)은 서비스의 수요 변화에 따라 모델 배포를 효율적으로 관리해 고객과 서비스 제공자 모두 최상의 경험을 할 수 있도록 지원합니다.

생성형 AI를 위한 API 호출

이제 NVIDIA NIM을 통해 케이서브의 우수한 기능을 간편하게 활용할 수 있게 됐습니다.

NIM을 사용하면 간단한 API 호출만으로도 모든 복잡한 설정을 해결할 수 있습니다. 기업 IT 관리자들은 데이터센터나 원격 클라우드 서비스에서 사용 중인 AI 모델을 변경하더라도 애플리케이션의 최적 성능과 효율성을 보장하는 데 필요한 지표를 확인할 수 있죠.

NIM은 IT 전문가들이 생성형 AI 전문가로 거듭나도록 지원하며 기업 운영에 혁신을 불러올 것으로 기대됩니다. 이러한 이유로 폭스콘(Foxconn)과 서비스나우(ServiceNow) 등 다수의 기업들이 NIM 마이크로서비스를 도입하고 있습니다.

다양한 쿠버네티스 플랫폼에서 활용 가능한 NIM

케이서브와의 통합을 통해 NIM은 캐노니컬의 참드 쿠브플로우(Charmed KubeFlow)와 참드 쿠버네티스(Charmed Kubernetes), 뉴타닉스 GPT인어박스 2.0(GPT-in-a-Box 2.0), 레드햇의 오픈시프트 AI(OpenShift AI) 등과 같은 다양한 엔터프라이즈 플랫폼에서 사용할 수 있게 됐습니다.

케이서브에 기여하고 있는 레드햇의 수석 소프트웨어 엔지니어인 위안 탕(Yuan Tang)은 “레드햇은 NVIDIA와의 협력으로 오픈소스 기술을 활용해 AI 배포를 더욱 쉽게 만들고 있습니다. 케이서브를 강화하고 레드햇 오픈시프트 AI에 대한 NIM 지원을 통해, 우리 고객들은 NVIDIA의 생성형 AI 플랫폼에 쉽게 접근할 수 있게 됐죠”라고 말했습니다.

또 다른 케이서브와 쿠브플로우 공로자인 뉴타닉스의 엔지니어링 부문 부사장 데보요티 두타(Debojyoti Dutta)는 “NVIDIA NIM 추론 마이크로서비스와 뉴타닉스 GPT인어박스 2.0의 통합을 통해 고객은 클라우드에서 엣지까지 일관된 방식으로 확장 가능하고 안전하며 고성능의 생성형 AI 애플리케이션을 구축할 수 있을 것”이라고 전했습니다.

캐노니컬의 MLOps 제품 매니저인 안드레이아 문테누(Andreia Munteanu)는 “케이서브에도 크게 기여하는 기업으로서, 우리는 참드 쿠버네티스와 참드 쿠브플로우를 통해 NIM을 제공하게 돼 매우 기쁩니다. 사용자들은 이러한 노력의 결과로 최고의 성능과 효율성, 편의성을 갖춘 생성형 AI의 모든 기능을 이용할 수 있게 될 것”이라고 말했습니다.

이 외에도 수많은 여러 소프트웨어 공급업체들이 케이서브를 자사 제품에 포함시킴으로써 NIM의 혜택을 누릴 수 있습니다.

오픈 소스 커뮤니티 지원

NVIDIA는 케이서브 프로젝트에 오랜 경험을 가지고 있습니다. 최근 기술 블로그에 언급된 바와 같이, 케이서브의 오픈 추론 프로토콜(Open Inference Protocol)은 NVIDIA Triton Inference Server에 사용되죠. 이를 통해 사용자들이 다양한 GPU, 프레임워크, 운영 모드에서 많은 AI 모델을 동시에 실행할 수 있게 지원합니다.

NVIDIA는 케이서브를 통해 여러 GPU에 걸쳐 한 번에 하나의 AI 모델을 실행하는 사용 사례에 집중하고 있습니다.

NVIDIA는 NIM 통합의 일환으로 Triton과 TensorRT-LLM을 포함한 오픈 소스 소프트웨어에 대해 기여한 실적을 바탕으로, 케이서브 개발에 적극적으로 참여할 계획입니다. 또한 NVIDIA는 생성형 AI와 기타 프로젝트를 위한 오픈 소스 코드를 지원하는 클라우드 네이티브 컴퓨팅 재단(Cloud Native Computing Foundation)의 적극적인 회원사이기도 합니다.

현재 NVIDIA API 카탈로그에서 라마 3 8B(Llama 3 8B)나 라마 3 70B LLM 모델을 통해 NIM API를 사용해 볼 수 있습니다. 아울러 전 세계 수백 개의 NIM 파트너들이 NIM을 활용해 생성형 AI를 배포하고 있습니다.

NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)의 컴퓨텍스(COMPUTEX) 키노트에서 AI를 비롯한 최신 기술 정보를 확인해보세요.