AWS에서 만나는 NVIDIA NIM, AI 추론의 세계를 열다

생성형 AI는 산업을 빠르게 변화시키고 있습니다. 점점 더 복잡해지는 모델을 효율적이고 비용 효과적으로 확장하기 위해 안전한 고성능 추론 솔루션에 대한 수요를 촉진하고 있죠.

연례 AWS 리인벤트(re:Invent) 콘퍼런스에서 AWS는 NVIDIA와의 협업을 확대해 주요 AWS AI 서비스 전반에 걸쳐 NVIDIA NIM 마이크로서비스를 확장한다고 발표했습니다. 이를 통해 생성형 AI 애플리케이션을 위한 더 빠른 AI 추론과 짧은 지연 시간을 지원합니다.

NVIDIA NIM 마이크로서비스는 이제 AWS 마켓플레이스(Marketplace), 아마존 베드록 마켓플레이스(Amazon Bedrock Marketplace), 아마존 세이지메이커 점프스타트(SageMaker JumpStart)에서 직접 제공됩니다. 개발자들은 일반적으로 사용되는 모델에 대해 NVIDIA 최적화 추론을 대규모로 더욱 쉽게 배포할 수 있습니다.

NVIDIA NIM은 AWS 마켓플레이스에서 제공되는 NVIDIA AI Enterprise 소프트웨어 플랫폼의 일부입니다. NVIDIA NIM은 개발자에게 클라우드, 데이터센터, 워크스테이션 전반에서 고성능 엔터프라이즈급 AI 모델 추론을 안전하고 안정적으로 배포하도록 설계된 사용하기 쉬운 마이크로서비스 세트를 제공합니다.

이 사전 구축된 컨테이너는 NVIDIA Triton Inference Server, NVIDIA TensorRT, NVIDIA TensorRT-LLM, 파이토치(PyTorch)와 같은 강력한 추론 엔진을 기반으로 구축됐습니다. 또한 오픈 소스 커뮤니티 모델부터 NVIDIA AI Foundation 모델, 맞춤형 모델에 이르기까지 광범위한 범위의 AI 모델을 지원하죠.

NIM 마이크로서비스는 아마존 엘라스틱 컴퓨트 클라우드(Elastic Compute Cloud, EC2), 아마존 엘라스틱 쿠버네티스 서비스(Elastic Kubernetes Service, EKS), 아마존 세이지메이커를 비롯한 다양한 AWS 서비스에 배포할 수 있습니다.

개발자들은 일반적으로 사용되는 모델과 모델 제품군으로 구축된 100개 이상의 NIM 마이크로서비스를 NVIDIA API 카탈로그에서 미리 볼 수 있습니다. 여기에는 메타(Meta)의 라마 3(Llama 3), 미스트랄 AI(Mistral AI)의 미스트랄과 믹스트랄(Mixtral), NVIDIA의 Nemotron, 스태빌리티 AI(Stability AI)의 SDXL 등이 있습니다. 가장 일반적으로 사용되는 모델은 AWS 서비스에 배포하기 위한 자체 호스팅에 사용할 수 있고, AWS의 NVIDIA 가속 컴퓨팅 인스턴스에서 실행되도록 최적화돼 있습니다.

현재 AWS에서 직접 사용할 수 있는 NIM 마이크로서비스는 다음과 같습니다.

NVIDIA NeMotron-4: 아마존 베드록 마켓플레이스, 아마존 세이지메이커 점프스타트, AWS 마켓플레이스에서 이용할 수 있습니다. 이는 실제 데이터와 매우 유사한 다양한 합성 데이터를 생성하도록 설계된 최첨단 거대 언어 모델(Large Language Model, LLM)로, 다양한 도메인에서 맞춤형 LLM의 성능과 견고성을 향상시킵니다.
라마 3.1 8B-인스트럭트(8B-Instruct): AWS 마켓플레이스에서 이용할 수 있습니다. 80억 개의 파라미터를 가진 이 다국어 LLM은 언어 이해, 추론, 텍스트 생성을 위해 사전 훈련됐으며, 지침이 조정됐습니다.
라마 3.1 70B-인스트럭트: AWS 마켓플레이스에서 이용 가능합니다. 700억 개의 파라미터로 사전 훈련되고 지침이 조정된 이 모델은 다국어 대화에 최적화돼 있습니다.
믹스트랄 8x7B 인스트럭트 v0.1: AWS 마켓플레이스에서 이용할 수 있습니다. 이 고품질 희소 전문가 혼합(sparse mixture of experts) 모델은 개방형 가중치를 사용해 지침을 따르고 요청을 완료하며, 창의적인 텍스트 형식을 생성할 수 있습니다.

모두를 위한 AWS의 NIM

다양한 산업 분야의 고객과 파트너들이 AWS에서 NIM을 활용해 시장에 더욱 빨리 진입하고 있습니다. 또한, 생성형 AI 애플리케이션과 데이터의 보안과 제어를 유지하며, 비용도 절감하고 있죠.

IT 컨설팅 및 디지털 서비스 제공업체인 소프트서브(SoftServe)는 AWS에 완전히 배포되고, NVIDIA NIM과 AWS 서비스로 가속화된 6가지 생성형 AI 솔루션을 개발했습니다. 이 솔루션은 AWS 마켓플레이스에서 제공되며, 소프트서브 생성형 AI 신약 개발(Gen AI Drug Discovery), 소프트서브 생성형 AI 산업 비서(Industrial Assistant), 디지털 컨시어지(Digital Concierge), 멀티모달 RAG 시스템(Multimodal RAG System), 콘텐츠 크리에이터(Content Creator), 음성 인식 플랫폼(Speech Recognition Platform)으로 구성됩니다.

이들 모두는 AI 애플리케이션 개발과 배포를 가속화하는 포괄적인 참조 워크플로우인 NVIDIA AI Blueprint를 기반으로 합니다. 또한 AI 에이전트, 디지털 트윈 등을 위한 NVIDIA 가속 라이브러리, 소프트웨어 개발 키트, NIM 마이크로서비스가 포함돼 있습니다.

AWS에서 NIM 시작하기

개발자는 고유한 필요와 요구사항에 따라 AWS에 NVIDIA NIM 마이크로서비스를 배포할 수 있습니다. 이를 통해 개발자와 기업은 다양한 AWS 서비스 전반에서 NVIDIA에 최적화된 추론 컨테이너로 고성능 AI를 구현할 수 있죠.

NVIDIA API 카탈로그를 확인하고, 100개 이상의 다양한 NIM 최적화 모델을 사용해 볼 수 있습니다. 또한, 개발자 라이선스 또는 90일 NVIDIA AI Enterprise 체험 라이선스를 요청해 AWS 서비스에 마이크로서비스 배포를 할 수 있습니다. 개발자는 AWS 마켓플레이스, 아마존 베드록 마켓플레이스 또는 아마존 세이지메이커 점프스타트에서 NIM 마이크로서비스를 알아볼 수도 있습니다.

소프트웨어 제품 정보에 관한 공지를 확인하세요.