미션 NIM파서블: 생성형 AI를 가속화하는 마이크로서비스 파헤치기

NVIDIA RTX AI 워크스테이션 및 NVIDIA GeForce RTX 시스템에서 로컬로 생성형 AI NVIDIA NIM 마이크로서비스를 실행하세요.
by NVIDIA Korea
미션 NIM파서블: 생성형 AI를 가속화하는 마이크로서비스 파헤치기

편집자 노트: 본 게시물은 RTX PC 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구, 가속화를 보여주는 동시에 기술의 접근성을 높여 AI를 쉽게 이해하도록 돕기 위해 작성된 NVIDIA의 AI Decoded 시리즈 게시물 중 하나입니다.

빠르게 진화하는 인공지능의 세계에서 생성형 AI는 상상력을 자극하고 산업을 변화시키고 있습니다. 이 모든 것을 가능하게 만드는 기반은 바로 마이크로서비스 아키텍처입니다.

최신 AI 애플리케이션의 구성 요소

마이크로서비스는 강력한 아키텍처로 부상하여 사람들이 소프트웨어를 설계, 구축, 배포하는 방식을 근본적으로 변화시키고 있습니다.

마이크로서비스 아키텍처는 애플리케이션을 느슨하게 결합되고 독립적으로 배포할 수 있는 서비스의 컬렉션으로 세분화합니다. 각 서비스는 특정 기능을 담당하며 잘 정의된 애플리케이션 프로그래밍 인터페이스, 즉 API를 통해 다른 서비스와 통신합니다. 이 모듈식 접근 방식은 모든 기능이 긴밀하게 통합된 단일 애플리케이션으로 번들링되어 제공되는 기존의 올인원 아키텍처와 극명한 대조를 이룹니다.

서비스를 분리함으로써 팀은 서로 다른 구성 요소를 동시에 작업하여 개발 프로세스를 가속화하고 전체 애플리케이션에 영향을 미치지 않으면서도 업데이트를 독립적으로 배포할 수 있습니다. 개발자는 특정 서비스를 구축하고 개선하는 데 집중하여 코드 품질을 향상하고 문제를 더 빠르게 해결할 수 있습니다. 이러한 전문화를 통해 개발자는 자신이 다루는 특정 분야의 전문가가 될 수 있습니다.

서비스는 온디맨드 방식으로 독립적으로 확장 가능하며, 리소스 활용을 최적화하고 전반적인 시스템 성능을 개선합니다. 또한 여러 서비스에서 서로 다른 기술을 사용할 수 있으므로 개발자가 각 특정 작업에 가장 적합한 도구를 선택할 수 있습니다.

완벽한 조합: 마이크로서비스와 생성형 AI

마이크로서비스 아키텍처는 확장성, 향상된 모듈성 및 유연성 덕분에 생성형 AI 애플리케이션 개발에 특히 적합합니다.

AI 모델, 특히 거대 언어 모델에는 막대한 연산 리소스가 필요합니다. 마이크로서비스를 사용하면 전체 시스템에 영향을 미치지 않으면서 이러한 리소스 집약적인 구성 요소를 효율적으로 확장할 수 있습니다.

생성형 AI 애플리케이션에는 종종 데이터 사전 처리, 모델 추론 및 후처리와 같은 여러 단계가 포함됩니다. 마이크로서비스를 통해 각 단계를 독립적으로 개발, 최적화, 확장할 수 있습니다. 또한 AI 모델과 기술이 빠르게 발전함에 따라 마이크로서비스 아키텍처를 통해 전체 애플리케이션을 중단하지 않으면서 기존 모델을 교체하고 새 모델을 더 쉽게 통합할 수 있습니다.

NVIDIA NIM: 생성형 AI 배포 간소화

AI 기반 애플리케이션에 대한 수요가 증가함에 따라 개발자는 AI 모델을 효율적으로 배포하고 관리하는 데 어려움을 겪고 있습니다.

NVIDIA NIM 추론 마이크로서비스는 모델을 클라우드, 데이터센터, 워크스테이션, 데스크톱 및 노트북에 배포할 수 있는 최적화된 컨테이너로 제공합니다. 각 NIM 컨테이너에는 사전 훈련된 AI 모델과 더불어 필요한 모든 런타임 구성 요소가 포함되어 있어 AI 기능을 애플리케이션에 간단하게 통합할 수 있습니다.

NIM은 간소화된 통합, 프로덕션 준비 상태, 유연성을 제공하여 AI 기능을 통합하려는 애플리케이션 개발자에게 획기적인 접근 방식을 제공합니다. NIM 추론 마이크로서비스가 성능에 맞춰 최적화되고 런타임 최적화와 함께 제공되며 업계 표준 API를 지원하므로 개발자는 데이터 준비, 모델 훈련 또는 맞춤화의 복잡성을 걱정할 필요 없이 애플리케이션을 구축하는 데 집중할 수 있습니다.

간편하게 이용할 수 있는 AI: 워크스테이션 및 PC에서의 NVIDIA NIM

엔터프라이즈 생성형 AI 애플리케이션을 구축하는 데는 많은 어려움이 따릅니다. 클라우드 호스팅 모델 API는 개발자의 시작 과정에서 도움이 될 수 있지만, 데이터 개인 정보 보호, 보안, 모델 응답 지연 시간, 정확도, API 비용, 확장과 관련된 문제는 종종 프로덕션까지 도달하는 경로를 방해합니다.

NIM을 사용하는 워크스테이션은 개발자에게 광범위한 모델 및 성능 최적화된 추론 마이크로서비스에 대한 안전한 액세스를 제공합니다.

개발자는 클라우드 호스팅 API와 관련된 지연 시간, 비용 및 규정 준수 문제뿐 아니라 모델 배포의 복잡성으로부터 자유로워지고, 이를 통해 애플리케이션 개발에 집중할 수 있습니다. 이는 프로덕션 준비를 마친 생성형 AI 애플리케이션의 제공을 가속화하여 데이터센터 및 클라우드에서의 성능 최적화를 통해 원활한 자동 확장을 지원합니다.

최근 정식 출시가 발표된 NIM으로서의 Meta Llama 3 8B 모델은 RTX 시스템에서 로컬로 실행될 수 있으며, 개별 개발자에게 최첨단 언어 모델 기능을 제공하여 클라우드 리소스 없이도 로컬 테스트와 실험을 진행할 수 있습니다. 로컬에서 실행되는 NIM을 통해 개발자는 정교한 검색 증강 생성(RAG) 프로젝트를 워크스테이션에서 바로 만들 수 있습니다.

로컬 RAG는 클라우드 기반 서비스 또는 외부 API에 의존하지 않고 완전히 로컬 하드웨어에서 RAG 시스템을 구현하는 것을 의미합니다.

개발자는 하나 이상의 NVIDIA RTX 6000 Ada Generation GPU가 있는 워크스테이션 또는 NVIDIA RTX 시스템에서 Llama 3 8B NIM을 사용하면 완전히 로컬 하드웨어만 활용하여 엔드 투 엔드 RAG 시스템을 구축할 수 있습니다. 이 설정을 통해 개발자는 Llama 3 8B의 성능을 최대한 활용하여 높은 성능과 짧은 지연 시간을 보장할 수 있습니다.

전체 RAG 파이프라인을 로컬에서 실행함으로써 개발자는 데이터에 대한 완전한 제어를 유지하여 개인 정보 보호 및 보안을 보장할 수 있습니다. 이 접근 방식은 고객 지원 챗봇, 맞춤형 콘텐츠 생성 도구 및 대화형 가상 어시스턴트와 같이 실시간 응답과 높은 정확도가 필요한 애플리케이션을 구축하는 개발자에게 특히 유용합니다.

하이브리드 RAG는 로컬 및 클라우드 기반 리소스를 결합하여 AI 애플리케이션의 성능과 유연성을 최적화합니다. NVIDIA AI Workbench를 통해 개발자는 하이브리드 RAG 워크벤치 프로젝트로 시작할 수 있습니다. 이 예시 애플리케이션을 사용하면 로컬에서 벡터 데이터베이스 및 임베딩 모델을 실행하는 동시에 클라우드 또는 데이터센터에서 NIM을 사용하여 추론을 수행함으로써 유연한 접근 방식으로 리소스를 할당할 수 있습니다.

이 하이브리드 설정을 통해 개발자는 로컬 및 클라우드 리소스 간의 연산 로드의 균형을 조정하여 성능과 비용을 최적화할 수 있습니다. 예를 들어 벡터 데이터베이스 및 임베딩 모델을 로컬 워크스테이션에서 호스팅하여 빠른 데이터 검색 및 처리를 보장하면서 동시에 더욱 연산 집약적인 추론 작업을 강력한 클라우드 기반 NIM 추론 마이크로서비스로 오프로드할 수 있습니다. 이러한 유연성 덕분에 개발자는 애플리케이션을 원활하게 확장하여 다양한 워크로드를 수용하고 일관된 성능을 보장할 수 있습니다.

NVIDIA ACE NIM 추론 마이크로서비스는 RTX PC 및 워크스테이션에서 실행되는 생성형 AI를 통해 고객 서비스를 위한 디지털 인간, AI NPC(Non-Playable Character) 및 인터랙티브 아바타를 구현합니다.

Riva 자동 음성 인식, 텍스트 음성 변환 및 신경망 기계 번역이 포함된 음성용 ACE NIM 추론 마이크로서비스는 정확한 전사, 번역 및 사실적인 음성을 지원합니다.

NVIDIA Nemotron 소형 언어 모델은 메모리 사용량을 최소화하기 위해 INT4 양자화를 포함하고 롤플레이 및 RAG 사용 사례를 지원하는 인텔리전스를 위한 NIM입니다.

그리고 외관을 위한 ACE NIM 추론 마이크로서비스에는 초현실적인 비주얼을 사용하는 생동감 넘치는 애니메이션을 위한 Audio2Face 및 Omniverse RTX가 포함됩니다. 이를 통해 더욱 몰입감 있고 매력적인 게임 캐릭터는 물론 가상 고객 서비스 에이전트와 상호 작용하는 사용자에게 더욱 만족스러운 경험을 제공합니다.

NIM 자세히 알아보기

AI가 발전함에 따라 그 기능을 빠르게 배포하고 확장하는 능력이 점점 더 중요해질 것입니다.

NVIDIA NIM 마이크로서비스는 이 새로운 시대의 AI 애플리케이션 개발에 기틀을 마련하여 획기적인 혁신을 가능하게 합니다. 차세대 AI 기반 게임을 구축하든, 고급 자연어 처리 애플리케이션을 개발하든, 지능형 자동화 시스템을 제작하든, 사용자는 이 강력한 개발 도구에 손쉽게 액세스할 수 있습니다.

다음 방법으로 시작해 보세요.

  • nvidia.com에서 NVIDIA NIM 마이크로서비스를 경험하고 상호 작용합니다.
  • NVIDIA 개발자 프로그램에 참여하여 AI 기반 애플리케이션 테스트 및 프로토타입 제작을 위해 NIM에 무료로 액세스합니다.
  • 프로덕션 배포를 위한 무료 90일 평가 기간이 포함된 NVIDIA AI Enterprise 라이선스를 구매하고 NVIDIA NIM을 사용하여 클라우드 또는 데이터센터에서 AI 모델을 직접 호스팅합니다.

생성형 AI는 게이밍, 화상 회의 그리고 모든 인터랙티브 경험을 변화시키고 있습니다. AI Decoded 뉴스레터를 구독하고 새로운 기능과 업데이트를 알아보세요.

 

 

 

 

 

### 개요 ###

 

 

마이크로서비스 소개

  • 마이크로서비스가 무엇인지 설명
  • 마이크로서비스의 이점 – 더 신속한 개발 및 배포, 생산성 향상
  • 마이크로서비스 아키텍처는 특히 생성형 AI(확장성, 향상된 모듈성)를 개발하는 데 유용합니다.

 

NVIDIA NIM

  • NIM이란?
  • 앱 개발자가 NIM을 사용해야 하는 이유와 데이터 준비, 훈련, 맞춤화를 걱정할 필요가 없는 이유
  • 주요 이점: 속도, 효율성, 확장성

 

PC 및 워크스테이션에서의 NVIDIA NIM

  • Llama 3 8B가 이제 정식으로 출시되어 PC/워크스테이션에서 로컬로 실행 가능
  • 테스트 및 실험을 위해 PC 또는 워크스테이션에서 로컬로 NIM 사용
  • 정식 출시 버전의 NVIDIA ACE NIM에는 Audio2Face와 함께 Riva ASR, TTS 및 NMT 포함
  • RTX 6000 Ada Generation에서 Llama 3 8B NIM을 사용하여 로컬 RAG 프로젝트 생성
  • AI 워크벤치를 사용하여 하이브리드 RAG 프로젝트 생성(NIM이 클라우드 또는 데이터센터에서 추론을 실행하는 동안 워크스테이션에서 로컬로 벡터 데이터베이스 및 임베딩 모델 실행)

 

시작하기

  • nvidia.com에서 NIM 경험하기
  • NVIDIA 개발자 프로그램을 사용하여 무료로 NIM 실험하기