‘NVIDIA AI Foundry’로 기업의 맞춤 생성형 AI 모델 구축하기

AI의 힘을 활용하고자 하는 기업들은 각 산업의 요구 사항에 맞는 맞춤형 모델이 필요합니다.

NVIDIA AI Foundry는 기업이 데이터, 가속 컴퓨팅, 소프트웨어 도구 등을 사용해 맞춤형 모델을 생성하고 배포할 수 있도록 지원하는 서비스로, 생성형 AI 이니셔티브를 강화할 수 있습니다.

이는 마치 TSMC가 다른 기업이 설계한 칩을 제조하는 것과 같습니다. NVIDIA AI Foundry는 다른 기업이 AI 모델을 개발하고 맞춤화할 수 있도록 인프라와 도구를 제공합니다. 기업들은 NVIDIA AI Foundry 서비스를 통해 DGX Cloud, 파운데이션 모델, NVIDIA NeMo 소프트웨어, NVIDIA 전문 지식, 에코시스템 도구와 지원을 사용할 수 있죠.

가장 큰 차이점은 제품입니다. TSMC는 실제 반도체 칩을 생산하는 반면, NVIDIA AI Foundry는 맞춤형 모델을 제작하는 데 도움을 줍니다. 두 기업 모두 혁신을 지원하고 방대한 도구와 파트너 에코시스템을 연결하죠.

기업은 AI Foundry를 사용해 메타(Meta)의 새로운 라마 3.1(Llama 3.1) 컬렉션을 비롯해 다양한 NVIDIA와 오픈소스 모델을 맞춤화할 수 있습니다. 여기에는 NVIDIA Nemotron, 구글 딥마인드(Google DeepMind)의 코드젬마(CodeGemma)와 젬마(Gemma), 메타의 코드 라마(CodeLlama), 미스트랄(Mistral), 믹스트랄(Mixtral), 마이크로소프트 파이-3(Microsoft Phi-3), 스타코더2(StarCoder2) 등이 포함됩니다.

AI 혁신을 주도하는 업계 선구자들

업계 선두주자인 암독스(Amdocs), 캐피탈 원(Capital One), 게티이미지(Getty Images), KT, 현대자동차, SAP, 서비스나우(ServiceNow)와 스노우플레이크(Snowflake)는 NVIDIA AI Foundry를 최초로 사용하고 있는 기업들 중 하나입니다. 이들은 엔터프라이즈 소프트웨어, 기술, 커뮤니케이션과 미디어 분야에서 AI 기반 혁신의 새로운 시대를 열어가고 있습니다.

서비스나우의 AI 제품 담당 부사장 제레미 반즈(Jeremy Barnes)는 “AI를 배포하는 조직은 산업과 비즈니스 지식을 통합한 맞춤형 모델을 통해 경쟁 우위를 확보할 수 있습니다. 서비스나우는 고객의 기존 워크플로우에 쉽게 통합할 수 있는 모델을 미세 조정하고 배포하기 위해 NVIDIA AI Foundry를 사용합니다”고 말했습니다.

NVIDIA AI Foundry의 핵심 요소

NVIDIA AI Foundry는 파운데이션 모델, 엔터프라이즈 소프트웨어, 가속 컴퓨팅, 전문가 지원, 광범위한 파트너 에코시스템의 핵심 요소들에 의해 지원됩니다.

또한 NVIDIA AI Foundry는 NVIDIA와 AI 커뮤니티의 AI 파운데이션 모델을 비롯해 모델 개발을 빠르게 추적할 수 있는 완전한 NVIDIA NeMo 소프트웨어 플랫폼을 포함합니다.

NVIDIA AI Foundry의 컴퓨팅 핵심은 NVIDIA DGX Cloud입니다. NVIDIA DGX Cloud는 세계 최고의 퍼블릭 클라우드인 아마존 웹 서비스(Amazon Web Services, AWS), 구글 클라우드(Google Cloud), 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure)와 공동 설계된 가속 컴퓨팅 리소스 네트워크죠. AI Foundry 고객은 DGX Cloud를 통해 전례 없이 쉽고 효율적으로 맞춤형 생성형 AI 애플리케이션을 개발하고 미세 조정할 수 있습니다. 또한 하드웨어에 대한 막대한 초기 투자 없이 필요에 따라 AI 이니셔티브를 확장할 수 있습니다. 이러한 유연성은 급변하는 시장에서 민첩성을 유지하고자 하는 기업에게 매우 중요한 부분이죠.

NVIDIA AI Foundry 고객이 도움이 필요한 경우, NVIDIA AI Enterprise 전문가가 도와드립니다. NVIDIA 전문가는 독점 데이터를 사용해 모델을 구축, 미세 조정, 배포하는 데 필요한 각 단계를 고객에게 안내해, 모델이 비즈니스 요구사항과 완벽히 부합하도록 보장할 수 있습니다.

NVIDIA AI Foundry 고객은 다양한 지원을 제공하는 글로벌 파트너 에코시스템에 액세스할 수 있습니다. 액센츄어(Accenture), 딜로이트(Deloitte), 인포시스(Infosys), 위프로(Wipro)가 모두 NVIDIA 파트너입니다. 이들은 AI 기반 디지털 전환 프로젝트의 설계, 구현, 관리를 포괄하는 AI Foundry 컨설팅 서비스를 제공합니다. 그 중 액센츄어는 맞춤형 모델 개발을 위한 자체 AI Foundry 기반 제품인 액센츄어 AI 리파이너리(Refinery) 프레임워크를 최초로 제공하고 있습니다.

아울러, 데이터 몬스터즈(Data Monsters), 퀀티파이(Quantiphi), 슬라럼(Slalom), 소프트서브(SoftServe)와 같은 서비스 제공 파트너는 기업이 기존 IT 환경에 AI를 통합하는 복잡한 문제를 해결하도록 돕고 있습니다. 즉 확장 가능하고, 안전하며, 비즈니스 목표에 부합하는 AI 애플리케이션을 구축할 수 있도록 지원하죠.

고객들은 NVIDIA 파트너의 AIOps와 MLOps 플랫폼을 사용해 프로덕션용 NVIDIA AI Foundry 모델을 개발할 수 있습니다. 여기에는 클린랩(Cleanlab), 데이터독(DataDog), 데이터이쿠(Dataiku), 데이터루프(Dataloop), 데이터로봇(DataRobot), 도미노 데이터 랩(Domino Data Lab), 피들러 AI(Fiddler AI), 뉴렐릭(New Relic), 스케일(Scale), 웨이츠 앤드 바이어시스(Weights & Biases)가 포함됩니다.

고객들은 AI Foundry 모델을 맞춤형 모델, 최적화된 엔진, 표준 API를 포함하는 NVIDIA NIM 추론 마이크로서비스로 출력해 원하는 가속 인프라에서 실행할 수 있습니다.

NVIDIA TensorRT-LLM과 같은 추론 솔루션은 지연 시간을 최소화하고 처리량을 극대화하기 위해 라마 3.1 모델의 효율성을 개선합니다. 이를 통해 기업은 토큰을 더욱 빠르게 생성하는 동시에 프로덕션에서 모델을 실행하는 데 드는 총 비용을 절감할 수 있는데요. 엔터프라이즈급 지원과 보안은 NVIDIA AI Enterprise 소프트웨어 제품군에서 제공합니다.

NVIDIA NIM과 TensorRT-LLM은 추론 지연 시간을 최소화하고 처리량을 극대화해 라마 3.1 모델의 토큰을 더욱 빠르게 생성합니다.

광범위한 배포 옵션에는 시스코(Cisco), 델 테크놀로지스(Dell Technologies), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise), 레노버(Lenovo), 슈퍼마이크로(Supermicro)를 비롯한 글로벌 서버 제조 파트너의 NVIDIA Certified Systems이 있습니다. 또한 여기에는 아마존 웹 서비스, 구글 클라우드, 오라클 클라우드 인프라스트럭처의 클라우드 인스턴스도 포함되죠.

아울러 선도적인 AI 가속 클라우드인 투게더 AI(Together AI)는 10만 명 이상의 개발자와 기업으로 구성된 자사의 에코시스템에서 NVIDIA GPU 가속 추론 스택을 사용할 예정이라고 발표했습니다. 이로써 라마 3.1 엔드포인트와 기타 개방형 모델을 DGX Cloud에 배포할 수 있습니다.

투게더 AI의 창립자 겸 CEO인 비풀 베드 프라카시(Vipul Ved Prakash)는 “생성형 AI 애플리케이션을 실행하는 모든 기업은 더 빠른 사용자 경험과 더 높은 효율성, 더 낮은 비용을 원합니다. 이제 투게더 추론 엔진(Together Inference Engine)을 사용하는 개발자와 기업은 NVIDIA DGX Cloud에서 성능, 확장성, 보안을 극대화할 수 있습니다”고 말했죠.

맞춤형 모델 개발을 가속화하고 간소화하는 NVIDIA NeMo

NVIDIA NeMo가 AI Foundry에 통합됨에 따라 개발자들은 데이터 큐레이션, 파운데이션 모델 맞춤화와 성능 평가에 필요한 도구를 손쉽게 사용할 수 있습니다. NeMo 기술에서는 다음을 만날 수 있습니다.

NeMo Curator는 GPU 가속 데이터 큐레이션 라이브러리로, 사전 훈련과 미세 조정을 위한 대규모 고품질 데이터 세트를 준비해 생성형 AI 모델 성능을 향상시킵니다.
NeMo Customizer는 확장 가능한 고성능 마이크로 서비스로, 도메인별 사용 사례에 대한 거대 언어 모델(large language model, LLM)의 미세 조정과 정렬을 단순화합니다.
NeMo Evaluator는 가속화된 클라우드나 데이터센터에 있는 학술, 맞춤형 벤치마크 전반에 걸쳐 생성형 AI 모델을 자동으로 평가합니다.
NeMo Guardrails은 대화 관리를 조정해 LLM이 있는 스마트 애플리케이션에서의 정확성, 적절성, 보안을 지원합니다. 이를 통해 생성형 AI 애플리케이션을 위한 안전 장치를 제공합니다.

기업은 NVIDIA AI Foundry의 NeMo 플랫폼을 사용해 요구가 정확하게 반영된 맞춤형 AI 모델을 만들 수 있습니다. 이러한 맞춤화를 통해 전략적 목표에 더 잘 부합하고, 의사 결정의 정확성을 높이면서 운영 효율성을 개선할 수 있죠. 예를 들어, 기업은 산업별 전문 용어를 이해하고 규제 요건을 준수하며 기존 워크플로우와 원활하게 통합되는 모델을 개발할 수 있습니다.

SAP의 최고 AI 책임자인 필립 헤르지그(Philipp Herzig)은 “양사 파트너십의 다음 단계로, SAP는 NVIDIA의 NeMo 플랫폼을 사용해 기업이 SAP 비즈니스 AI(SAP Business AI)로 구동되는 AI 기반 생산성을 가속화할 수 있도록 지원할 계획”이라고 말했습니다.

기업들은 NVIDIA NeMo Retriever NIM 추론 마이크로서비스를 통해 맞춤형 AI 모델을 프로덕션에 배포할 수 있습니다. 바로 개발자는 독점 데이터를 가져와 검색 증강 생성(retrieval-augmented generation, RAG)을 통해 AI 애플리케이션에 대한 지식이 풍부한 응답을 생성할 수 있는 것이죠.

스노우플레이크의 AI 책임자인 베리스 굴테킨(Baris Gultekin)은 “안전하고 신뢰할 수 있는 AI는 생성형 AI를 활용하는 기업에게 타협할 수 없는 요소입니다. 검색 정확도는 RAG 시스템에서 생성된 응답의 관련성과 품질에 직접적인 영향을 미치죠. 스노우플레이크 코텍스 AI(Cortex AI)는 NVIDIA AI Foundry의 구성 요소인 NeMo Retriever를 활용해, 기업에게 자사 맞춤형 데이터를 사용해 쉽고 효율적이며 신뢰할 수 있는 답변을 제공할 수 있도록 지원합니다”고 말했습니다.

맞춤형 모델로 경쟁 우위 확보

NVIDIA AI Foundry의 주요 장점 중 하나는 기업이 AI를 도입할 때 직면하는 고유한 문제를 해결할 수 있다는 점입니다. 일반적인 AI 모델은 특정 비즈니스 요구 사항과 데이터 보안 요구 사항을 충족하지 못할 수 있는데요. 반면에 맞춤형 AI 모델은 뛰어난 유연성, 적응성, 성능을 제공하므로 경쟁 우위를 확보하고자 하는 기업에 이상적입니다.

여기에서 NVIDIA AI Foundry를 통해 기업이 어떻게 생산성과 혁신을 높일 수 있는지 자세히 알아보세요.