NVIDIA는 메타(Meta)의 오픈소스 AI 모델 컬렉션인 라마 3.1(Llama 3.1)을 통해 전 세계 기업의 생성형 AI를 강화하는 NVIDIA AI Foundry 서비스와 NVIDIA NIM™ 추론 마이크로서비스를 발표했습니다.
이제 기업과 국가는 NVIDIA AI Foundry를 통해 라마 3.1과 NVIDIA 소프트웨어, 컴퓨팅, 전문성을 활용해 도메인별 산업 사용 사례에 맞는 맞춤형 ‘슈퍼모델’을 만들 수 있습니다. 기업은 자체 데이터는 물론, 라마 3.1 405B와 NVIDIA Nemotron™ 리워드 모델에서 생성된 합성 데이터로 이러한 슈퍼모델을 훈련할 수 있죠.
NVIDIA AI Foundry는 세계 최고의 퍼블릭 클라우드와 공동 설계된 NVIDIA DGX™ Cloud AI 플랫폼으로 구동되는데요. 이를 통해 AI 수요 변화에 따라 쉽게 확장할 수 있는 방대한 컴퓨팅 리소스를 기업에게 제공합니다.
새로운 서비스는 기업뿐만 아니라 독자적인 AI 전략을 개발 중인 국가들의 맞춤형 거대 언어 모델(large language model, LLM) 구축을 지원합니다. 이들은 고유한 비즈니스나 문화를 반영하는 생성형 AI 애플리케이션을 위해 도메인별 지식을 갖춘 맞춤형 LLM을 구축하고 싶어 하죠.
NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “메타의 오픈소스 모델인 라마 3.1은 전 세계 기업에서 생성형 AI 채택하는 데 있어 중요한 순간입니다. 라마 3.1은 모든 기업과 업계가 최첨단 생성형 AI 애플리케이션을 구축할 수 있는 문을 열었습니다. NVIDIA AI Foundry는 라마 3.1을 전체적으로 통합했으며, 기업이 맞춤형 라마 슈퍼모델을 구축하고 배포할 수 있도록 지원할 준비가 되어 있습니다”고 말했습니다.
메타의 창립자 겸 CEO인 마크 저커버그(Mark Zuckerberg)는 “새로운 라마 3.1 모델은 오픈 소스 AI에 있어 매우 중요한 단계입니다. 기업들은 NVIDIA AI Foundry를 통해 사람들이 원하는 최첨단 AI 서비스를 쉽게 만들고 맞춤화하고, NVIDIA NIM을 통해 배포할 수 있습니다. 이러한 서비스를 사람들에게 제공할 수 있게 돼 기쁩니다”고 말했습니다.
현재 프로덕션 AI용 라마 3.1 모델의 엔터프라이즈 배포를 강화하기 위해 ai.nvidia.com에서 라마 3.1 모델용 NVIDIA NIM 추론 마이크로서비스를 다운로드할 수 있습니다. NIM 마이크로서비스는 프로덕션 환경에서 라마 3.1 모델을 배포하는 가장 빠른 방법으로, NIM 없이 추론을 실행하는 것보다 최대 2.5배 더 높은 처리량을 제공합니다.
기업은 라마 3.1 NIM 마이크로서비스를 새로운 NVIDIA NeMo Retriever NIM 마이크로서비스와 결합해 AI 코파일럿, 어시스턴트, 디지털 휴먼 아바타를 위한 최첨단 검색 파이프라인을 구축할 수 있습니다.
액센츄어, AI Foundry로 기업용 맞춤형 라마 슈퍼모델 개척
글로벌 전문 서비스 기업인 액센츄어(Accenture)는 자체 사용은 물론, 문화, 언어, 산업을 반영하는 생성형 AI 애플리케이션을 배포하고자 하는 고객을 위해 NVIDIA AI Foundry를 최초로 채택했습니다. 또한, 액센츄어 AI 리파이너리(Refinery) 프레임워크를 사용해 맞춤형 라마 3.1 모델을 구축하죠.
액센츄어의 회장 겸 CEO인 줄리 스위트(Julie Sweet)는 “세계 유수의 기업들은 생성형 AI가 각 산업을 어떻게 변화시키고 있는지를 확인하고 있고, 맞춤형 모델 기반의 애플리케이션을 배포하기를 열망합니다. 액센츄어는 내부 AI 애플리케이션을 위해 NVIDIA NIM 추론 마이크로서비스와 협력해 왔는데요. 이제 NVIDIA AI Foundry를 통해 고객이 맞춤형 라마 3.1 모델을 신속하게 생성, 배포해 각자의 비즈니스 우선순위에 맞는 혁신적인 AI 애플리케이션을 구동하도록 지원할 수 있게 됐습니다”고 말했습니다.
NVIDIA AI Foundry는 맞춤형 슈퍼모델을 빠르게 구축할 수 있는 엔드 투 엔드 서비스를 제공합니다. 이는 NVIDIA 소프트웨어, 인프라, 전문성 등을 개방형 커뮤니티 모델, 기술과 NVIDIA AI 에코시스템의 지원에 결합합니다.
기업들은 NVIDIA AI Foundry를 통해 라마 3.1 모델과 NVIDIA NeMo 플랫폼을 사용해 맞춤형 모델을 만들 수 있습니다. 여기에는 허깅 페이스 리워드 벤치(Hugging Face RewardBench)에서 1위를 차지한 NVIDIA Nemotron-4 340B 리워드 모델이 포함됩니다.
맞춤형 모델이 생성되면, 기업은 선호하는 클라우드 플랫폼과 글로벌 서버 제조업체의 NVIDIA Certified Systems에서 원하는 MLOps와 AIOps 플랫폼을 사용할 수 있습니다. 이를 통해 프로덕션 환경에서 실행할 수 있는 NVIDIA NIM 추론 마이크로서비스를 생성할 수 있죠.
NVIDIA AI Enterprise 전문가와 글로벌 시스템 통합 파트너는 AI Foundry 고객과 협력해 개발부터 배포에 이르는 전체 프로세스를 가속화합니다.
고급 모델 맞춤화를 지원하는 NVIDIA Nemotron
도메인별 모델을 만들기 위해 추가 훈련 데이터가 필요한 기업은 맞춤형 라마 슈퍼모델을 만들 때 라마 3.1 405B와 Nemotron-4 340B를 함께 사용해 합성 데이터를 생성하면 모델 정확도를 높일 수 있습니다.
자체 훈련 데이터를 보유한 고객은 도메인 적응형 사전 훈련(DAPT)을 위해 NVIDIA NeMo로 라마 3.1 모델을 맞춤화해 모델 정확도를 더욱 높일 수도 있습니다.
아울러 NVIDIA와 메타는 개발자가 생성형 AI 애플리케이션을 위한 소규모 맞춤형 라마 3.1 모델을 구축하는 데 사용할 수 있는 라마 3.1의 증류 레시피를 제공하기 위해 협력하고 있습니다. 이를 통해 기업은 AI 워크스테이션, 노트북과 같은 광범위한 가속 인프라에서 라마 기반 AI 애플리케이션을 실행할 수 있죠.
NVIDIA와 라마를 통해 AI를 강화하는 업계 선도 기업들
의료, 에너지, 금융 서비스, 소매, 운송, 통신 분야의 기업들은 이미 라마를 위한 NVIDIA NIM 마이크로서비스를 사용하고 있습니다. 새로운 라마 3.1용 NIM 마이크로서비스를 가장 먼저 도입한 기업 중에는 아람코(Aramco), AT&T, 우버(Uber)가 있습니다.
라마 3.1 다국어 LLM 컬렉션은 8B, 70B, 405B 파라미터 크기의 생성 AI 모델 모음입니다. 16,000개 이상의 NVIDIA H100 H100 Tensor 코어 GPU에서 훈련되고, 데이터센터, 클라우드, NVIDIA RTX™ GPU가 탑재된 워크스테이션이나 GeForce RTX GPU가 탑재된 PC에서 NVIDIA 가속 컴퓨팅과 소프트웨어에 최적화됐죠.
정확도와 성능을 향상시키는 새로운 NeMo Retriever RAG 마이크로서비스
기업은 검색 증강 생성(RAG)을 위한 새로운 NVIDIA NeMo Retriever NIM 추론 마이크로서비스를 사용해 맞춤형 라마 슈퍼모델, 라마 NIM 마이크로서비스를 프로덕션에 배포할 때 응답 정확도를 향상시킬 수 있습니다.
라마 3.1 405B용 NVIDIA NIM 추론 마이크로서비스와 결합된 NeMo Retriever NIM 마이크로서비스는 RAG 파이프라인을 위한 최고의 오픈, 상용 텍스트 Q&A 검색 정확도를 제공합니다.
라마 3.1과 NeMo Retriever NIM 배포를 위한 엔터프라이즈 에코시스템 준비 완료
기업, 데이터, 인프라 플랫폼을 제공하는 수백 개의 NVIDIA NIM 파트너는 이제 자사의 AI 솔루션에 새로운 마이크로서비스를 통합할 수 있습니다. 이로써 5백만 명 이상의 개발자와 19,000개 이상의 스타트업으로 구성된 NVIDIA 커뮤니티를 위해 생성형 AI를 강화할 수 있습니다.
라마 3.1 NIM과 NeMo Retriever NIM 마이크로서비스에 대한 프로덕션 지원은 NVIDIA AI Enterprise를 통해 제공됩니다. NVIDIA Developer Program 회원은 선호하는 인프라에서 연구, 개발, 테스트를 위해 NIM 마이크로서비스에 무료로 액세스할 수 있습니다.