NVIDIA, 최첨단 정확도를 갖춘 소형 언어 모델 출시

Mistral-NeMo-Minitron 8B는 최근 출시된 Mistral NeMo 12B 모델의 소형 버전으로, GPU 가속 데이터센터, 클라우드 및 워크스테이션에서 모델을 실행할 수 있는 컴퓨팅 효율성과 함께 높은 정확도를 제공합니다.
by NVIDIA Korea

생성형 AI 개발자는 일반적으로 모델 크기와 정확도 사이에서 상충되는 문제에 직면합니다. 하지만 NVIDIA에서 출시한 새로운 언어 모델은 이 두 가지의 장점을 모두 제공하여 컴팩트한 폼 팩터에서 최첨단 정확도를 제공합니다.

Mistral AI와 NVIDIA가 지난달 발표한 개방형 Mistral NeMo 12B 모델의 소형 버전인 Mistral-NeMo-Minitron 8B는 NVIDIA RTX 기반 워크스테이션에서 실행할 수 있을 만큼 작으면서도 AI 기반 챗봇, 가상 비서, 콘텐츠 생성기 및 교육 툴에 대한 여러 벤치마크에서 뛰어난 성능을 발휘합니다. Minitron 모델은 맞춤형 생성형 AI 개발을 위한 엔드투엔드 플랫폼인 NVIDIA NeMo를 사용하여 개발되었습니다.

“우리는 두 가지 다른 AI 최적화 방법, 즉 Mistral NeMo의 120억 개의 파라미터를 80억 개로 축소하는 프루닝과 정확도 향상을 위한 증류법을 결합했습니다.”라고 NVIDIA의 응용 딥 러닝 연구 담당 부사장 브라이언 카탄자로는 말합니다. “이를 통해 Mistral NeMo-Minitron 8B는 더 낮은 계산 비용으로 원래 모델과 비슷한 정확도를 제공합니다.”라고 설명합니다.

거대 모델과 달리 소형 언어 모델은 워크스테이션과 노트북에서 실시간으로 실행할 수 있습니다. 따라서 리소스가 제한된 조직에서 비용, 운영 효율성, 에너지 사용을 최적화하면서 인프라 전반에 걸쳐 생성형 AI 기능을 더 쉽게 배포할 수 있습니다. 엣지 디바이스에서 로컬로 언어 모델을 실행하면 엣지 디바이스에서 서버로 데이터를 전달할 필요가 없으므로 보안상의 이점도 누릴 수 있습니다.

개발자는 표준 API(애플리케이션 프로그래밍 인터페이스)가 포함된 NVIDIA NIM 마이크로서비스로 패키징된 Mistral-NeMo-Minitron 8B로 시작하거나 Hugging Face에서 모델을 다운로드할 수 있습니다. 모든 GPU 가속 시스템에 몇 분 안에 배포할 수 있는 다운로드 가능한 NVIDIA NIM은 곧 제공될 예정입니다.

80억 개의 파라미터를 위한 최첨단 기술

Mistral-NeMo-Minitron 8B는 동급 규모의 모델에 비해 언어 모델에 대한 9개의 인기 벤치마크에서 선두를 달리고 있습니다. 이러한 벤치마크는 언어 이해, 상식 추론, 수학적 추론, 요약, 코딩 및 진실한 답변 생성 능력 등 다양한 작업을 다룹니다.

NVIDIA NIM 마이크로서비스로 패키징된 이 모델은 짧은 지연 시간, 즉 사용자에게 더 빠른 응답을 제공하고 높은 처리량, 즉 프로덕션에서 더 높은 계산 효율을 제공하도록 최적화되어 있습니다.

경우에 따라 개발자는 스마트폰이나 로봇과 같은 임베디드 디바이스에서 더 작은 버전의 모델을 실행하고 싶을 수 있습니다. 이를 위해 개발자는 80억 개의 파라미터로 구성된 모델을 다운로드하고, NVIDIA AI Foundry를 사용하여 기업별 애플리케이션에 맞게 최적화된 더 작은 신경망으로 압축 및 증류할 수 있습니다.

AI Foundry 플랫폼 및 서비스는 개발자에게 NIM 마이크로서비스로 패키징된 맞춤형 파운데이션 모델을 생성할 수 있는 풀스택 솔루션을 제공합니다. 여기에는 인기 있는 파운데이션 모델, NVIDIA NeMo 플랫폼 및 NVIDIA DGX 클라우드의 전용 용량이 포함됩니다. NVIDIA AI Foundry를 사용하는 개발자는 보안, 안정성 및 프로덕션 배포 지원을 제공하는 소프트웨어 플랫폼인 NVIDIA AI 엔터프라이즈에도 액세스할 수 있습니다.

원래의 Mistral-NeMo-Minitron 8B 모델은 최첨단 정확도의 베이스라인에서 시작하기 때문에, AI Foundry를 사용하여 다운사이징된 버전은 여전히 적은 트레이닝 데이터와 컴퓨팅 인프라로 높은 정확도를 사용자에게 제공할 수 있습니다.

가지치기 및 증류의 장점 활용하기

더 작은 모델로 높은 정확도를 달성하기 위해 팀은 가지치기와 증류를 결합하는 프로세스를 사용했습니다. 가지치기는 정확도에 가장 적게 기여하는 모델 가중치를 제거하여 신경망의 크기를 줄입니다. 증류 과정에서 팀은 가지치기를 거친 모델을 작은 데이터 세트에 대해 재훈련하여 가지치기 과정을 통해 낮아진 정확도를 크게 높였습니다.

그 결과, 더 작고 효율적인 모델이 더 큰 모델과 동일한 예측 정확도를 갖게 되었습니다.

이 기술을 사용하면 관련 모델 제품군 내에서 각 추가 모델을 훈련하는 데 원래 데이터 세트의 일부만 필요하므로, 더 작은 모델을 처음부터 훈련하는 것보다 더 큰 모델을 가지치기와 추출할 때 최대 40배의 컴퓨팅 비용을 절약할 수 있습니다.

자세한 내용은 NVIDIA 기술 블로그기술 보고서에서 확인할 수 있습니다.

NVIDIA는 또한 이번 주에 NVIDIA GeForce RTX AI PC 및 노트북에서 낮은 메모리 사용량과 빠른 응답 시간에 최적화된 또 다른 소형 언어 모델인 Nemotron-Mini-4B-Instruct를 발표했습니다. 이 모델은 클라우드 및 온디바이스 배포를 위한 NVIDIA NIM 마이크로서비스로 제공되며, 생성형 AI로 구동되는 음성, 지능 및 애니메이션을 제공하는 디지털 휴먼 기술 제품군인 NVIDIA ACE의 일부입니다.

ai.nvidia.com에서 브라우저 또는 API를 통해 두 모델을 NIM 마이크로서비스로 경험해 보세요.

소프트웨어 제품 정보에 관한 공지를 참조하세요.