Mistral AI와 NVIDIA, 최첨단 엔터프라이즈 AI 모델인 Mistral NeMo 12B 공개

Mistral AI와 NVIDIA는 개발자들이 챗봇, 다국어 작업, 코딩, 자동 요약 등을 지원하는 엔터프라이즈 애플리케이션을 위해 쉽게 커스터마이징하고 배포할 수 있게 도와줄 새로운 최첨단 언어 모델인 Mistral NeMo 12B를 출시했습니다.

데이터 훈련 대한 Mistral AI의 전문성과 NVIDIA의 최적화된 하드웨어 및 소프트웨어 생태계가 결합된 Mistral NeMo 모델은 다양한 애플리케이션에 고성능을 제공합니다.

“최고 수준의 하드웨어와 소프트웨어를 활용하는 NVIDIA 팀과 협력하게 되어 행운입니다.”라고 Mistral AI의 공동 창립자이자 수석 과학자인 Guillaume Lample은 이번 협업에 대한 소감을 밝혔습니다. “저희는 함께 NVIDIA AI Enterprise 배포를 통해 전례 없는 정확성, 유연성, 고효율, 엔터프라이즈급 지원 및 보안을 갖춘 모델을 개발했습니다.”

Mistral NeMo는 최신 NVIDIA 아키텍처에 대한 확장 가능한 전용 액세스를 제공하는 NVIDIA DGX Cloud AI 플랫폼에서 훈련을 거쳤습니다.

거대 언어 모델에서 추론 성능을 가속화하기 위한 NVIDIA TensorRT-LLM과 맞춤형 생성형 AI 모델 구축을 위한 NVIDIA NeMo 개발 플랫폼도 프로세스를 발전시키고 최적화하는 데 사용되었습니다.

본 협업은 모델 빌더 생태계를 지원하려는 NVIDIA의 노력을 보여주는 사례이기도 합니다.

전례 없는 정확성, 유연성, 효율성 제공

멀티턴 대화, 수학, 상식 추론, 세계 지식과 코딩 작업에 탁월한 이 엔터프라이즈급 AI 모델은 다양한 작업에서 정확하고 안정적인 성능을 제공합니다.

128K 컨텍스트 길이를 갖춘 Mistral NeMo는 광범위하고 복잡한 정보를 보다 일관성 있고 정확하게 처리하여 상황에 맞는 출력을 보여줍니다.

혁신을 촉진하고 광범위한 AI 커뮤니티를 지원하는 Apache 2.0 라이선스에 따라 출시된 Mistral NeMo는 120억 개의 파라미터로 구성된 모델입니다. 또한 이 모델은 모델 추론에 FP8 데이터 형식을 사용하므로 메모리 크기를 줄이고 정확도 저하 없이 배포 속도를 높일 수 있습니다.

즉, 이 모델은 작업을 더 잘 학습하고 다양한 시나리오를 더 효과적으로 처리해주기 때문에 엔터프라이즈 목적으로 매우 이상적인 모델입니다.

Mistral NeMo는 NVIDIA NIM 추론 마이크로서비스로 패키지로 제공되며, NVIDIA TensorRT-LLM 엔진으로 성능에 최적화된 추론을 제공합니다.

이 컨테이너화된 형식은 어디서나 쉽게 배포할 수 있어 다양한 애플리케이션에 향상된 유연성을 제공합니다.

따라서 며칠이 아닌 몇 분 만에 어디서나 모델을 배포할 수 있습니다.

NIM은 전용 기능 브랜치, 엄격한 검증 프로세스, 엔터프라이즈급 보안 및 지원을 갖춘 NVIDIA AI Enterprise의 일부인 엔터프라이즈급 소프트웨어를 특징으로 합니다.

여기에는 포괄적인 지원, NVIDIA AI 전문가와의 상담 지원, 잘 정의된 서비스 수준 계약이 포함되어 있어 안정적이고 일관된 성능을 제공합니다.

개방형 모델 라이선스를 통해 기업들은 Mistral NeMo를 상용 애플리케이션에 원활하게 통합할 수 있습니다.

단일 NVIDIA L40S, NVIDIA GeForce RTX 4090 또는 NVIDIA RTX 4500 GPU의 메모리에 적합하도록 설계된 Mistral NeMo NIM은 높은 효율성, 낮은 컴퓨팅 비용, 향상된 보안 및 개인 정보 보호 기능을 제공합니다.

최첨단 모델 개발과 커스터마이징

Mistral AI와 NVIDIA 엔지니어의 전문 지식이 결합되어 Mistral NeMo의 훈련과 추론 과정이 최적화되었습니다.

특히 다국어, 코드 및 멀티턴 콘텐츠에 대한 Mistral AI의 전문 지식으로 훈련된 이 모델은 NVIDIA의 전체 스택에 대한 가속화된 훈련의 이점을 누릴 수 있습니다.

이 모델은 효율적인 모델 병렬 처리 기술, 확장성과 Megatron-LM의 혼합 정밀도를 활용하여 최적의 성능을 발휘하도록 설계되었습니다.

이 모델은 가속 컴퓨팅, 네트워크 패브릭, 소프트웨어 등 NVIDIA AI 아키텍처로 구성된 DGX 클라우드에서 3,072개의 H100 80GB 텐서 코어 GPU와 함께 NVIDIA NeMo의 일부인 Megatron-LM을 사용하여 훈련되었으며, 그 훈련 효율성을 높이기 위해 가속 컴퓨팅, 네트워크 패브릭 그리고 소프트웨어로 구성되었습니다.