새로운 NVIDIA Nemotron 3 Super, 에이전틱 AI를 위해 5배 더 높은 처리량 제공

새롭게 공개된 Nemotron 3 Super는 1,200억 파라미터를 갖춘 오픈 모델로, 이 중 120억 파라미터가 활성 상태로 동작하며, 대규모 복잡한 agentic AI 시스템을 구동하도록 설계되었습니다. 현재 바로 사용 가능하며, 이 모델은 고도화된 추론 능력을 결합해 자율 에이전트가 높은 정확도로 작업을 효율적으로 완료할 수 있도록 합니다.

AI 네이티브 기업: Perplexity는 사용자에게 검색용 및 Computer 내 20개의 오케스트레이션된 모델 중 하나로 Nemotron 3 Super에 대한 액세스를 제공합니다. CodeRabbit, Factory, Greptile과 같이 소프트웨어 개발 에이전트를 제공하는 기업들은 더 높은 정확도를 더 낮은 비용으로 달성하기 위해, 자체 모델과 함께 이 모델을 AI 에이전트에 통합하고 있는데요, 또한 Edison Scientific과 Lila Sciences와 같은 생명과학 및 프론티어 AI 기관들은 심층 문헌 검색, 데이터 사이언스, 분자 수준 이해를 위한 에이전트 구동에 이 모델을 활용할 예정입니다.

엔터프라이즈 소프트웨어 플랫폼: Amdocs, Palantir, Cadence, Dassault Systèmes, Siemens와 같은 업계 선도 기업들은 통신, 사이버 보안, 반도체 설계 및 제조 분야의 워크플로를 자동화하기 위해 이 모델을 배포하고 커스터마이징하고 있습니다.

기업들이 챗봇을 넘어 멀티 에이전트 애플리케이션으로 나아가면서, 두 가지 제약에 직면하게 됩니다.

첫 번째는 컨텍스트 폭증입니다. 멀티 에이전트 워크플로우는 각 상호작용마다 도구 출력과 중간 추론을 포함한 전체 히스토리를 다시 전송해야 하기 때문에, 일반적인 채팅 대비 최대 15배 더 많은 토큰을 생성하게 됩니다. 장기 작업에서는 이러한 컨텍스트 양이 비용을 증가시키고, 에이전트가 원래 목표에서 벗어나는 ‘goal drift’를 유발할 수 있습니다.

두 번째는 ‘thinking tax’입니다. 복잡한 에이전트는 매 단계에서 추론해야 하지만, 모든 하위 작업에 대형 모델을 사용하면 멀티 에이전트 애플리케이션의 비용이 너무 높아지고 속도도 느려져 실제 적용이 어렵습니다.

그러나 Nemotron 3 Super는 100만 토큰 컨텍스트 윈도우를 제공해, 에이전트가 전체 워크플로우 상태를 메모리에 유지할 수 있도록 하며 goal drift를 방지합니다.

Nemotron 3 Super는 동급 규모 모델 중 최고 수준의 정확도를 바탕으로, 효율성과 개방성 면에서 Artificial Analysis 순위 1위를 차지하며 새로운 기준을 세웠는데요, 또한 이 모델은 NVIDIA AI-Q 연구 에이전트를 구동해 DeepResearch Bench와 DeepResearch Bench II 리더보드에서 1위에 올려놓았습니다. 이 벤치마크들은 대규모 문서 집합을 대상으로 다단계에 걸친 심층 리서치를 수행하면서 추론의 일관성을 얼마나 잘 유지하는지를 기준으로 AI 시스템의 능력을 측정합니다.

하이브리드 아키텍처

Nemotron 3 Super는 하이브리드 혼합 전문가(Mixture‑of‑Experts, MoE) 아키텍처를 채택하여 이전 세대 모델인 Nemotron Super보다 최대 5배 높은 처리량과 최대 2배 향상된 정확도를 제공합니다.

하이브리드 아키텍처: Mamba 레이어는 메모리 및 연산 효율을 4배 향상시키며, 트랜스포머 레이어는 고급 추론 능력을 담당합니다.
MoE 구조: 전체 1,200억 개의 파라미터 중 추론 시 활성화되는 파라미터는 120억 개에 불과합니다.
잠재 MoE(Latent MoE): 새로운 기법으로, 추론 시 다음 토큰을 생성할 때 한 개의 비용으로 네 명의 전문가(expert)를 동시에 활성화하여 정확도를 높입니다.
다중 토큰 예측(Multi‑Token Prediction): 여러 개의 미래 단어를 동시에 예측하여 3배 빠른 추론 속도를 달성합니다.

NVIDIA Blackwell 플랫폼에서는 모델이 NVFP4 정밀도로 실행됩니다. 이로써 메모리 요구량이 감소하고, FP8을 사용하는 NVIDIA Hopper 대비 추론 속도가 최대 4배 향상되며, 정확도 손실은 없습니다.

오픈 가중치, 데이터 및 레시피

NVIDIA는 Nemotron 3 Super를 관대한(permissive) 라이선스 하에 오픈 가중치 형태로 공개합니다. 이로써 개발자는 이 모델을 워크스테이션, 데이터 센터 또는 클라우드 환경에서 배포하고 맞춤화할 수 있습니다.

이 모델은 최신 추론 모델(frontier reasoning models)을 활용해 생성된 합성 데이터(synthetic data)로 학습되었는데요, NVIDIA는 사전 및 사후 학습 데이터셋 총 10조 개 이상의 토큰, 강화학습(Reinforcement Learning)을 위한 15개의 학습 환경, 그리고 평가를 위한 레시피 전체 방법론을 포함한 완전한 연구 방법을 공개합니다.

연구자들은 NVIDIA NeMo 플랫폼을 이용해 이 모델을 추가로 파인튜닝(fine‑tuning)하거나, 자신만의 모델을 구축할 수도 있습니다.

에이전틱 시스템에서의 활용

Nemotron 3 Super는 멀티 에이전트 시스템 내에서 복잡한 하위 작업(subtasks)을 처리하도록 설계되었습니다.

소프트웨어 개발 에이전트는 전체 코드베이스를 한 번에 컨텍스트에 로드할 수 있어, 문서 분할 없이 엔드 투 엔드 코드 생성 및 디버깅이 가능합니다.

또한 금융 분석 분야에서는 수천 페이지에 달하는 보고서를 메모리에 로드하여, 긴 대화나 반복적 추론 과정을 생략할 수 있어 효율성이 크게 향상됩니다.

또한 Nemotron 3 Super는 정확한 도구 호출 능력을 통해, 자율 에이전트가 방대한 함수 라이브러리를 안정적으로 탐색하도록 지원합니다. 이를 통해 사이버보안의 자율 보안 오케스트레이션과 같은 고위험 환경에서도 실행 오류를 방지할 수 있습니다.

지금 바로 사용하세요.

NVIDIA Nemotron 3 Super는 Nemotron 3 제품군의 일부로, 다음과 같은 플랫폼에서 이용할 수 있습니다: build.nvidia.com, Perplexity, OpenRouter, Hugging Face.

Dell Technologies는 이 모델을 Dell AI Factory의 온프레미스 배포에 최적화된 형태로 Hugging Face의 Dell Enterprise Hub에 제공하여, 멀티 에이전트 AI 워크플로우의 발전을 지원하고 있습니다. 또한 HPE는 NVIDIA Nemotron을 HPE Agents Hub에 도입해 기업 규모의 에이전틱 AI 도입을 확장하고 있습니다.

기업과 개발자는 다양한 파트너를 통해 모델을 배포할 수 있습니다.

클라우드 서비스 제공업체: Google Cloud의 Vertex AI, Oracle Cloud Infrastructure, 그리고 곧 Amazon Web Services(AWS)의 Amazon Bedrock 및 Microsoft Azure에서 지원 예정.
NVIDIA 클라우드 파트너: Coreweave, Crusoe, Nebius, Together AI.
추론 서비스 제공업체: Baseten, Cloudflare, DeepInfra, Fireworks AI, Inference.net, Lightning AI, Modal, FriendliAI.
데이터 플랫폼 및 서비스 제공업체: Distyl, Dataiku, DataRobot, Deloitte, EY, Tata Consultancy Services.

이 모델은 NVIDIA NIM 마이크로서비스 형태로 패키징되어, 온프레미스 시스템부터 클라우드까지 유연하게 배포할 수 있습니다.

에이전틱 AI, NVIDIA Nemotron 및 관련 소식은 NVIDIA AI 뉴스 구독, 커뮤니티 참여, 또는 NVIDIA AI 공식 채널 — LinkedIn, Instagram, X(Twitter), Facebook — 에서 확인할 수 있습니다.

또한, 온라인 동영상 튜토리얼이나 라이브 스트리밍으로도 자세히 탐색할 수 있습니다.