NVIDIA, 비전·오디오·언어를 하나로 통합한 Nemotron 3 Nano Omni 모델 출시 — AI 에이전트 효율 최대 9배 향상

오늘날 AI 에이전트 시스템은 비전, 음성, 언어를 위한 별도 모델을 동시에 운용하면서, 한 모델에서 다른 모델로 데이터를 전달할 때마다 시간과 맥락을 잃고 있습니다.

새롭게 공개된 NVIDIA Nemotron 3 Nano Omni는 이러한 기능을 하나의 시스템으로 통합한 오픈 멀티모달 모델입니다. 에이전트가 영상·오디오·이미지·텍스트 전반에 걸쳐 고급 추론 능력을 발휘하며 더 빠르고 스마트한 응답을 제공할 수 있도록 지원하는데요, 이 동급 최고 모델은 기업과 개발자에게 완전한 배포 유연성과 제어 능력을 갖춘, 더 효율적이고 정확한 멀티모달 AI 에이전트로의 실질적인 프로덕션 경로를 제공합니다.

Nemotron 3 Nano Omni는 높은 정확도와 낮은 비용으로 오픈 멀티모달 모델의 새로운 효율 기준을 세우며, 복잡한 문서 인텔리전스와 영상·오디오 이해 분야에서 6개 리더보드 상위권을 차지했습니다.

한눈에 보는 주요 사양

무엇인가: 동급 최고 효율의 오픈 옴니모달 추론 모델 — 탁월한 정확도를 갖춘 최고 효율의 오픈 멀티모달 모델
처리 대상: 텍스트, 이미지, 오디오, 영상, 문서, 차트, 그래픽 인터페이스(입력) / 텍스트(출력)
대상 사용자: 멀티모달 지각 서브 에이전트가 필요한 빠르고 신뢰할 수 있는 에이전틱 시스템을 구축하는 기업 및 개발자
동작 방식: 에이전트 시스템에서 “눈과 귀” 역할을 담당하며, Nemotron 3 Super·Ultra 등 다른 NVIDIA Nemotron 오픈 모델이나 타사 독점 모델과 함께 동작
왜 중요한가: 동급 오픈 옴니 모델 대비 9배 높은 처리량과 동일한 상호작용성을 제공해 응답성이나 품질을 희생하지 않으면서 비용을 절감하고 확장성을 향상
아키텍처: Conv3D, EVS, 256K 컨텍스트를 갖춘 30B-A3B 하이브리드 MoE
제공 시점: 2026년 4월 28일 — Hugging Face, OpenRouter, build.nvidia.com 및 25개 이상의 파트너 플랫폼을 통해 제공

Nemotron 3 Nano Omni를 이미 도입하고 있는 AI·소프트웨어 기업으로는 Aible, Applied Scientific Intelligence(ASI), Eka Care, Foxconn, H Company, Palantir, Pyler가 있으며, Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle, Zefr는 현재 모델 평가 중입니다.

“유용한 에이전트를 만들기 위해서는 모델이 화면을 해석하는 데 몇 초씩 기다릴 수 없습니다. Nemotron 3 Nano Omni를 기반으로 구축한 덕분에, 저희 에이전트는 풀HD 화면 녹화를 빠르게 해석할 수 있게 됐습니다 — 이전에는 실용적이지 않았던 일입니다. 이것은 단순한 속도 향상이 아닙니다. 에이전트가 디지털 환경을 실시간으로 인식하고 상호작용하는 방식의 근본적인 전환입니다.”

— Gautier Cloix, H Company CEO

더 빠르고 가벼운 멀티모달 에이전트를 가능하게 하는 Nemotron 3 Nano Omni

화면 녹화를 처리하면서 업로드된 통화 오디오를 분석하고 데이터 로그를 확인하는 고객 지원 AI 에이전트를 상상해보세요. 또는 PDF, 스프레드시트, 차트, 음성 메모를 파싱하는 금융 에이전트를 생각해볼 수 있습니다. 오늘날 대부분의 에이전틱 시스템들은 비전, 음성, 언어를 위한 별도의 모델로 이러한 작업을 수행합니다.

이 방식은 반복적인 추론 과정으로 지연을 증가시키고, 모달리티 간 맥락을 분절하며, 시간이 지날수록 비용과 오류를 누적하게 되죠.

30B-A3B 하이브리드 혼합 전문가(MoE) 아키텍처 내에 비전과 오디오 인코더를 결합함으로써, Nemotron 3 Nano Omni는 별도의 지각 모델 없이도 추론 효율을 대규모로 끌어올립니다. 이 효율성에 강력한 멀티모달 지각 정확도까지 더해, AI 시스템이 동일한 상호작용성을 유지하면서 다른 오픈 옴니 모델보다 9배 높은 처리량을 달성할 수 있게 합니다. 결과적으로 응답성이나 품질을 희생하지 않으면서 비용이 낮아지고 확장성이 향상됩니다.

에이전틱 시스템에서 Nemotron 3 Nano Omni는 독점 클라우드 모델 또는 다른 NVIDIA Nemotron 오픈 모델 — 고빈도 실행을 위한 Nemotron 3 Super, 복잡한 계획 수립을 위한 Nemotron 3 Ultra — 그리고 타사 독점 모델과 함께 동작하여, 컴퓨터 사용·문서 인텔리전스·오디오·영상 추론 등 에이전틱 워크플로를 위한 서브 에이전트를 구동합니다.

컴퓨터 사용 에이전트

Nemotron 3 Nano Omni는 그래픽 사용자 인터페이스를 탐색하고, 화면 콘텐츠를 추론하며, 시간에 따른 UI 상태를 이해하는 에이전트의 지각 루프를 구동합니다. Nemotron 3 Nano Omni 기반의 H Company 최신 컴퓨터 사용 에이전트는 1920×1080 픽셀의 네이티브 입력 해상도를 사용해 고화질 시각 추론을 달성합니다. OSWorld 벤치마크의 예비 평가에서 이 통합은 복잡한 그래픽 인터페이스 탐색에서 현저한 도약을 보였으며, Nemotron 3 Nano Omni의 매우 고해상도 이미지 처리 능력을 활용했습니다.

문서 인텔리전스

문서, 차트, 표, 스크린샷, 혼합 미디어 입력을 해석해 에이전트가 시각 구조와 텍스트 콘텐츠 전반에 걸쳐 일관된 추론을 수행할 수 있게 합니다. 기업 분석 및 규정 준수 워크플로에 핵심적인 역할을 담당합니다.

오디오·영상 이해

고객 서비스, 리서치, 모니터링 워크플로에서 Nemotron 3 Nano Omni는 오디오·영상 맥락을 유지하며, 발화된 내용·시각적 정보·문서 내용을 단절된 요약이 아닌 하나의 통합된 추론 흐름으로 연결합니다.

오픈·커스터마이즈 가능, 어디서나 배포 가능

Nemotron 3 Nano Omni는 오픈 가중치, 데이터셋, 학습 기법과 함께 출시돼, 조직이 모델을 어떻게 커스터마이즈하고 배포할지에 대한 완전한 투명성과 제어권을 제공합니다.

개발자는 NVIDIA NeMo 같은 도구를 활용해 도메인별 사용 사례에 맞게 커스터마이징, 평가, 최적화할 수 있습니다. Nemotron 패밀리 모델이 오픈되어 있기 때문에, 조직은 규제, 데이터 주권, 데이터 현지화 요건을 충족하는 환경에도 배포할 수 있습니다.

Nano, Super, Ultra 모델을 포함한 Nemotron 3 패밀리는 지난 한 해 동안 5,000만 건 이상 다운로드됐습니다. Omni는 이 패밀리의 역량을 멀티모달 및 에이전틱 도메인으로 확장합니다.

이 모델은 Hugging Face, OpenRouter, build.nvidia.com에서 NVIDIA NIM 마이크로서비스로 제공되며, 광범위한 NVIDIA 클라우드 파트너, 추론 플랫폼, 클라우드 서비스 제공업체 생태계를 통해서도 이용할 수 있습니다.

오픈 경량 아키텍처 덕분에 NVIDIA Jetson 하드웨어, NVIDIA DGX Spark, DGX Station 같은 로컬 시스템부터 데이터센터, 클라우드 환경까지 일관된 배포가 가능합니다.

Nemotron 3 Nano Omni 활용 사례에 대한 튜토리얼, 쿡북, 배포 가이드는 NVIDIA 기술 블로그를 방문하세요. 에이전틱 AI, NVIDIA Nemotron 등 최신 소식을 받아보려면 NVIDIA 뉴스를 구독하고, 커뮤니티에 참여하거나, LinkedIn·Instagram·X·Facebook에서 NVIDIA AI를 팔로우하세요.

셀프 페이스 영상 튜토리얼과 라이브스트림도 살펴보세요.