전 세계의 연구자들은 오픈소스 기술을 자신들의 연구 기반으로 활용하고 있습니다. NVIDIA는 디지털 및 피지컬 AI의 최신 발전을 커뮤니티에 제공하기 위해, 사실상 모든 연구 분야에 적용할 수 있는 오픈 AI 모델, 데이터세트, 그리고 도구 컬렉션을 한층 더 확장하고 있습니다.
세계적인 AI 학회 중 하나인 NeurIPS에서 NVIDIA는 연구를 지원하기 위한 오픈형 물리적 AI 모델과 도구들을 공개했습니다. 여기에는 자율주행을 위한 세계 최초의 산업 규모 오픈 추론 비전 언어 행동(VLA) 모델인 Alpamayo-R1이 포함되는데요, 디지털 AI 분야에서는 음성 AI와 AI 안전성을 위한 새로운 모델과 데이터세트를 발표했습니다.
NVIDIA 연구진은 이번 학회에서 70편 이상의 논문, 발표, 워크숍을 선보이며, AI 추론, 의학 연구, 자율주행차(AV) 개발 등 다양한 혁신 프로젝트를 공유했습니다.
이는 그 동안 오픈소스에 쏟은 NVIDIA의 노력을 보여줌과 동시에, 독립적인 AI 평가 기관인 Artificial Analysis의 Openness Index에서 그 성과를 인정받았습니다. 이 지표에 따르면 NVIDIA Nemotron 오픈 기술군은 라이선스 허용 범위, 데이터 투명성, 기술 세부 정보의 공개 수준 등을 기준으로 평가했을 때 AI 생태계에서 가장 개방적인 기술 중 하나로 꼽혔습니다.
NVIDIA DRIVE Alpamayo-R1, 자율주행 연구를 위한 새로운 연구 영역을 열다
세계 최초의 오픈 추론 기반 VLA(reasoning Vision-Language-Action) 모델인 NVIDIA DRIVE Alpamayo-R1 (AR1)은 사고 연쇄(chain-of-thought) 방식의 AI 추론과 경로 계획(path planning)을 통합했습니다. 이는 복잡한 도로 상황에서 자율주행 자동차의 안전성 향상과 레벨 4 자율주행(level 4 autonomy) 실현에 필수적인 요소입니다.
기존 자율주행 모델들은 복잡하고 미묘한 상황—보행자가 많은 교차로, 다가오는 차선 폐쇄, 자전거 도로에 이중 주차된 자동차 등에서 어려움을 겪었습니다. 그러나 추론(reasoning) 기능은 자율주행 자동차가 인간처럼 ‘상식’을 가지고 주행하도록 돕습니다.
AR1은 주행 시나리오를 단계 별로 분석하고, 각 단계에서 논리적으로 추론함으로써 이를 구현합니다. 다양한 가능한 경로(trajectory)를 고려한 뒤, 맥락적 데이터(contextual data)를 활용해 최적의 주행 경로를 선택합니다.
예를 들어, 보행자가 많은 지역의 자전거 도로 옆을 주행하는 자율주행 자동차는 AR1의 사고 연쇄 추론(chain-of-thought reasoning) 기능을 통해 도로 데이터를 분석하고, 행동의 근거(reasoning trace)를 남기며 결정을 내립니다. 이를 바탕으로 자동차는 자전거 도로로부터 멀리 이동하거나, 무단횡단할 수 있는 보행자에게 정지하는 등 미래의 주행 경로를 더욱 안전하고 합리적으로 계획할 수 있습니다.
AR1의 오픈 기반은 NVIDIA Cosmos Reason에 기반하며, 연구자들이 벤치마크용이든 실험적인 자율주행(AV) 응용 프로그램 구축용이든 비상업적 연구 목적에 맞게 모델을 자유롭게 커스터마이징할 수 있도록 합니다.
강화학습(reinforcement learning)을 활용한 AR1의 사후 학습(post-training)은 특히 효과적인 것으로 나타났습니다. 연구자들은 사전학습(pretrained) 모델에 비해 AR1에서 추론(reasoning) 능력이 크게 향상된 것을 관찰했습니다.
현재 NVIDIA DRIVE Alpamayo-R1은 GitHub과 Hugging Face에서 이용할 수 있습니다. 또한, 모델 학습 및 평가에 사용된 데이터의 일부는 NVIDIA Physical AI Open Datasets에서 제공됩니다.
아울러 NVIDIA는 AR1을 평가하기 위한 오픈소스 AlpaSim 프레임워크도 공개했는데요, 자율주행을 위한 추론 기반 VLA 모델(reasoning VLA models)에 대해 더 알아보고 싶다면 이 세션을 참고하시기 바랍니다.
모든 피지컬AI 활용 사례를 위한 NVIDIA Cosmos의 커스터마이징
개발자는 이제 Cosmos Cookbook을 통해 Cosmos 기반 모델을 활용하고 사후 학습(post-training)하는 방법을 단계별로 배울 수 있게 되었습니다. 본 가이드는 피지컬 AI 개발자를 위한 종합 안내서로, 데이터 큐레이션, 합성 데이터 생성(synthetic data generation), 모델 평가 등 AI 개발의 모든 단계를 다룹니다.
Cosmos 기반 애플리케이션의 가능성은 사실상 무한대입니다. NVIDIA가 최근 공개한 주요 예시는 다음과 같습니다:
-
LidarGen: 자율주행차(AV) 시뮬레이션을 위해 LiDAR 데이터를 생성할 수 있는 세계 최초의 월드 모델.
-
Omniverse NuRec Fixer: NVIDIA Cosmos Predict를 활용하여 자율주행 및 로보틱스 시뮬레이션에서 신경 기반 재구성(neural reconstruction) 데이터의 잡티(blur)나 결손(hole)과 같은 노이즈를 거의 실시간으로 수정하는 모델.
-
Cosmos Policy: 대형 사전학습 비디오 모델을 기반으로 견고한 로봇 제어 정책(robot policy)으로 전환하는 프레임워크. 즉, 로봇의 행동을 정의하는 일련의 규칙을 생성.
-
ProtoMotions3: NVIDIA Newton과 Isaac Lab을 기반으로 구축된 오픈소스 GPU 가속 프레임워크로, Cosmos의 월드 파운데이션 모델(WFM, World Foundation Models)이 생성한 사실적인 장면 데이터를 활용하여 디지털 휴먼 및 휴머노이드 로봇을 물리적으로 시뮬레이션된 환경에서 훈련할 수 있습니다.

정책(policy) 모델은 NVIDIA Isaac Lab과 Isaac Sim에서 학습할 수 있으며, 이렇게 학습된 정책 모델이 생성한 데이터를 활용해 로보틱스용 NVIDIA GR00T N 모델을 사후 학습(post-train)할 수 있습니다.

NVIDIA 생태계 파트너들은 Cosmos WFM을 활용해 최신 기술을 개발하고 있습니다.
자율주행(AV) 개발사 Voxel51은 Cosmos Cookbook에 모델 레시피를 기여하고 있습니다. 또한 1X, Figure AI, Foretellix, Gatik, Oxa, PlusAI, X-Humanoid 등의 물리적 AI(Physical AI) 개발사들은 최신 물리 AI 애플리케이션 개발에 WFM(World Foundation Model)을 활용 중입니다. 한편, **ETH 취리히(ETH Zurich)**의 연구진은 Cosmos 모델을 활용해 현실적이고 일관된 3D 장면을 생성하는 방법을 다룬 NeurIPS 논문을 발표했습니다.
NVIDIA Nemotron 추가 기능으로 디지털 AI 개발 도구 강화
NVIDIA는 이번에 다중 화자 음성 AI 모델, 추론 기능을 갖춘 새로운 모델, AI 안전을 위한 데이터세트, 그리고 강화학습 및 도메인 특화 모델 커스터마이징용 고품질 합성 데이터 생성 도구를 공개했습니다. 주요 공개 내용은 다음과 같습니다:
-
MultiTalker Parakeet: 스트리밍 오디오 인식 모델로, 여러 화자가 동시에 말하거나 대화 속도가 빠른 경우에도 발화를 구분할 수 있습니다.
-
Sortformer: 실시간 화자 분리(diarization)에 최적화된 최신 모델로, 오디오 스트림에서 여러 화자를 정확히 구분합니다.
-
Nemotron Content Safety Reasoning: 추론 기반 AI 안전 모델로, 다양한 도메인에서 맞춤형 콘텐츠 정책을 동적으로 적용할 수 있습니다.
-
Nemotron Content Safety Audio Dataset: 안전하지 않은 오디오 콘텐츠 탐지 모델 학습을 위한 합성 데이터세트로, 텍스트와 오디오를 아우르는 AI 안전 가드레일 구축을 돕습니다.
-
NeMo Gym: 오픈소스 강화학습(RL) 환경 개발용 라이브러리로, LLM 학습을 가속화하고 단순화합니다. 또한 검증 가능한 보상 기반 강화학습(RLVR)을 위한 미리 구축된 환경 모음도 제공합니다.
-
NeMo Data Designer Library: Apache 2.0 라이선스로 오픈소스화된 라이브러리로, 생성형 AI 개발을 위한 고품질 합성 데이터 생성, 검증, 개선까지 지원하는 엔드 투 엔드 툴킷을 제공합니다.
NVIDIA 생태계의 주요 파트너사들이 NVIDIA Nemotron과 NeMo 도구를 활용해 안전하고 특화된 에이전틱 AI를 구축하고 있습니다. 그리고 이들 파트너에는 CrowdStrike, Palantir, ServiceNow가 포함됩니다.
NVIDIA Research, 언어 AI 혁신을 가속하다
NeurIPS에서 발표된 다수의 NVIDIA 연구 논문 중 언어 모델 발전을 이끈 주요 연구는 다음과 같습니다:
-
Audio Flamingo 3: Advancing Audio Intelligence With Fully Open Large Audio Language Models: 음성, 사운드, 음악 전반에 걸쳐 추론(reasoning)이 가능한 대형 오디오 언어 모델입니다. 최대 10분 길이의 오디오 구간을 이해하고 추론할 수 있으며, 20개 이상의 벤치마크에서 최신 성능(state-of-the-art)을 달성했습니다.
-
Minitron-SSM: Efficient Hybrid Language Model Compression Through Group-Aware SSM Pruning: 하이브리드 모델을 효율적으로 압축(pruning)할 수 있는 새로운 방법을 제시한 연구로, Nemotron-H 8B를 80억 개에서 40억 개 파라미터로 줄이면서도 비슷한 크기의 모델보다 높은 정확도와 2배 빠른 추론 속도를 달성했습니다.
-
Jet-Nemotron: Efficient Language Model With Post Neural Architecture Search : 효율적인 언어 모델을 위한 비용 절감형 사후 학습(post-training) 파이프라인을 소개하며, 이를 통해 만들어진 하이브리드 아키텍처 모델군은 기존 전체 주의(attention) 기반 모델과 비교해 동일하거나 더 높은 정확도와 월등한 생성 속도를 달성했습니다.
-
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models:실제 지연(latency)을 기준으로 새롭게 설계된 소형 언어 모델(SLM)로, 단순한 파라미터 수가 아닌 현실적 응답 속도에 최적화되어 최고 수준의 속도와 정확도를 제공합니다.
-
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models: 장기 강화학습(Prolonged Reinforcement Learning, ProRL) 기법을 도입하여, 모델 학습을 더 오랜 시간 지속함으로써 기본 모델보다 우수한 추론 성능을 지속적으로 달성할 수 있음을 보여줍니다.
소프트웨어 제품 정보 관련 공지 사항은 여기서 확인할 수 있습니다.
