새로운 NVIDIA Cosmos Predict-2와 개발자 도구로 자율주행 자동차 개발 앞당기다

신규 Cosmos Predict-2 월드 파운데이션 모델과 CARLA를 통합해 자율주행 자동차(AV) 훈련을 가속합니다
by NVIDIA Korea

자율주행 자동차(AV) 스택은 다양한 독립적인 모델에서 시작해, 센서 데이터에서 직접 주행 동작을 실행하는 통합된 엔드 투 엔드 아키텍처로 진화하고 있는데요. 보다 큰 모델로 전환이 이루어지면서, 훈련과 테스트, 검증을 위한 고품질 물리 기반 센서 데이터에 대한 수요도 급격하게 증가하고 있습니다.

차세대 AV 아키텍처 개발 속도를 높일 NVIDIA Cosmos Predict-2와 새로운 개발자 도구를 소개합니다! Cosmos Predict-2는 고품질 합성 데이터 생성을 위한 미래 세계의 상태를 예측하는 기능이 개선된 새로운 월드 파운데이션 모델입니다.

NVIDIA Cosmos 플랫폼의 일부인 Cosmos Predict-2는 개발자들에게 엔드 투 엔드 AV 개발에서 가장 복잡한 과제를 해결할 수 있는 기술을 제공하죠. 옥사(Oxa), 플러스(Plus), 우버(Uber) 등 업계 선두 기업들은 Cosmos 모델을 사용해 AV 개발에 필요한 합성 데이터 생성을 빠르게 확장하고 있습니다.

AV 훈련 가속하는 Cosmos Predict-2

Cosmos Predict-1은 텍스트, 이미지, 비디오 프롬프트를 사용해 미래 세계 상태를 예측하고 생성하도록 설계됐습니다. 이를 기반으로 하는 Cosmos Predict-2는 텍스트와 시각적 입력에서 맥락을 더 잘 이해해, 생성된 비디오에서 환각을 줄이고 디테일을 보다 풍부하게 만들죠.

Cosmos Predict-2는 교차로 정지 표지판에 대한 텍스트 준수와 상식을 향상시킵니다.

최신 최적화 기술을 사용하는 Cosmos Predict-2는 NVIDIA GB200 NVL72 시스템과 NVIDIA DGX Cloud에서 합성 데이터 생성을 크게 가속화합니다.

새로운 훈련 데이터 소스 제공하는 사후 훈련 Cosmos

AV 데이터에 대한 Cosmos 모델의 사후 훈련을 통해 개발자는 기존 물리적 환경·차량 궤적과 정확히 일치하는 비디오를 생성할 수 있습니다. 또한, 대시캠(dashcam) 영상과 같은 단일 뷰 비디오에서 다중 뷰 비디오를 생성하는 것도 가능하죠. 널리 보급된 대시캠 데이터를 다중 카메라 데이터로 변환하는 기능은 개발자에게 AV 훈련을 위한 새로운 데이터 소스에 접근할 수 있도록 합니다. 이러한 다중 뷰 비디오는 고장나거나 가려진 센서의 실제 카메라 데이터를 대체하는 데에도 사용할 수 있습니다.

사후 훈련된 Cosmos 모델은 다중 뷰 비디오를 생성해 AV 훈련 데이터 세트를 크게 확장합니다.

NVIDIA Research 팀은 2만 시간 분량의 실제 주행 데이터를 통해 Cosmos 모델을 사후 훈련했는데요. AV 전용 모델을 사용해 멀티뷰 비디오 데이터를 생성함으로써 안개, 비와 같은 어려운 조건에서도 모델 성능을 개선할 수 있었습니다.

Cosmos Predict로 기술 발전 주도하는 AV 생태계

AV 기업들은 이미 Cosmos Predict를 통합해 차량 개발을 확장하고 가속화하고 있습니다.

플러스와 같은 자율주행 트럭 분야 선도 기업은 NVIDIA DRIVE AGX 플랫폼을 사용해 솔루션을 구축하고 있습니다. 이 기업은 트럭 운송 데이터에 Cosmos Predict를 사후 훈련하는데요. 이를 통해 매우 사실적인 합성 주행 시나리오를 생성하고, 자율 주행 솔루션의 대규모 상용화를 가속화하고 있죠. AV 소프트웨어 기업인 옥사도 Cosmos Predict를 사용해 높은 충실도와 시간적 일관성을 갖춘 멀티 카메라 비디오 생성을 지원하고 있습니다.

신규 NVIDIA 모델과 NIM 마이크로서비스로 AV 개발자 지원

Cosmos Predict-2 외에도 데이터센터 GPU에 쉽게 배포할 수 있는 NVIDIA NIM 마이크로서비스 프리뷰로 Cosmos Transfer도 공개합니다.

Cosmos Transfer NIM 마이크로서비스 프리뷰는 NVIDIA Omniverse 플랫폼의 구조화된 입력 또는 지상 실측(ground-truth) 시뮬레이션을 사용해 데이터 세트를 확장하고 사실적인 비디오를 생성하죠. 또한, NuRec Fixer 모델은 재구성된 AV 데이터의 공백을 보정(inpaint)하고 해결(resolve)할 수 있도록 지원합니다.

NuRec Fixer는 운전 데이터의 빈 부분을 채워 신경망 재구성 품질을 향상시킵니다.

세계적인 오픈 소스 AV 시뮬레이터인 칼라(CARLA)최신 버전Cosmos Transfer와 NVIDIA NuRec을 통합했죠. NuRec은 신경망 재구성과 렌더링을 위한 애플리케이션 프로그래밍 인터페이스와 도구 세트인데요. 이러한 통합으로 15만 명 이상의 AV 개발자로 구성된 칼라 사용자는 합성 시뮬레이션 장면과 관점을 고화질로 렌더링하고, 간단한 프롬프트를 사용해 조명, 날씨, 지형에 대한 무한한 변형을 생성할 수 있습니다.

개발자는 NVIDIA Physical AI 데이터 세트에서 제공되는 오픈 소스 데이터를 사용해 이 파이프라인을 시험해 볼 수 있죠. 최신 데이터 세트에는 Cosmos를 사용해 생성된 40,000개의 클립과 신경망 렌더링을 위한 재구성된 장면 샘플이 포함됩니다. 최신 버전 칼라를 통해 새로운 궤적을 생성하고, 센서 위치를 재조정하고, 주행을 시뮬레이션할 수 있습니다.

확장 가능한 데이터 생성 파이프라인은 엔드 투 엔드 AV 모델 아키텍처 개발을 실현하는데요. NVIDIA Research팀은 CVPR의 엔드 투 엔드 오토노머스 그랜드 챌린지(End-to-End Autonomous Grand Challenge)에서 2번 연속 우승을 하면서 이를 입증하기도 했죠.

이 대회는 연구진들이 실제 인간 운전 데이터만을 사용하는 것을 넘어, 예상치 못한 상황을 처리하는 방법을 모색할 기회를 제공합니다. 따라서 보다 스마트하고 안전한 AV 개발을 가속화하는 데 기여했습니다.

엔드 투 엔드 AV 안전성 향상시키는 NVIDIA Halos

NVIDIA는 AV 시스템의 운영 안전성을 강화하기 위해 올해 초 NVIDIA Halos를 출시했습니다. NVIDIA Halos는 NVIDIA의 전체 자동차 하드웨어/소프트웨어 안전 스택과 AV 안전성에 초점을 맞춘 최첨단 AI 연구를 통합한 종합적인 안전성 플랫폼입니다.

자동차 업계 선도 기업인 보쉬(Bosch), 이지레인(Easyrain), 뉴로(Nuro)는 최근 NVIDIA Halos AI Systems Inspection Lab에 합류했죠. 이 기업들은 자사 제품과 NVIDIA 기술의 안전한 통합을 검증하고 AV 안전을 발전시키기 위해 노력하고 있습니다. 이밖에도 올해 초 발표된 회원사로는 콘티넨탈(Continental), 피코사(Ficosa), 옴니비전(OMNIVISION), 온세미(onsemi), 소니 세미컨덕터 솔루션즈(Sony Semiconductor Solutions)가 있습니다.

Viva Tech에서 NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)의 NVIDIA GTC Paris 키노트를 시청하고 GTC 파리 세션을 살펴보세요.