자동차는 앞으로 단순한 교통 수단을 넘어 지능적인 동반자가 될 것이며, 기술과 편안함의 완벽한 조합으로 운전 경험을 향상시키고, 실내외 안전을 위해 제작될 것입니다.
미국 새너제이 컨벤션 센터에서 열린 NVIDIA GTC에서는 NVIDIA와 파트너들이 생성형 AI, 거대 언어 모델(LLM)과 비전 언어 모델(VLM)의 성능을 모빌리티 분야에 제공하기 위해 진행하고 있는 혁신적인 작업이 집중 조명됩니다.
NVIDIA는 차량용 어시스턴트를 구축하는 방법에 대해 소개합니다. 이는 딥 러닝과 트랜스포머 모델을 기반으로 향상된 인식, 이해, 생성 기능을 통해 운전자의 안전, 보안과 편의성을 향상시키죠.
전문 기술 살펴보기
거대 언어 모델은 생성형 AI의 한 형태로, 크게 내용과 의미를 학습하는 데 능숙한 신경망인 트랜스포머 모델로 알려진 딥 러닝 아키텍처의 한 종류를 나타냅니다.
비전 언어 모델이란, 이미지 처리 및 언어 이해 기능을 제공하는 생성형 AI의 또 다른 파생 기술입니다. 주로 텍스트 기반 데이터를 처리하고 생성하는 기존 혹은 멀티모달 거대 언어 모델과 달리, 비전 언어 모델은 이미지나 동영상을 통해 텍스트를 분석하고 생성할 수 있죠.
또한 제조업체는 검색 증강 생성(RAG, rtrieval-augmented generation) 기술로 특정 데이터베이스 또는 웹에서 지식에 액세스해 운전자를 지원할 수 있습니다.
이러한 기술을 통해 NVIDIA ACE과 멀티모달 언어 모델은 NVIDIA DRIVE 플랫폼과 함께 작동합니다. 자동차 제조업체가 자체 지능형 차량내 어시스턴트를 개발할 수 있도록 지원하죠.
예를 들어, 아바타 컨피규레이터(Avatar configurator)를 사용해 자동차 디자이너들은 자동차 브랜드에서 영감을 받은 가상의 캐릭터를 만들 수 있는데요. 여기에 맞춤형 목소리와 감정 특성을 덧입힐 수 있습니다. 이렇게 만들어진 AI 애니메이션 아바타는 사용자와의 자연스러운 대화를 통해 실시간 지원, 추천, 개인화된 소통을 할 수 있는 것이죠.
또한 AI로 강화된 서라운드 시각화(surround visualization) 기능은 360도 카메라 재구성을 통해 차량 안전성을 향상시킵니다. 지능형 어시스턴트는 현지의 운전 법규와 같은 외부 정보를 수집해 의사 결정에 정보를 제공합니다.
사용자 경험에 개인화가 매우 중요하기 때문에, AI 어시스턴트 기능은 운전자와 동승자의 습관을 학습하고 탑승자의 필요에 맞게 동작을 조정합니다.
GTC에서 집중 조명된 차량용 생성형 AI
GTC에서 NVIDIA 파트너사들은 NVIDIA의 엣지 투 클라우드(edge-to-cloud) 기술을 활용한 최신 생성형 AI 개발을 선보입니다.
- 세렌스(Cerence)의 CaLLM은 NVIDIA DRIVE에서 실행되는 차세대 차량 내 컴퓨팅 플랫폼의 기반이 되는 자동차 전용 거대 언어 모델입니다. 작년 말 공개된 이 플랫폼은 통합된 차량 내 경험을 제공하는 자동차와 모빌리티에 특화된 어시스턴트와 함께, 차량 내에서의 상호 작용의 미래를 보여주죠. 세렌스는 NVIDIA 엔지니어링 팀과 협력해 CaLLM과 NVIDIA AI Foundation Model을 더욱 긴밀하게 통합하고 있습니다. 이런 협업을 통해 세렌스는 개발 플랫폼으로 NVIDIA DGX Cloud를 활용하고, 성능 향상을 위해 가드레일을 적용하며, 추론을 최적화하기 위해 NVIDIA AI Enterprise를 활용합니다. 올해에도 NVIDIA와 세렌스는 여러 자동차 OEM과 함께 이 솔루션을 지속적으로 협력하고 개척해 나갈 예정입니다.
- 웨이비(Wavye)는 자율주행을 위한 임베디드 AI의 새로운 시대를 여는 데 일조하고 있습니다. 웨이비의 차세대0 접근법은 센싱 입력부터 주행 동작 출력에 이르기까지 엔드 투 엔드로 AI를 사용해 자율주행을 학습하는 대규모 임베디드 AI 기반 모델이 특징이죠. 이 영국 스타트업은 이미 NVIDIA에서 실행되는 자율주행 자동차(AV) 개발을 위한 생성형 월드 모델(generative world model)인 GAIA-1과 함께, 자연어를 사용해 AI 운전 모델의 학습과 설명 가능성을 향상시키는 폐쇄 루프(closed-loop) 운전 해설자인 링고원(LINGO-1)을 공개한 바 있습니다.
- 리 오토(Li Auto)는 작년 6월 오픈 소스 라이브러리인 NVIDIA TensorRT-LLM을 기반으로 구축된 멀티모달 인지 모델인 마인드 GPT(Mind GPT)를 공개했습니다. 이 모델은 장면 이해, 생성, 지식 유지와 추론 기능을 위한 전기 자동차 제조업체의 AI 비서인 리샹 퉁쉐(Lixiang Tongxue)의 기반이 되는데요. 리 오토는 현재 자율 주행 기능을 강화하기 위해 드라이브VLM(DriveVLM)을 개발 중에 있습니다. 이를 통해 비정형 도로, 희귀하고 특이한 물체, 예상치 못한 교통 상황 등 기존의 자율주행 파이프라인으로는 이해하기 어려운 복잡한 시나리오를 시스템이 이해할 수 있도록 지원합니다. 이 고급 모델은 NVIDIA GPU에서 훈련되며 데이터센터에서 데이터 생성을 위해 TensorRT-LLM과 NVIDIA Triton Inference Server를 활용합니다. NVIDIA DRIVE와 TensorRT-LLM에 의해 최적화된 추론을 통해 드라이브VLM은 임베디드 시스템에서 효율적으로 성능을 발휘합니다.
- 니오(NIO)는 노미(NOMI) 백과사전 Q&A, 캐빈 애트머스피어 마스터(Cabin Atmosphere Master), 차량 어시스턴트 등 다양한 기능적 경험을 제공하는 노미 GPT를 출시했습니다. 노미 GPT는 거대 언어 모델이 지원하는 기능과 NVIDIA AI 스택으로 구동되는 효율적인 컴퓨팅 플랫폼을 갖췄죠. 따라서 노미 GPT는 기본적인 음성 인식과 명령 실행 기능이 가능하며 딥 러닝을 사용해 차량 내에서 사용자의 복잡한 문장과 지침을 이해하고 처리할 수 있습니다.
- 지리(Geely)는 NVIDIA와 협력해 엣지 투 클라우드 배포를 가속화하는 동시에 지능형 차량 내(cabin) 경험을 제공합니다. 특히 지리는 지능형 내비게이션과 음성 비서를 위한 자연어 처리, 대화 시스템과 예측 분석을 사용해 더욱 스마트하고 개인화된, 안전한 운전 경험을 제공하기 위해 생성형 AI와 거대 언어 모델 기술을 적용하고 있습니다. 지리는 거대 언어 모델을 실제 운영 환경에 통합하고 이 모델의 추론 과정을 더 효율적으로 만들기 위해 NVIDIA TensorRT-LLM을 사용하죠. 대규모 데이터 지원이 필요한 매우 복잡한 작업이나 상황을 처리하기 위해, 지리는 클라우드에 대규모 모델을 배포할 계획입니다.
- 와비(Waabi)는 자율주행을 위한 AI를 구축하고 있으며, 혁신적인 자율 트럭 운송 솔루션에 NVIDIA DRIVE Thor의 생성형 AI 기능을 사용합니다. 이로써 트럭 운송업계에 안전하고 신뢰할 수 있는 자율주행을 제공할 예정입니다.
- 레노버(Lenovo)는 NVIDIA DRIVE에서 실행되는 새로운 AI 가속 엔진인 울트라부스트(UltraBoost)를 공개했습니다. 울트라부스트는 차량 내 거대 언어 모델을 쉽게 배포할 수 있도록 AI 모델 엔진과 AI 컴파일러 툴 체인을 갖추고 있습니다.
- 사운드하운드 AI(SoundHound AI)는 차량에 클라우드 연결이 없는 경우에도 실시간과 생성형 AI 기능을 모두 결합한 차량 내 음성 인터페이스를 실행하기 위해 NVIDIA를 사용합니다. 이 솔루션을 사용해 운전자는 이전과 같이 물리적인 문서를 통하지 않고 자연스러운 음성을 통해, 차량 매뉴얼과 기타 데이터 소스로부터 설정, 문제 해결, 기타 정보를 즉시 제공받을 수 있는 사운드하운드의 차량 인텔리전스 제품에 접근할 수 있습니다.
- 타타 컨설턴시 서비스(Tata Consultancy Services, TATA 그룹 산하)는 AI 기반 기술과 엔지니어링 혁신을 통해 NVIDIA GPU와 소프트웨어 프레임워크로 구동되는 자동차 젠AI(GenAI) 제품군을 구축했습니다. 이 솔루션은 차량 내와 클라우드 기반 시스템을 위한 다양한 거대 언어 모델과 비전 언어 모델을 활용해 소프트웨어 정의 차량의 설계, 개발, 검증을 가속화합니다.
- 미디어텍(MediaTek)은 프리미엄부터 보급형에 이르는 차세대 지능형 차량에 강력한 AI 기반 차량 내 경험을 제공하는 자사의 ‘디멘서티 오토 콕핏(Dimensity Auto Cockpit)’ 포트폴리오에 포함된 4가지 차량용 시스템 온 칩을 발표합니다. 딥 러닝 기능을 지원하기 위해 디멘서티 오토 콕핏 칩셋은 NVIDIA의 차세대 GPU 가속 AI 컴퓨팅과 NVIDIA RTX 기반 그래픽을 통합해 차량에서 거대 언어 모델을 실행하죠. 이를 통해 챗봇, 여러 디스플레이로 풍부한 콘텐츠 전송, 운전자 주의 감지, 기타 AI 기반 안전과 엔터테인먼트 애플리케이션을 지원할 수 있습니다.
여기에서 GTC에서 생성형 AI와 거대 언어 모델에 관한 여러 자동차 강연들을 확인해보세요.