NVIDIA와 미국 텍사스 오스틴 대학교(University of Texas at Austin), 캘리포니아 공과대학교(Caltech)의 연구진은 6자유도(6-DoF) 물체 포즈 추정을 위한 간단하고 효율적인 플러그 앤 플레이(plug-and-play) 불확실성 정량화 기법을 개발했습니다. 이를 위해 다양한 아키텍처나 훈련 데이터소스로 구성된 K 사전 훈련 추정기(K pre-trained estimators)의 앙상블(ensemble)을 사용했죠.
연구진은 ‘국제 로보틱스와 자동화 컨퍼런스(ICRA) 2021’에서 “심층 물체 포즈 추정(DOPE, Deep Object Pose Estimation)을 위한 고속 불확실성 정량화(FastUQ, Fast Uncertainty Quantification)” 논문을 발표했습니다.
이 논문의 고속 불확실성 정량화(FastUQ)는 심층 물체의 포즈를 추정하기 위한 불확실성 정량화에 중점을 둡니다. 딥 러닝에 기반해 물체의 포즈를 추정하는 작업(NVIDIA DOPE 참조)에서 가장 큰 문제점은 딥 러닝에 기반한 포즈 추정기가 포즈 예측에 과잉 확신할 수 있다는 것인데요.
예를 들어, 아래에 나타난 두 그림은 조작 작업의 DOPE 모델을 사용해 “케찹” 물체의 포즈를 추정한 결과입니다. 두 그림의 결과 모두 케찹을 가리킨 박스가 아주 명확하게 나타나 있지만, 왼쪽 그림의 결과는 잘못됐습니다.
해당 연구가 다룬 또 다른 문제점은 시뮬레이터와 실제 간(sim2real)에 격차가 생긴다는 점입니다. 일반적으로 딥 러닝에 기반한 포즈 추정기는 NVIDIA 레이 트레이싱 렌더러(NViSII)에 의해 합성 데이터세트에서 훈련됩니다. 하지만 NVIDIA는 이 추정기를 실제 환경에 적용하여 불확실성을 정량화하려고 했습니다. 예를 들어, 왼쪽 그림은 합성 NViSII 데이터세트에서 추정기를 사용해 얻은 결과이고, 오른쪽 그림은 실제 환경에서 얻은 결과입니다.
이 프로젝트에서는 딥 러닝 기반 포즈 추정기(DOPE)를 고속 불확실성 정량화(FastUQ)하는 앙상블(ensamble) 기반 기법을 제안합니다. 다음 두 그림에서 알 수 있는 것은 왼쪽 그림에서 앙상블 안의 심층 모델들은 서로 일치하지 않아 높은 불확실성을 보여줍니다. 반면에, 오른쪽 그림에서 앙상블 안의 심층 모델들은 서로 일치하며 낮은 불확실성을 보여주죠.
이 연구는 여러 학제 간에 NVIDIA의 여러 연구팀의 공동 노력으로 이루어졌습니다.
- 아니마 아난드쿠마르(Anima Anandkumar)가 이끄는 인공지능(AI) 알고리즘 팀과 시애틀의 NVIDIA AI Robotics Research Lab의 연구진은 불확실성 정량화 방법을 연구 중입니다.
- 얀 카우츠(Jan Kautz)가 이끄는 학습과 지각 연구팀(Learning and Perception Research)은 심층 객체 포즈 추정 모델을 훈련하고, NVIDIA의 레이 트레이싱 렌더러, NViSII에서 얻은 사실적인 합성 데이터를 제공합니다.
해당 연구팀은 심층 추정기를 훈련하고 고충실도 사실적 합성 데이터 세트를 생성하기 위해, 가속용 NVIDIA V100 GPU와 NVIDIA OptiX(C++/CUDA 백엔드)를 사용했습니다.
심층 물체 포즈를 측정하기 위한 새로운 고속 불확실성 정량화 방법인 FastUQ는 효율적이고 플러그-앤-플레이한 방식으로 일반적인 포즈 추정 작업을 지원합니다. 이 연구는 보다 강력하고 안전한 인식, 불확실성 인식 제어와 계획 등과 같은 자율주행과 일반 자율성(general autonomy)에 큰 영향을 줄 수 있습니다.
해당 연구에 대한 자세한 내용은 FastUQ 프로젝트 홈페이지에서 확인할 수 있습니다.