NVIDIA와 토론토 대학(University of Toronto), 벡터 인스티튜트(Vector Institute)의 연구원들이 값비싼 모션 캡처 하드웨어를 사용하지 않는 새로운 모션 캡처 방법을 제안했습니다. 바로 기존 모션 캡처 애니메이션 모델을 개선하기 위해 비디오 입력만 사용하는 방법입니다.
유튜버이자 그래픽 연구원인 카롤리 졸나이-페헤르(Károly Zsolnai-Fehér) 박사는 자신의 ‘2분 논문(Two Minute Papers)’ 유튜브 시리즈에서 이 혁신적인 기술에 대한 연구를 자세히 설명합니다. 이 동영상은 비디오 입력을 통해서만 AI를 사용하여 사람을 캡처해 디지털 아바타로 변환하는 방법을 보여줍니다. 그런 다음 아바타에 물리 시뮬레이션을 제공해 풋 슬라이딩과 시간 불일치 또는 깜박임의 기존 문제를 상쇄할 수 있습니다. 아래 영상을 확인하세요.
영상 1: ‘동영상에서 물리학 기반 인간 모션을 추정, 합성하는 방법을 2분 안에 소개하기’ 논문을 소개하는 영상
케빈 시에(Kevin Xie)는 “이 논문에서 우리는 모션 캡처 데이터를 사용하지 않고 원시 비디오 포즈 추정으로부터 모션 합성 모델을 훈련하기 위한 새로운 프레임워크를 소개했습니다”라고 설명합니다.
“이 프레임워크는 접촉력 계산을 포함한 접촉 불변 최적화(CIO)를 통해 물리적 제약을 적용하여 잡음이 있는 포즈 추정치를 개선합니다. 그런 다음 정제된 포즈에 대해 시계열 생성 모델을 훈련하여 미래의 동작과 접촉력을 모두 합성합니다. 연구 결과는 물리 기반 개선을 통한 포즈 추정과 비디오의 모션 합성 결과 모두에서 상당한 성능 향상을 보여줬습니다. 이번 연구가 대규모 온라인 동영상 리소스를 활용하여 보다 확장 가능한 인간 모션 합성으로 이어질 수 있기를 바랍니다.”
영상 2. AI가 모션 캡처를 사용하여 움직임을 캡처해 사람을 디지털 아바타로 애니메이션화하고, 실제 움직임을 정확하게 모방하는 물리 시뮬레이션을 제공합니다.
이 프레임워크는 사람들이 가상 세계에서 일하고 노는데 한 걸음 더 다가갈 수 있도록 합니다. 개발자가 훨씬 더 다양한 모션으로 훨씬 더 저렴하게 인간의 모션을 애니메이션화하는 데 도움이 될 것이죠. 비디오 게임에서 가상 세계에 이르기까지 이 프레임워크는 인간의 모션 합성을 시각화하는 방법에 분명히 영향을 미칠 것입니다.
이 프레임워크에 대해 더 자세히 알아보거나, 케빈 시에(Kevin Xie), 팅우 왕(Tingwu Wang), 우마르 이크발(Umar Iqbal), 윤롱 구오(Yunrong Guo), 산자 피들러(Sanja Fidler), 플로리안 스쿠르티(Florian Shkurti)의 ‘동영상에서 물리학 기반 인간 모션을 추정, 합성하는 방법(Physics-based Human Motion Estimation and Synthesis from Videos)’ 논문을 확인하세요.
자세한 내용은 NVIDIA Toronto AI lab에서 확인할 수 있습니다.