반려동물 이미지에 AI 기술을 적용하면 어떤 색다른 표정이?

NVIDIA 연구진, 생성적 적대 신경망(GAN)으로 사람의 상상력을 실제로 구현하다
by NVIDIA Korea

당신의 래브라도가 짓는 특유의 미소를 사자가 똑같이 따라한다면? 당신의 고양이가 소심하게 웃는 모습을 호랑이가 그대로 재연한다면 어떨까요? 사람은 자신의 반려동물의 표정을 쉽게 따라할 수 있습니다. 반려동물이 짓는 다양한 표정들을 모두 기억하고 있기 때문이죠. 하지만 컴퓨터에서 그 모습을 재연하는 건 어려운 일이었습니다. ‘GANimal’이 등장하기 전까지는 말이죠.

엔비디아 연구진은 동물의 사진을 보고 그 동물의 표정이나 포즈를 다른 동물에 똑같이 재현하는 AI 기술을 개발했습니다. 그 비밀은 생성적 적대 신경망(GAN)이라는 새로운 AI 기술에 있습니다. GAN은 두 개의 네트워크로 구성된 심층 뉴럴 네트워크 구조로, 한 네트워크가 다른 네트워크와 서로 대립해 경쟁하는 방식으로 학습을 진행하는 AI 기술을 말합니다.

GANimal 앱을 통해 누구나 GAN 기술을 체험해 볼 수 있습니다. 당신의 개나 고양이의 사진을 업로드 하면, 사진 속 반려동물의 표정과 포즈를 아프리카 사냥개나 이집트 고양이에서 시추, 눈표범, 느림보 곰까지 수십 종의 동물에 적용할 수 있답니다.

필자도 아들의 반려견인 듀크(Duke)의 사진으로 GAN 기술을 체험해 봤습니다. 듀크는 골든 래브라도를 닮은 잡종견입니다. 멍청한 모습으로 웃고 있는 듀크의 미소를 똑같이 띠고 있는 검은 눈의 스라소니가 가장 마음에 들더군요.

이 기술의 잠재력은 무궁무진합니다. 영화를 촬영할 때 묘기를 부리는 개의 모습을 찍고 그 움직임을 AI로 매핑해 다루기 위험한 호랑이에 적용하는 날이 곧 올 수 있답니다.

GAN
엔비디아 연구진들이 한 개의 인풋 이미지를 사용해 다른 동물의 표정이나 포즈를 반려동물의 사진에 적용하는 AI기술, GAN을 개발했다.

엔비디아 연구진은 서울에서 열린 국제 컴퓨터 비전 학회(International Conference on Computer Vision, ICCV)에서 논문을 통해 이 내용을 발표했습니다. ICCV는 컴퓨터 비전 분야를 조명하는 세계 3대 학회 중 하나입니다.

엔비디아 팀의 논문은 연구진들이 이른바 ‘푸닛(FUNIT, Few-shot, UNsupervised Image-to-image Translation)’이라고 부르는 알고리즘을 소개하고 있는데, “테스트 진행 시에 몇 개의 예제 이미지 만으로 특정되는, 전에는 볼 수 없었던 타깃층에 적용되는 기술”을 말합니다.

엔비디아 푸닛 기술 개발팀의 수석 컴퓨터 비전 연구원 리우 밍유(Ming-Yu Liu)는 “대부분의 GAN 기반 이미지 변환 네트워크는 오로지 한 개의 작업을 처리하도록 학습합니다. 예를 들어서 말을 얼룩말로 변환하는 작업을 처리하는 거죠”라고 말했습니다.

“이 경우에 우리는 단일 네트워크가 다양한 변환작업을 처리할 수 있게 학습시킵니다. 각 작업내용은 임의로 선정된 소스 동물을 또 임의로 선정된 타깃 동물의 이미지 몇 장을 사용해 그 타깃 동물로 변환하는 겁니다. 네트워크는 다양한 이미지 변환 작업을 처리하면서, 기존의 동물 모습을 일반화해 전에 볼 수 없었던 새로운 동물의 이미지로 변환할 수 있게 됩니다”

전에는 이미지 변환을 하려면 여러 장의 타깃 동물 이미지를 네트워크 모델에 학습시켜야 했습니다. 그러나 이제는 개 사진 한 장만 있으면 되죠. 이는 연구진이 GAN 프로세스에 추가하는 다양한 이미지 변환 작업 등으로 구성된 훈련 기능 덕분이기도 합니다.

이 작업은 인간의 상상력을 뉴럴 네트워크에 코딩한다는 리우 수석연구원의 최종 목표이기도 합니다. 리우 수석연구원은 “새로운 문제들을 해결해 나가는 것이 기술과 사회를 발전시키는 길입니다”라고 말합니다.

엔비디아의 200여 명의 연구진 중 7명의 연구원으로 이뤄진 엔비디아 푸닛 팀은 최신 푸닛 툴에 더 많은 이미지를 더 높은 해상도로 포함할 예정입니다. 이미 고해상도 꽃, 음식 이미지로 테스트가 진행되고 있습니다.

리우 수석연구원 팀의 GAN기술은 올해 초 사람들이 그린 낙서를 마치 사진과 같은 사실적인 예술작품으로 변환하는 ‘고갱(GauGAN)’이라는 AI 기술로 주목을 받았습니다.

고갱으로 벌써 100만 개 이상의 이미지가 만들어졌습니다. AI Playground에서 직접 고갱을 사용해 보세요.

리우 수석연구원은 ICCV에서 열리는 3개의 강연과 한 개의 포스터 세션에서 총 4개의 논문을 발표할 예정입니다. 논문 세션에서는 의장을 맡아 최신 엔비디아 GPU의 텐서 코어(Tensor Core)를 어떻게 프로그래밍하는지 발표할 예정입니다.