반려동물 이미지에 AI 기술을 적용하면 어떤 색다른 표정이?

NVIDIA 연구진, 생성적 적대 신경망(GAN)으로 사람의 상상력을 실제로 구현하다
by NVIDIA Korea
gan _Sum

당신의 래브라도가 짓는 특유의 미소를 사자가 똑같이 따라한다면? 당신의 고양이가 소심하게 웃는 모습을 호랑이가 그대로 재연한다면 어떨까요? 사람은 자신의 반려동물의 표정을 쉽게 따라할 수 있습니다. 반려동물이 짓는 다양한 표정들을 모두 기억하고 있기 때문이죠. 하지만 컴퓨터에서 그 모습을 재연하는 건 어려운 일이었습니다. ‘GANimal’이 등장하기 전까지는 말이죠.

엔비디아 연구진은 동물의 사진을 보고 그 동물의 표정이나 포즈를 다른 동물에 똑같이 재현하는 AI 기술을 개발했습니다. 그 비밀은 생성적 적대 신경망(GAN)이라는 새로운 AI 기술에 있습니다. GAN은 두 개의 네트워크로 구성된 심층 뉴럴 네트워크 구조로, 한 네트워크가 다른 네트워크와 서로 대립해 경쟁하는 방식으로 학습을 진행하는 AI 기술을 말합니다.

GANimal 앱을 통해 누구나 GAN 기술을 체험해 볼 수 있습니다. 당신의 개나 고양이의 사진을 업로드 하면, 사진 속 반려동물의 표정과 포즈를 아프리카 사냥개나 이집트 고양이에서 시추, 눈표범, 느림보 곰까지 수십 종의 동물에 적용할 수 있답니다.

필자도 아들의 반려견인 듀크(Duke)의 사진으로 GAN 기술을 체험해 봤습니다. 듀크는 골든 래브라도를 닮은 잡종견입니다. 멍청한 모습으로 웃고 있는 듀크의 미소를 똑같이 띠고 있는 검은 눈의 스라소니가 가장 마음에 들더군요.

이 기술의 잠재력은 무궁무진합니다. 영화를 촬영할 때 묘기를 부리는 개의 모습을 찍고 그 움직임을 AI로 매핑해 다루기 위험한 호랑이에 적용하는 날이 곧 올 수 있답니다.

GAN
엔비디아 연구진들이 한 개의 인풋 이미지를 사용해 다른 동물의 표정이나 포즈를 반려동물의 사진에 적용하는 AI기술, GAN을 개발했다.

엔비디아 연구진은 서울에서 열린 국제 컴퓨터 비전 학회(International Conference on Computer Vision, ICCV)에서 논문을 통해 이 내용을 발표했습니다. ICCV는 컴퓨터 비전 분야를 조명하는 세계 3대 학회 중 하나입니다.

엔비디아 팀의 논문은 연구진들이 이른바 ‘푸닛(FUNIT, Few-shot, UNsupervised Image-to-image Translation)’이라고 부르는 알고리즘을 소개하고 있는데, “테스트 진행 시에 몇 개의 예제 이미지 만으로 특정되는, 전에는 볼 수 없었던 타깃층에 적용되는 기술”을 말합니다.

엔비디아 푸닛 기술 개발팀의 수석 컴퓨터 비전 연구원 리우 밍유(Ming-Yu Liu)는 “대부분의 GAN 기반 이미지 변환 네트워크는 오로지 한 개의 작업을 처리하도록 학습합니다. 예를 들어서 말을 얼룩말로 변환하는 작업을 처리하는 거죠”라고 말했습니다.

“이 경우에 우리는 단일 네트워크가 다양한 변환작업을 처리할 수 있게 학습시킵니다. 각 작업내용은 임의로 선정된 소스 동물을 또 임의로 선정된 타깃 동물의 이미지 몇 장을 사용해 그 타깃 동물로 변환하는 겁니다. 네트워크는 다양한 이미지 변환 작업을 처리하면서, 기존의 동물 모습을 일반화해 전에 볼 수 없었던 새로운 동물의 이미지로 변환할 수 있게 됩니다”

전에는 이미지 변환을 하려면 여러 장의 타깃 동물 이미지를 네트워크 모델에 학습시켜야 했습니다. 그러나 이제는 개 사진 한 장만 있으면 되죠. 이는 연구진이 GAN 프로세스에 추가하는 다양한 이미지 변환 작업 등으로 구성된 훈련 기능 덕분이기도 합니다.

이 작업은 인간의 상상력을 뉴럴 네트워크에 코딩한다는 리우 수석연구원의 최종 목표이기도 합니다. 리우 수석연구원은 “새로운 문제들을 해결해 나가는 것이 기술과 사회를 발전시키는 길입니다”라고 말합니다.

엔비디아의 200여 명의 연구진 중 7명의 연구원으로 이뤄진 엔비디아 푸닛 팀은 최신 푸닛 툴에 더 많은 이미지를 더 높은 해상도로 포함할 예정입니다. 이미 고해상도 꽃, 음식 이미지로 테스트가 진행되고 있습니다.

리우 수석연구원 팀의 GAN기술은 올해 초 사람들이 그린 낙서를 마치 사진과 같은 사실적인 예술작품으로 변환하는 ‘고갱(GauGAN)’이라는 AI 기술로 주목을 받았습니다.

고갱으로 벌써 100만 개 이상의 이미지가 만들어졌습니다. AI Playground에서 직접 고갱을 사용해 보세요.

리우 수석연구원은 ICCV에서 열리는 3개의 강연과 한 개의 포스터 세션에서 총 4개의 논문을 발표할 예정입니다. 논문 세션에서는 의장을 맡아 최신 엔비디아 GPU의 텐서 코어(Tensor Core)를 어떻게 프로그래밍하는지 발표할 예정입니다.