엔비디아 인공지능 랩 파트너들이 ICLR에서 선보인 혁신적인 딥 러닝 연구

딥 러닝 관련 컨퍼런스인 ICLR(International Conference on Learning Representations)은 업계 관련 최신 트렌드를 파악하고자 하는 연구원이라면 꼭 참여해야 하는 행사입니다.

지난 4월 30일부터 5월 3일까지 벤쿠버에서 개최된 ICLR 2018 컨퍼런스에는 세계유수의 인공지능(AI) 연구소의 전문가들이 모였습니다. 그 중에는 엔비디아 AI 랩의 파트너 3곳도 참여해서 연구 성과를 공유했는데요. 바로 스위스 AI 연구소(IDSIA), 뉴욕대학교(New York University), 그리고 도쿄대학교(University of Tokyo)입니다.

IDSIA 연구진은 인간이 자연스럽게 이해하고 있는 물리적 세계를 로봇에게도 똑같이 가르치는 것을 목표로 하고 있습니다. 도쿄대학교 연구진은 음성 인식의 개선을 위한 혁신적인 방법에 대해 논의했습니다. 그리고 뉴욕대학교 및 스페인의 바스크대학교(University of the Basque Country) 연구진은 기계의 언어 번역 능력을 향상시키는 방법에 대해 설명했습니다.

엔비디아의 NVAIL 프로그램은. 이와 같은 AI 선구자들이 시대를 앞서나가는데 도움을 주고 있는데요. 학생들을 지원하고, 엔비디아의 연구진 및 엔지니어들의 기술력을 제공하며, 업계의 최첨단 GPU 컴퓨팅 파워에 대한 엑세스를 허용하고 있습니다.

올라가는 것은 반드시 내려와야 한다

인간은 선천적으로 물리적 세계를 이해하는데요. 한 번도 방문해보지 않은 방을 찾아갈 수 있으며, 신발이 떨어지면 바닥을 칠 것이라는 사실을 알고 있습니다. 그리고 벽을 통과해서 걸을 수 없다는 사실도 인지하고 있지요. 아이들조차도 이러한 물리적인 현상들에 대한 기초적인 이해를 하고 있습니다.

하지만 기계가 이러한 물리적 세계를 이해하는 것은 쉬운 일이 아닙니다. IDSIA의 박사과정 학생인 슈어츠 반 스틴키스테(Sjoerd van Steenkiste)는, 딥 러닝 모델이 “올라간 것은 반드시 내려와야 한다”와 같은 물리적 현상을 이해하도록 트레이닝 하기 위해서는 수많은 데이터와 사람의 노력이 필요하다고 말합니다.

스틴키스테와 IDISIA 및 캘리포니아대학교 버클리캠퍼스(University of California, Berkely) 연구진은 방대한 데이터와 인간의 상호작용에 대한 필요성을 없앰으로써 해당 프로세스를 간소화하기 위해 노력하고 있습니다.

ICLR의 보고서에서 해당 연구진은 사람의 개입 없이 뉴럴 네트워크를 트레이닝하는 자율 학습(unsupervised learning)에 대해 설명했습니다. 연구진은 엔비디아의 DGX-1 AI 슈퍼컴퓨터를 사용해서, 장면 속의 개별 사물을 구별하고 동작의 결과를 예측해낼 수 있도록 딥 러닝 모델을 트레이닝 시켰습니다.

스틴키스테는 이 연구는 결국 로봇과 다른 기계들이 주변 환경과 상호작용 할 수 있도록 트레이닝 하는 것을 더욱 쉽게 만들 수 있다고 설명했습니다.

사운드 믹스

함께 섞이면 시너지 효과를 내는 것들이 있습니다. 예를 들어, 땅콩 버터와 초콜렛이 만나면 환상적이지요. 금속은 결합될 때 더욱 단단해집니다. 그리고 두 종류의 작물을 심으면 더 큰 수확을 얻을 수 있습니다.

유지 토코주메(Yuji Tokozume)는 이러한 아이디를 딥 러닝에 동일하게 적용했습니다. 박사 과정을 밟고 있는 토코주메와 다른 2명의 도쿄대학교의 연구원은 딥 러닝 모델을 트레이닝하기 위해 급간 소리(between-class sounds)라는 2가지 소리가 섞여있는 소리를 사용해서 음성 인식을 개선하기 위해 노력하고 있습니다. 해당 모델은 엔비디아 테슬라(Tesla) P100 GPU 가속기로 트레이닝 되어, 2가지 소리를 식별하고 각각의 비율을 측정합니다.

이들이 제출한 ICLR 논문에서는 급간 소리에 대한 딥 러닝이 기존의 기술보다 더 높은 정확도를 보일 뿐만 아니라, ESC-50으로 알려진 표준 데이터세트에서의 주변 환경 소리 녹음에 대한 인간의 성능을 능가했다고 밝혔습니다. 연구진은 동일한 접근 방법을 AI 이미지 인식 성능을 개선하는데 적용했습니다.

실리콘 밸리에서 개최된 엔비디아의 GPU 테크놀로지 컨퍼런스(GPU Technology Conference, 이하GTC)에서 발표된 음성 인식을 위한 급간 소리 딥 러닝 세션을 요약한 슬라이드로 자세한 내용을 확인해보세요

보다 정확한 번역

일반적으로 딥 러닝 모델을 트레이닝 하기 위해서는 방대한 데이터세트가 필요한데요. 그 때문에 자동 언어 번역을 활용하는 모든 AI는 바스크어(Basque), 오로모어(Oromo), 및 케추아어(Quechua)와 같은 소수 언어를 번역할 때는 그다지 효과적이지 않습니다. 이 경우에는 수동적으로 다른 언어로 번역한 텍스트 데이터가 많이 필요한 것이지요.

중국어, 영어, 스페인어와 같이 많은 사람들이 사용하고 있는 언어는 충분한 데이터가 있기 때문에 중국어를 영어로, 또는 스페인어를 중국어로 바로 번역하는 것이 가능합니다. 뉴욕대학교 및 바스크대학교의 연구진은 소수만이 사용하고 있는 언어를 바로 번역할 수 있는 것을 목표로 하고 있습니다.

바스크대학교의 박사 과정 학생인 미켈 아르테체(Mikel Artetxe)에 따르면, 주로 스페인과 프랑스를 가로지르는 지역에 거주하는 약 700,000명이 사용하는 바스크어와 같은 언어는 현재 영어 또는 주요 언어로 먼저 번역되어야만 원하는 다른 언어로 번역할 수 있습니다.

아프리카 대륙의 동북부에 거주하는 3,000만 명의 인구가 사용하는 오로모어와 남미 지역의 1,100만 명이 사용하는 케추아어의 경우도 마찬가지입니다.

연구진은 엔비디아의 타이탄(TITAN) Xp GPU를 사용하여 뉴럴 네트워크를 트레이닝 했는데요. 수동으로 직접 트레이닝한 데이터를 사용하지 않고 독립된 텍스트를 활용했습니다. 해당 연구진은 ICLR 논문에서, 사람이 번역한 것 보다는 부정확하지만 적은 양의 병렬 데이터를 추가했을 때 정확도가 높아졌다고 밝혔습니다.

아르테체는 “바스크대학교의 연구 목표는 더 많은 언어를 보다 정확하게 번역하는 것입니다”라고 덧붙였습니다.