AI 팟캐스트: 딥 러닝으로 미국식 수화를 통역하는 방법

by NVIDIA Korea

딥 러닝은 구어와 문어 사이의 자동 번역을 가속화 시켜왔는데요. 하지만 수화를 이해하는 데 있어서는 한참 뒤쳐져 있습니다.

미국 로체스터 공대(Rochester Institute of Technology)에서 컴퓨터 엔지니어링을 전공하고 있는 시에드 아메드(Syed Ahmed)는 딥 러닝을 활용해 수화와 영어 사이를 통역하는 방법을 개발했습니다.

NTID(National Technical Institute for the Deaf) 연구 조교 아메드는 “청각의 이상이 있거나 청각 장애를 갖고 있는 친구와 이야기를 하고 싶지만, 수화를 모른다면 어떻게 해야 할까요?”라며 엔비디아 AI Podcast에서 진행자 마이클 콥랜드(Michael Copeand)에게 질문을 던졌습니다.

아메드는 약 1,700개의 수화 영상으로 딥 러닝 알고리즘을 훈련시켰는데요. 훈련된 딥 러닝 모델은 수화의 움직임을 분석해서 영어로 통역이 가능해졌습니다.

아메드는 “친구가 수화를 하는 동안 휴대 전화를 친구를 향해 가리키고 있으면, 휴대 전화에 자동 자막(caption)이 표시됩니다”라고 설명합니다.

아메드에 따르면 시각 언어와 문자 언어 사이의 격차를 해소하는 데 있어서, 해당 딥 러닝 모델의 가능성은 무한합니다. 보디랭귀지를 매핑할 수 있는 인공지능(AI)의 기능은 특정 건강 상태를 예측하는 데 도움이 될 수 있습니다. 증강 현실에서는 휴대전화의 도움 없이도, 화자의 얼굴 옆에 통역된 문장이 나타나게 할 수 있습니다.

해당 딥 러닝 모델은 아직 테스트를 진행하고 있는 중인데요. 모델이 데이터 세트만큼이나 우수하기 때문에, 해당 시스템이 직면하고 있는 문제 중 하나는 미국식 수화에서 사용되는 구어체 용어를 해석하는 것입니다. 또 다른 문제는, 알고리즘이 분류해야 하는 동영상의 양이 자막의 출력을 지연시키는 것이지요.

아메드는 “이 모델은 개발된 지 얼마 되지 않은 새로운 모델입니다. 앞으로 의사 결정과 관련된 더 많은 실험을 진행할 것입니다”라고 덧붙였습니다.

 

AI 팟캐스트: 유니티(Unity)의 대니 랭(Danny Lange) AI 및 머신 러닝 담당 부사장은 게임에 AI를 도입하기를 원합니다

게이머라면, 엔비디아 블로그에서 대니 랭 부사장이 설명하는 머신 러닝으로 더 훌륭한 게임을 더욱 빠르게 만드는 방법을 자세히 확인해보세요.

 

AI 팟캐스트 듣기

AI 팟캐스트는 아이튠즈(iTunes), DoggCatcher, 구글 플레이 뮤직(Google Play Music), 오버캐스트(Overcast), 플레이어FM(PlayerFM), 팟페이(Podbay), 포켓 캐스츠(Pocket Casts), 포드크런처(PodCruncher), 포드킥커(PodKicker), 스팃처(Stitcher), 사운드 클라우드(Soundcloud)에서 즐기실 수 있습니다. 즐겨 사용하시는 곳이 여기에 없으면, AI 팟캐스트(aipodcast@nvidia.com)에 이메일로 문의주세요.