청각장애인들은 듣지 못합니다. 하지만 대부분의 사람들은 수화를 모르지요. 이제 이러한 의사소통의 간극을 인공지능(AI)으로 해결할 수 있습니다.
미래 커뮤니케이션의 새로운 가능성을 열어준 GPU 테크놀로지 컨퍼런스(GPU Technology Conference)에서, 로체스터 공대(Rochester Institute of Technology) 미래일상기술연구실(Future Everyday Technology Lab) 조교 사야드 아메드(Syed Ahmed)의 연구가 소개 됐습니다.
아메드 연구팀은 미국식 수화를 텍스트로 바꿔서 동영상 화면을 통해 볼 수 있도록 컴퓨터 비전, 머신 러닝과 임베디드 시스템을 이용하고 있습니다.
아메드는 “이러한 의사소통의 차이를 해결한다면, 청각장애인이나 잘 들리지 않는 사람과 스카이프, 구글 행아웃을 통해 인터뷰할 수 있습니다. 회의를 하거나 취업 면접도 할 수 있고, 자연스럽게 의사소통 할 수 있게 됩니다”라고 말했습니다.
실시간 동영상 캡션
아메드는 딥 뉴럴 네트워크를 이용해서 미국식 수화에 초점을 맞춘 동영상 캡션 시스템을 어떻게 구축할 수 있었는지 자세히 설명했습니다. 일반인은 자동 음성 인식을 통해, 청각장애인은 동영상 캡션 시스템을 통해 서로 답신할 수 있는 메시징 앱을 만드는 것이 목표입니다.
아메드는 “또 다른 활용 방법이라면 미국식 수화 학습 앱이 될 수 있겠죠. 미국식 수화를 사용하는 사람들이 동영상 캡션을 통해서 자신의 수화가 얼마나 유창한지 평가할 수 있습니다. 평가 점수를 통해서 자신이 얼마나 수화를 잘하는지 알게 되면 좋지 않을까요?”라고 말했습니다.
연구진은 텐서플로우(TensorFlow)를 이용해서 시퀀스 네트워크를 위한 뉴럴 네트워크를 개발했는데요. 프레임의 시퀀스가 나타내는 바를 학습해서 해당 정보를 동영상 내 상황을 묘사하는 하나의 문장으로 해독하도록 했습니다. 이미지는 인코딩을 거쳐 특징 벡터(feature vector)로 처리된 후 디코딩됩니다.
이 시스템의 추가적인 기능으로는 캡션 생성, 데이터 입력 파이프라인 및 오픈소스 Seq2Seq 인코더-디코더 프레임워크의 사용을 통한 모델 생성이 있습니다. 시스템을 엔비디아 젯슨 TX2(NVIDIA Jetson TX2)와 같은 임베디드 플랫폼에 배포하면 라이브 동영상의 실시간 캡션이 이루어집니다.
구화(lip reading)의 해석부터 물리적 움직임에 이르는 시스템의 다양한 활용 방식은 서로 중첩되어 있는 부분이 많기 때문에 미래의 커뮤니케이션은 누구나 별다른 노력 없이 가능해질 것으로 기대됩니다.