스마트폰에 ‘눈’을 더하다: 시각장애인을 돕는 GPU 기술

by NVIDIA Korea

스마트폰은 디지털 시대에서 휴대 전화, 카메라, 지도, 소셜 네트워킹 허브, 게임 콘솔 등 다양한 기능을 수행하는 만능 도구입니다. 그리고 이제 스마트폰에 놀라운 용도가 한 가지 더 추가되었는데요. 바로 시력입니다.

 

아이폴리(Aipoly)는 그러한 기능이 추가된 스마트폰 애플리케이션 중의 하나로, 공구, 식기, 욕실 용품처럼 집안에서 볼 수 있는 4,000개 이상의 사물을 거의 즉시 식별할 수 있습니다. 또, 이 애플리케이션은 화면에 텍스트를 식별하여 표시하고, 사용자에게 사물들의 명칭을 소리 내어 말해줍니다.

현재 아이폴리는 다섯 살 어린이 수준의 어휘를 구사할 수 있습니다. 이 애플리케이션은 사용 가능한 어휘를 확장하는 유료 업그레이드를 제공하며, 새로운 단어와 주제를 지속적으로 추가합니다.

이 기능으로 시각 장애인들을 제대로 돕기 위해서는 사물을 정확하게 식별하는 종합 이미지 인식 트레이닝이 반드시 이루어져야 합니다.

그러나 샌프란시스코에 기반한 아이폴리의 공동 설립자 알베르토 리졸리(Alberto Rizzoli)는 “시각장애인의 일상에서의 정확도는 70%에 미치지 못합니다.”라고 이야기합니다.

이미지를 지속적으로 정확하게 인식하기 위해서는 광범위한 트레이닝을 필요로 하는데요. 이 과정에서 엔비디아 GPU가 결정적인 차이를 만들어냅니다. 아이폴리 설립자는 GPU를 사용하는 트레이닝 시간과 다른 대체품을 사용하여 소요되는 시간을 비교하는 것은 마치, “케이크를 굽는 시간과 위스키를 숙성 시키는 시간을 비교하는 것과 다름없다.”라고 표현했답니다. 얼마나 많은 시간 차이를 보여주는지 한 문장으로도 느낄 수 있죠?

 

딥 러닝으로 구동되는 이미지 인식

로스앤젤레스에 기반을 둔 클라우드사이트(CloudSight)의 공동 설립자인 브래드 폴켄스(Brad Folkens)도 리졸리 설립자의 의견에 동의합니다. 그는 시각장애인을 위한 무료 오픈 소스 애플리케이션 탭탭시(TapTapSee)를 공동 개발했습니다. 탭탭시의 사용자는 전화기의 화면을 두 번 두드리면 어떠한 각도의 사진도 찍을 수 있는데요. 그러면 애플리케이션이 사진 속의 사물이 무엇인지 소리 내어 말해줍니다.

폴켄스 설립자는 엔비디아 기술을 탭탭시 애플리케이션의 딥 러닝 기반 이미지 인식의 핵심 요소로 꼽았습니다.

“클라우드사이트는 갖고 있던 대량의 이미지 라이브러리를 활용할 수 있었고, 엔비디아 디짓 데브박스(NVIDIA DIGITS) DevBox를 통해 뉴럴 네트워크를 트레이닝하는 데에 이미지 샘플들을 사용했습니다.”라고 폴켄스 설립자는 설명했습니다.

 

폴켄스 설립자는 특히 클라우드사이트가 최근 도입한 NVIDIA DGX-1 슈퍼 컴퓨터에 감탄을 아끼지 않았는데요.

“DGX-1으로 이전에는 불가능했던 엄청난 양의 이미지를 다루고, 트레이닝할 수 있게 되었습니다. 이제 클라우드사이트는 훨씬 더 많은 이미지를 처리할 수 있게 되었고, 적당한 시간 내에 합리적으로 트레이닝을 마칠 수 있게 되었습니다.”라고 폴켄스 설립자는 전했습니다.

 

어떤 시각장애인이 태어나 처음으로 다른 사람의 도움을 받지 않고 식료품 가게에 갔다는 이야기를 들었습니다.”

  • 클라우드사이트(CloudSight)의 공동 설립자 브래드 폴켄스(Brad Folkens)

 

시력을 잃은 사람 주변에 든든한 내레이션이 있다는 것은 매우 특별합니다.”

  • 아이폴리의 공동 설립자 알베르토 리졸리(Alberto Rizzoli)

 

리졸리 아이폴리 설립자와 폴켄스 클라우드사이트 설립자 모두 애플리케이션이 사용자에게 미치는 영향 속에서 그들의 진정한 열정을 발견합니다.

시각장애인을 위한 애플리케이션에 대해 보다 자세한 내용이 궁금하시다면 아이폴리탭탭시 웹사이트를 확인해 보세요. 두 애플리케이션 모두 애플 및 구글 스토어에서 무료로 다운받아서 사용할 수 있습니다.