모든 산업에서 사용하는 엔비디아 GPU 기반 대화형 AI는 어디까지 왔는가?

지난 2018년 3월 미국의 핀테크 신생기업 켄쇼(Kensho)가 5억 5,000만 달러에 스탠더드앤푸어스 글로벌(S&P Global Inc.)에 인수됐을 당시, 켄쇼의 AI 리서치 총괄자인 게오르그 쿠스코(Georg Kucsko)는 당시 자신이 마치 사탕 가게에 들어온 아이와 같은 기분이었다고 합니다.

쿠스코 팀에게는 영화 ‘찰리와 초콜릿 공장’에 나오는 세계 최고의 초콜릿 공장 ‘윌리 웡카 초콜릿 공장’에 입장할 수 있는 행운의 ‘황금 티켓’이 하늘에서 떨어진 것과 다름이 없었죠. 바로 10만 시간 분량의 S&P의 녹취 파일과 음성 파일을 오랜 시간 고생한 끝에 전사한 문서파일을 손에 얻게 된 겁니다.

켄쇼는 이 데이터세트를 기반으로 금융권에서 음성 인식 소프트웨어 중 가장 우수한 정확도를 자랑하는 스크라이브(Scribe)를 개발했습니다. 스크라이브는 어닝콜(earning call, 실적 발표를 위한 컨퍼런스 콜)과 기타 회의 내용을 저렴한 가격에 빠르게 전사하며 기존 S&P의 커버리지를 1,500개 기업을 추가해 확장했고 스크라이브 CEO가 전하는 분기별 실적발표 콜에서도 좋은 성과를 기록했습니다.

쿠스코는 “이 전사물을 사용해 작업을 더욱 빠르게 수행할 수 있는 음성 인식 모델을 훈련시켰습니다. 현재까지 이런 아이디어를 생각해냈던 사람은 없었습니다. 덕분에 프로세스를 획기적으로 개선할 수 있었죠”라고 말합니다.

이 사례는 대화형 AI로 구현 가능한 여러 기능 중 한 예일 뿐입니다.

대화형 AI가 부상하고 있는 이유

현재 대화형 AI가 큰 화제인데요, 그 배경에는 여러가지 이유가 있습니다.

우선 대화형 AI 기술로 사람의 음성을 검색 가능한 문자로 변환시켜줍니다. 반대로 글을 음성으로 변환시켜 사용자가 일 하는 중에 또는 운전 중에도 손으로 조작할 필요 없이 음성파일을 들을 수 있죠.

갈수록 지능화되고 있는 대화형 AI 기술은 소리나 글에 대한 이해도가 높아지면서 그 활용도 역시 높아지고 있는데요. 바로 이런 이유로 대화형 AI 기술이 세간의 주목을 받게 된 것입니다.

대화형 AI는 시리(Siri)와 알렉사(Alexa)의 언어로 이미 가장 잘 알려져 있을 겁니다. 하지만 이 유명한 음성 비서들만 주목을 받고 있는 것이 아닙니다.

기업들은 대화형 AI 기술을 이용해 계약서를 관리합니다. 의사들은 환자를 검사하면서 메모를 남기죠. 그 외에도 수많은 기업들이 이 기술을 활용해 고객 지원 서비스를 개선하고 있습니다.

대화형 AI를 적극 도입중인 전 세계 기업들

스퀘어(Square Inc.)의 대화형 AI 전문가 가버 안젤리(Gabor Angeli)는 엔비디아 GPU 테크놀로지 컨퍼런스 ’GTC 디지털’의 한 세션에서 스퀘어를 소개하면서, “구매자와 판매자 간 소통을 하는 과정에서 우리가 고객들을 안내할 수 있고 또 안내해야 하는 부분이 굉장히 많습니다”라고 말했습니다.

또 다른 예는 세계적인 회계법인 딜로이트(Deloitte)입니다. 딜로이트는 기업들이 복잡한 계약을 관리하는데 사용되는 자사 소프트웨더 디트랙스(dTrax)에 대화형 AI를 사용하고 있습니다. 법령이 바뀐다던 지 대규모 인수 계획을 준비 중인 회사는 디트랙스를 이용해 긴 계약문서에서 핵심 구절을 찾아내 업데이트 할 수 있죠. 엔비디아 GPU를 기반으로 구동되는 디트랙스는 2019년 영국 경제신문 파이낸셜 타임스로부터 ‘스마트 비즈니스 상’을 수상하기도 했습니다.

중국의 최대 보험사 핑안(Ping An)은 이미 대화형 AI 기술을 활용해 보험을 판매하고 있습니다. 말하는 이의 기분이나 감정을 파악하려면 많은 지능을 필요로 하기 때문에 GPU를 기반으로 한 고성능 기술을 요하는 애플리케이션입니다.

헬스케어 분야에서는 글로벌 음성 인식 솔루션 기업 뉘앙스(Nuance)가 엔비디아 GPU와 소프트웨어로 훈련된 대화형 AI 소프트웨어를 제공하고 있습니다. 방사선 전문의 중 상당수가 이 대화형 AI를 전사용도로 사용하고 있으며 다수의 의사들이 환자들의 검사내역을 문서화합니다.

콜센터 솔루션 제공업체 보카(Voca.ai)는 CPU 대비 추론 작업에 대한 지연시간을 절반으로 줄이기 위해서 엔비디아 GPU 기반 AI 모델을 사용합니다. 이 모델은 보카의 최대 고객사 중 한 곳이 월 약 1000만명에 가까운 고객들의 문의에 이용하는 자동응답 서비스의 핵심 기술입니다.

대화 자동화 프레임

이 기술은 GPU 가속화가 전체적으로 적용된 다수의 대화형 AI 라이브러리 소프트웨어를 기반으로 만들어졌는데요. 그 중 가장 인기있는 소프트웨어는 페이스북의 “좋아요”나 브라우저 즐겨찾기처럼 깃허브(GitHub) 저장소에서 여러 개의 “별”(star)을 받습니다. 그 중 몇 개의 소프트웨어를 예로 들면 아래와 같습니다.

Huggingface, 별 26,100개
ai, 별 17,800개
spaCy, 별 16,300개
Kaldi, 별 8,700개
DeepPavlov, 별 4,200개
ESPnet, 별 2,200개

이 외에도 대화형 AI를 보다 수월하게 도입할 수 있도록 엔비디아는 계속해서 많은 소프트웨어 도구를 제공하고 있습니다.

켄쇼와 보카는 이미 음성 인식과 자연어 처리용 모델 엔비디아 니모(NVIDIA NeMo)를 활용해 최첨단 대화형 AI 알고리즘을 구축했습니다. 이런 머신 러닝과 딥 러닝 기반 학습 모델은 모든 기업의 데이터에 맞게 상세 조정 가능해 특정 유스케이스에 맞게 가장 높은 정확도를 갖춘 데이터를 제공할 수 있죠.

엔비디아는 지난 가을 니모를 발표하면서 단어 오류율을 3% 미만으로 낮춘 54개의 신경망 레어어로 구성된 자동 음성 인식 모델 ‘재스퍼’(Jasper)도 함께 출시했습니다. 높은 정확성을 위해 최적화된 모델 중 하나인 재스퍼는 엔비디아의 GPU 가속 소프트웨어 카탈로그인 NGC(엔비디아 GPU 클라우드)에서 사용 가능합니다.

대화형 AI 비서, Riva를 만나보세요

올해 5월 엔비디아는 시각·음성·언어로 이뤄진 정보를 이해하는 AI 서비스를 구축·배포하는 애플리케이션 프레임워크 NVIDIA Riva를 출시했는데요, 이 서비스는 클라우드, 데이터 센터 혹은 엣지단에 적용될 수 있습니다.

Riva에는 기업과 해당 기업의 고객사에서 사용되는 특정 용어들을 이해하는 GPU 가속 대화형 AI 애플리케이션을 구축하기 위한 딥 러닝 모델들이 포함됩니다. 특정 도메인과 고객 데이터와 관련된 모델들을 훈련하는 니모도 그 중 하나입니다. 이 모델들은 텐서RT(TensorRT)를 활용해 AI 추론작업 중에 지연시간을 최소화하고 처리량을 최대화할 수 있습니다.

Riva 서비스는 A100 GPU에서 150ms 내에 실행될 수 있는데, 이건 실시간 애플리케이션의 임계값인 300ms나 CPU에서 동일한 모델을 실행하는데 소요되는 시간인 25초 대비 훨씬 빠른 속도입니다.

여러분도 Riva를 사용해 보세요

켄쇼는 이미 Riva의 도구 일부를 테스트했습니다.

쿠스코 총괄자는 “켄쇼에서는 니모를 대대적으로 사용하고 있습니다. 다량의 정보를 학습하는 용도로 각기 다른 데이터세트를 사용해도 엔비디아 기술을 이용해 도출된 인사이트는 켄쇼에 큰 도움이 됐습니다”라고 말했습니다.

켄쇼에서 스크라이브의 AI 모델의 완성도를 높이기 위해 이와 같은 툴을 사용하는 건 자연스러운 일입니다. 엔비디아는 켄쇼가 원천 소프트웨어를 개발할 때 DGX 슈퍼POD(DGX SuperPOD) 시스템 중 하나를 통해 모델 훈련을 지원했었죠.

쿠스코는 “켄쇼에는 데이터가 있었고 엔비디아에는 GPU가 있다 보니 자연스럽게 양사 연구팀이 협업하게 됐습니다. 엔비디아 GPU는 이런 딥 러닝 작업에 필수적입니다. 대형 딥러닝 프로젝트에 엔비디아를 대체할 만한 기업은 없다고 할 수 있죠”라며 말을 마쳤습니다.