‘음소거 버튼’ 선명한 통화 위해 활용되는 NVIDIA GPU

NVIDIA GPU를 활용해 신경망 훈련 과정을 거친 배경 소음을 효과적으로 줄이는 ‘클리어버즈(ClearBuds)’를 소개합니다.

이어폰을 사용하면 언제 어디서 무엇을 하고 있든 통화할 수 있죠. 하지만 이때 방 안의 진공청소기 소리부터 일하러 간 카페에서 다른 사람들이 나누는 대화 소리까지 모두 통화 상대에게 들린다는 것이 문제입니다.

워싱턴 대학교 대학원생 세 명은 해당 문제의 해결책을 모색했고, 결국 방안을 찾아냈는데요.

그 결과물은 “클리어버즈”라는 이름으로 지난 달 모바일 시스템, 애플리케이션 및 서비스를 주로 다룬 ACM 국제학술대회에서 발표됐습니다. 이를 통해 사람들은 클리어버즈가 시중에서 팔리는 다른 상품들보다 배경 소음 억제에 훨씬 효과적이라는 것을 알게 됐죠.

폴 G. 앨런 컴퓨터공학대학원(Paul G. Allen School of Computer Science & Engineering)의 박사과정을 밟고 있는 비벡 자야람(Vivek Jayaram)은 “화상전화에서 배경을 없애는 것처럼 통화할 때도 배경 소리를 없애는 것”이라고 설명했습니다.

룸메이트인 워싱턴 대학교 컴퓨터공학과 대학원생 세 명, 마루치 김(Maruchi Kim), 이샨 채터지(Ishan Chatterjee), 비벡 자야람이 공동 집필한 논문에 따르면, 클리어버즈는 다른 무선 이어폰들과는 두 지점에서 큰 차이를 보입니다.

3D 프린팅 이어폰 인클로저 앞의 클리어버즈 하드웨어 (원형 디스크). 출처: 레이먼드 스미스, 워싱턴 대학교

첫째, 클리어버즈는 양쪽 이어폰에 각각 두 개씩 탑재된 마이크를 한쪽씩 따로 구동하여 두 개의 오디오 스트림을 생성합니다. 대부분의 이어폰이 마이크를 한쪽에 두 개씩 가지고 있긴 하지만, 이들은 한쪽 이어폰의 오디오 스트림만을 생성하죠.

마루치 김은 클리어버즈는 이러한 방식으로 인해 시스템이 다른 방향에서 오는 소리를 더 잘 분리할 수 있도록 더 높은 공간 해상도(spatial resolution)를 생성한다고 설명했습니다. 즉, 시스템이 이어폰 착용자의 음성을 더 쉽게 잡아낼 수 있도록 합니다.

둘째, 연구팀은 휴대전화에서 실행할 수 있는 신경망 알고리즘을 만들어 오디오 스트림을 처리하여 어떤 소리가 강화돼야 하고 어떤 소리가 억제돼야 하는지 식별했습니다.

이를 위해 연구자들은 두 신경망의 도움을 받았습니다.

첫 번째 신경망은 사람의 목소리를 제외한 다른 소리를 억제합니다.

두 번째 신경망은 화자의 목소리를 높입니다. 화자의 목소리는 이어폰 양쪽의 마이크에서 동시에 나오기 때문에 식별 가능하죠.

두 가지 신경망이 함께 기능하며 효과적으로 배경 소음을 가려 이어폰 착용자의 목소리가 크고 선명하게 들리도록 만듭니다.

클리어버즈는 서로 동기화된 한 쌍의 무선 이어폰을 사용하여 음성 분리를 수행함으로써 사용자의 음성을 배경 소음으로부터 분리합니다. 출처: 마루치 김, 워싱턴 대학교

연구팀은 모바일 기기에서 구동할 수 있을 정도로 가벼운 소프트웨어를 제작하는 과정에서 신경망을 훈련하기 위해 NVIDIA TITAN 데스크톱 GPU를 활용했습니다. 합성 오디오 샘플과 실제 오디오를 모두 사용해 훈련시켰고, 이 작업은 하루도 채 걸리지 않았습니다.

사용자들에 따르면 성능은 업계에서 인정받는 이어폰보다도 훨씬 더 좋았다고 합니다.

지난달 ACM 모비시스 2022(ACM MobiSys 2022) 국제학술대회에서 클리어버즈 연구팀은 최우수 논문 2위를 차지했는데요. 논문의 공동저자로는 마루치 김, 채터지, 자야람 외에도 앨런 스쿨(Allen School)의 부교수 이라 케멜마허-슈리저만(Ira Kemelmacher-Shlizerman), 앨런 스쿨과 전기전자 컴퓨터공학부의 교수 슈웨탁 파텔(Shwetak Patel), 앨런 스쿨의 교수인 시암 골라코타(Shyam Gollakota)와 스티븐 세이츠(Steven Seitz)가 있습니다.

논문 전문을 읽어보세요: https://dl.acm.org/doi/10.1145/3498361.3538933

논문에 요약된 시스템을 즉시 적용하기에는 무리가 있습니다. 많은 이어폰이 이어폰 한쪽당 두 개의 마이크를 가지고 있지만, 한쪽 이어폰의 오디오만 스트리밍하죠. 업계 표준은 아직 이어폰에서 여러 오디오 스트림을 처리한다는 개념을 따라잡는 과정에 있습니다.

그럼에도 연구진들은 오픈 소스인 그들의 연구 성과가 다른 이들이 신경망과 마이크를 결합하여 더 나은 음성통화 품질로 나아갈 수 있도록 하는 영감이 되리라 기대합니다.

마루치 김은 “이 아이디어가 스마트 스피커를 임시 마이크 배열에 활용하여 스마트 스피커로 이루어지는 대화를 분리하거나 강화하는 데에도 유용하게 활용될 수 있으며, 더 나아가 수색 구조 임무에서 로봇의 위치를 추적하는 데에도 적용될 수 있을 것”이라고 말했습니다.

이미지 출처: 레이먼드 스미스(Raymond Smith), 워싱턴 대학교