NVIDIA Maxine을 사용해 모바일 엣지 컴퓨팅의 주요 문제를 해결한 SoftBank

by NVIDIA Korea

소프트뱅크(SoftBank)는 정보혁명의 주역을 꿈꾸는 세계적 테크놀로지 기업입니다. 고속 데이터 통신망과 유선 통신, 전자상거래, 정보 통신 기술, 금융, 미디어, 마케팅 분야에서 활약하고 있죠. 소프트뱅크는 자사 사용자의 커뮤니케이션 경험을 개선하고 5G의 용량과 커버리지 문제를 극복할 목적으로 NVIDIA Maxine GPU 가속 SDK와 최첨단 AI 기능을 도입해 가상 협업과 콘텐츠 제작용 애플리케이션을 구축해 왔습니다.

이번 포스팅에서는 소프트뱅크가 Maxine SuperResolution 기능과 하드웨어 가속 인코딩/디코딩으로 다중 액세스 엣지 컴퓨팅(MEC, multi-access edge computing) 서버에 업링크할 데이터의 양을 줄이는 방법을 살펴보겠습니다. 소프트뱅크는 한정적인 대역폭 문제를 해결하는 것 외에도 노이즈 제거와 가상 배경 등 Maxine의 다양한 기능을 활용해 사용자에게 최상의 화상 회의 솔루션을 제공합니다.

MEC의 장점

엣지 컴퓨팅을 활용하면 공급자의 테크놀로지를 사용자와 보다 가까운 곳에 배포할 수 있습니다. 다시 말해 엣지 컴퓨팅은 작업에 필수적이면서 처리량이 많은 저지연 애플리케이션에 할애되는 대역폭과 레이턴시 버짓(latency budget)을 절감합니다. 이를 위해 MEC 네트워크 테크놀로지는 컴퓨팅을 원격 클라우드 서버에서 소비원에 더 가까운 노드로 이동시킵니다. 엣지 컴퓨팅은 주로 4G, 그리고 보다 최근의 5G 같은 네트워크 테크놀로지에 기반하여 연결성을 제공합니다.

Figure 1. MEC 서버를 포함한 파이프라인의 간략한 개관

초고속과 초저지연, 다중 동시 연결과 같은 5G 기능 덕분에 원격 의료와 스마트 공장처럼 기존의 무선 연결로는 달성할 수 없었던 새로운 활용 사례의 개척이 가능해졌습니다. MEC는 저지연, 고처리량의 활용 사례 지원을 실현하는 열쇠입니다. 국지적 MEC 서버를 배치하고 클라우드에는 최소한의 필요 데이터만 전송하는 방식으로 최대한 많은 프로세스를 엣지에서 진행하여 응답 지연을 줄이죠. 또한 MEC 서버는 GPU의 대규모 병렬 컴퓨팅 성능을 활용하여 대량의 데이터를 고속으로 처리합니다.

5G 네트워크의 문제점

현재 5G 네트워크는 비단독모드(NSA)라 불리는 방식으로 작동됩니다. 이 방식은 4G LTE 네트워크와 5G 기지국을 결합하는데요. 5G 기능(네트워크 슬라이싱 등) 일부가 제공되지 않는 경우가 있습니다. 5G SA(단독형) 방식은 5G 코어와 기지국을 모두 갖추고 있습니다. 5G SA 방식의 엔드-투-엔드 지원은 서비스 속도를 높이고 비용을 절감하며 서비스 품질을 개선하는 한편, 여러 서비스의 배포에 유리한 플랫폼을 제공합니다.

5G SA 방식의 상용화와 함께 전체 5G 네트워크가 완성됩니다. 그러므로 5G는 5G NSA와 5G SA의 2단계 진화를 거친다고 볼 수 있습니다. 각 단계마다 자본을 투입해야 하죠.

반면 소프트뱅크를 비롯한 일부 통신사는 4G LTE와 5G NR에 4G LTE 저대역 주파수를 사용하기 시작했습니다. 이론상으로 무선 통신에서 용량과 커버리지는 상충관계(trade-off)에 해당합니다. 소프트뱅크는 MEC를 사용해 5G SA 방식에 고품질 광역 커버리지를 보장하면서 서비스 지연을 최대한 효과적으로 줄입니다.

Figure 2. 5G 주파수에서 용량과 커버리지의 상충관계

이에 더해 몇 가지 기술적인 문제들도 있습니다. 모바일 네트워크는 대개 업링크보다 다운링크 속도가 더 빠르도록 설계됩니다. 이러한 디자인 원칙은 스마트폰에 영상을 스트리밍할 때처럼 트래픽 대부분이 다운링크인 일반 애플리케이션에 적합합니다. 하지만 일부 중요 애플리케이션의 경우 강력한 업링크 연결이 필요하죠. 가장 대표적인 예가 화상 회의인데요. 이때 사용자는 고해상도 비디오와 오디오를 스트리밍하기 위해 상당한 업링크 대역폭이 필요합니다.

5G 업링크 용량이 부족한 현 상황에서 업링크 할당량을 늘리려면 주파수 묶음 기술(carrier aggregation)과 MIMO(Multiple Input and Multiple Output) 안테나가 필요합니다. 5G에 연결하는 기기들이 날로 증가하면서 대역폭, 특히 업링크 대역폭을 절감하는 문제가 전 세계 통신 사업자들의 공통 과제로 떠올랐습니다.

화상 회의처럼 업링크 대역폭 집약적인 애플리케이션은 업링크 대역폭을 500Kbps로 절감하더라도 100Mbps의 대역폭일 때와 동일한 품질의 서비스를 제공합니다. 이렇게 하면 연결 기기의 수를 큰 폭으로 늘리는 동시에 고품질 서비스도 제공할 수 있습니다.

MEC와 NVIDIA Maxine을 활용한 화상 회의 솔루션

NVIDIA Maxine은 화상 회의 서비스 개발자들이 클라우드를 기반으로 최첨단 모델을 활용한 AI 기능을 구축, 배포하게 도와주는 GPU 가속 SDK 플랫폼입니다. Maxine은 아티팩트(artifact) 감소, 자세 예측, 슈퍼 해상도, 노이즈 제거 등 NVIDIA Research가 이룩한 최신 혁신들의 API를 포함합니다. 또한 NVIDIA Riva를 비롯한 제품들을 통해 자막과 가상 어시스턴트 액세스 기능을 제공합니다. 이 기능들은 NVIDIA GPU로 가속화되어 클라우드의 실시간 비디오 스트리밍 애플리케이션들을 실행합니다.

Figure 3. Maxine 슈퍼 해상도의 개관

서비스 공급자는 Maxine 애플리케이션을 통해 컴퓨터, 태블릿, 휴대전화 등의 기기 일체를 사용하는 모든 사용자에게 동일한 기능을 제공할 수 있습니다. 여기서 핵심은 모든 프로세스가 클라우드에서 진행되므로 기기상에서 실행되는 애플리케이션에는 최소한의 리소스만이 필요하다는 점입니다. Maxine으로 구축된 애플리케이션은 마이크로서비스로 간편하게 배포되며, 쿠버네티스 환경에서 수십만 개의 스트림으로 확장됩니다.

이 방식의 기본 원리는 화상 회의 시스템에 수반되는 컴퓨팅 집약적 프로세스를 오프로드하고, MEC 서버에 업링크해야 하는 데이터의 양을 줄이는 것입니다. 이를 달성하기 위해 슈퍼 해상도 같은 비디오 효과와 하드웨어 가속 인코딩/디코딩을 결합합니다. Maxine은 또한 노이즈 제거와 가상 배경, 울림 방지 등 삶의 질(quality-of-life) 관련 기능도 추가 제공합니다.

이러한 기능들은 사용자에게 어떤 영향을 미칠까요? 기본적으로는 갖가지 배경 잡음이 존재하는 현장에서 근무하는 사용자가 낮은 대역폭 연결로도 깨끗한 음질의 오디오와 고해상도 비디오에 접근할 수 있게 됩니다. 가령 외딴 지역의 시끄러운 작업장에서 180p의 스트리밍 화질로 연결한 공장장의 모습이 720p 화질로 스트리밍되는 조용한 회의실에 있는 것처럼 보일 수 있습니다. 이와 더불어 컴퓨팅 리소스를 오프로드하면 배터리 수명이 연장되고 메모리 여유분도 증가해서 휴대전화나 랩톱처럼 리소스가 제한된 기기에서 멀티태스킹이 가능해집니다.

앞서 언급한 기능들은 다음의 SDK에 포함돼 있습니다.

또한 NVIDIA Video Codec SDK는 하드웨어 가속 인코딩과 디코딩을 제공하여 화상 회의 관련 인프라를 지원합니다.

Figure 4. Maxine AI Face 코덱 개관

소프트뱅크의 NVIDIA Maxine 활용법

일반적으로 휴대전화에서 화상 회의 솔루션을 사용하려면 먼저 클라이언트 애플리케이션을 설치해야 합니다. 소프트뱅크의 경우, 줌(Zoom) 클라이언트가 사용자의 휴대전화 대신 통신사 네트워크의 MEC 서버에 설치됩니다. 휴대전화의 비디오와 마이크 출력값은 5G 네트워크를 통해 MEC의 Zoom 클라이언트에 입력됩니다. MEC는 휴대전화의 마이크와 카메라를 가상 마이크와 카메라로 인식하여 Zoom 클라이언트의 입력값으로 사용합니다.

Figure 5. 소프트뱅크와 Maxine POC: 개괄 도표

다음은 소프트뱅크의 개념 증명(POC)에 사용된 하드웨어와 소프트웨어의 사양입니다.

이 작업에는 소프트뱅크의 MEC 서버(윈도우), 변형된 C++ 기반 오픈 소스 웹RTC 클라이언트인 웹RTC 클라이언트 모모와 Video Effect SDK와 Audio Effect SDK API를 사용하는 애플리케이션이 투입됩니다.

Audio Effect SDK의 NvAFX_RUN API(NVAFX_EFFECT_DENOISER)와 Video Effect SDK의 NvVFX_RUN API(NVVFX_FX_SUPER_RES)는 비디오의 슈퍼 해상도 구현과 노이즈 제거에 사용됩니다.

Figure 6. Video Effects SDK API의 샘플 코드
Figure 7. Audio Effects SDK API의 샘플 코드

웹RTC 프로토콜을 사용하는 5G 사용자 장비에서 전송된 비디오 스트림은 낮은 비트율(본 검증에서는 H.264 (CBR) 180p)로 MEC에 업로드되어 업링크 대역폭을 절약합니다. MEC는 저품질 오디오와 비디오를 낮은 비트율로 수신한 뒤 Maxine SDK를 사용해 품질을 개선하죠. 비디오의 경우, MEC 서버는 사용자 장비에서 180p로 전송된 비디오의 크기를 Maxine SuperResolution 기능을 활용해 720p로 조정합니다. SuperResolution은 노이즈를 줄이고 고주파 구성 요소를 복원하여 고품질 비디오를 제공합니다.

Figure 8은 SuperResolution의 결과물을 보여줍니다.

Figure 8. 탁한 원본 이미지(좌측 절반)와 Maxine AI 기능을 적용한 후 이미지(우측 절반) 비교

Figure 8에서 좌측은 SuperResolution을 적용하기 전의 원본 데이터이며 우측은 업스케일링을 거친 이미지입니다. 얼굴 디테일의 탁한 아티팩트가 보다 많은 픽셀로 대체되면서 고품질 이미지가 만들어집니다. Video Effects SDK와 함께 제공되는 샘플 애플리케이션을 사용하여 동일한 결과를 도출해볼 수 있습니다. 전체 데모는 Maxine 사용 전과 후 비디오에서 확인하세요.

Super Resolution 결과물과 함께 노이즈 제거 결과물도 영상에서 함께 만나볼 수 있습니다.

 

위의 영상은 사용자가 키보드를 치면서 말하는 시나리오에서 Maxine의 노이즈 제거 기능을 검증한 결과를 보여줍니다. 본 검증에서는 키보드 소리를 샘플로 선택했지만, Maxine 노이즈 제거 기능은 소프트뱅크 PoC 개발 과정 전반의 다양한 상황에서 그 유용함을 입증했습니다. 소프트뱅크는 이 소음 제거 기능에 힘입어 야외나 자동차 내부 등 시끄러운 환경에서도 회의의 진행이 가능해질 것으로 내다보고 있습니다.

Audio Effects SDK와 함께 제공되는 샘플 애플리케이션을 사용하여 동일한 결과를 도출해볼 수 있습니다.

여러분의 비디오 스트림 품질을 개선하세요

소프트뱅크는 자사 MEC 서버에 Maxine을 배포하고 지연시간을 줄여 모든 사용자에게 고품질의 비디오와 오디오 환경을 제공합니다. 이 과정에서 하드웨어나 사용자 장비를 추가할 필요가 없으므로 업링크 대역폭이 크게 줄어 사용자 경험 또한 개선됩니다. 소프트뱅크는 비디오 품질을 더욱 향상시키기 위해 Maxine AI Face Codec의 도입을 계획하고 있습니다.

보다 자세한 정보는 GTC 온디맨드 ‘5G를 위한 GPU 가상화와 MEC의 공존(GPU Virtualization for 5G and MEC Coexistence)’ 세션에서 소프트뱅크 PoC를 확인하세요. 또는 Maxine SDK를 다운로드하고 Maxine이 여러분의 애플리케이션을 개선하는 방법을 살펴볼 수 있습니다. 문의 사항은 이곳을 방문하세요.