마이크로소프트(Microsoft), 텐센트(Tencent), 바이두(Baidu)가 컴퓨터 비전 AI를 위해 CV-CUDA를 채택했습니다.
NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 GTC 2023에서 NVIDIA CV-CUDA의 베타 릴리스를 발표하며, 콘텐츠 이해, 시각적 검색, 딥 러닝 분야의 연구를 강조했습니다. CV-CUDA는 GPU를 활용한 클라우드 규모의 컴퓨터 비전을 위한 오픈 소스 GPU 가속 라이브러리입니다. 전 세계 기업들이 GPU에서 엔드 투 엔드 AI 기반 컴퓨터 비전과 이미지 처리 파이프라인을 구축하고 확장할 수 있도록 지원하죠.
GTC 2023 키노트에서 젠슨 황은 “인터넷 트래픽의 80%는 비디오입니다. 사용자가 생성한 비디오 콘텐츠는 중요한 성장을 주도하는 한편, 막대한 양의 전력을 소비하고 있습니다. 우리는 모든 비디오 프로세싱을 가속화하고 전력 소비를 줄여야 합니다”고 말했습니다.
AI를 활용한 대규모 비주얼 컴퓨팅 최적화
인터넷 트래픽의 대부분은 비디오와 이미지 데이터로, 콘텐츠 제작, 시각 검색, 추천, 매핑 등의 애플리케이션에서 엄청난 규모의 트래픽을 유발합니다.
이러한 애플리케이션은 신경망에서 처리되기 전후 이미지와 비디오 데이터를 처리하기 위해 전문적이고 반복적인 컴퓨터 비전과 이미지 처리 알고리즘 세트를 사용하는데요.
일반적으로 신경망은 GPU로 가속되지만, 이를 지원하는 컴퓨터 비전과 이미지 처리 알고리즘은 오늘날의 AI 애플리케이션에서 종종 CPU 병목 현상을 일으킵니다.
CV-CUDA는 전처리, 후처리 단계를 CPU에서 GPU로 전환해 단일 GPU에서 4배 더 많은 스트림을 처리할 수 있도록 지원합니다. 이를 통해 클라우드 컴퓨팅 비용의 4분의 1로 동일한 워크로드를 처리할 수 있습니다.
CV-CUDA 라이브러리는 네이티브 파이썬(Python) API와 파이토치(PyTorch), 텐서플로2(TensorFlow2), ONNX, 텐서RT(TensorRT) 머신 러닝 프레임워크와의 제로-카피(zero-copy) 통합을 비롯해 총 30가지 이상의 고성능 컴퓨터 비전 알고리즘을 제공합니다.
그 결과 클라우드 AI 비즈니스의 처리량 증가, 컴퓨팅 비용 절감, 탄소 발자국 감소 실현 등의 효과를 가져옵니다.
글로벌 기업, 컴퓨터 비전 AI 채택
각 분야를 선도하는 전 세계 업계 리더들이 CV-CUDA를 도입함으로써 대규모 시각 애플리케이션에서의 CV-CUDA의 이점과 다용도성이 강조되고 있습니다. 대규모 이미지 처리 워크로드를 보유한 기업은 수천만에서 최대 수억 달러까지 비용을 절감할 수 있습니다.
마이크로소프트는 빙 비주얼 서치(Bing Visual Search)에 CV-CUDA를 통합하고 있습니다. 이는 사용자가 텍스트 대신 이미지를 사용해 유사한 이미지, 제품, 웹 페이지를 찾을 수 있는 기능입니다.
지난 2019년 마이크로소프트는 GTC 2019에서 NVIDIA 기술을 사용해 음성 인식, 지능형 답변, 텍스트 음성 변환 기술, 객체 감지를 실시간으로 원활하게 통합하는 방법에 대해 소개했습니다.
한편 텐센트도 CV-CUDA를 채택했는데요. 이를 통해 하루에 30만 개 이상의 동영상을 처리하는 광고 제작과 콘텐츠 이해 파이프라인을 가속화할 수 있습니다.
텐센트는 중국 선전(Shenzhen)에 본사를 둔 멀티미디어 대기업으로, CV-CUDA 채택 이후 이미지 처리에 있어 과거 GPU 최적화 파이프라인 대비 20%의 에너지와 비용 절감 효과를 얻었습니다.
중국 베이징 소재의 바이두 역시 CV-CUDA를 채택했습니다. 패스트디플로이(FastDeploy)에 CV-CUDA를 통합함으로써 오픈 소스 커뮤니티의 개발자들에게 원활한 컴퓨터 비전 가속화를 제공할 전망입니다. 패스트디플로이는 패들패들(PaddlePaddle) 딥 러닝 프레임워크의 오픈 소스 배포 툴킷 중 하나입니다.
콘텐츠 제작부터 자동차 사용 사례까지
CV-CUDA의 적용 분야는 계속해서 늘어나고 있습니다. 알파 버전 출시 후 불과 몇 달 만에 500개 이상의 기업에서 100개 이상의 사용 사례를 문의했죠.
콘텐츠 제작 및 이커머스(e-commerce)에서는 이미지 전처리, 후처리 연산자를 사용해 추천 엔진이 콘텐츠를 인식, 선별, 준비할 수 있도록 지원합니다.
매핑 분야에서는 매핑 측량 차량에서 수집된 비디오가 전처리, 후처리 연산자를 사용해 클라우드에서 신경망을 훈련시켜 인프라와 도로 특징을 식별하는 데 사용될 수 있습니다.
자율주행 시뮬레이션과 검증 소프트웨어를 위한 인프라 애플리케이션에서는 CV-CUDA를 사용해 차량에서 이미 발생하고 있는 색상 변환, 왜곡 보정, 콘볼루션(convolution), 양방향 필터링 등의 알고리즘에 대한 GPU 가속화를 가능하게 합니다.
미래에는 생성형 AI가 비디오 콘텐츠 제작, 선별의 세계를 변화시켜 크리에이터의 작품이 전 세계 시청자들에 도달할 수 있게 될 것입니다.
미국 뉴욕에 본사를 둔 스타트업 런웨이(Runway)는 CV-CUDA를 통합해 비디오 오브젝트 세분화 모델에서 고해상도 비디오를 전처리할 때 발생하는 심각한 병목 현상을 완화했습니다.
런웨이는 CV-CUDA를 구현한 결과 속도가 3.6배 빨라져 창작 도구 제품군 전반에 걸쳐 실시간 클릭-콘텐츠(click-to-content) 응답을 최적화할 수 있게 됐죠.
런웨이 공동 창립자 겸 CEO인 크리스토발 발렌수엘라(Cristóbal Valenzuela)는 “크리에이터에게는 아이디어를 구현하는 데 걸리는 매 순간이 중요합니다. CV-CUDA가 가져올 변화는 해당 도구를 사용하는 수백만 명의 크리에이터에게 매우 의미 있는 일”이라고 말했습니다.
CV-CUDA 깃허브(GitHub)에서 CV-CUDA에 액세스할 수 있습니다.
여기에서 GTC 2023 세션에 무료로 등록하고, CV-CUDA와 관련된 자세한 정보를 알아보세요.