영상 검색과 요약 위한 ‘NVIDIA VSS Blueprint’ 공개

by NVIDIA Korea

영상 분석 AI 에이전트의 시대가 도래했습니다.

영상은 전 세계 데이터 트래픽의 50% 이상을 차지하며 현대 디지털 환경의 핵심 요소 중 하나로 자리하고 있는데요. 미디어 분야에서 압도적인 위치를 차지하며, 다양한 산업에서 점점 더 중요한 역할을 하고 있습니다. 또한, 세계적으로 가장 방대하고 널리 사용되는 데이터 소스 중 하나죠. 하지만 인사이트를 도출하기 위해 분석되는 영상은 그 중 1%도 되지 않습니다.

에너지, 자동차, 전자 등을 포함한 물리적 산업은 전 세계 GDP의 거의 절반을 차지하고 있습니다. 노동력 부족, 제조업의 온쇼어링(onshoring), 자동화에 대한 수요 증가로 인해 영상 분석 AI 에이전트는 그 어느 때보다도 중요한 역할을 수행하며 물리적 세계와 디지털 세계의 연결에 기여할 것으로 예상됩니다.

이러한 에이전트 개발을 가속화하기 위해 NVIDIA Metropolis 플랫폼 기반의 VSS Blueprint를 일반에 공개합니다. 개발자에게 방대한 양의 실시간 영상과 아카이브된 영상 분석에 필요한 고성능 AI 에이전트를 생성하고 배포할 수 있는 도구를 제공합니다.

비전 언어 모델(Vision Language Model, VLM) 기반의 비전 AI 에이전트와 생산성 지원 솔루션이 빠르게 등장하고 있습니다. 강력한 컴퓨터 비전 모델과 초지능형 거대 언어 모델(LLM) 기술을 결합한 영상 분석 AI 에이전트는 기업이 방대한 영상 데이터를 손쉽게 탐색, 검색, 요약할 수 있도록 지원하죠. 또한, 실시간으로 영상을 분석하거나 테라바이트급의 녹화된 영상을 검토함으로써 다양한 주요 산업에서 전례 없는 가치와 기회를 창출하고 있습니다.

제조업체와 물류 센터는 AI 에이전트를 활용해 작업자 안전과 생산성을 높이고 있습니다. 예를 들어, 지게차의 이동 경로를 최적화하거나 작업자의 위치를 효율적으로 조정할 수 있죠. 스마트 시티는 영상 분석 AI 에이전트를 통해 교통 혼잡을 줄이고 안전을 향상시키고 있습니다. 이 외에도 다양한 활용 사례가 더욱 늘어나고 있습니다.

다양한 영상 분석 AI 에이전트를 만들기 위한 VSS Blueprint

VSS Blueprint는 NVIDIA Metropolis 플랫폼을 기반으로 구축됐습니다. 또한, NVIDIA VILA, NVIDIA Llama Nemotron, NVIDIA NeMo Retriever, 검색 증강 생성(retrieval-augmented generation, RAG) 등 VLM과 LLM을 통해 강화되죠. RAG는 LLM을 기업의 엔터프라이즈 데이터에 연결하는 기술입니다.

VSS Blueprint는 NVIDIA AI Enterprise 소프트웨어 플랫폼을 통합하며, VLM, LLM, RAG용 고급 AI 프레임워크를 위한 NVIDIA NIM 마이크로서비스가 포함됩니다. 따라서 사용자는 영상을 실시간으로 시청하는 것보다 100배 빠르게 요약을 진행할 수 있습니다. 예를 들어, 1시간 분량의 영상을 1분 이내에 텍스트로 요약할 수 있는 것이죠.

VSS Blueprint는 우수한 영상 이해, 성능, 확장성을 갖춘 여러 가지 강력한 기능을 제공합니다.

이번 버전에서는 소규모 워크로드를 위해 단일 NVIDIA A100 또는 H100 GPU에 배포할 수 있는 기능뿐만 아니라 확장된 하드웨어 지원도 도입돼, 리소스 할당에 더 큰 유연성을 제공합니다. 또한, VSS Blueprint는 NVIDIA RTX 6000 PRO와 NVIDIA DGX Spark 컴퓨팅 플랫폼의 엣지에서도 배포할 수 있습니다.

VSS Blueprint는 수백 개의 라이브 영상 스트림 또는 버스트 클립을 동시에 처리할 수 있습니다. 시각적 이해 외에도 오디오 텍스트 변환 기능도 제공되죠. 음성을 텍스트로 변환하면 교육 영상, 키노트 또는 팀 회의 등 오디오가 중요한 상황에서 맥락적 깊이를 더할 수 있습니다.

업계 선두주자, 영상 분석 AI 에이전트 도입으로 비즈니스 가치 창출

세계적인 제조업체부터 스마트 시티, 스포츠 리그에 이르기까지 다양한 조직이 VSS Blueprint를 활용해 운영 최적화를 위한 AI 에이전트를 개발하고 있는데요.

글로벌 전자 제품 제조업체인 페가트론(Pegatron)은 VSS Blueprint를 활용해 작업 공정을 분석하고, 직원들에게 모범 사례에 대한 교육을 진행하고 있습니다. 그리고 이 Blueprint를 자사의 페가Ai(PEGAAi) 플랫폼에 통합해 조직이 제조 공정 혁신을 위한 AI 에이전트를 구축할 수 있도록 지원하죠.

이러한 에이전트는 방대한 양의 영상을 수집하고 분석해 자동 모니터링, 이상 감지, 영상 검색, 사고 보고와 같은 고급 기능을 제공합니다. 페가트론의 비주얼 애널리틱스 에이전트(Visual Analytics Agent)는 인쇄회로기판 조립 절차를 이해하고 작업이 올바르게 수행되고 있는지 확인할 수 있습니다. 페카트론은 현재까지 인건비를 7% 절감하고 결함률을 67% 감소시켰습니다.

대만의 다른 주요 반도체, 전자 제조업체들도 AI 에이전트와 디지털 트윈을 구축해 기획과 운영 애플리케이션을 최적화하고 있습니다.

대만 가오슝시는 파트너사인 링커 비전(Linker Vision)이 개발한 통합 스마트 시티 비전 AI 애플리케이션을 통해 사고 대응 시간을 단축하고 있는데요. 과거에는 폐기물 관리, 교통, 비상 대응과 같은 시 부서들이 분리된 인프라로 인해 중요 정보에 접근할 수 없어 대응 시간이 지연됐었습니다.

VSS Blueprint를 기반으로 하는 링커 비전의 AI 기반 애플리케이션은 실시간 영상 분석과 생성형 AI를 결합해 시각적 요소를 감지합니다. 또한, 홍수나 교통사고와 같은 복잡한 사건을 이해하고 설명할 수 있죠.

링커 비전은 현재 12개 시 부서에 시의적절한 인사이트를 제공하고 있으며, 2026년까지 시내 카메라를 3만 대에서 5만 대 이상으로 확대할 계획입니다. 이러한 인사이트는 시 서비스 전반에 걸쳐 향상된 상황 인식과 데이터 기반 의사 결정을 개선하며, 사고 대응 시간을 최대 80% 단축합니다.

북미아이스하키리그(NHL)는 VSS Blueprint와 바스트 인사이트엔진(VAST InsightEngine)을 사용해 비전 AI 워크플로우를 간소화하고 가속화하고 있습니다. 바스트 인사이트엔진은 방대한 양의 경기 영상을 관리합니다.

NHL은 바스트 인사이트엔진을 활용해 페타바이트급 영상을 1초 이내에 검색할 수 있어, 하이라이트와 경기 중 순간을 거의 즉각적으로 추출할 수 있습니다. AI 기반 에이전트 워크플로우는 영상 콘텐츠를 자동으로 스크랩하고, 태그를 지정하고, 조합해 쉽게 접근하고 사용할 수 있도록 만듭니다. 콘텐츠 제작 경험을 더욱 향상시키는 것이죠.

향후 NHL은 실시간 AI 추론을 활용해 선수 통계, 전략 분석 또는 판타지 추천과 같은 맞춤형 인사이트를 라이브 경기 중에 실시간으로 생성해 제공할 수도 있습니다. 이러한 엔드-투-엔드 자동화는 미디어의 제작, 큐레이션, 전달 방식을 혁신해 AI 기반 스포츠 콘텐츠 제작의 새로운 기준을 제시할 수 있습니다.

지멘스(Siemens)는 자사의 오퍼레이션용 인더스트리얼 코파일럿(Industrial Copilot for Operations)을 활용해 공장 현장 근로자의 장비 유지보수 작업, 오류 처리, 성능 최적화를 지원하고 있습니다. 이 생성형 AI 기반 어시스턴트는 운영과 문서 데이터에 대한 정보를 사용해 장비 오류에 대한 실시간 답변을 제공합니다.

이 코파일럿은 VLM, LLM, NeMo 마이크로서비스와 같은 VSS의 구성 요소를 융합해 구축됐습니다. 지멘스의 인더스트리얼 코파일럿은 신속한 의사 결정과 장비 다운타임 감소에 기여했죠. 지멘스는 생산성이 30% 향상됐으며, 향후 50%까지 향상될 가능성이 있다고 보고했습니다.

확장되는 파트너 생태계의 지원으로 정교한 AI 에이전트 구축

NVIDIA 파트너들은 VSS Blueprint를 활용해 워크플로우에 필요한 에이전틱 AI 영상 분석 기능을 신속하게 생성하고 있습니다. 몇 개월이 걸리던 개발 시간을 몇 주로 단축하고 있는데요.

지능형 영상 분석 분야의 선두주자인 슈퍼브에이아이(Superb AI)는 인천국제공항에 정교한 공항 운영 프로젝트를 수립해 승객 대기 시간을 단 몇 주 만에 단축했습니다. 말레이시아의 솔루션 제공업체인 아이티맥스(ITMAX)는 말레이시아 쿠알라룸푸르시를 위해 VSS Blueprint를 기반으로 전반적인 도시 관리를 개선하고 있는데요. 사고 대응 시간을 단축하기 위한 고급 시각적 AI 에이전트를 구축하고 있습니다.

광고 분야에서는 파일러(PYLER)가 VSS Blueprint를 자사의 브랜드 안전성(AiD)과 광고 타겟팅(AiM) 솔루션에 통합했습니다. 삼성전자는 AiD와 AiM을 활용해 브랜드와 제품에 맞춘 고가치 광고 게재를 통해 광고 효과를 높였죠. BYD는 맥락에 맞는 긍정적인 콘텐츠를 타겟팅해 광고 클릭률이 4배 증가했으며, 하나금융그룹은 여러 브랜드 캠페인 목표를 초과 달성했습니다.

핑거마크(Fingermark)는 퀵 서비스 레스토랑에서 사용하는 실시간 컴퓨터 비전 플랫폼인 아이큐(Eyecue)의 애플리케이션 제공업체입니다. 핑거마크는 아이큐에 VSS Blueprint를 추가해 영상을 드라이브스루 대기 시간, 서비스 병목 현상 또는 직원 관련 사고에 대한 명확하고 실행 가능한 인사이트로 변환하고 있습니다.

build.nvidia.com에서 VSS Blueprint를 사용해 보고, 테크니컬 블로그에서 자세한 내용을 참조하세요.

젠슨 황 CEO의 COMPUTEX 키노트와 NVIDIA GTC Taipei 2025 세션을 시청하세요