정확한 AI 모델을 만드는 ‘합성 데이터’ 해부하기

오늘날의 인공지능(AI) 시대에서 데이터는 새로운 석유 자원과도 같습니다. 하지만 소수의 운 좋은 이들만이 데이터 원천지를 자유로이 사용할 수 있는데요. 그래서 많은 사람들이 스스로 저렴한 비용에 효과적인 연료를 만들어내고 있습니다. 이것을 합성 데이터(Synthetic Data)라고 부릅니다.

합성 데이터의 정의

합성 데이터(Synthetic Data)란 실제 데이터(real-world data)에 대한 대체재로서 컴퓨터 시뮬레이션이나 알고리즘이 생성하는, 주석 정보(annotated information)입니다.

다시 말하면, 합성 데이터는 실제 환경에서 수집되거나 측정되는 것이 아니라 디지털 환경에서 생성됩니다.

합성 데이터는 인공적일 수도 있지만, 수학적으로나 통계적으로 실제 데이터를 반영하는데요. 연구 결과에 따르면, 합성 데이터는 실제 사물이나 사건, 사람을 기반으로 얻은 데이터보다 AI 모델을 훈련하는 데 보다 적합하다고 합니다.

사용자는 NVIDIA Omniverse 내에서 Python을 사용해 자율주행 차량용 합성 데이터를 생성할 수 있습니다.

그런 이유로 심층 신경망의 개발자들이 합성 데이터를 사용해 모델을 교육하는 경우가 늘고 있습니다. 실제로 2019년에 실시한 이 분야의 연구조사에 따르면, 합성 데이터를 이미지, 비디오와 같은 비정형 데이터에 의존하는 “현대 딥 러닝, 특히 컴퓨터 비전에서 떠오르고 있는 가장 유망한 일반 기술 중의 하나”라고 말했습니다.

러시아 상트페테르부르크에 소재한 스테클로프 수학연구소(Steklov Institute of Mathematics)의 세르게이 I. 니콜렌코(Sergey I. Nikolenko)가 저작한 156쪽에 달하는 이 연구 보고서에서는 합성 데이터를 주제로 한 719개의 논문을 인용했습니다. 니콜렌코는 “합성 데이터는 딥 러닝 개발에 핵심적이다…(그리고) 더욱 많은 사용 사례가 앞으로 계속 나올 것”이라고 결론을 냈습니다.

AI의 선구자인 앤드류 엔쥐(Andrew Ng)가 머신 러닝에 있어서 데이터 중심적인 접근법으로의 폭넓은 전환을 촉구하는 가운데 합성 데이터가 부상하고 있는데요. 앤드류는 AI 업무에서 80%를 차지한다고 여겨지는 데이터 품질에 대한 벤치마크나 경쟁에 대한 지원을 모으기 위해 힘쓰고 있습니다.

앤드류는 자신의 뉴스레터인 더 배치(The Batch)에서 “대부분의 벤치마크는 고정된 데이터 세트를 제공하며, 연구자들이 코드를 반복하게 만듭니다. (중략) 이제는 코드를 고정하고 연구자들이 데이터를 향상시키도록 추진해야할 때입니다”라고 남겼습니다.

합성 데이터는 AI에 사용되는 데이터의 주요 형태가 될 것입니다. (출처: 가트너(Gartner), “매버릭 연구(Maverick Research): 실제 데이터를 잊어라–합성 데이터가 AI의 미래다(Forget About Your Real Data – Synthetic Data Is the Future of AI)” 라이너 라모스(Leinar Ramos), 지텐드라 슈브라만얌(Jitendra Subramanyam), 2021년 6월 24일)

가트너는 합성 데이터에 대한 2021년 6월 보고서에서, 2030년에 이르면 AI에 사용되는 데이터 대부분이 규칙, 통계 모델, 시뮬레이션, 기타 기술을 통해 인위적으로 생성될 것이라고 예측했습니다.

보고서는 “합성 데이터를 사용하지 않고서 고품질의 고부가가치 AI 모델을 만들 수는 없을 것”이라고 밝혔습니다.

증강과 익명화 vs. 합성 데이터

이미 대부분의 개발자들은 기존에 존재하는 실제 데이터 세트에 새로운 데이터를 추가하는 기술인 데이터 증강(data augmentation) 기법에 익숙합니다. 예를 들면, 기존 이미지를 로테이션하거나 밝게 만들어 새로운 이미지를 만드는 것이 있습니다.

개인정보 보호에 대한 우려와 정부 정책을 고려해보면, 데이터 집합에서 개인 정보를 제거하는 것이 점점 더 일반적인 관행이 되어가고 있습니다. 이를 데이터 익명화라고 하며, 특히 금융계나 의료계와 같은 산업에서 사용되는 구조화된 데이터의 일종인 텍스트로 많이 사용됩니다.

증강되었거나 익명화된(anonymized) 데이터를 보통은 합성 데이터로 여기지 않습니다. 그렇지만 이런 기법들을 사용해 합성 데이터를 만들 수 있죠. 예를 들어, 실제 자동차의 이미지 두 개를 혼합해 두 대의 자동차로 하나의 새로운 합성 이미지를 만들 수 있습니다.

합성 데이터가 중요한 이유

개발자가 신경망을 훈련시키려면 신중하게 라벨이 붙여진 대규모 데이터 세트가 필요한데요. 훈련시키는 데이터가 다양하면 다양할 수록 보다 정확한 AI 모델을 만들 수 있습니다.

문제는 수 천에서 수천만 개의 요소가 포함된 데이터 세트를 수집하고 레이블을 지정하는 데는 장시간이 소요될 뿐만 아니라 비용이 엄청나게 높다는 것입니다.

그럼 합성 데이터는 어떨까요. 최초의 전용 합성 데이터 서비스업체인 AI 레버리(AI.Reverie)의 공동 설립자, 폴 월보르스키(Paul Walborsky)의 추정치에 따르면, 라벨링 서비스에서 6달러의 비용이 드는 단일 이미지를 인공적으로 생성한다면 비용이 6센트가 든다고 합니다.

비용 절감은 단지 시작에 불과합니다. 폴 월보르스키는 “합성 데이터는 개인정보보호 문제를 해결하고, 현실 세계를 대변할 수 있는 데이터의 다양성을 확보해주어 바이어스(bias)을 줄이는 데 중요한 역할을 합니다”라고 덧붙였습니다.

합성 데이터 세트는 자동으로 레이블링됩니다. 또한 드물지만 중요한 요소인 코너 케이스(corner case)를 의도적으로 포함할 수 있기 때문에 실제 데이터보다 나은 경우도 있습니다.

합성 데이터의 역사

합성 데이터는 수십 년 동안 여러 형태로 존재해 왔습니다. 이는 비행 시뮬레이션이나 원자에서 은하에 이르는 모든 것에 대한 과학 시뮬레이션과 같이 컴퓨터 게임에도 존재합니다.

하버드대학의 통계학과 교수인 도널드 B. 루빈(Donald B. Rubin)은 미국 정부 기관이 인구조사 중에 특히 빈곤층에 대한 과소평가와 같은 문제들을 해결하는 것을 돕다가 한 가지 아이디어를 얻게 됐습니다. 루빈 교수는 1993년 논문에서 이를 두고 합성 데이터의 탄생으로 종종 언급했는데요.

루빈 교수는 “저는 이 논문에서 시뮬레이션된 여러 데이터 세트를 지칭하기 위해 합성 데이터라는 용어를 사용했습니다”라고 설명했습니다.

또한 “각각의 합성 데이터 세트는 실제 데이터 세트를 만든 프로세스와 동일한 프로세스를 통해 생성될 수 있는 것처럼 보이지만, 합성 데이터 세트의 어느 것도 실제 데이터를 드러내지 않습니다. 이는 개인적이고 기밀 데이터 세트를 연구하는 경우에 엄청난 장점이 됩니다”라고 덧붙였습니다.

클릭하여 애니메이션을 확인해보세요. 다양성과 AI 정확도를 높이는 변경 기능을 통해 합성 데이터 세트를 확장할 수 있습니다.

신경망이 사람보다 더욱 빨리 물체를 인식했던 ‘2012 이미지넷(ImageNet)’ 이미지 인식 대회였던 AI 빅뱅을 계기로, 연구자들은 합성 데이터 사냥에 본격적으로 나섰습니다.

NVIDIA 시뮬레이션 기술 및 AI 선임 책임자인 가브리엘 스테이트(Gavriel State)는 그로부터 2년 내에 “연구자들은 렌더링된 이미지를 실험에 사용하고 있었고, 사람들이 3D 엔진이나 콘텐츠 파이프라인으로 데이터를 생성하는 제품과 도구에 투자하기 시작하면서 충분히 성과를 내고 있습니다”고 말했습니다.

포드(Ford)와 BMW, 합성 데이터를 만들다

현재는 은행이나 자동차 제조업체, 드론, 공장, 병원, 소매업체, 로봇, 과학자들이 합성 데이터를 사용합니다.

최근 한 팟캐스트에서 포드사의 연구진이 AI 훈련용 합성 데이터를 만들기 위해 게이밍 엔진과 GAN(생성적 적대 네트워크)을 결합하는 방법을 설명했습니다.

자동차 제조 과정을 최적화하기 위해 BMW는 기업들이 여러 도구를 통해 협업할 수 있는 시뮬레이션 플랫폼인 NVIDIA Omniverse를 사용해 가상의 공장을 생성했습니다. BMW가 생성하는 데이터는 조립 작업자와 로봇이 효율적인 차량 제조를 위해 협업하는 방식을 세부적으로 조정하는 데 도움이 됩니다.

병원, 은행, 소매업에서의 합성 데이터

의료 이미징과 같은 의료 사업체는 합성 데이터를 활용해 AI 모델을 훈련할 수 있을 뿐만 아니라 환자의 사생활도 보호할 수 있습니다. 가령, 스타트업 쿠라이(Curai)는 40만건의 시뮬레이션 의료 사례를 기반으로 진단 모델을 훈련했습니다.

2019년 연구조사에서 니콜렌코는 “의료 이미징을 위한 GAN 기반 아키텍처는 합성 데이터를 생성하거나 다른 도메인에서 실제 데이터를 적용하는 방식으로, 향후 몇 년 간 해당 분야에서 최첨단 기술을 정의하게 될 것”이라고 말했습니다.

GAN은 금융 분야에서도 이목을 끌고 있습니다. 미국 금융 서비스 기업인 아메리칸 익스프레스(American Express)는 GAN을 활용하는 방법을 연구해 합성 데이터를 만들어 금융사기를 탐지하는 AI 모델을 개선했습니다.

소매업계에서는 스타트업 케이퍼(Caper)와 같은 기업들이 3D 시뮬레이션을 사용해 제품 이미지 5개만으로도 1,000개의 이미지의 합성 데이터 세트를 만듭니다. 또한 이러한 데이터 세트를 통해 스마트 기기를 갖춘 소매업체에서는 고객들이 필요한 물건을 계산대에서 줄 서서 기다릴 필요없이 물건을 바로 구매할 수 있죠.

합성 데이터의 생성 방법

NVIDIA의 가브리엘 스테이트는 합성 데이터를 생성하는 “기술은 수천억 개가 있습니다”라고 말했습니다. 예를 들어, 가변 자동 인코더는 데이터 세트 용량을 줄이기 위해 압축한 다음 디코더를 사용해 관련된 합성 데이터 세트를 만듭니다.

특히 연구 분야에서 GAN을 사용하는 경우가 늘고 있지만, 시뮬레이션이 여전히 인기있는 이유는 두 가지 때문입니다. 첫째, 시뮬레이션은 정지 이미지나 움직이는 이미지를 분할하고 분류하는 여러 도구를 지원하여 완벽한 레이블을 생성합니다. 둘째, 다양한 색상이나 조명, 재료, 포즈로 객체와 환경 버전을 빠르게 생성할 수 있습니다.

이 두번째 기능은 AI 모델의 정확도 향상을 위해 점점 더 많이 사용되는 기술인 도메인 랜덤화(domain randomization)에 아주 중요한 합성 데이터를 제공합니다.

도메인 랜덤화 사용

도메인 랜덤화(Domain randomization)는 수천 가지의 물체와 그 환경을 변형해 AI 모델이 일반적인 패턴을 보다 쉽게 이해할 수 있도록 만듭니다. 아래 동영상은 스마트 창고가 도메인 랜덤화를 사용하여 AI으로 구동되는 로봇을 훈련시키는 방법을 보여줍니다.

도메인 랜덤화는 AI 모델이 특정 날짜에 발생한 특정한 상황에 대해 훈련을 받았을 경우에 AI 모델의 정확한 예측력이 떨어지는 현상인, 소위 ‘도메인 격차’를 줄이는 데 도움이 됩니다. 바로 이런 이유로 NVIDIA가 합성 데이터 생성 툴을 위한 도메인 랜덤화를 Omniverse에 구축하는 것이죠. GTC 2021의 최근 강연에서 이 내용이 발표되기도 했습니다.

이런 기술은 컴퓨터 비전 애플리케이션이 이미지에서 물체를 감지하고 분류하는 작업에서부터 영상 속의 활동을 보고 이해하는 작업으로까지 기능을 발전시키는 데 일조하고 있습니다.

AI레버리의 월보르스키는 “시장은 이런 방향으로 나가고 있지만 기술은 더욱 복잡합니다. 합성 데이터는 완전한 주석(annotated) 비디오 프레임을 만드는 데 도움을 주기 때문에 더욱 가치가 있습니다”라고 전했습니다.

합성 데이터를 얻을 수 있는 곳

이 분야는 몇 년 밖에 되지 않았지만 이미 50개 이상의 기업이 합성 데이터를 제공합니다. 각 기업들은 저마다 전문적인 소스(sauce)를 가지고 있으며, 종종 특정 수직 시장(vertical market)이나 기술에 초점을 맞춥니다.

예를 들어, 몇몇 곳이 의료 서비스 분야를 전문으로 다룹니다. MIT에서 개발한 라이브러리 세트, 프로젝트 및 튜토리얼인 합성 데이터 볼트(Synthetic Data Vault)를 포함해 여섯 곳이 오픈 소스 도구나 데이터 세트를 제공합니다.

NVIDIA는 다양한 합성 데이터 서비스업체나 데이터 레이블링 서비스업체와 협력하는 것을 목표로 합니다. NVIDIA와 협력하는 최신 파트너사들 중 일부는 다음과 같습니다.

뉴욕에 소재한 Al. 레버리(AI.Reverie)는 사용자가 직접 데이터 세트를 수집할 수 있는 구성 가능한 센서를 갖춘 시뮬레이션 환경을 제공합니다. 그리고 농업, 스마트시티, 보안, 제조 등의 분야에서 대규모 사업을 해왔습니다.
런던에 소재한 스카이 엔진(Sky Engine)은 시장 전반의 컴퓨터 비전 애플리케이션에서 작동하며 사용자가 직접 데이터 사이언스 워크플로우를 설계하도록 지원합니다.
이스라엘에 소재한 데이터젠(Dataagen)은 스마트 스토어, 로보틱스, 자동차 및 건물 인테리어를 포함한 광범위한 시장에 대한 시뮬레이션에서 합성 데이터 세트를 만듭니다.
C비디아(CVEDIA)의 합성 데이터 컴퓨터 비전을 위한 사용자 정의 도구를 사용하는 고객사 중에는 에어버스(Airbus), 하니웰(Honeywell), 지멘스(Siemens)가 있습니다.

Omniverse를 통한 마켓플레이스 활성화

NVIDIA는 Omniverse를 통해 모든 산업에서 가상 세계를 구축하거나 협업하는 데 관심이 있는 디자이너들과 프로그래머들의 영역을 확장시키는 것을 목표로 합니다. 합성 데이터 생성은 NVIDIA가 미래를 기대하는 여러 사업 중 하나입니다.

NVIDIA는 Omniverse에서 로보틱스용 애플리케이션으로 Isaac Sim을 만들었습니다. 사용자는 이 가상 세계에서 합성 데이터와 도메인 랜덤화를 통해 로봇을 훈련시키고 실제 환경에서 작업하는 로봇에 작업한 소프트웨어를 인식시킬 수 있습니다.

Omniverse는 자율주행 자동차용 NVIDIA DRIVE Sim 등과 같은 수직시장에 맞춰진 여러 애플리케이션을 지원합니다. 개발자들은 이를 통해 현실감 넘치는 시뮬레이션에서 안전하게 자율주행차를 시험할 수 있어서 현재처럼 힘든 코로나 팬데믹 속에서도 변함없이 유용한 데이터 세트를 만들고 있습니다.

이러한 애플리케이션들은 시뮬레이션이 AI용 합성 데이터의 유망한 미래를 실현시키는 모습을 보여주는 최신 사례입니다.

합성 데이터에 대해 알아보기

합성 데이터에 대한 자세한 내용은 다음 자료를 확인해보세요.

미국 IT 출판사 오라일리(O’Reilly)와 NVIDIA가 제작한 AI의 합성 데이터 사용에 관한 전자책
NVIDIA 시뮬레이션 기술 부사장 레브 레바레디언(Rev Lebaredian)이 ‘GTC 2019’에서 발표한 합성 데이터 관련 강연(무료 등록 필요)
합성 데이터에 대해 2021년에 게시된 NVIDIA의 개발자 블로그 4개
스코샤 은행(Scotiabank)과 알버타 대학(University of Alberta)이 합성 데이터 생성을 위한 생성 모델을 사용한 연구에 대해 GTC 2021에서 발표한 프리젠테이션(무료 등록 필요)
Omniverse에서 합성 데이터 생성을 위한 코드 샘플이 있는 예