데이터는 AI 시대의 새로운 석유이지만, 운이 좋은 소수의 사람들만이 그 석유를 손에 쥐고 있습니다. 그래서 많은 사람들이 저렴하고 효과적인 자체 연료를 만들고 있습니다. 바로 이를 합성 데이터(Synthetic Data)라고 합니다.
합성 데이터란?
합성 데이터는 컴퓨터 시뮬레이션이나 알고리즘이 실제 데이터의 대안으로 생성하는 주석이 달린 정보입니다.
다시 말해, 합성 데이터는 현실 세계에서 수집하거나 측정한 것이 아니라 디지털 세계에서 생성된 것입니다.
인위적일 수 있지만 합성 데이터는 수학적으로나 통계적으로 실제 데이터를 반영합니다. 연구에 따르면 합성 데이터는 실제 사물, 사건 또는 사람을 기반으로 한 데이터보다 AI 모델을 학습시키는 데 더 효과적이거나 더 우수할 수 있습니다.
그렇기 때문에 딥 뉴럴 네트워크 개발자들은 점점 더 합성 데이터를 사용하여 모델을 훈련하고 있습니다. 실제로 이 분야에 대한 한 설문조사에 따르면 합성 데이터의 사용은 이미지와 비디오와 같은 비정형 데이터에 의존하는 “현대 딥러닝, 특히 컴퓨터 비전 분야에서 가장 유망한 일반 기술 중 하나”라고 합니다.
156페이지 분량의 이 보고서는 합성 데이터에 관한 719개의 논문을 인용하고 있습니다. 이 보고서는 “합성 데이터는 딥러닝을 더욱 발전시키는 데 필수적이며… 아직 발견해야 할 잠재적 용 사례가 더 많이 남아 있습니다”고 결론지었습니다.
합성 데이터의 부상은 AI의 선구자인 Andrew Ng이 머신러닝에 대한 데이터 중심 접근 방식으로의 광범위한 전환을 촉구하고 있는 가운데 나온 것입니다. 그는 데이터 품질에 대한 벤치마크 또는 경쟁에 대한 지지를 모으고 있으며, 많은 사람들이 AI 작업의 80%를 차지한다고 주장하고 있습니다.
“대부분의 벤치마크는 고정된 데이터 세트를 제공하고 연구원들이 코드를 반복하도록 유도합니다… 이제는 코드를 고정하고 연구원들이 데이터를 개선하도록 유도해야 할 때입니다.”라고 그는 자신의 뉴스레터인 The Batch에 이같이 밝혔습니다.
가트너(Gartner)는 합성 데이터에 관한 보고서에서 2030년까지 AI에 사용되는 대부분의 데이터가 규칙, 통계 모델, 시뮬레이션 또는 기타 기술에 의해 인공적으로 생성될 것이라고 예측했습니다.
“합성 데이터 없이는 고품질의 고부가가치 AI 모델을 구축할 수 없다는 것이 사실입니다.”라고 보고서는 말합니다.
합성 데이터가 중요한 이유는?
개발자는 뉴럴 네트워크를 훈련하기 위해 신중하게 레이블이 지정된 대규모 데이터 세트가 필요합니다. 일반적으로 훈련 데이터가 다양할수록 더 정확한 AI 모델을 만들 수 있습니다.
문제는 수천에서 수천만 개의 요소를 포함할 수 있는 데이터 세트를 수집하고 라벨을 지정하는 데 시간이 많이 걸리고 비용이 엄청나게 많이 든다는 점입니다.
합성 데이터를 입력합니다. 최초의 합성 데이터 전용 서비스 중 하나를 공동 설립한 Paul Walborsky는 라벨링 서비스에서 6달러가 드는 단일 이미지를 6센트에 인공적으로 생성할 수 있다고 말합니다.
비용 절감은 시작에 불과합니다. 합성 데이터는 사용자에게 실제 세계를 표현할 수 있는 데이터의 다양성을 보장함으로써 개인정보 보호 문제를 해결하고 편견을 줄일 수 있습니다.
합성 데이터 세트는 자동으로 레이블이 지정되고 드물지만 중요한 코너 케이스를 의도적으로 포함할 수 있기 때문에 때때로 실제 데이터보다 더 나은 결과를 얻을 수 있습니다. 예를 들어, 아래 비디오에서 엔비디아 옴니버스 리플리케이터(NVIDIA Omniverse Replicator)는 시뮬레이션된 주차장에서 쇼핑 카트와 보행자 사이에서 자율주행 자동차가 안전하게 주행하도록 훈련하기 위해 합성 데이터를 생성합니다.
합성 데이터의 역사는 어떻게 되는가?
합성 데이터는 수십 년 동안 어떤 형태로든 존재해 왔습니다. 비행 시뮬레이터와 같은 컴퓨터 게임이나 원자부터 은하까지 모든 것에 대한 과학적 시뮬레이션에 사용됩니다.
하버드 통계학 교수인 Donald B. Rubin은 인구조사에서 특히 빈곤층이 과소 집계되는 등의 문제를 해결하기 위해 미국 정부 기관을 돕던 중 한 가지 아이디어를 떠올렸습니다. 그는 합성 데이터의 탄생으로 자주 인용되는 1993년 논문에서 이 아이디어를 설명했습니다.
“그 논문에서 합성 데이터라는 용어는 여러 개의 시뮬레이션 데이터 집합을 가리키는 말로 사용했습니다.”라고 Rubin은 설명합니다.
“각 데이터 세트는 실제 데이터 세트를 생성한 것과 동일한 프로세스로 생성된 것처럼 보이지만 실제 데이터를 드러내지 않기 때문에 개인 기밀 데이터 세트를 연구할 때 엄청난 이점이 있습니다.”라고 그는 덧붙였습니다.
2012년 뉴럴 네트워크가 인간보다 더 빠르게 사물을 인식하는 ImageNet 대회에서 인공지능의 빅뱅이 일어난 이후, 연구자들은 본격적으로 합성 데이터를 찾기 시작했습니다.
몇 년 만에 “연구자들은 렌더링된 이미지를 실험에 사용했고, 3D 엔진과 콘텐츠 파이프라인으로 데이터를 생성하는 제품과 툴에 투자하기 시작할 정도로 좋은 성과를 거두었습니다.”라고 엔비디아의 시뮬레이션 기술 및 AI 담당 수석 디렉터인 Gavriel State는 말합니다.
증강 및 익명화된 데이터와 합성 데이터 비교
대부분의 개발자는 기존의 실제 데이터 세트에 새로운 데이터를 추가하는 기술인 데이터 증강에 이미 익숙합니다. 예를 들어, 기존 이미지를 회전하거나 밝게 조정하여 새로운 이미지를 만들 수 있습니다.
개인정보 보호에 대한 우려와 정부 정책을 고려할 때, 데이터 세트에서 개인 정보를 제거하는 것도 점점 더 일반적인 관행이 되고 있습니다. 이를 데이터 익명화라고 하며, 특히 금융과 헬스케어와 같은 산업에서 사용되는 정형 데이터의 일종인 텍스트에 많이 사용됩니다.
증강 및 익명화된 데이터는 일반적으로 합성 데이터로 간주되지 않습니다. 하지만 이러한 기술을 사용하여 합성 데이터를 생성할 수 있습니다. 예를 들어, 개발자는 실제 자동차 이미지 두 장을 합성하여 두 대의 자동차가 있는 새로운 합성 이미지를 만들 수 있습니다.
Ford, BMW, 합성 데이터 생성
실제로 자동차 제조업체들은 물론 은행, 드론, 공장, 병원, 소매업체, 로봇, 그리고 과학자들도 합성 데이터를 사용하고 있습니다.
최근 팟캐스트에서 Ford의 연구원들은 게임 엔진과 생성적 적대 신경망(GAN)을 결합하여 AI 학습을 위한 합성 데이터를 생성하는 방법을 설명했습니다.
BMW는 자동차 제조 공정을 최적화하기 위해 여러 기업이 여러 툴을 사용하여 협업할 수 있는 시뮬레이션 플랫폼인 엔비디아 옴니버스를 사용하여 가상 공장을 만들었습니다. BMW가 생성한 데이터는 조립 작업자와 로봇이 효율적으로 자동차를 제작하기 위해 함께 작업하는 방식을 미세 조정하는 데 도움이 됩니다. (아래 비디오 참조).
물류 분야에서 Amazon Robotics는 합성 데이터를 사용하여 다양한 유형과 크기의 패키지를 식별하도록 로봇을 훈련시키고 있습니다. 또한 식음료 대기업인 PepsiCo는 옴니버스 리플리케이터를 사용하여 엔비디아 타오(NVIDIA TAO)에서 AI 모델을 훈련하는 데 사용하는 합성 데이터를 생성하여 운영을 더욱 효율적으로 개선하고 있습니다. (아래 비디오 참조).
병원, 은행, 상점의 합성 데이터
의료 영상과 같은 분야의 헬스케어 서비스 제공업체는 합성 데이터를 사용하여 환자의 개인정보를 보호하면서 AI 모델을 훈련시킵니다. 예를 들어, 스타트업인 Curai는 40만 건의 시뮬레이션 의료 사례로 진단 모델을 훈련했습니다.
“합성 데이터를 생성하거나 다른 영역의 실제 데이터를 적용하는 의료 영상용 GAN 기반 아키텍처는 앞으로 수년 동안 이 분야의 최첨단 기술을 정의할 것입니다.”라고 2019년 설문조사에서 Nikolenko는 밝혔습니다.
GAN은 금융 분야에서도 주목을 받고 있습니다. American Express는 GAN을 사용하여 합성 데이터를 생성하는 방법을 연구하여 사기를 감지하는 AI 모델을 개선했습니다.
소매업의 경우, 스타트업 Caper와 같은 기업은 3D 시뮬레이션을 사용하여 제품의 이미지를 5개 정도만 촬영하고 수천 개의 이미지로 구성된 합성 데이터 세트를 생성합니다. 이러한 데이터 세트를 통해 고객이 계산대에서 기다릴 필요 없이 필요한 물건을 집어 들고 나갈 수 있는 스마트 매장을 구현할 수 있습니다.
합성 데이터는 어떻게 생성하는가?
합성 데이터를 생성하는 데는 “수많은 기술이 있다”고 엔비디아의 State는 말합니다. 예를 들어, 변형 자동 인코더는 데이터 세트를 압축하여 컴팩트하게 만든 다음 디코더를 사용하여 관련 합성 데이터 세트를 생성합니다.
또 다른 접근 방식에서 엔비디아 연구원들은 AI를 사용하여 2D 비디오 데이터를 풀 3D 시뮬레이션으로 전환했습니다. 현재 엔비디아 드라이브(NVIDIA Drive)의 일부인 Neural Reconstruction 엔진을 사용하면 아래 비디오에서 볼 수 있듯이 시뮬레이션 및 디지털 트윈 개발 작업을 자동화할 수 있습니다.
이와는 별도로 엔비디아는 개발자가 시뮬레이션에 추가할 수 있는 지게차, 팔레트, 사다리와 같은 실제 오브젝트의 수천 개의 완전한 3D 모델을 개발하고 있습니다. 이러한 SimReady 에셋은 가상 세계의 메타버스에서 제작하고 협업할 수 있는 플랫폼인 엔비디아 옴니버스에서 사용할 수 있습니다.
특히 연구 분야에서 GAN이 증가하고 있지만, 시뮬레이션은 두 가지 이유로 여전히 인기 있는 옵션입니다. 시뮬레이션은 정지 이미지와 움직이는 이미지를 세분화하고 분류하여 완벽한 레이블을 생성하는 다양한 도구를 지원합니다. 또한 다양한 색상, 조명, 재질, 포즈를 가진 객체와 환경의 버전을 빠르게 생성할 수 있습니다.
이 마지막 기능은 AI 모델의 정확도를 높이고 모든 사용자의 애플리케이션 요구에 맞게 조정하는 데 점점 더 많이 사용되는 기술인 도메인 무작위화에 중요한 합성 데이터를 제공합니다.
전문가 팁: 도메인 무작위화 사용
도메인 무작위화(Domain randomization)는 AI 모델이 일반적인 패턴을 더 쉽게 이해할 수 있도록 수천 가지의 객체 및 환경 변형을 사용합니다. 아래 동영상은 스마트 창고에서 도메인 무작위화를 사용하여 AI 기반 로봇을 훈련하는 방법을 보여줍니다.
도메인 무작위화는 소위 도메인 갭(AI 모델이 특정 날에 우연히 발견한 정확한 상황에 대해 학습할 경우 완벽한 예측을 내릴 수 있는 공간)을 줄이는 데 도움이 됩니다. 이것이 바로 엔비디아가 합성 데이터 생성 툴을 위한 도메인 무작위화를 옴니버스에 구축하는 이유이며, 이는 최근 GTC 세션에서 소개한 작의 일부입니다.
이러한 기술은 컴퓨터 비전 앱이 이미지에서 물체를 감지하고 분류하는 것에서 나아가 동영상에서 활동을 보고 이해하는 데 도움이 됩니다.
합성 데이터는 사용자가 완전히 주석이 달린 비디오 프레임을 만들 수 있는 비디오 작업에서 특히 유용합니다. 전문가들은 이러한 접근 방식이 각광받을 것으로 예상합니다.
합성 데이터는 어디서 구할 수 있는가?
합성 데이터 분야는 불과 몇 년 밖에 되지 않았지만, 이미 100개에 가까운 기업이 합성 데이터를 제공하고 있습니다. 각 회사마다 고유한 특색을 가지고 있으며, 특정 수직 시장이나 기술에 집중하는 경우가 많습니다.
예를 들어, 소수의 업체는 헬스케어 분야에 특화되어 있습니다. MIT에서 개발한 라이브러리, 프로젝트 및 튜토리얼 세트인 합성 데이터 볼트(Synthetic Data Vault)를 비롯해 오픈 소스 툴 또는 데이터 세트를 제공하는 업체도 6곳에 달합니다.
엔비디아는 광범위한 합성 데이터 및 데이터 라벨링 서비스와 협력하는 것을 목표로 합니다. 최근 파트너들은 다음과 같습니다.
- Synthesis AI는 합성 데이터를 사용하여 고객이 컴퓨터 비전 애플리케이션을 위한 고급 AI 모델을 구축할 수 있도록 지원합니다.
- 런던에 본사를 둔 Sky Engine은 다양한 시장의 컴퓨터 비전 앱을 개발하며 사용자가 데이터 사이언스 워크플로우를 직접 설계할 수 있도록 지원합니다.
- 이스라엘에 본사를 둔 Datagen은 스마트 스토어, 로보틱스, 자동차 및 건물 인테리어 등 다양한 시장을 위한 시뮬레이션을 통해 합성 데이터 세트를 생성합니다.
- CVEDIA는 합성 데이터에 기반한 컴퓨터 비전을 위한 맞춤형 도구의 사용자로 Airbus, Honeywell 그리고 Siemens 등이 있습니다.
- Mostly AI는 무료 합성 데이터 생성기를 제공합니다.
합성 데이터로 로봇 훈련
엔비디아는 옴니버스를 통해 모든 산업 분야에서 가상 세계를 구축하거나 가상 세계에서 협업하는 데 관심이 있는 디자이너와 프로그래머를 지원하는 것을 목표로 합니다. 합성 데이터 생성은 회사가 기대하는 많은 비즈니스 중 하나입니다.
엔비디아는 옴니버스에서 로봇 공학용 애플리케이션으로 아이작 심(Isaac Sim)을 만들었습니다. 사용자는 합성 데이터와 도메인 무작위화를 통해 이 가상 세계에서 로봇을 훈련하고 그 결과물을 현실 세계에서 작동하는 로봇에 배포할 수 있습니다.
옴니버스는 자율 주행 차량용 엔비디아 드라이브 심(NVIDIA DRIVE Sim)과 같은 수직 시장을 위한 다양한 애플리케이션을 지원합니다. 이를 통해 개발자는 현실적인 시뮬레이션을 통해 안전하게 자율주행차를 테스트하고 팬데믹 상황에서도 유용한 데이터 세트를 생성할 수 있습니다.
이러한 애플리케이션은 시뮬레이션이 AI를 위한 합성 데이터의 가능성을 실현하는 최신 사례 중 하나입니다.
합성 데이터에 대해 자세히 알아보기
합성 데이터에 대한 자세한 내용은 다음 리소스를 참조하세요:
- AI에서 합성 데이터를 사용하는 방법에 대한 O’Reilly와 엔비디의 e북
- Bhumin Pathak, 엔비디아 옴니버스 리플리케이터 수석 제품 매니저와 함께하는 GTC 2022의 합성 데이터 강연(무료 등록 필요)
- 엔비디아의 시뮬레이션 기술 담당 부사장인 Rev Lebaredian과의 인터뷰
- 합성 데이터에 대해 2021년에 게시된 다양한 엔비디아 개발자 블로그
- 합성 데이터 생성을 위한 생성형 모델을 사용한 연구에 대한 스코티아은행과 앨버타 대학교의 GTC 2021 프레젠테이션(무료 등록 필요)
- Open Synthetics는 Apple, Google, Meta, Microsoft, NVIDIA의 기여로 풍부한 합성 데이터 세트와 논문을 제공합니다.
- 옴니버스에서 합성 데이터 생성을 위한 코드 샘플 예제
- 설명 가능한 AI를 위한 합성 데이터에 관한 테크니컬 블로그
이 온디맨드 기술 웨비나에서 아이작 리플리케이터(Isaac Replicator)로 AI 모델을 훈련하기 위한 합성 데이터를 생성하는 방법을 알아보세요.