AI는 이 시대의 가장 강력한 새로운 기술입니다. 그러나 기업 차원에서 AI의 힘을 활용하는 건 늘 어려운 일이었습니다.
딥 러닝에 필요한 대규모 데이터세트나 가속 컴퓨팅의 전문 기술과 접근성을 결여한 기업들이 많습니다. AI의 이점을 깨닫고 제품과 서비스 영역 전반에 신속히 확대하고자 하는 기업들도 많죠.
이들 모두를 위한 엔터프라이즈 AI를 구현할 새로운 로드맵이 제시됐습니다. 바로 이미 구축돼 있는 모델의 워크플로우를 NVIDIA TAO와 Fleet Command로 간소화하여 엔터프라이즈 AI 구축까지의 여정에 할애되는 시간과 비용을 절감하는 방법입니다.
준비된 AI 모델
이 여정은 사전 훈련된 모델들로 시작합니다. 2021년에는 신경망을 기초부터 고안하고 훈련할 필요가 없습니다. NVIDIA NGC 카탈로그에 이미 준비돼 있는 여러 모델 중 하나를 선택하기만 하면 됩니다.
NVIDIA는 업무의 고도화를 촉진하는 모델을 제공하고 있습니다. 컴퓨터 비전에서 대화형 AI, 자연어 이해에 이르기까지 다양한 범주에 걸친 AI 업무를 지원하죠.
세부 정보와 함께 제공되는 모델
이때 사용자가 정보에 기반한 선택을 할 수 있도록 NGC 카탈로그 내 여러 모델들은 자격증명(credential)이 함께 제공됩니다. 자격증명은 AI 모델들의 이력서와도 같은 개념인데요.
모델이 훈련에서 목표로 삼은 영역, 훈련을 진행한 데이터세트, 모델의 배포 빈도와 예상 성능 등이 포함됩니다. 자격증명을 활용하면 사용자의 활용 사례에 적합한 모델을 명확하고 확실하게 선택할 수 있습니다.
대규모 투자의 성과
NVIDIA는 5년이 넘는 기간 동안 GPU 컴퓨팅에 수억 시간을 투자하면서 이 모델들을 개선해 왔습니다. 덕분에 개별 사용자들은 모델 구축에 시간을 들일 필요가 없죠.
일부 모델의 개선을 위해 진행한 R&D 사례를 간단히 소개하면 다음과 같습니다.
컴퓨터 비전의 경우 NVIDIA는 3,700인년(person-year: 인당 수명을 계산하는 단위년)을 할애해 총 4,500만 프레임에서 5억 개의 물체를 분류했습니다. 음성 모델의 구축을 위해서는 여러 음성 녹음본들을 기반으로 GPU상에서 100만 시간 이상의 훈련을 실시했죠. 61억 개의 단어를 포함하는 생물의학 논문 데이터세트로 자연어 처리 모델을 교육하기도 했습니다.
전이 학습을 통한 미세조정
모델을 선택했으면, 엔터프라이즈 AI의 워크플로우 가속화를 위한 다음 단계로 넘어갑니다. 바로 NVIDIA TAO를 활용해 사용자의 구체적 필요에 맞춰 미세 조정을 진행하는 것인데요.
NVIDIA TAO는 전이 학습을 지원합니다. 기존의 신경망에서 피처를 수집해 새로운 신경망에 이식하는 이 프로세스는 TAO에 통합돼 있는 NVIDIA Transfer Learning Toolkit을 활용하는데요. 사용자가 보유한 소규모 데이터세트로 모델의 커스터마이징을 실시할 수 있어 신경망을 처음부터 구축하고 훈련하는 데 수반되는 시간과 비용, 대규모 데이터세트의 부담을 줄일 수 있죠.
또한 자사의 데이터센터 밖에서 다른 파트너사들이 보유하고 있는 보다 대규모의 다양한 데이터세트 전반에서 모델을 훈련해 성능 강화를 달성할 기회도 모색할 수 있습니다.
TAO를 활용한 연합 학습과 데이터 보안
NVIDIA TAO가 지원하는 연합 학습은 여러 위치에서 안전하게 협업해 모델을 개선하고 정확도를 높이게 해줍니다. 연합 학습을 활용해 모델의 부분 가중치와 같은 구성 요소들을 서로 공유할 수 있는데요. 이때 데이터세트는 각 기업의 데이터센터 내에 위치하기 때문에 데이터 보안이 유지됩니다.
일례로 최근에 20개의 연구 현장이 협업해 코로나 19의 감염 여부를 예측하는 일명 EXAM 모델의 정확도 개선 작업을 진행한 바 있습니다. 이 모델은 감염의 중증도와 산소 보조의 필요성 여부까지 예측할 수 있게 됐는데요. 동시에 환자의 데이터는 각 기관들의 데이터센터 내에 안전하게 보관됐죠.
엔터프라이즈 AI를 제작으로 옮기기
모델의 미세 조정을 마치면 배포를 위한 최적화를 진행합니다.
가지치기 프로세스를 통해 모델의 군더더기를 제거하는 한편 성능을 강화합니다. 서버 상의 GPU, 또는 공장의 Jetson 기반 로봇 등 사용자가 목표로 하는 모든 플랫폼에서 효과적으로 기능할 수 있도록 만드는 과정이죠.
TAO에 포함돼 있는 NVIDIA TensorRT는 수학적 좌표를 변환해 모델이 시스템 상에서 최소 규모로 최대 정확도를 달성할 수 있는 최적의 균형을 찾아냅니다 이는 음성 인식이나 부정 감지처럼 지연시간을 용납하지 않는 시스템들의 실시간 서비스에서 특히 중요한 단계입니다.
다음으로 Triton Inference Server를 활용하면 모델의 아키텍처, 모델이 사용하는 프레임워크, 타깃 CPU 또는 GPU에 구애받지 않으면서 배포를 위한 최적의 설정을 선택할 수 있습니다.
최적화를 마치고 배포할 준비가 된 모델은 활용 사례 또는 산업의 종류에 부합하는 애플리케이션 프레임워크와 통합됩니다. 예를 들어 대화형 AI는 Riva, 헬스케어는 Clara, 영상 분석은 Metropolis, 로보틱스는 Isaac 등 NVIDIA가 제공하는 여러 애플리케이션과 통합할 수 있습니다.
NGC의 사전 훈련된 모델이 TAO, Fleet Command와 결합하면 단순하면서도 강력한 AI 워크플로우를 달성할 수 있습니다.
애플리케이션 프레임워크를 선택한 후 NVIDIA Fleet Command를 실행해 다양한 GPU 기반 디바이스에서 해당 AI 애플리케이션을 배포, 관리합니다. 이것이 엔터프라이즈 AI를 향한 여정의 마지막 핵심 단계에 해당하죠.
신속하고 간편한 AI
NVIDIA Fleet Command는 네트워크의 엣지에 배포된 NVIDIA 인증 서버들을 클라우드와 연결합니다. 사용자는 단일 브라우저에서 수백만 개의 서버를 안전하게 페어링, 조정, 관리하고 AI를 모든 원격 위치에 배포하여 필요에 따라 소프트웨어 업데이트를 진행할 수 있습니다.
클릭 한 번으로 시스템의 상태 모니터링과 업데이트를 실시해 AI 운영을 규모에 맞춰 간소화하죠.
Fleet Command는 엔드투엔드(end-to-end) 보안 프로토콜을 사용해 애플리케이션 데이터와 지적재산권(IP)을 안전하게 보호합니다.
엣지와 클라우드 사이에서 전송되는 데이터는 완벽하게 암호화되어 보호됩니다. 또한 애플리케이션들은 배포에 앞서 멀웨어와 취약성 검사를 실시합니다.
오늘도 AI는 열심히 일하는 중
Fleet Command와 TAO의 여러 기능들은 물류창고, 소매, 병원, 공장 등에서 이미 사용되고 있는데요. 대표적인 기업으로 액센추어(Accenture), BMW, 지멘스 디지털 인더스트리(Siemens Digital Industries) 등이 있습니다.
GTC 21의 키노트에서 소개된 시연 영상(아래)은 NGC 모델과 TAO, Fleet Command의 세 가지 조합이 다중 AI 모델을 활용하는 애플리케이션을 신속하게 조정하고 배치하는 방법을 보여줍니다.
지금 Fleet Command의 사용을 신청하세요.
TAO의 핵심 기능인 Transfer Learning Toolkit와 연합 학습 등도 만나볼 수 있습니다. TAO에 완벽하게 통합된 기능들의 조기 액세스(early access)를 지금 신청하세요.