최신 업데이트로 더욱 강력해진 딥러닝 추천시스템 NVIDIA Merlin

by NVIDIA Korea
0128 블로그 메인

작년 가을, 젠슨 황(Jensen Huang) 엔비디아 CEO가 GTC 2020 기조연설에서 딥 러닝 추천 프레임 NVIDIA Merlin 오픈베타를 발표했었죠!

추천 시스템을 구축하고 확장하려는 데이터 사이언티스트와 머신러닝 엔지니어는 피처 엔지니어링, 사전 처리, 훈련, 성능때문에 자주 어려움을 겪습니다. 바로 이런 문제를 해결하기 위해 설계된 NVIDIA Merlin은 데이터 사이언티스트와 머신러닝 엔지니어가 규모에 맞게 고도의 예측력을 갖춘 효과적인 추천 시스템을 구축할 수 있도록 지원하는데요. Merlin의 최신 오픈 베타 업데이트는 딥 러닝 추천 시스템 구축을 대중화하려는 NVIDIA의 노력을 보여주며 상호 운용성과 성능 향상으로 워크플로우를 최적화합니다.

신속한 데이터 처리를 위한 Merlin NVTabular

Merlin NVTabular는 테라바이트 이상의 추천 데이터세트를 다룰 시에 준비 시간을 단축해주는 피처 엔지니어링과 사전 처리 라이브러리입니다. 오픈소스 베타 업데이트에서 성능이 향상된 부분에는 DAK-cuDF를 사용하는 멀티 노드, 멀티-핫 범주형 지원 기능, 사용자 지정 데이터 로더 향상을 위한 여러 기능이 있습니다.

이런 기능들은 머신러닝 엔지니어와 데이터 사이언티스트가 추천 시스템에서 공통 피처 엔지니어링과 사전처리 단계를 수행하도록 지원합니다. 또한 작년 국제 추천 시스템 대회 ‘ACM RecSys 2020 Challenge’에서 우승한 NVIDIA 팀은 정형 데이터(tabular data) 처리를 위해 NVTabular을 통합해 활용했습니다.

향상된 기능과 새로운 운영시스템 모두는 ETL, 피처 엔지니어링, 데이터 로딩과 사전처리 작업 처리를 더욱 가속화합니다.

데이터 훈련에 특화된 Merlin HugCTR

Merlin HugCTR은 특별히 추천 시스템을 위해 설계된 심층 신경망(DDN) 훈련 프로그램입니다. 추천 시스템 훈련, 성능, 클릭률(CTR) 증가에 초점이 맞추어져 있죠. Merlin HugCTR은 추천 시스템을 가장 빠르게 훈련시키는 상용화된 솔루션을 제공합니다.

이번 업데이트에서 HugeCTR는 Python API 인터페이스를 통한 사용 편의성, 상호 운용성 업데이트, 사용자 지정 운영자를 통한 임베딩 성능 향상을 위한 TensorFlow 통합, 단일 노드에서 테라바이트 크기의 임베딩을 훈련할 수 있는 모델 초과할당(oversubscribing) 지원 기능을 제공합니다.

또한 HugeCTR 은 멀티 GPU와 멀티 노드에 걸쳐 모델 병렬 훈련도 개발했습니다. 이번 최신 업데이트로 메모리를 효율적으로 배포하는 방법과 개별 구성 요소를 생성하는 방법에 대해 고민할 필요가 없어졌습니다. HugeCTR 가 이 부분을 모두 해결해줍니다. HugeCTR는 머신러닝 엔지니어와 데이터 사이언티스트의 전체 워크플로우를 가속화하는 중요한 기능들을 제공합니다.

최신 업데이트된 MERLIN 오픈 베타를 다운받으세요!

최근 GTC 기조연설에서 젠슨 황 엔비디아CEO가 발표한 바와 같이 NVIDIA는 대규모의 딥 러닝 추천 시스템의 구축을 대중화하기 위해 부단히 노력해왔으며, Merlin 구성 요소는 오픈소스 프로젝트로 다양한 형식으로 다운로드할 수 있습니다. Merlin에 대한 자세한 내용을 확인하고 Merlin의 엔드투엔드 딥 러닝 추천 프레임의 구성요소를 다운로드 하시려면 Merlin 제품 홈페이지를 방문해보세요!