가장 빠른 추천 시스템을 위한 NVIDIA Merlin

by NVIDIA Korea
0125 블로그 2 메인

머신 러닝 워크플로우에는 이터레이션과 실험이 필요합니다. 성능, 특히 속도를 향상시키면 하루나 일주일 혹은 한 달 내에 추가 실험을 실행할 수 있습니다. 이터레이션과 실험 횟수의 증대는 모델을 개선하고 더욱 영향력 있는 통찰력을 제공해줄 수 있습니다.

MLPerf 훈련 벤치마크처럼 업계 컨소시엄이 만든 벤치마크들은 AI 성능을 평가할 때 “공정하고 유용한” 측정기준을 제공합니다. 벤치마크는 데이터 사이언티스트, 머신 러닝 엔지니어, 연구자가 기술, 패키지, 모델 혹은 프레임워크를 워크플로우에 통합하는데 있어 도움을 줍니다.

최근 MLPerf v0.7 테스트에서 NVIDIA Merlin은 추천 시스템 훈련을 위한 가장 빠른 상용 솔루션으로서 입지를 굳건히 했습니다. 또한 NVIDIA Merlin Open Beta의 최신 업데이트에는 생산-규모 데이터를 보다 효율적으로 사용할 수 있는 모델인 DLRM(Deep Learning Recommender Model)에 대한 지원 기능을 향상시켰습니다. 업계가 지원하는 MLPerf 훈련 벤치마크에서 거둔 NVIDIA의 성과와 Merlin Open Beta 최신 업데이트는 기업용 대규모 딥 러닝 추천 시스템 대중화에 대해 NVIDIA가 쏟은 노력의 결실입니다.

MLPerf 훈련 벤치마크

MLPerf v0.7에는 추천 시스템을 포함해 광범위한 사용 사례를 담고 있는 8가지 워크로드가 있습니다. NVIDIA는 신규 NVIDIA A100 GPU기반의 풀스택 접근 방식으로 추천시스템 훈련을 포함한 모든 워크로드에 대해 가장 빠른 상용화된 솔루션을 제공할 수 있었습니다. MLPerf 테스트 결과에 따르면 단일 NVIDIA DGX A100 시스템과 결합된 NVIDIA Merlin BugeCTR은 <그림 1>에서처럼 Criteo 1TB 데이터세트에서 DLRM 네트워크를 4×4 노드, 16개의 CPU 클러스터보다 13.5배 더 빠르게 훈련시킵니다.

0125 블로그 중간
<그림 1> DGX-A100에서 Merlin BiggeCTR(상용) 대비 4×4 노드, 16개의 CPU 클러스터(프리뷰)X-A100에서 Merlin BiggeCTR은 3.33분의 기록으로 MLPerf 훈련 추천 시스템 벤치마크에서 가장 빠른 상용화된 시스템임을 입증했습니다.

다음 단계

Merlin HugeCTR로 MLPerf DLRM 훈련 성능을 구체적으로 재현하려면 “NVIDIA Merlin Open Beta로 추천 시스템 교육 가속화“에서 깃허브에 올라온 샘플을 리뷰하거나 단계별 기술적 워크스루스를 리뷰하면 됩니다.