해트트릭을 향한 마지막 노력으로 최후의 순간에 도달했습니다.
추천 시스템 팀은 추천 시스템 분야에서 올해 3번째이자 가장 어려운 데이터 사이언스 대회에 작업물을 제출했는데요. 마감 직전 5분 전에 말입니다. RecSys라고 불리는 이 분야는 기계 학습에서 가장 널리 사용되는 애플리케이션 중 하나를 만들어낸 비교적 새로운 컴퓨터 사이언스 분야입니다. 수백만 명의 사용자가 시청하고, 구매하며 플레이하고 싶은 콘텐츠를 찾는 데 도움이 되죠.
추천 시스템 팀은 7.5억 개의 데이터 포인트를 연구하여, 콘테스트에서 정한 한도인 20GB 한도에 딱 맞게 6가지의 AI 모델 조합을 추려냈습니다. 이 대회에는 클라우드 CPU 1개로 단일 코어에서 모델을 24시간 미만으로 실행해야 한다는 특별한 규칙이 하나 있습니다.
추천 시스템 팀은 제출 버튼을 누르고 기다렸고, 23시간 40분 후 이메일을 받았습니다.
바로 리더보드에서 1위를 기록했다는 내용이었습니다.
마지막 순간의 우승
지난 6월 28일, 7인으로 구성된 NVIDIA 팀이 두 번째로 ACM RecSys Challenge 2021에서 공식 우승을 거뒀습니다.
데이터 사이언스의 온라인 올림픽인 캐글(Kaggle) 대회의 그랜드마스터인 팀원 크리스 드오떼(Chris Deotte)는 “마감 기한 직전에 이메일을 받았습니다. 20분만 더 늦었다면 끝났을 겁니다”라고 말했죠.
또한, 사용자가 추천 시스템을 빠르게 만들도록 돕는 프레임워크 NVIDIA Merlin을 설계하도록 도운 베네딕트 쉬퍼러(Benedikt Schifferer)는 “정말 아슬아슬했습니다”라고 말했습니다.
GPU가 여러 개였다면 금방 추론 작업을 완료할 수도 있었습니다. 브라질 출신의 캐글(Kaggle) 그랜드마스터인 질베르토 티테리츠(Gilberto “Giba” Titericz)는 1개의 CPU 코어에 작업을 적응시키는 것은 “먼 과거로 회귀한 것만 같았습니다”라고 표현했습니다.
실제로 경쟁이 끝나면, 팀은 CPU 코어에서 거의 24시간이 걸리는 추론 작업을 단일의 NVIDIA A100 Tensor Core GPU에서 5분 30초 만에 실행할 수 있음을 입증했습니다.
하루에 4천만 개의 항목 정렬
트위터는 이 대회에서 참가자들에게 28일간 매일 수백만 개의 데이터 포인트를 제공하면서, 사용자들이 마음에 들어 할 트윗이나 리트윗할 트윗을 예측하도록 요청했습니다. 이는 RecSys 분야의 선도적인 기술 컨퍼런스에서 개최한 아주 고난이도의 도전으로, 페이스북(Facebook), 구글(Google), 스포티파이(Spotify) 및 다른 주요 기업의 최고 엔지니어들 중에서 누구인지를 보여주는 작업이었습니다.
이 종목은 유용한 만큼 어려운데요. 추천 시스템은 디지털 경제에 연료를 공급하여 기존 방식의 검색보다 더 빠르고 스마트하게 제안해줍니다.
업계의 과제는 배우자에게 줄 완벽한 선물을 구하거나 온라인에서 옛 친구를 찾으려 노력하는 것과 같이 모두를 위한 분야를 발전시키는 데 도움을 줍니다.
5개월 동안 3번의 우승
올해 초 NVIDIA 팀은 40명을 이끌고 Booking.com Challenge에 도전했습니다. 수백만 개의 익명화된 데이터 포인트를 사용하여 유럽의 휴가객이 선택할 최종 도시를 정확하게 예측했죠.
6월에는 또 다른 추천 시스템(recsys) 대회인 SIGIR eCommerce Data Challenge에서 더욱 높은 장벽을 세웠습니다.
SIGIR(Special Interest Group on Information Retrieval)의 연례 회의는 Alibaba부터 Walmart Labs까지 전문가들을 끌어들였습니다. 2021년 챌린지는 온라인 쇼핑 세션에서 3,700만 개의 데이터 포인트를 제공하고 참가자들에게 사용자가 구매할 제품을 예측하도록 시켰습니다.
이 챌린지는 ACM 대회와 겹친 관계로 NVIDIA 팀은 두 그룹으로 나누어 대회 투입 인력을 조율했습니다. 압박감이 쌓이는 동안에도 일부 팀원들은 ACM RecSys 컨퍼런스용 문서를 작성하는 데 집중했습니다.
빠른 휴식의 묘미
브라질, 캐나다, 프랑스, 미국에서 온 5명으로 구성된 NVIDIA 팀은 전체 최고 성적을 거두며 모든 순위표에서 1~2위를 차지했습니다. 이 팀은 자연어 처리를 위해 개발된 트랜스포머 모델에 전념했고, 추천 시스템에 적응하면서 바통 터치의 기술을 깨달았습니다.
Merlin 그룹 리더인 이븐 올드리지(Even Oldridge)는 “한 팀원이 자러 가면 다른 시간대의 팀원이 작업을 이어받습니다”라고 말했습니다.
“딱딱 맞아떨어지면 그 효과를 확인할 수 있습니다. 저희가 지난 1년간 이룬 성과는 놀라울 따름입니다. 내부 지식을 축적하고 5개월 동안 3개의 주요 대회를 휩쓸며 우승할 정도로, 추천 시스템 커뮤니티 내 입지를 구축했습니다”
사용자 개인 정보 보호
이 대회에서 모델들은 현재 브라우징 중인 세션 이외에는 사용자에 대한 배경 지식이 전무한 상태로 예측을 해야 합니다.
NVIDIA SIGIR 팀을 이끈 상파울루의 수석 Merlin 연구원인 가브리엘 모레이라(Gabriel Moreira)는 “이것이 중요한 이유는 사용자들은 때때로 익명으로 탐색하기를 원하고, 개인 정보 보호법 때문에 예전 정보에 대한 접근이 제한됐기 때문입니다”라고 말했습니다.
모레이라의 팀이 챌린지의 핵심 부분에 트랜스포머 모델만을 사용한 것은 이 대회가 처음인데요. 모든 Merlin 고객이 대규모 신경망을 더 쉽게 사용할 수 있도록 하는 것이 팀의 목표입니다.
해트트릭을 넘어 4연승으로
지난 6월 30일, NVIDIA는 RecSys에서 4연승을 거두었습니다. 하키 선수들은 4골 넣는 것을 하울이라고 부릅니다. 업계 벤치마킹 그룹인 MLPerf는 NVIDIA와 파트너가 추천 시스템을 포함하여 모든 최신 트레이닝 벤치마크에서 기록을 세웠다고 발표한 바 있습니다.
이 기록의 주인공들은 14개의 NVIDIA DGX 시스템에서 추천 시스템을 1분도 안 걸려 트레이닝을했다고 설명했는데요. 이는 작년에 제출한 작업물보다 3.3배 빨라진 속도입니다.
배운 교훈 공유하기
이 대회들은 새로운 기술 아이디어를 샘솟게 하며 NVIDIA Deep Learning Institute가 주관하는 Merlin 및 관련 도구, 문서, 온라인 수업과 같은 추천 시스템 프레임워크 속으로 통합됩니다. 궁극적인 목표: 모두가 성공할 수 있도록 돕겠습니다.
NVIDIA 추천 시스템 전문가들과의 인터뷰에서 기술, 과학에 대한 자신만의 노하우를 자유롭게 공개했습니다.
추천 시스템에 대한 전문가의 팁
한 가지 팁을 말하자면 바로 하모니를 이루며 함께 작동하는 다양한 모델을 사용하는 것입니다.
ACM RecSys 챌린지에서 팀은 트리와 신경망 모델을 모두 사용했습니다. 스택킹이라는 과정 속에서 한 단계에서의 출력은 다음 단계의 입력이 됩니다.
NVIDIA 캐글(Kaggle) 그랜드마스터 팀원인 보 리우(Bo Liu)는 “단일 모델은 데이터 오류나 수렴 문제로 인해 실수할 수 있지만, 여러 모델의 앙상블을 사용하면 매우 강력해집니다”라고 말했습니다.
온라인으로 추천 시스템 전문가 만나기
7월 29일에 NVIDIA, 페이스북(Facebook), 텐서플로우(TensorFlow)의 추천 시스템(RecSys) 전문가를 만나 뛰어난 추천 시스템을 만드는 방법을 자세히 알아보세요.