스냅챗(Snapchat)과 같은 소셜 미디어 앱의 기능은 트렌드만큼 빠르게 변합니다. 이러한 흐름을 따라가기 위해, 스냅챗의 모회사인 스냅(Snap)은 구글 클라우드 기반의 NVIDIA 오픈 데이터 처리 라이브러리를 도입하며 개발 속도를 높이고 있습니다.
월간 활성 사용자 9억 4천만 명 이상을 보유한 스냅챗은 신규 기능을 정식 출시하기 전에 일련의 체계적인 실험 과정을 거치는데요. A/B 테스트 과정에서 개발팀은 일부 사용자를 대상으로 다양한 변수를 분석하며, 사용자 참여도, 앱 성능, 수익성 등 약 6,000개에 달하는 지표를 측정합니다.
스냅은 매달 수천 건의 실험을 진행하며, 10페타바이트(PB) 이상의 데이터를 아파치 스파크(Apache Spark) 분산 프레임워크를 통해 매일 아침 정해진 3시간 내에 처리하고 있습니다. 이들은 NVIDIA cuDF로 가속화된 아파치 스파크를 도입해, 기존과 동일한 규모의 장비로도 런타임 속도를 4배까지 높여 데이터 처리 워크로드를 강화했습니다. 이를 통해 서비스 확장에 필요한 비용 효율성까지 확보했죠.
스냅은 NVIDIA CUDA-X 라이브러리를 포함한 NVIDIA의 GPU 최적화 소프트웨어를 구글 쿠버네티스 엔진(Google Kubernetes Engine)과 같은 구글 인프라 관리 서비스와 결합해, 대규모 데이터 처리에 최적화된 풀스택 플랫폼을 구축하고 있습니다.
스냅 수석 엔지니어링 매니저인 Prudhvi Vatala는 “실험은 저희의 핵심입니다. 데이터 인프라를 CPU에서 GPU로 전환함으로써 시간이 지남에 따라 더 많은 기능, 지표, 사용자에 맞춰 실험 규모를 효율적으로 확장할 수 있는데요. 더 많은 실험을 수행할수록, 스냅챗 사용자에게 더욱 혁신적인 경험을 제공할 수 있습니다”라고 말했습니다.
지속 가능한 확장
스냅챗 사용자들은 수신 알림이나 AI 생성 스티커와 같은 새로운 기능을 자주 접하지만, 스냅은 성능 최적화와 최신 운영체제 호환성 업데이트 등 백엔드 개선을 지속적으로 진행하고 있습니다.
이 모든 신규 기능에 대한 A/B 테스트는 이제 cuDF 기반으로 실행됩니다. 개발자들은 별도의 코드 수정 없이도 기존의 아파치 스파크 애플리케이션을 NVIDIA GPU에서 즉시 실행함으로써 손쉬운 배포가 가능하죠. 데이터 가속 처리를 지원하는 이 오픈 라이브러리는 NVIDIA cuDF GPU 데이터프레임(cuDF GPU DataFrame) 라이브러리의 강력한 성능을 바탕으로, 아파치 스파크 분산 컴퓨팅 프레임워크에 최적화해 확장합니다.
스냅이 1월 1일부터 2월 28일까지 집계한 내부 자료에 따르면, 이번 인프라 전환을 통해 구글 쿠버네티스 엔진 환경에서 NVIDIA GPU를 활용한 결과, 기존 CPU 전용 워크플로우 대비 일일 비용을 76% 절감한 것으로 나타났습니다.
Vatala는 “기존의 인프라 환경에서 실험 규모를 확장하려 했다면, 야심 찬 로드맵을 실현하기도 전에 컴퓨팅 비용이 크게 증가했을 것입니다. cuDF 기반의 GPU 가속 파이프라인으로 전환해 급격한 비용 상승 곡선을 안정화할 수 있었는데요. 그 결과는 엄청났습니다”라고 말했습니다.
“실험은 스냅의 핵심입니다. 데이터 인프라를 CPU에서 GPU로 전환함으로써 이러한 실험을 효율적으로 확장할 수 있었습니다.”
워크로드 마이그레이션(migration)을 지원하기 위해, 개발팀은 스파크 워크로드를 대규모 GPU 가속 환경에 맞게 자동으로 검증, 테스트, 구성, 최적화하는 cuDF 마이크로서비스 제품군도 활용하고 있습니다.
또한 NVIDIA 전문가들과 협력해 NVIDIA L4 GPU가 탑재된 구글 클라우드의 G2 버추얼 머신(G2 virtual machine)에서 파이프라인을 최적화했죠. 그 결과, 스냅이 1월 1일부터 3월 13일까지 집계한 데이터를 살펴보면, 동시에 필요한 GPU 수는 초기 약 5,500개에서 약 2,100개로 줄었습니다.
스냅 A/B 테스트 팀 백엔드 엔지니어인 Joshua Sambasivam은 “초기 실험 결과는 정말 놀라웠습니다. 예상보다 훨씬 더 큰 비용 절감 효과를 확인했으며, 스파크 가속기는 저희의 워크로드에 완벽하게 부합합니다”라고 말했습니다.
앞으로 스냅은 스파크 가속기의 적용 범위를 A/B 테스트 팀을 넘어, 더 광범위한 프로덕션 워크로드로 확대될 계획입니다.
Vatala는 “스냅이 이렇게 큰 잠재력을 가진 자산을 보유하고 있다는 사실을 미처 깨닫지 못했습니다. 현재까지 규모가 가장 큰 두 개의 파이프라인을 마이그레이션했으며, 앞으로 더 많은 기회가 남아있습니다”라고 소감을 밝혔습니다.
Vatala의 NVIDIA GTC 세션은 3월 17일 오후 1시(현지시간)에 진행됐습니다. 더 자세한 내용을 확인해 보세요.
NVIDIA cuDF에 대해 읽어보고, 아파치 스파크용 GPU 가속 기술을 시작해 보세요.
상단의 대표 이미지는 스냅이 제공한 것으로, 맵스(Maps) 기능의 A/B 테스트를 시각화한 것입니다.
