‘AI 에스페란토’ 대규모 언어 모델의 지평을 넓히는 NVIDIA Triton

여러 시장에 자연어 처리 서비스를 제공하는 기업들이 AI 추론용 Triton으로 눈을 돌리고 있습니다
by NVIDIA Korea

줄리안 살리나스(Julien Salinas)에게는 여러 직업이 있습니다. 그는 기업가이자 소프트웨어 개발자이고, 최근까지는 프랑스 남동부의 기술 중심지인 그르노블(Grenoble)에서 차로 한 시간 떨어진 산골 마을에서 소방대원으로 자원봉사를 했죠.

세워진 지 2년차로 이미 수익성이 좋은 스타트업 NLP 클라우드(NLP Cloud)를 키워 나가면서 약 12명의 직원을 둔 살리나스는 전 세계 고객에게 서비스를 제공합니다. 이 스타트업은 NVIDIA 소프트웨어를 사용해 오늘날 가장 복잡하고 강력한 AI 모델을 배포하고 있는 세계 여러 기업 중 하나에 속합니다.

NLP 클라우드는 텍스트 데이터를 위한 AI 기반 소프트웨어 서비스입니다. 한 유럽의 주요 항공사는 이를 사용해 직원들에게 요약된 인터넷 뉴스를 제공하죠. 어느 소규모 의료 업체에서는 이를 이용해 약처방을 다시 제공받고 싶어하는 환자들의 요청을 분석합니다. 한 온라인 앱은 아이들이 자신이 좋아하는 만화 캐릭터와 대화할 수 있도록 하기 위해 이를 사용하죠.

많은 작업을 처리하는 대규모 언어 모델(LLM)

그 모든 것은 자연어 처리(NLP)가 만드는 놀라운 일들에 불과한데요. 자연어 처리는 대규모 언어 모델이라는 지구상에서 가장 큰 신경망을 확산시키고 있는 인기 있는 인공지능(AI)의 한 형태입니다. 강력한 시스템에서 엄청난 데이터 세트로 훈련된 대규모 언어모델(LLM)은 텍스트를 인식하거나 생성하는 등의 온갖 작업을 엄청난 정확도로 처리하죠.

NLP 클라우드는 현재 약 25개의 대규모 언어모델(LLM)을 사용하고 있는데, 가장 큰 대규모 언어모델은 모델의 정교함을 측정하는 핵심 척도인 200억개의 매개 변수를 가지고 있죠. 그리고 지금은 1760억개의 엄청난 매개변수를 지닌 대규모 언어모델인 블룸(BLOOM)을 사용하기 시작했습니다.

생산 작업에서 여러 클라우드 서비스에 걸쳐 이런 대규모 모델들을 효율적으로 실행하는 건 까다로운 일입니다. 바로 그래서 살리나스가 NVIDIA Triton Inference Server로 눈을 돌리는 것이죠.

고도의 처리량, 짧아진 지연 시간

살리나스는 “우리에게 아주 빠르게 다가왔던 큰 문제는 서버 비용이었다”며 자체적으로 자금을 조달해서 세운 이 스타트업이 지금까지 외부 지원을 받지 않았음을 자랑스러워 했습니다.

살리나스는 “Triton으로 우리는 여러 GPU를 우리 상황에 맞게 충분히 활용할 수 있었다는 걸 확인할 수 있었다”고 말했습니다.

예를 들어 NVIDIA A100 Tensor Core GPU는 여러 GPU에서의 모델 분할 작업과 같은 복잡한 작업을 자동화하는 Triton의 일부인 Faster Transformer 덕분에, 많게는 한번에 10개의 요청을 처리할 수 있습니다. 이것은 다른 소프트웨어에 대비해 처리량이 두 배 높은 것이죠.

또한 FasterTransformer는 NLP 클라우드가 작업 응답 시간을 단축하게 하는 것은 물론 여러 NVIDIA T4 GPU에 메모리가 더 필요한 작업을 분산시키게 도와줍니다.

최대한 빠른 응답 시간을 원하는 고객이라면 A100 GPU에서 Triton을 사용할 경우 50개의 토큰(단어나 구두점 같은 텍스트 요소)을 0.5초 만에 처리할 수 있습니다. 이는 Triton을 사용하지 않은 경우보다 응답 시간을 약 3분의 1로 줄여주는 것입니다.

수십 개의 소프트웨어 툴을 리뷰하면서 살리나스는 개인 블로그에 “아주 대단하다”고 남겼습니다.

Triton 사용자 살펴보기

전세계적으로 스타트업과 기존의 대기업들은 대규모 언어 모델(LLM)을 최대한 활용하기 위해 Triton을 사용하고 있습니다.

마이크로소프트(Microsoft)의 번역 서비스는 아이티에 발생했던 7.0 강도의 지진에 대응할 때 아이티 크레올어(Creole)를 이해할 수 있도록 재난 구조원들을 지원했습니다. 번역 서비스는 Triton을 사용해 최대 50억 개의 매개 변수를 가진 모델에서 추론 작업 속도를 27배 높였죠. 이는 해당 서비스의 많은 사용 사례 중 하나일뿐입니다.

또 다른 사례로 자연어 처리(NLP) 제공업체 코헤어(Cohere)트랜스포머 모델을 정의하는 중요한 논문을 썼던 AI 연구진이 설립했습니다. 코헤어는 사용자 지정 대규모 언어모델(LLM)에서 Triton을 통해 추론 속도를 최대 4배까지 높였죠. 이로 인해 고객 지원 챗봇 사용자는 자신의 질문에 빠르게 응답 받을 수 있게 되는 등의 이점을 얻을 수 있습니다.

NLP 클라우드와 코헤어는 최첨단 스타트업을 육성하는 NVIDIA Inception 프로그램에 속한 여러 회원 중 하나입니다. 몇몇 다른 인셉션 스타트업들도 대규모 언어 모델(LLM)에서 AI 추론을 실행하기 위해 Triton을 사용하죠.

도쿄에 소재한 리나(rinna)는 일본에서 수백만 명이 사용하는 챗봇은 물론 개발자들이 맞춤형 챗봇과 AI 구동 캐릭터를 만들 수 있는 툴을 만들었는데요. Triton은 추론 지연 시간을 GPU에서 2초 미만으로 줄이는 데 도움을 주었죠.

이스라엘 텔아비브(Tel Aviv)에서 타브나인(Tabnine)은 전 세계적으로 백 만명 정도의 개발자가 작성한 코드를 최대 30%까지 자동화한 서비스를 운영하고 있습니다(아래 영상 참조). 이 서비스는 20개 이상의 프로그래밍 언어와 15개 이상의 코드 편집기를 처리하기 위해 A100 GPU에서 Triton으로 여러 대규모 언어 모델(LLM)을 실행합니다.

 

트위터는 미국 샌프란시스코에 소재한 라이터(Writer)의 대규모 언어 모델(LLM) 서비스를 사용합니다. 이는 트위터 직원들이 이 기업의 양식 가이드에 따르는 목소리로 글을 쓰게 보장해 주죠. 라이터의 서비스는 Triton을 사용함으로써 이전 소프트웨어에 비해 지연 시간을 3배 낮추고 처리량을 최대 4배 높였습니다.

또 다른 사례를 찾고 싶다면, 라이터에서 바로 얼마 떨어지지 않은 곳에 Inception의 회원인 엑스휴먼(Ex-human)이 있습니다. 엑스 휴먼은 사용자들이 게임, 챗봇, 가상 현실 애플리케이션을 위해 현실처럼 생생한 아바타를 만들 수 있게 돕고 있는데요. 이곳은 Triton을 사용해 GPU 메모리 소비를 3분의 1로 줄이고 60억 개의 매개 변수를 가진 대규모 언어 모델(LLM)의 응답 시간을 1초 미만으로 낮추었습니다.

이는 대규모 언어 모델이 AI의 지평을 넓히는 하나의 사례에 불과합니다.

Triton은 다용도로 쓰일 수도 있어서 널리 사용됩니다. 이 소프트웨어는 모든 종류의 추론 스타일이나 AI 프레임워크과 함께 작동이 가능하며 CPU은 물론 NVIDIA GPU와 기타 가속기에서도 실행됩니다.

풀스택 플랫폼

다시 NLP 클라우드로 돌아가보면, 이곳은 현재 NVIDIA AI 플랫폼의 다른 요소들을 활용하고 있습니다.

NLP 클라우드는 단일 GPU에서 실행되는 모델에 대한 추론용 소프트웨어로, NVIDIA TensorRT를 사용해 지연시간을 최소화하고 있죠. 살리나스는 “이를 통해 엄청나게 빠른 성능을 얻고 있으며 지연시간이 정말 줄었다”고 전했습니다.

또한 NLP 클라우드는 더 많은 언어를 지원하고 효율성을 높이기 위해 대규모 언어 모델(LLM)의 사용자 지정 버전을 교육하기 시작했습니다. 이를 위해 수조 개의 매개 변수를 가진 대규모 언어 모델(LLM)을 교육하고 배포하기 위한 엔드 투 엔드 프레임워크인 NVIDIA Nemo Megatron을 도입하고 있죠.

35세인 살리나스는 20대의 에너지를 가지고 자신의 사업을 코딩하고 성장시키는 중입니다. 그는 NLP 클라우드가 사용하는 4개의 퍼블릭 클라우드 서비스를 보완하기 위해 사설 인프라를 구축하는 것은 물론 의미 검색용 등의 애플리케이션을 다루기 위해 음성 및 텍스트를 이미지로 변환하는 기능을 처리하는 대규모 언어 모델(LLM)로 나아갈 계획입니다.

작년 깃허브(GitHub)에 거의 200번 가까이 코드를 올렸던 살리나스는 “전 항상 코딩을 좋아했지만, 훌륭한 개발자가 되는 것만으로는 충분하지 않습니다. 중요한 건 고객의 요구를 이해해야 한다는 점입니다”고 설명했습니다.

소프트웨어에 대한 관심이 크다면, 이 기술 블로그에서 Triton의 최신 정보를 확인해보세요.