‘NIM과 Gemma의 만남’ 거대 언어 모델 혁신 나서는 NVIDIA와 구글 딥마인드

텍스트, 이미지, 사운드와 같은 여러 유형의 데이터를 처리하는 모델이 점점 더 보편화되면서, 생성형 AI를 구동하는 거대 언어 모델(large language model, LLM)에 대한 혁신이 가속화되고 있습니다.

그러나 이러한 모델을 구축하고 배포하는 것은 여전히 어려운 과제이죠. 개발자는 모델을 빠르게 경험하고 평가해 사용 사례에 가장 적합한 모델을 결정한 다음, 비용 효율적일 뿐만 아니라 최상의 성능을 제공하는 방식으로 모델을 최적화할 수 있는 방법이 필요합니다.

개발자들이 세계적 수준의 성능을 갖춘 AI 기반 애플리케이션을 더 쉽게 만들 수 있도록 NVIDIA와 구글(Google)은 ‘구글 I/O 2024’에서 세 가지의 새로운 협업 내용을 발표했습니다.

젬마(Gemma) + NIM

NVIDIA는 이번 행사에서 구글이 선보인 두 가지 새로운 모델인 젬마 2(Gemma 2)와 팔리젬마(PaliGemma)를 최적화하기 위해 TensorRT-LLM을 사용하고 있습니다. 이 두 모델들은 모두 제미나이(Gemini)를 만드는 데 사용된 동일한 연구와 기술을 기반으로 구축됐으며, 각각 특정 영역에 중점을 두고 있습니다.

젬마 2는 광범위한 사용 사례를 위한 차세대 젬마 모델로, 획기적인 성능과 효율성을 위해 설계된 완전히 새로운 아키텍처가 특징입니다.
팔리젬마는 PaLI-3에서 영감을 받은 개방형 시각 언어 모델(vision language model, VLM)입니다. 이는 SigLIP 시각 모델과 젬마 언어 모델을 포함한 개방형 구성 요소를 기반으로 구축됐으며, 이미지, 짧은 비디오 캡션, 시각적 이미지 질의응답, 이미지 내 텍스트 이해, 객체 감지나 분할과 같은 시각 언어 작업을 위해 설계됐죠. 팔리젬마는 광범위한 시각 언어 작업에서 최고 수준의 미세 조정 성능을 탑재했고, NVIDIA JAX- Toolbox에서도 지원됩니다.

젬마 2와 팔리젬마는 대규모 AI 모델 배포를 간소화하는 NVIDIA AI Enterprise 소프트웨어 플랫폼의 일부인 NVIDIA NIM 추론 마이크로서비스와 함께 제공될 예정입니다. 새로운 두 모델에 대한 NIM 지원은 팔리젬마를 시작으로 API 카탈로그에서 사용할 수 있으며, 곧 NVIDIA NGC와 깃허브(GitHub)에서 컨테이너로 출시될 예정입니다.

코랩에 가속화된 데이터 분석 기능 제공

구글은 데이터 사이언티스트에게 가장 인기 있는 개발자 플랫폼 중 하나인 구글 코랩(Colab)에서 오픈 소스 GPU 데이터 프레임 라이브러리인 RAPIDS cuDF가 기본으로 지원된다고 발표했습니다. 매월 천만 명에 달하는 구글 코랩의 월간 사용자들은 이제 코드 변경 없이 단 몇 초 만에 NVIDIA L4 Tensor 코어 GPU를 사용해 판다스(pandas) 기반 파이썬(Python) 워크플로우를 최대 50배까지 가속화할 수 있죠.

구글 코랩을 사용하는 개발자는 RAPIDS cuDF를 통해 탐색적 분석(exploratory analysis)과 생산 데이터 파이프라인의 속도를 높일 수 있습니다. 판다스는 직관적인 API로 인해 세계에서 가장 인기 있는 데이터 처리 도구 중 하나이지만, 데이터 규모가 커질수록 애플리케이션에 문제가 종종 생기는데요. 5~10GB 크기의 데이터라도 CPU에서 간단한 작업을 완료하는 데 몇 분이나 걸리기도 하기 때문에, 탐색적 분석과 생산 데이터 파이프라인의 속도가 느려질 수 있습니다.

이 경우 RAPIDS cuDF는 GPU에서 판다스 코드를 원활하게 가속하고, 그렇지 않은 경우 CPU-판다스(CPU-pandas)로 되돌아가 이 문제를 해결하도록 설계됐습니다. 코랩에서 기본적으로 사용할 수 있는 RAPIDS cuDF를 통해 모든 개발자는 어디서나 가속화된 데이터 분석을 활용할 수 있습니다.

본격적인 AI 활용의 시작

NVIDIA와 구글은 NVIDIA RTX 그래픽을 사용해 AI PC를 활용하는 파이어베이스 젠킷(Firebase Genkit)에 대한 협업도 발표했습니다. 이는 개발자가 새로운 젬마 모델 제품군을 비롯한 생성형 AI 모델을 웹과 모바일 애플리케이션에 쉽게 통합해 맞춤형 콘텐츠, 시맨틱 검색(semantic search), 문의에 대한 답변을 제공할 수 있도록 지원하죠. 개발자는 로컬 RTX GPU로 작업 줄기(work stream)를 시작한 다음, 작업을 구글 클라우드(Google Cloud) 인프라로 원활하게 이동할 수 있습니다.

개발자들은 모바일 개발자들이 주로 쓰는 프로그래밍 언어인 자바스크립트(JavaScript)를 사용하는 젠킷으로 앱을 더욱 쉽게 개발할 수 있습니다.

계속되는 혁신

NVIDIA와 구글 클라우드는 AI의 발전을 위해 다양한 분야에서 협력하고 있습니다. 곧 출시될 Grace Blackwell 기반 DGX Cloud 플랫폼과 JAX 프레임워크 지원부터 구글 쿠버네티스 엔진(Kubernetes Engine)에 NVIDIA NeMo 프레임워크 도입까지, 양사의 풀스택 파트너십은 사용자가 구글 클라우드에서 NVIDIA 기술을 사용해 AI로 수행할 수 있는 작업의 가능성을 확장하고 있습니다.