NVIDIA는 구글 딥마인드(Google DeepMind)의 디퓨전젬마(DiffusionGemma)가 NVIDIA GeForce RTX GPU, NVIDIA RTX PRO 플랫폼, NVIDIA DGX Spark 시스템 전반에서 더욱 빠르게 실행되도록 최적화했습니다. 이를 통해 로컬 PC부터 클라우드 환경까지 폭넓은 활용이 가능해졌는데요.
디퓨전젬마는 텍스트를 한 번에 한 단어씩 생성하는 대신 여러 단어를 병렬로 생성해 텍스트 블록 전체를 출력합니다. 이를 통해 개발자와 연구자, AI 애호가들이 일상적으로 사용하는 단일 사용자 워크로드에서 혁신적인 저지연 AI 경험을 제공하는 새로운 지평을 열었습니다.
디퓨전젬마의 주요 특징은 아래와 같습니다:
- 병렬 생성: 디퓨전젬마는 토큰을 한 번에 하나씩 예측하는 대신, 단계마다 최대 256개의 토큰에서 노이즈를 제거합니다.
- 젬마(Gemma) 4 기반으로 구축: 디퓨전젬마는 젬마 4를 기반으로 구축됐는데요. 이는 260억 개의 파라미터를 갖춘 전문가 혼합(MoE) 모델로 단계마다 38억 개의 파라미터를 활성화하며, 구글의 젬마 4 아키텍처에 디퓨전 헤드를 결합합니다.
- 최대 4배 향상된 성능: 단일 사용자 생성 환경에서 일반적으로 발생하는 지연 현상을 줄여 로컬 하드웨어에서도 빠른 텍스트 생성을 지원합니다.
- 오픈 로컬 실행: 디퓨전젬마는 아파치(Apache) 2.0 라이선스 기반의 오픈 웨이트 모델로 제공되며, RTX와 DGX Spark에서 완전히 로컬로 실행됩니다. 클라우드나 토큰당 비용이 필요 없으며, 허깅페이스 트랜스포머(Hugging Face Transformers), vLLM, 언슬로스(Unsloth)에서 기본 지원됩니다.
텍스트를 생성하는 새로운 방식
오늘날 널리 사용되는 대부분의 거대 언어 모델(LLM)은 자기회귀(autoregressive) 방식으로 작동합니다. 이는 새로운 단어가 이전 단어에 의존하는 형태로, 텍스트를 토큰 단위로 하나씩 순차적으로 생성하는 방식인데요. 이러한 순차적 생성 과정 때문에 대화형 AI는 마치 글자를 입력하는 것처럼 응답하죠.
디퓨전젬마는 이와 다른 방식을 채택했습니다. 디퓨전젬마는 젬마 4 26B 전문가 혼합 아키텍처를 기반으로 구축돼, 디퓨전 모델이 이미지를 생성하는 방식과 같이 텍스트를 생성합니다. 즉, 노이즈에서 시작해 텍스트 블록 전체를 한 번에 정제하는데요. 단일 토큰을 생성한 뒤 다음 토큰을 계산하기 위해 대기하는 대신, 각 단계에서 최대 256개의 토큰에서 병렬로 노이즈를 제거합니다.
그 결과, 디퓨전젬마는 텍스트를 순차적으로 생성하는 대신 블록 단위로 처리하는 모델이 됐습니다. 이러한 병렬 처리 방식은 지연 시간에 민감한 단일 사용자 작업에서 개발자의 사고와 반복 속도에 발맞춘 빠른 응답을 제공하죠. 대화형 채팅, 에이전틱 루프, 계획과 실행을 수행하는 온디바이스 어시스턴트와 같은 작업이 여기에 해당합니다.
NVIDIA GPU에서 더욱 강력해진 디퓨전젬마
토큰을 한 번에 하나씩 생성하는 방식은 본질적으로 메모리 병목형 문제인데요. 기존 LLM은 대부분의 시간을 연산 수행이 아닌 메모리 대역폭 대기에 사용하기 때문에 컴퓨팅 자원을 충분히 활용하지 못합니다.
디퓨전 방식은 이러한 구조를 뒤바꿉니다. 256개 토큰으로 구성된 전체 블록을 트랜스포머를 통해 병렬로 처리하는 워크로드는 컴퓨팅 성능에 의해 좌우되죠. 여기서 NVIDIA GPU가 두각을 드러냅니다. NVIDIA Tensor 코어는 대규모 병렬 연산을 가속하며, CUDA 소프트웨어 스택은 별도의 튜닝 없이도 출시 즉시 모델의 효율적 실행을 지원합니다. 이와 같이 디퓨전젬마는 GPU의 강점을 최대한 활용하도록 설계됐습니다.
이러한 장점은 실제 성능에서도 확인할 수 있습니다. 디퓨전젬마는 단일 NVIDIA H100 Tensor 코어 GPU에서 초당 1,000개 토큰, NVIDIA DGX Spark에서 초당 150개 토큰, NVIDIA DGX Station에서 최대 초당 2,000개 토큰의 성능을 제공합니다. 이는 동일한 단일 사용자 환경에서 실행되는 동급 자기회귀 모델 대비 약 4배 빠른 수준이죠.
이러한 성능의 이점이 NVIDIA의 제품군 전반에서 제공됩니다:
- NVIDIA DGX Spark 데스크사이드 개인용 AI 슈퍼컴퓨터에서 로컬 실행: 128GB 통합 메모리를 탑재한 NVIDIA GB10 Grace Blackwell 슈퍼칩을 기반으로 구동됩니다. 프로토타이핑, 파인튜닝, 완전한 로컬 에이전트 워크플로우를 위한 NVIDIA AI 소프트웨어 스택이 사전 설치돼 있죠.
- NVIDIA RTX PRO 6000 워크스테이션에서 실행: 개발자와 연구자, AI 전문가에게 전문 워크플로우의 일부로 로컬 저지연 생성과 에이전틱 루프를 실행할 수 있는 충분한 성능 여유를 제공합니다.
- DGX Station에서 실행: 748GB의 통합(coherent) 메모리를 기반으로, 저지연 텍스트 생성과 에이전틱 루프를 위해 초당 최대 2,000개 토큰의 업계 최고 수준의 로컬 고속 추론 성능을 제공합니다.
- GeForce RTX GPU에서 실행: 향후 라마.cpp(llama.cpp) 지원이 추가될 예정입니다.
로컬 환경에서 시작하기
허깅페이스 트랜스포머를 활용하면 모델을 가장 빠르게 테스트하고 프로토타이핑할 수 있습니다. 이는 GeForce RTX 5090 또는 DGX Spark에서 별도 설정 없이 디퓨전젬마 실행을 기본 지원합니다. 더 높은 처리량의 추론이 필요한 경우에는 vLLM을 활용하면 됩니다.
특정 작업이나 도메인에 맞게 모델을 적용하려는 경우, 언슬로스와 NVIDIA NeMo 프레임워크를 통해 파인튜닝을 수행할 수 있습니다. 또한 로컬 환경을 신속하게 실행할 수 있도록 사전 구성된 DGX Spark 플레이북도 제공되는데요. DGX Spark, RTX PRO, DGX Station용 vLLM 플레이북도 확인해 보세요.
허깅페이스에서 디퓨전젬마를 직접 사용해 보거나, build.nvidia.com에서 NVIDIA가 호스팅하는 애플리케이션 프로그래밍 인터페이스를 통해 무료로 테스트해 보세요.
NVIDIA 테크니컬 블로그와 구글 딥마인드 발표를 확인하고, 아키텍처와 로컬 배포에 대해 더 자세히 알아보세요.
#ICYMI: RTX AI Garage 최신 소식
🎬 NVIDIA 연구진이 SANA-WM을 공개했습니다. 이는 단일 이미지와 카메라 경로만으로 정밀한 6-DoF 제어가 가능한 720p 해상도의 1분 길이 비디오를 생성하는 오픈소스 월드 모델인데요. 26억 개 파라미터 규모의 증류 버전은 NVFP4 포맷을 활용해 단일 GeForce RTX 5090 GPU에서 34초 만에 60초 분량의 비디오를 생성할 수 있습니다. 단일 GPU에서 실행되면서도 유사한 오픈 모델 대비 최대 36배 높은 처리량을 제공하죠. 논문에서 확인해 보세요.
🛠️ 윈도우(Windows) 에이전트 구축 환경이 한층 강화됐습니다. NVIDIA와 마이크로소프트(Microsoft)는 기본 윈도우 환경에서 활용 가능한 턴키 에이전트 샌드박싱 기능을 공개했습니다. 이는 마이크로소프트 실행 컨테이너(eXecution Containers)와 NVIDIA OpenShell 런타임을 제공하는 동시에, 에이전틱 추론 속도를 최대 2배 향상시키고 헤르메스 에이전트(Hermes Agent)의 기본 윈도우 지원을 추가했습니다.
🤖 DGX Spark는 개봉 후 몇 분 만에 에이전트를 실행할 수 있는 환경을 제공합니다. 간소화된 NVIDIA NemoClaw 설치 과정을 통해 개발자는 로컬 에이전트를 빠르게 활용할 수 있으며, 큐원(Qwen)3.6-35B는 vLLM에서 최대 2.6배 빠르게 실행됩니다. 또한 NVIDIA Sync의 새로운 클러스터 어시스턴트는 최대 4대의 DGX Spark를 하나의 512GB 풀로 연결해 약 4,000억 개 파라미터 규모의 모델을 실행할 수 있습니다.
페이스북(Facebook), 인스타그램(Instagram), 틱톡(TikTok), X에서 RTX Spark를 팔로우하고, RTX Spark 뉴스레터를 구독해 최신 소식을 받아보세요.
소프트웨어 제품 정보에 관한 공지를 살펴보세요.
