대규모 언어 모델과 생성형 AI를 위한 ‘새로운 NVIDIA 플랫폼’ 대공개!

NVIDIA는 빠르게 부상하고 있는 다양한 생성형 AI 애플리케이션에 최적화된 추론 플랫폼 4종을 출시했습니다! 이번에 발표된 추론 플랫폼들은 개발자가 새로운 서비스와 통찰력을 제공할 수 있는 전문화된 AI 기반 애플리케이션을 신속하게 구축할 수 있도록 지원합니다.

이 플랫폼은 NVIDIA의 추론 소프트웨어 전체 스택과 NVIDIA L4 Tensor Core GPU, NVIDIA H100 NVL GPU를 포함한 최신 NVIDIA Ada, NVIDIA Hopper, NVIDIA Grace Hopper 프로세서를 결합합니다. 각 플랫폼은 AI 비디오, 이미지 생성, 대규모 언어 모델(LLM) 배포, 추천자 추론 등을 포함한 주문형 워크로드에 최적화되어 있습니다.

NVIDIA 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “생성형 AI의 부상으로 더욱 강력한 추론 컴퓨팅 플랫폼이 필요합니다. 생성형 AI의 응용 분야는 무한하며, 인간의 상상력에 의해서만 제한됩니다. 개발자들이 가장 강력하고 유연한 추론 컴퓨팅 플랫폼으로 무장하면 아직 상상할 수 없는 방식으로 우리의 삶을 개선할 새로운 서비스 개발이 가속화될 것입니다”라고 말했습니다.

생성형 AI의 다양한 추론 워크로드 가속화

각 플랫폼에는 특정 생성형 AI 추론 워크로드에 최적화된 NVIDIA GPU와 전문 소프트웨어가 포함되어 있습니다.

AI 비디오용 NVIDIA L4는 CPU보다 120배 더 뛰어난 AI 기반 비디오 성능과 99% 향상된 에너지 효율성을 제공합니다. 이는 거의 모든 워크로드를 위한 범용 GPU 역할을 하고, 향상된 비디오 디코딩 및 트랜스코딩 기능, 비디오 스트리밍, 증강 현실(AR), 생성형 AI 비디오 등을 제공합니다.
이미지 생성용 NVIDIA L40은 그래픽 및 AI 지원 2D, 비디오 및 3D 이미지 생성에 최적화되어 있습니다. L40 플랫폼은 데이터센터에서 메타버스 애플리케이션을 구축하고 운영하기 위한 플랫폼인 NVIDIA Omniverse의 엔진 역할을 하며, 이전 세대에 비해 7배의 스테이블 디퓨전(Stable Diffusion)을 위한 추론 성능과 12배의 Omniverse 성능을 제공합니다.
LLM 배포를 위한 NVIDIA H100 NVL은 챗GPT와 같은 거대한 양의 LLM을 대규모로 배포하는 데 이상적입니다. 94GB 메모리에 트랜스포머 엔진(Transformer Engine) 가속 기능이 탑재된 새로운 H100 NVL은 데이터센터 규모에서 이전 세대 A100에 비해 GPT-3에서 최대 12배 빠른 추론 성능을 제공합니다.
추천 모델용 NVIDIA Grace Hopper는 그래프 추천 모델, 벡터 데이터베이스, 그래프 뉴럴 네트워크에 이상적입니다. Grace Hopper는 CPU와 GPU 간의 900GB/s NVLink-C2C 연결을 통해 PCIe Gen 5에 비해 7배 빠른 데이터 전송과 쿼리를 제공할 수 있습니다.

플랫폼의 소프트웨어 계층에는 NVIDIA TensorRT와 NVIDIA Triton Inference Server가 포함된 NVIDIA AI Enterprise 소프트웨어 제품군이 있습니다. NVIDIA TensorRT는 고성능 딥 러닝 추론을 위한 소프트웨어 개발 키트이며, NVIDIA Triton Inference Server는 모델 배포를 표준화를 지원하는 오픈 소스 추론 제공 소프트웨어입니다.

조기 도입 및 지원하고 있는 기업들

구글 클라우드는 NVIDIA의 주요 클라우드 파트너이자 추론 플랫폼의 초기 고객입니다. 구글 클라우드는 머신 러닝 플랫폼인 버텍스(Vertex) AI에 L4 플랫폼을 통합하고 있으며, L4 인스턴스를 제공하는 최초의 클라우드 서비스 제공업체로서 G2 가상 머신의 비공개 프리뷰를 출시합니다.

생성형 AI를 사용해 크리에이터의 동영상 및 팟캐스트 제작을 지원하는 디스크립트(Descript)와 AI 기반 텍스트 디지털 아트 앱인 드림(Dream)을 제공하는 WOMBO는 구글 클라우드에서 L4를 조기에 이용할 수 있는 최초의 두 조직이다.

또 다른 얼리 어답터인 콰이서우(Kuaishou)는 GPU를 활용하여 수신되는 라이브 스트리밍 비디오를 디코딩하고 주요 프레임을 캡처하며, 오디오와 비디오를 최적화하는 콘텐츠 커뮤니티, 소셜 플랫폼을 제공합니다. 그런 다음 트랜스포머 기반의 대규모 모델을 사용하여 멀티모달 콘텐츠를 이해하고 전 세계 수억 명의 사용자의 클릭률을 개선하죠. 콰이서우 수석 부사장 유에 유(Yue Yu)는 “콰이서우 추천 시스템은 3억 6천만 명 이상의 사용자가 매일 수천만 개의 UGC 동영상을 공유하는 커뮤니티에 서비스를 제공하고 있습니다. 동일한 총 소유 비용으로 CPU를 사용할 때와 비교했을 때, NVIDIA GPU는 시스템 엔드 투 엔드 처리량을 11배 증가시키고 지연 시간을 20% 줄였습니다”라고 말했습니다.

선도적인 생성형 AI 기술 플랫폼인 D-ID는 NVIDIA L40 GPU를 사용하여 텍스트로부터 사실적인 디지털 휴먼을 생성합니다. 이를 통해 모든 콘텐츠에 얼굴을 부여하는 동시에 대규모 비디오 제작의 비용과 번거로움을 줄여 전문가용 비디오 콘텐츠의 수준을 높였죠. D-ID의 R&D 담당 부사장 오르 고로디스키(Or Gorodissky)는 “L40의 성능은 정말 놀라웠습니다. 이 GPU로 추론 속도를 두 배 높일 수 있었습니다. D-ID는 이 새로운 하드웨어를 사용하여 전례 없는 성능과 해상도로 AI 휴먼의 실시간 스트리밍을 지원하는 동시에 컴퓨팅 비용을 절감할 수 있게 되어 기쁩니다”고 말했습니다.

선도적인 AI 프로덕션 스튜디오인 세이한 리(Seyhan Lee)는 생성형 AI를 사용하여 영화, 방송, 엔터테인먼트 산업을 위한 몰입형 경험과 매력적인 크리에이티브 콘텐츠를 개발합니다. 세이한 리의 공동 창업자 피나르 데미르닥(Pinar Demirdag)는 “L40 GPU는 우리의 생성형 AI 애플리케이션에 놀라운 성능 향상을 제공합니다. L40의 추론 기능과 메모리 크기를 통해 최첨단 모델을 배포하고 고객에게 놀라운 속도와 정확성으로 혁신적인 서비스를 제공할 수 있습니다”고 말했습니다.

언어 AI 분야의 선도적인 선구자인 코히어(Cohere)는 개발자가 데이터를 비공개로 안전하게 보호하면서 자연어 모델을 구축할 수 있도록 지원하는 플랫폼을 운영합니다. 코히어 CEO 에이단 고메즈(Aidan Gomez)는 “NVIDIA의 새로운 고성능 H100 추론 플랫폼은 대화형 AI, 다국어 엔터프라이즈 검색 및 정보 추출과 같은 다양한 자연어 처리(NLP) 애플리케이션을 지원하는 최첨단 생성 모델을 통해 고객에게 보다 효율적이고 우수한 서비스를 제공할 수 있게 합니다”라고 말했습니다.

출시 정보

NVIDIA L4 GPU는 구글 클라우드 플랫폼에서 비공개 프리뷰로 제공되며, 다음의 기업을 포함해 30개 이상의 컴퓨터 제조업체로 구성된 글로벌 네트워크를 통해서도 구매할 수 있습니다.

어드밴텍(Advantech), ASUS(에이수스), 아토스(ATOS), 시스코(Cisco), 델 테크놀로지스(Dell Technologies), 후지쯔(Fujitsu), 기가바이트(GIGABYTE), 휴렛 팩커드 엔터프라이즈(HPE), 레노버(Lenovo), QCT, 슈퍼마이크(Supermicro) 등

현재 에이수스, 델 테크놀로지스, 기가바이트, 레노버, 슈퍼마이크로 등 주요 시스템 제조업체에서 NVIDIA L40 GPU를 구매할 수 있으며, 파트너 플랫폼은 올해 계속해서 확장될 예정입니다.

Grace Hopper 슈퍼칩은 현재 샘플링 중이며, 올 하반기에 본격 생산될 예정입니다. H100 NVL GPU도 올 하반기 출시 예정입니다.

이제 주요 클라우드 마켓플레이스와 수십 개의 시스템 제공업체 및 파트너에서 NVIDIA AI Enterprise를 사용할 수 있습니다. NVIDIA AI Enterprise를 통해 고객은 엔터프라이즈 지원, 정기적인 보안 검토, NVIDIA Triton Inference Server, TensorRT, 50개 이상의 사전 훈련된 모델과 프레임워크에 대한 API 안정성을 받을 수 있습니다.

생성형 AI를 위한 NVIDIA 추론 플랫폼을 사용해 볼 수 있는 핸즈온 랩은 NVIDIA LaunchPad에서 무료로 즉시 이용할 수 있습니다. 샘플 랩에는 지원 챗봇 훈련과 배포, 엔드 투 엔드 AI 워크로드 배포, H100에서 언어 모델 튜닝 및 배포, NVIDIA Triton을 사용한 사기 탐지 모델 배포 등이 포함돼 있습니다.