허깅페이스에서 만나는 새로운 NVIDIA NIM 기반 추론 서비스

4백만 명의 개발자로 구성된 세계 최대 AI 커뮤니티 중 하나인 허깅페이스 플랫폼에서 가장 인기 있는 일부 AI 모델을 통해 NVIDIA 가속 추론에 쉽게 액세스할 수 있게 됐습니다.

새로운 추론 서비스 기능으로 개발자들은 NVIDIA DGX 클라우드에서 실행되는 NVIDIA NIM 마이크로서비스 최적화를 통해 라마 3(Llama 3) 제품군과 미스트랄 AI(Mistral AI) 모델과 같은 주요 거대 언어 모델(large language model, LLM)을 빠르게 배포할 수 있죠.

이번 시그라프(SIGGRAPH) 콘퍼런스에서 발표된 이 서비스는 개발자가 허깅페이스 허브에서 호스팅되는 오픈 소스 AI 모델을 사용해 신속하게 프로토타입을 제작하고 프로덕션에 배포할 수 있도록 지원합니다. 엔터프라이즈 허브(Enterprise Hub) 사용자는 서버리스 추론을 활용해 유연성을 높이고, 인프라 과부화를 최소화하며, NVIDIA NIM을 통해 성능을 최적화할 수 있습니다.

이 추론 서비스는 허깅페이스에서 이미 사용 가능한 AI 훈련 서비스인 트레인 온 DGX 클라우드 (Train on DGX Cloud)를 보강하죠.

점점 더 많은 오픈 소스 모델에 대응해야 하는 개발자들은 선택지를 쉽게 비교할 수 있는 허브의 혜택을 누릴 수 있습니다. 이러한 훈련과 추론 도구는 허깅페이스 개발자들에게 NVIDIA 가속 인프라에서 최첨단 모델을 실험, 테스트, 배포할 수 있는 새로운 방법을 제공하는데요. 이러한 도구는 허깅페이스 모델 카드의 ‘훈련’과 ‘배포’ 드롭다운 메뉴를 사용해 몇 번의 클릭만으로 쉽게 이용할 수 있습니다.

NVIDIA NIM 기반 추론 서비스에 대해 자세히 알아보세요.

형식적인 것 이상의 혜택을 제공하는 NVIDIA NIM

NVIDIA NIM은 업계 표준 API를 사용하는 추론에 최적화된 AI 마이크로서비스 모음으로, NVIDIA AI 파운데이션 모델과 오픈 소스 커뮤니티 모델도 만날 수 있죠.

NIM은 언어 모델에서 사용하고 생성하는 데이터의 단위인 토큰을 처리하는 데 있어 사용자에게 더 높은 효율성을 제공합니다. 또한 최적화된 마이크로서비스는 기본 NVIDIA DGX 클라우드 인프라의 효율성을 개선해 중요한 AI 애플리케이션의 속도를 높일 수 있습니다.

즉, 개발자는 다른 버전의 모델에 비해 NIM으로 액세스하는 AI 모델에서 더 빠르고 강력한 결과를 확인할 수 있습니다. 예를 들어, 700억 개의 파라미터를 가진 라마 3 버전을 NIM으로 액세스하면, NVIDIA H100 Tensor 코어 GPU 기반 시스템에서 기성품으로 배포할 때보다 최대 5배 더 높은 처리량을 구현합니다.

DGX 클라우드에 대한 신속한 액세스로 접근성 높은 AI 가속화 제공

생성형 AI를 위해 특별히 설계된 NVIDIA DGX 클라우드 플랫폼은 개발자가 안정적인 가속 컴퓨팅 인프라에 쉽게 액세스할 수 있도록 돕습니다. 이를 통해 프로덕션 지원 애플리케이션을 더 빠르게 시장에 출시할 수 있죠.

이 플랫폼은 개발자가 장기적인 AI 인프라에 투자할 필요 없이 프로토타입에서 프로덕션에 이르는 모든 AI 개발 단계를 지원하는 확장 가능한 GPU 리소스를 제공합니다.

NIM 마이크로서비스로 구동되는 NVIDIA DGX 클라우드의 허깅페이스 추론 서비스는 AI 배포에 최적화된 컴퓨팅 리소스에 쉽게 액세스할 수 있습니다. 사용자가 엔터프라이즈급 환경에서 최신 AI 모델을 실험할 수 있도록 지원하죠.

시그라프에서 NVIDIA NIM에 대해 자세히 알아보기

NVIDIA는 이번 시그라프에서 오픈USD(Universal Scene Description, OpenUSD) 프레임워크용 생성형 AI 모델과 NIM 마이크로서비스를 소개했습니다. 개발자들은 차세대 AI 발전을 위해 매우 정확한 가상 세계를 구축할 수 있는 능력을 가속할 수 있습니다.

ai.nvidia.com에서 다양한 산업 분야의 애플리케이션과 함께 100개 이상의 NVIDIA NIM 마이크로서비스를 경험해보세요.