NVIDIA는 PC에서 클라우드에 이르기까지 NVIDIA GPU에서 실행되는 거대 언어 모델(LLM) 추론을 최적화하는 오픈 소스 라이브러리인 NVIDIA Tensor RT-LLM을 통해 Microsoft의 새로운 오픈 언어 모델인 Phi-3 Mini를 가속합니다.
Phi-3 Mini는 연구 전용이었던 Phi-2를 발전시켜 10배 더 큰 모델 규모를 갖춤과 동시에 연구 뿐만 아니라 광범위한 상업적 사용 모두를 위해 라이선스가 부여되었습니다. NVIDIA RTX GPU가 탑재된 워크스테이션 또는 GeForce RTX GPU가 탑재된 PC는 Windows DirectML 또는 TensorRT-LLM을 사용하여 로컬에서도 모델을 실행할 수 있게 되었습니다.
이 모델에는 38억 개의 파라미터가 있으며 512개의 NVIDIA H100 Tensor 코어 GPU에서 단 7일 만에 3조 3천억 개의 토큰으로 훈련됐습니다.
Phi-3 Mini는 4K 토큰을 지원하는 모델과 동급 최초로 매우 긴 문맥을 위한 128K 토큰을 지원하는 모델 등 두 가지 변형이 있습니다. 이를 통해 개발자는 모델에 질문을 할 때 모델이 처리하는 언어의 원자적인 부분인 128,000개의 토큰을 사용할 수 있으므로 모델로부터 보다 관련성 높은 응답을 얻을 수 있습니다.
개발자는 ai.nvidia.com에서 128K 컨텍스트 창이 있는 Phi-3 Mini를 어디에서나 배포할 수 있는 표준 애플리케이션 프로그래밍 인터페이스가 있는 마이크로서비스인 NVIDIA NIM으로 패키징되어 있는 Phi-3 Mini를 사용해 볼 수 있습니다.
엣지 디바이스를 위한 높은 전력 효율성
자율 로봇이나 임베디드 디바이스를 개발하는 개발자는 Jetson AI Lab과 같은 커뮤니티 기반 튜토리얼을 통해 생성형 AI를 생성 및 배포하는 방법을 학습하고 NVIDIA Jetson에서 Phi-3를 배포할 수 있습니다.
38억 개의 매개변수만 있는 Phi-3 Mini 모델은 엣지 디바이스에서도 효율적으로 실행할 수 있을 만큼 콤팩트합니다. 파라미터는 모델 트레이닝 과정에서 정밀하게 조정된 메모리 내 노브(Knobs)와 같은 것으로, 모델이 입력 프롬프트에 높은 정확도로 응답할 수 있도록 만들고 있습니다.
Phi-3는 비용 및 리소스 제약이 있는 활용 사례, 특히 간단한 작업에서 유용하게 사용할 수 있는데요, 이 모델은 주요 언어 모델 벤치마크에서 일부 대규모 모델보다 성능이 뛰어나면서도 지연 시간 데이터에서 요구 사항 이내의 결과를 제공할 수 있습니다.
TensorRT-LLM은 Phi-3 Mini의 긴 문맥 창을 지원하며, 추론 처리량과 지연 시간을 개선하는 LongRoPE, FP8 및 기내 배치와 같은 많은 최적화 및 커널을 사용합니다. TensorRT-LLM 구현은 곧 GitHub의 예제 폴더에서 사용할 수 있습니다. 개발자는 이 폴더에서 추론에 최적화된 TensorRT-LLM 체크포인트 형식으로 변환할 수 있으며, NVIDIA Triton 추론 서버와 함께 쉽게 배포할 수 있습니다.
오픈 시스템 개발
NVIDIA는 오픈 소스 생태계에 적극적으로 기여하고 있으며 오픈 소스 라이선스 하에 500개 이상의 프로젝트를 출시했습니다.
JAX, Kubernetes, OpenUSD, PyTorch 및 Linux 커널과 같은 많은 외부 프로젝트에 기여하고 있는 NVIDIA는 다양한 오픈 소스 재단 및 표준 단체도 지원합니다.
본 파트너십은 DirectML 가속화, Azure 클라우드, 생성형 AI 연구, 그리고 헬스케어와 생명 과학 분야에서의 혁신의 토대를 마련하고 있는 Microsoft와의 오랜 협력을 확대하는 내용이기도 합니다.
양사의 최근 협업에 대해 보다 자세히 알아보세요.