NVIDIA 기술, Meta Llama3의 추론 최적화한다

NVIDIA는 모든 플랫폼에서 메타(Meta)의 최신 거대 언어 모델(large language model, LLM)인 라마3(Llama 3)를 가속화하기 위한 최적화를 발표했습니다.

NVIDIA 가속 컴퓨팅과 결합된 이 개방형 모델은 다양한 애플리케이션에서 개발자와 연구원, 기업들의 주도적인 혁신을 지원할 예정입니다.

NVIDIA AI로 훈련

메타 엔지니어들은 24,576개의 NVIDIA H100 Tensor Core GPU가 탑재되고 NVIDIA Quantum-2 InfiniBand 네트워크와 연결된 컴퓨터 클러스터에서 라마3을 훈련했는데요. 메타는 NVIDIA의 지원을 통해 네트워크, 소프트웨어, 모델 아키텍처를 자사의 대표 LLM에 맞게 조정했습니다.

메타는 최근 발표에서 생성형 AI의 최첨단 기술을 더욱 발전시키기 위해 350,000개의 H100 GPU로 인프라를 확장할 계획이라고 밝혔습니다.

라마3 활용하기

NVIDIA GPU에서 가속화된 라마3는 클라우드, 데이터센터, 엣지, PC에서 사용할 수 있습니다.

개발자는 브라우저에서 ai.nvidia.com에 접속해 라마3를 사용해 볼 수 있는데요. 라마3는 어디서나 배포될 수 있는 표준 애플리케이션 프로그래밍 인터페이스를 갖춘 NVIDIA NIM 마이크로서비스로 패키징돼 있습니다.

기업은 보안이 지원되는 NVIDIA AI Enterprise 플랫폼의 일부인 LLM용 오픈 소스 프레임워크 NVIDIA NeMo를 사용해 데이터로 라마3를 미세 조정할 수 있습니다. 사용자 지정 모델은 NVIDIA TensorRT-LLM으로 추론에 최적화하고 NVIDIA Triton 추론 서버로 배포할 수 있죠.

라마3를 디바이스와 PC에서 사용하기

라마3는 로보틱스와 엣지 컴퓨팅 디바이스를 위한 NVIDIA Jetson Orin에서 실행되고, Jetson AI Lab에서와 같은 대화형 에이전트를 생성합니다.

또한 워크스테이션과 PC용 NVIDIA RTX와 GeForce RTX GPU는 라마3에서 추론 속도를 높이죠. 이러한 시스템을 통해 개발자는 전 세계 1억 개 이상의 NVIDIA 가속 시스템을 활용할 수 있습니다.

라마3로 최적의 성능 확보하기

챗봇용 LLM을 배포하기 위해서는 짧은 지연 시간, 우수한 읽기 속도, 비용 절감을 위한 최적의 GPU 사용 간의 균형을 고려해야 하는데요.

이러한 서비스는 단어 수준에 해당하는 토큰을 초당 약 10개의 토큰을 처리하는 사용자의 읽기 속도보다 약 2배 빠른 속도로 전달해야 합니다.

이러한 측정을 적용한 결과, 700억 개의 매개변수가 있는 라마3을 사용한 초기 테스트에서 단일 NVIDIA H200 Tensor Core GPU는 초당 약 3,000개의 토큰을 생성했습니다. 이는 약 300명의 동시 사용자에게 서비스를 제공할 수 있는 양입니다.

즉, H200 GPU 8개가 장착된 단일 NVIDIA HGX 서버는 초당 24,000개의 토큰을 전송할 수 있으며, 동시에 2,400명 이상의 사용자를 지원함으로써 비용을 더욱 최적화할 수 있습니다.

엣지 디바이스의 경우, 80억 개의 매개변수가 있는 라마3는 Jetson AGX Orin에서 초당 최대 40개의 토큰을, Jetson Orin Nano에서 초당 15개의 토큰을 생성했습니다.

커뮤니티 모델 고도화

NVIDIA는 오픈 소스에 적극적으로 기여해오고 있으며, 사용자가 가장 어려운 문제를 해결하는 데 유용한 커뮤니티 소프트웨어를 최적화하는 데 전념하고 있습니다. 또한 오픈 소스 모델은 AI 투명성을 촉진하고 사용자가 AI 안전과 복원력에 대한 작업을 광범위하게 공유할 수 있도록 합니다.

NVIDIA NIM, TensorRT-LLM, Triton이 LoRA(Low-Rank Adaptation)와 같은 최신 기술을 사용해 최신 LLM을 가속화하는 방법을 비롯해 NVIDIA의 AI 추론 플랫폼에 대해 자세히 알아보세요.