대규모 언어 모델(LLM) 개발 가속화를 위한 엔비디아와 애니스케일과의 협업

엔비디아와 애니스케일(Anyscale)의 협력으로 대규모 언어 모델 개발 속도가 가속화될 전망입니다.

확장 가능한 컴퓨팅을 위한 오픈소스 통합 컴퓨팅 프레임워크로 빠르게 성장하고 있는 애니스케일은 연례 레이 서밋(Ray Summit) 개발자 컨퍼런스에서 레이(Ray) 오픈소스와 애니스케일 플랫폼에 엔비디아 AI를 도입한다고 발표했습니다. 또한 애플리케이션 개발자가 가장 인기 있는 오픈 소스 모델을 사용하여 애플리케이션에 LLM을 비용 효율적으로 쉽게 내장할 수 있도록 지원하는 새로운 서비스인 애니스케일 엔드포인트(Anyscale Endpoints)에도 통합될 예정입니다.

이러한 통합을 통해 전용 LLM부터 Code Llama, Falcon, Llama 2, SDXL 등과 같은 개방형 모델에 이르기까지 프로덕션 AI의 보안을 강화하면서 생성 AI 개발 및 효율성을 획기적으로 높일 수 있게 되었는데요.

개발자는 레이(Ray)와 함께 오픈 소스 엔비디아 소프트웨어를 배포하거나 애니스케일 플랫폼에서 실행되는 엔비디아 AI 엔터프라이즈 소프트웨어를 선택하여 완벽하게 지원되고 안전한 프로덕션 배포를 할 수 있는 유연성을 확보할 수 있게 되었습니다.

레이와 애니스케일 플랫폼은 지능형 챗봇, 코딩 코파일럿, 강력한 검색 및 요약 툴을 구동할 수 있는 생성형 AI 애플리케이션을 위한 최첨단 LLM을 구축하는 개발자들이 널리 사용하고 있습니다.

속도, 비용 절감 및 효율성을 제공하는 엔비디아와 애니스케일

생성형 AI 애플리케이션은 현재 전 세계 기업들의 관심을 사로잡고 있습니다. LLM을 파인 튜닝, 증대 및 실행하려면 상당한 투자와 전문 지식이 필요합니다. 엔비디아와 애니스케일은 다양한 애플리케이션 통합을 통해 생성형 AI 개발 및 배포에 드는 비용과 복잡성을 줄일 수 있도록 지원할 예정입니다.

새로운 오픈 소스 소프트웨어인 엔비디아 텐서(Tensor)RT-LLM은 애니스케일 제품을 지원하여 LLM 성능과 효율성을 강화하여 비용을 절감할 수 있도록 하는데요, 또한 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼에서도 지원되는 텐서-RT LLM은 추론을 자동으로 확장하여 여러 GPU에서 모델을 병렬로 실행하며, 엔비디아 H100 텐서 코어 GPU에서 실행할 경우 이전 세대 GPU에 비해 최대 8배 높은 성능을 제공할 수 있습니다.

텐서RT-LLM은 추론을 자동으로 확장하여 여러 GPU에서 모델을 병렬로 실행하며, 다양한 인기 LLM 모델에 대한 커스텀 GPU 커널과 최적화를 포함합니다. 또한 엔비디아 H100 텐서 코어 GPU 트랜스포머 엔진에서 사용할 수 있는 새로운 FP8 숫자 형식을 구현하고 사용하기 쉽고 사용자 정의 가능한 Python 인터페이스를 제공합니다.

엔비디아 트리톤(NVIDIA Triton) 추론 서버 소프트웨어는 클라우드, 데이터센터, 엣지 및 임베디드 장치에서 GPU, CPU 및 기타 프로세서의 추론을 지원합니다. 이 소프트웨어의 통합을 통해 레이(Ray) 개발자는 텐서RT(TensorRT), 텐서플로우(TensorFlow), 파이토치(PyTorch), ONNX, 오픈비노(OpenVINO), 파이썬(Python), 래피드 XG부스트(RAPIDS XGBoost) 등을 포함한 여러 딥 러닝 및 머신 러닝 프레임워크에서 AI 모델을 배포할 때 효율성을 높일 수 있습니다.

또한 레이 사용자들은 비즈니스 데이터로 LLM을 쉽게 파인 튜닝하고 커스터마이징할 수 있는 엔비디아 네모(NeMo) 프레임워크를 통해 개별 비즈니스의 고유한 서비스를 이해하는 LLM의 기반을 마련할 수 있습니다.

네모는 어디서나 생성형 AI 모델을 구축, 사용자 지정 및 배포할 수 있는 엔드투엔드 클라우드 네이티브 프레임워크입니다. 학습 및 추론 프레임워크, 가드레일링 툴킷, 데이터 큐레이션 도구, 사전 학습된 모델을 갖추고 있어 기업이 쉽고 비용 효율적이며 빠르게 생성형 AI를 도입할 수 있도록 지원합니다.

오픈 소스 또는 완전 지원 프로덕션 AI를 위한 옵션

개발자는 레이 오픈 소스와 애니스케일 플랫폼을 통해 오픈 소스에서 클라우드에 대규모로 프로덕션 AI를 배포하는 단계로 손쉽게 전환할 수 있습니다.

애니스케일 플랫폼은 레이를 사용하여 확장 가능한 AI 및 파이썬 애플리케이션을 쉽게 빌드, 배포, 관리할 수 있는 완전 관리형 엔터프라이즈 지원 통합 컴퓨팅을 제공하여 고객이 훨씬 저렴한 비용으로 AI 제품을 더 빠르게 시장에 출시할 수 있도록 지원합니다.

뿐만 아니라 개발자가 레이 오픈 소스를 사용하든 지원되는 애니스케일 플랫폼을 사용하든, 애니스케일의 핵심 기능을 통해 LLM 워크로드를 쉽게 오케스트레이션할 수 있습니다. 엔비디아 AI 통합을 통해 개발자는 훨씬 더 효율적으로 AI를 구축, 훈련, 튜닝 및 확장할 수 있습니다.

레이와 애니스케일 플랫폼은 주요 클라우드의 가속화된 컴퓨팅에서 실행되며, 하이브리드 또는 멀티 클라우드 컴퓨팅에서 실행할 수 있는 옵션이 있습니다. 따라서 개발자는 성공적인 LLM 배포를 위해 더 많은 컴퓨팅이 필요할 때 쉽게 확장할 수 있습니다.

또한 이번 협업을 통해 개발자는 엔비디아 AI 워크벤치를 통해 워크스테이션에서 모델 구축을 시작하고, 프로덕션으로 전환할 시기가 되면 하이브리드 또는 멀티 클라우드 가속 컴퓨팅에서 쉽게 확장할 수 있습니다.

엔비디아 AI와 애니스케일의 통합은 현재 개발 중이며, 연말에 제공될 예정입니다.

개발자는 등록을 통해 이 통합에 대한 최신 소식과 함께 엔비디아 AI 엔터프라이즈 90일 무료 평가판을 받아볼 수 있으니 참고해주세요!

자세한 내용은 샌프란시스코에서 열렸던 레이 서밋이나 아래 데모 비디오를 통해 확인할 수 있습니다.