대규모 언어 모델에 관한 모든 것은 방대합니다. 대규모 모델은 수천 개의 엔비디아 GPU에 걸쳐 방대한 데이터 세트를 학습합니다.
이는 생성형 AI를 추구하는 기업에게 많은 큰 과제를 안겨줄 수 있습니다. LLM을 구축, 커스터마이징 및 실행하기 위한 프레임워크인 엔비디아 네모(NVIDIA NeMo)는 이러한 문제를 극복하는 데 도움이 됩니다.
아마존 웹 서비스의 숙련된 과학자와 개발자로 구성된 팀은 지난 몇 달 동안 파운데이션 모델용 생성형 AI 서비스인 아마존 베드락을 위한 아마존 타이탄 파운데이션 모델을 제작하는 데 엔비디아 네모를 사용해 왔습니다.
AWS의 선임 응용 과학자인 Leonard Lausen은 “저희가 엔비디아 네모를 활용하는 가장 큰 이유 중 하나는 확장성이 뛰어나고, 높은 GPU 활용도로 실행할 수 있는 최적화와 함께 제공되며, 더 큰 클러스터로 확장할 수 있어 모델을 더 빠르게 훈련하고 고객에게 제공할 수 있기 때문입니다.”라고 밝혔습니다.
크게, 정말 크게 생각하기
네모(NeMo)의 병렬 처리 기술은 대규모의 효율적인 LLM 학습을 가능하게 합니다. AWS의 Elastic Fabric Adapter와 결합하여, 이 팀은 LLM을 여러 GPU에 분산시켜 학습을 가속화할 수 있었습니다.
EFA는 AWS 고객에게 10,000개 이상의 GPU를 직접 연결하고 운영체제와 CPU를 우회할 수 있는 울트라클러스터 네트워킹 인프라를 제공하며, 엔비디아 GPUDirect를 사용합니다.
이 조합을 통해 AWS 과학자들은 데이터 병렬 처리 방식에만 의존할 경우 대규모로 불가능한 우수한 모델 품질을 제공할 수 있었습니다.
모든 규모에 적합한 프레임워크
“라우센은 “NeMo의 유연성 덕분에 AWS는 새로운 타이탄 모델, 데이터 세트 및 인프라의 특성에 맞게 트레이닝 소프트웨어를 커스터마이징할 수 있었습니다.”라고 말합니다.
AWS의 혁신에는 Amazon S3(Amazon Simple Storage Service)에서 GPU 클러스터로의 효율적인 스트리밍이 포함됩니다. 라우센은 “NeMo는 LLM 트레이닝 파이프라인 구성 요소를 표준화하는 PyTorch Lightning과 같은 인기 있는 라이브러리를 기반으로 구축되었기 때문에 이러한 향상들을 통합하는 것이 쉬웠습니다.”라고 말합니다.
AWS와 엔비디아는 고객의 이익을 위해 협업을 통해 얻은 교훈을 엔비디아 네모와 같은 제품이나 아마존 타이탄(Amazon Titan)과 같은 서비스에 적용하는 것을 목표로 하고 있습니다.