다국어를 소화하는 최첨단 언어모델을 만드는 NVIDIA NeMo Megatron

만약 스웨덴 국왕이 올해 연례 크리스마스 연설 초안을 작성하는 데 도움이 필요하다면, 스웨덴 인구 천만명이 이용 가능한 그 동일한 AI 모델에서 도움을 얻을 수 있을 지도 모릅니다.

연구원들은 GPT-SW3 모델을 시험 삼아 왕실 연설문 초안 하나를 작성하게 했는데요. 머신 러닝 시대의 문을 열어가는 컨소시엄인 ‘AI 스웨덴(AI Sweden)’에서 자연 언어 이해에 대한 연구를 이끄는 마그누스 살그렌(Magnus Sahlgren)에 따르면, 그 해당 모델은 훌륭한 작업을 해냈습니다.

살그렌은 “나중에 스웨덴 디지털화 장관이 저희를 방문해 GPT-SW3 모델로 정치적 입장을 변론하는 논의점을 만들어 달라고 요청했는데, 그것은 정말 기발한 논의점을 만들어 냈습니다. 그리고 장관은 GPT-SW3 모델이 멋진 텍스트를 만드는 방법을 바로 이해했습니다”라고 말했습니다.

기존에 성공적이었던 이런 작업들은 스칸디나비아 국가의 시민과 기업, 정부 기관을 도울 수 있는 훨씬 더 크고 강력한 언어 모델에 대한 영감을 심어줬습니다.

다국어 모델

모델의 현재 버전은 36억 개의 매개 변수가 있으며 스웨덴어로 멋진 작업을 몇 가지 할 수 있을 정도로 스마트합니다. 살그렌 팀의 목표는 스웨덴어, 덴마크어, 노르웨이어, 아이슬란드어 등 모든 언어 작업이 처리 가능하며 무려 1750억 개의 매개 변수를 지닌 최첨단 모델을 훈련시키는 것입니다.

예를 들어, 스타트업에서는 제품 이름 하나만 알아도 이 모델을 사용해 전자상거래 웹사이트에 올릴 제품 설명을 자동으로 생성할 수 있습니다. 또한 정부 기관은 이를 사용해 시민들의 문의사항을 신속하게 분류하고 전달할 수 있죠.

뿐만 아니라 기업은 그 모델을 통해 신속하게 보고서를 요약해 상황에 발빠르게 대응할 수 있습니다. 병원이라면 자체 시스템에서 개별적으로 모델의 증류 버전을 실행해 환자 치료를 개선할 수 있습니다.

2006년 전산언어학으로 박사학위를 받고 난 이후 언어와 머신 러닝의 융합 분야를 연구해온 살그렌은 “이 다국어 모델은 사람들이 해결하고자 과제가 무엇이건 그에 맞는 서비스를 제공할 수 있는 토대가 되는 모델”이라고 언급했죠.

무엇이든 자유롭게 말할 수 있는 기술

현재 이러한 기능은 세계적으로 거의 200개 국가에서 수천 개의 언어를 사용하고 있는 상황에서 디지털 주권의 핵심 전략적 자산으로서 인식되고 있는 추세입니다.

요새 언어 서비스 대부분은 세상에서 가장 많이 쓰이는 두 언어, 즉 중국어나 영어에 초점을 두고 있는데요. 보통 이런 서비스는 중국이나 미국에서 만들어지는데, 무료로 제공되고 있지 않죠.

살그렌은 “스웨덴을 위해선 스웨덴에서 모델을 만드는 게 중요합니다”라고 말했습니다.

소규모 팀, 대규모 시스템

살그렌은 “저희는 작은 국가에서 6명 정도로 구성된 핵심 팀이긴 하지만 사람들이 사용할 수 있는 최첨단 자원을 구축할 수 있습니다”라고 말을 이었습니다.

이것이 가능한 이유는 스웨덴이 린셰핑 대학(Linköping University)의 300페타플롭스 AI 슈퍼컴퓨터 베르셀리우스(BerzeLiUs)에 강력한 엔진을 탑재했기 때문입니다. 초기 GPT-SW3 모델이 NVIDIA DGX SuperPOD의 60개 노드 중 16개 노드로 훈련됐죠.

차세대 모델은 시스템의 모든 노드를 실행하게 됩니다. 이런 초대형 작업에는 NVIDIA NeMo Megatron 프레임워크와 같은 엄청난 소프트웨어가 필요합니다.

살그렌은 “이 모델을 통해 저희는 훈련을 전체 슈퍼컴퓨터로 확장할 수 있었습니다. NVIDIA가 없었다면 훨씬 더 복잡했을 일을 NeMo 개발 팀 전문가와 접촉해 해결할 수 있었다는 것이 정말 운이 좋았습니다”라고 말했죠.

모든 언어로 사용가능한 워크플로우

NVIDIA의 엔지니어들은 NeMo와 대규모 모델을 신속하게 최적화하는 P-튜닝(P-tuning)이라는 새로운 프로세스를 기반으로 한 기술을 개발했습니다. 이는 어떤 언어로도 사용할 수 있도록 설계됐죠.

한 테스트에서는 NVIDIA 엔지니어들이 P-튜닝 기술을 적용한 후로 모델의 정확도가 거의 두 배 향상됐습니다.

이 밖에도, 이 다국어 모델은 필요한 데이터양이 현재의 10분의 1 수준에 불과해 수만 개의 수작업을 해야 하는 라벨링 기록 작업을 줄여줍니다. 이로써 비교적 적은 량의 산업별 데이터를 사용하면서도 모델을 미세 조정할 수 있게 되는 것이죠.

살그렌은 “저희는 저희 기술을 사용해 산업계와 스타트업, 그리고 대중들에게 수많은 기업정신을 고무해 우리 자체내 앱과 서비스를 개발할 수 있기를 바랍니다”라고 말했습니다.

다음 단계로 나아가기

한편, NVIDIA의 개발자들은 이미 활성화 소프트웨어를 향상시키는 방법을 연구 중입니다.

한 테스트에 따르면, 범용적으로 쓰이는 영어 데이터 세트를 사용해 새로운 기능을 모든 언어에 적합하게 설계된 모델로 훈련시킬 수 있다고 합니다. 또 다른 연구 작업 중에는, 추론 작업에서 P-튜닝 기술을 사용해 모델이 즉각 학습할 수 있게 만드는 연구도 있습니다.

스웨덴 예테보리(Gothenburg)에 있는 NVIDIA의 수석 솔루션 설계자 제노디아 샤르피(Zenodia Charpy)는 자신이 응원하는 AI 스웨덴 팀의 열정을 함께 나눕니다. “저희는 이제 언어에 대한 이런 커다란 도전과제를 해결하기 위해 더 나은 새로운 방법을 시도하기 시작했습니다. 앞으로 훨씬 더 많은 시도가 있을 것입니다”

GPT-SW3 모델은 얼리 액세스 프로그램을 통해 올해 말까지 이용 가능합니다. 신청 문의는 여기 francisca.hoyer@ai.se로 연락주세요.