‘언어를 넘어’ AI의 지평 넓히는 대규모 언어 모델

2018년에 BERT는 머신 러닝 모델들의 읽기와 말하기 학습을 둘러싼 담론을 촉발했습니다. 이제 대규모 언어 모델(LLM)은 모든 범주의 애플리케이션에서 우수성을 입증하며 빠르게 성장하고 있죠.

일례로 LLM은 뮌헨공과대학교의 로스트랩(Rostlab)과 하버드, 예일, 뉴욕대학교 등의 연구에 힘입어 신약 개발을 가속하고 있습니다. 단백질을 구성하는 아미노산의 해석에 LLM을 적용해 생물학의 구성 요소들에 대한 이해를 높이기도 합니다.

또한 LLM은 헬스케어와 로보틱스 등의 분야에도 활발히 진출하고 있죠.

LLM의 간략한 역사

2017년에 정의된 트랜스포머(transformer) 모델은 순차 데이터의 컨텍스트를 학습할 수 있는 신경망으로, LLM이 대두하는 계기가 됐습니다.

2018년 말에 발표된 한 AI 보고서는 BERT를 비롯한 트랜스포머 모델의 연구자들이 2018년을 자연어 처리의 “분수령”으로 만들었다고 평가했습니다. 그러면서 “상당히 많은 전문가들이 BERT가 자연어 처리에 새로운 시대를 열었다고 본다”고 덧붙였죠.

구글이 개발한 BERT(트랜스포머의 인코더를 양방향으로 해석해 만들어낸 표현형)는 자연어 처리 벤치마크에서 신기록을 세웠습니다. 이에 힘입어 구글은 2019년에 자사의 검색 엔진에 BERT를 사용한다고 발표했는데요.

구글은 BERT를 오픈 소스 소프트웨어로 출시하며 여러 후속 제품군들을 탄생시켰고, 이로써 보다 크고 보다 강력한 LLM을 구축하기 위한 경쟁이 시작됐습니다.

가령 메타(Meta)는 개선된 버전의 로버타(RoBERTa)를 구축하고, 2017년 7월에 오픈 소스 코드로 출시했습니다. 훈련을 위해 “BERT보다 수십 배 많은 데이터를 사용”했다고 하며, 자연어 처리 리더보드에서도 좋은 순위를 기록했습니다. 이후 치열한 자리다툼이 뒤따랐습니다.

파라미터와 시장 확대

비교를 위한 점수를 매길 때는 편의상 신경망에서 두 노드 사이의 연결 강도를 측정하는 파라미터나 가중치의 수를 봅니다. BERT는 1억 1,000만 개, 로버타는 1억 2,300만 개입니다. 나중에 등장한 BERT-Large는 3억 5,400만 개로 신기록을 세웠지만, 그리 오래가지는 못했습니다.

LLM이 새로운 애플리케이션으로 확대되면서 규모와 컴퓨팅 요구 조건 또한 늘어났습니다.

2020년에 오픈AI(OpenAI)와 존스홉킨스대학의 연구진이 GPT-3를 발표했습니다. 이는 1조 개에 가까운 단어가 포함된 데이터세트로 훈련했고 1,750억 개의 파라미터를 가진 모델입니다. GPT-3는 다양한 언어 능력 과제에서 좋은 점수를 기록했으며, 세 자리 연산의 암호화에도 성공했습니다.

이를 바탕으로 해당 연구진은 “언어 모델이 광범위한 애플리케이션을 통해 사회에 기여할 수 있다”고 평가했습니다.

무한한 가능성

공개 뒤 몇 주 지나지 않아 GPT-3를 사용한 시와 프로그램, 노래, 웹사이트가 만들어지기 시작했습니다. 최근에 GPT-3는 자기 자신에 대한 학술 논문을 쓰기도 했죠.

퍼시 량(Percy Liang) 스탠포드대학교 컴퓨터 사이언스 학과 부교수는 관련 팟캐스트에 출연해 “언어 모델이 얼마나 많은 일들을 할 수 있는지 알고 혀를 내두르던 때를 여전히 기억한다”고 말하기도 했습니다.

량 교수는 GPT-3에 자극받아 대학 당국이 설립한 센터를 이끌며 다양한 작업을 훌륭히 처리할 수 있는 일명 기초 모델(foundational model)을 탐구하고 있습니다.

수조 개의 파라미터를 향해

지난해 NVIDIA는 새로운 영역과 언어용으로 훈련이 가능한 Megatron 530B LLM을 발표했습니다. 수조 개의 파라미터를 가진 언어 모델들의 훈련을 돕는 툴과 서비스를 갖추고 처음 소개됐죠.

NVIDIA의 응용 딥 러닝 연구 부문 부사장인 브라이언 카탄자로(Bryan Catanzaro)는 당시 이렇게 설명했습니다. “입증된 바에 따르면 대규모 언어 모델들은 유연하고 유능합니다. 전문화된 훈련이나 지도가 없이도 각 영역의 심층적인 질문들에 답할 수 있습니다.”

이 강력한 모델들을 사용자가 보다 쉽게 채택할 수 있도록 돕는 NVIDIA Nemo LLM 서비스가 지난 9월에 개최된 GTC에서 선보였습니다. NVIDIA Nemo LLM은 NVIDIA가 관리하는 클라우드 서비스로, 사전 훈련된 LLM을 특정 작업에 맞춰 조정해줍니다.

신약 개발 혁신하는 트랜스포머

단백질과 화학 구조 분야에서 LLM이 이룩하는 혁신이 DNA에도 적용되고 있습니다.

연구자들은 NVIDIA BioNeMo를 활용해 자신의 작업을 확장하는 방법을 모색하는 중입니다. BioNeMo는 생체 분자 데이터의 생성과 예측, 이해를 위한 소프트웨어 프레임워크와 클라우드 서비스입니다. 신약 개발용 프레임워크와 애플리케이션, AI 모델들의 컬렉션인 NVIDIA Clara Discovery의 일부로서, 폭넓게 사용되는 단백질과 DNA, 화학 데이터 형식의 작업을 지원합니다.

NVIDIA BioNeMo는 NVIDIA와 아스트라제네카(AstraZeneca)가 공동 개발한 MegaMolBART 등의 사전 훈련된 AI 모델들을 제공합니다.

스탠포드 연구진은 기초 모델을 다룬 논문에서 헬스케어 분야 내 LLM의 다양한 활용을 예견한 바 있습니다.

컴퓨터 비전 개선하는 LLM

강력한 LLM이 기존의 합성곱 AI 모델을 대체함에 따라 트랜스포머는 컴퓨터 비전 또한 새롭게 정의하고 있습니다. 예를 들어 메타AI와 다트머스대학의 연구자들은 트랜스포머로 영상을 분석하고 최상의 결과를 내는 AI 모델인 타임스포머(TimeSformer)를 설계했죠.

전문가들은 이러한 모델들이 컴퓨터 사진술(computational photography)과 교육, 모바일 사용자를 위한 인터랙티브 경험에서 다채롭고 새로운 애플리케이션을 만들어낼 것으로 전망합니다.

올해에는 관련 작업에서 두 기업이 텍스트로 이미지를 생성하는 강력한 AI 모델들을 출시하기도 했는데요.

오픈AI는 텍스트에 기술된 내용을 바탕으로 사실적인 이미지를 생성하도록 설계됐고, 35억 개의 파라미터를 가진 트랜스포머 모델인 달리2(DALL-E 2)를 발표했습니다. 최근에는 영국 런던에 본사를 둔 기업 스태빌리티AI(Stability AI)가 스태빌리티 디퓨전(Stability Diffusion)을 출시했죠.

코드 작성과 로봇 제어

LLM은 개발자들의 소프트웨어 작성을 돕기도 합니다. 최첨단 스타트업 육성 프로그램인 NVIDIA Inception의 회원인 탭나인(Tabnine)은 백만 명의 개발자가 생성한 코드의 최대 30%를 자동화한다고 밝힌 바 있습니다.

다음 단계로 연구자들은 트랜스포머 기반 모델들을 사용해 제조와 건설, 자율 주행, 개인 어시스턴트에 사용되는 로봇들을 훈련합니다.

가령 딥마인드(DeepMind)가 개발한 가토(Gato)는 로봇 팔의 블록 쌓기 학습을 지원하는 LLM입니다. 12억 개의 파라미터를 가진 이 모델은 600개 이상의 서로 다른 작업에서 훈련을 진행한 결과, 게임을 하거나 챗봇을 만드는 등 다양한 모드와 환경에서 활용이 가능합니다.