인공지능(AI) 애플리케이션이 기사를 요약하거나 스토리를 창작하고 대화에 참여할 수 있게 되면서 대규모 언어 모델의 비중이 커져가고 있습니다.
대규모 언어모델(LLM, Large Language Model)이란 대규모 데이터 세트에서 얻은 지식을 기반으로 텍스트와 다양한 콘텐츠를 인식하고 요약, 번역, 예측, 생성할 수 있는 딥 러닝 알고리즘입니다.
대규모 언어 모델은 트랜스포머 모델(transformer model)의 가장 성공적인 애플리케이션 중 하나입니다. 이는 AI에 인간의 언어를 가르칠 뿐만 아니라, 단백질을 이해하고, 소프트웨어 코드를 작성하는 일 외에도 훨씬 다양한 일을 하죠.
대규모 언어 모델은 번역, 챗봇, AI 비서와 같은 자연어 처리 애플리케이션을 가속화하는 일은 물론, 헬스케어, 소프트웨어 개발과 기타 다른 여러 분야에 사용됩니다.
대규모 언어 모델이 사용되는 용도는?
언어는 인간의 의사 소통 외에도 다양하게 사용됩니다.
코드는 컴퓨터의 언어라고 할 수 있죠. 단백질과 분자 서열은 생물학의 언어입니다. 대규모 언어 모델은 다양한 유형의 소통이 필요한 언어나 시나리오에 적용됩니다.
이러한 모델은 산업과 기업 전반에 AI가 활용되는 범위를 넓히고, 세상에서 가장 풀기 힘든 문제에 대한 복잡한 솔루션을 만드는 데 도움을 주기 때문에 연구와 창의성, 생산성 분야에 새로운 장을 열 것으로 기대를 모으고 있는데요.
예를 들어, 대규모 언어 모델을 사용하는 AI 시스템은 분자 및 단백질 구조에 관한 데이터베이스에서 학습을 거친 다음, 해당 지식을 사용해 실용적인 화학 화합물을 제공하고 과학자들이 획기적인 백신이나 치료법을 개발하는 데 도움을 줄 수 있습니다.
그 밖에도 새롭게 재구성된 검색 엔진, 튜터링 챗봇, 노래나 시 혹은 이야기나 마케팅 자료를 지어내는 도구 등을 만드는 데 도움이 됩니다.
대규모 언어 모델의 작동 방식은?
대규모 언어 모델(LLM)은 방대한 양의 데이터를 이용해 학습합니다. 명칭에서 알 수 있듯이 그 핵심은 훈련된 데이터 세트의 크기입니다. 하지만 “대규모”라는 정의는 AI의 성장과 함께 계속 확대되고 있습니다.
이제 일반적으로 대규모 언어 모델은 오랜 기간 동안 인터넷에 작성된 거의 모든 것을 망라할 만큼 엄청나게 큰 규모의 데이터 세트에서 훈련됩니다.
그런 엄청난 양의 텍스트가 비지도 학습(unsupervised learning)을 통해 AI 알고리즘에 투입되는 데, 이때 모델에는 진행할 작업에 대한 분명한 지침 없이 데이터 세트가 주어지게 됩니다. 이런 방법으로 대규모 언어 모델은 단어뿐만 아니라 단어들 간의 관계와 그 안의 함축된 내용을 학습합니다. 예를 들어, 문맥에 따라 “bark”라는 단어의 서로 다른 두 가지 뜻을 구별하는 것을 배우게 되죠.
마치 언어에 통달한 사람이 문장이나 단락에서 다음 문맥에 나올 수 있는 내용이나, 심지어 다음 단어나 개념 자체를 떠올릴 수 있는 것과 마찬가지로, 대규모 언어 모델은 습득한 지식을 사용해 내용을 예측하거나 생성하기도 합니다.
이 외에도 파인 튜닝(fine-tuning)이나 프롬프트 튜닝(prompt-tuning) 처럼 모델에 적은 양의 데이터를 공급해 집중적으로 특정한 애플리케이션에 맞춰 훈련시키는 프로세스 기술 등을 통해 특정한 용도를 위해 사용될 수 있습니다.
시퀀스를 병렬로 처리하는 계산의 효율성 덕분에 트랜스포머 모델 아키텍처는 가장 크고 강력한 대규모 언어 모델의 구성요소가 됐습니다.
대규모 언어 모델의 주요 애플리케이션
대규모 언어 모델(LLM)은 검색 엔진, 자연어 처리, 헬스케어, 로보틱스, 코드 생성 등의 분야에서 새로운 가능성을 열고 있습니다.
인기 있는 AI 챗봇 ChatGPT는 대규모 언어 모델의 애플리케이션 중 하나입니다. 수많은 자연어 처리 작업에 사용될 수 있는 애플리케이션이죠.
대규모 언어모델이 활용될 수 있는 무수한 사례 중에는 다음과 같은 몇 가지 예가 있습니다:
- 소매업체와 기타 서비스 제공업체는 대규모 언어 모델을 사용해 챗봇, AI 비서 등으로 고객 서비스를 향상시킬 수 있습니다.
- 검색 엔진은 대규모 언어 모델을 사용해 사람처럼 보다 직접적으로 응답할 수 있습니다.
- 생명과학 연구원은 단백질, 분자, DNA, RNA를 이해하기 위해 대규모 언어 모델을 훈련시킬 수 있습니다.
- 개발자는 대규모 언어 모델로 소프트웨어를 작성하고 로봇에게 물리적인 작업을 가르칠 수 있습니다.
- 마케터는 대규모 언어 모델을 훈련시켜 고객의 피드백이나 요청을 클러스트화하여 제품 설명에 따라 제품을 범주별로 세분화할 수 있습니다.
- 재무 자문가는 대규모 언어 모델을 사용해 수익 결산(earning call)을 요약하고 중요한 회의를 기록할 수 있습니다. 또한 신용카드사는 이를 활용해 이상 징후를 감지하거나 사기 가능성을 분석하여 소비자를 보호할 수 있습니다.
- 법률 팀은 법적 의역이나 서류 작성 등에 대규모 언어 모델의 도움을 받을 수 있습니다.
생산 분야에서 이런 대규모 모델을 효율적으로 사용하려면 무엇보다 리소스가 풍부하고 전문 기술이 있어야 합니다. 그렇기에 기업들은 모델 배포를 표준화하고 생산에서 빠르고 확장 가능한 AI 제공을 지원하는 소프트웨어인 NVIDIA Triton Interference Server를 사용합니다.
대규모 언어 모델을 얻을 수 있는 곳은?
2020년 6월에 인공지능 기업 오픈AI(OpenAI)는 짧은 서면 프롬프트(prompt)로 텍스트와 코드를 생성할 수 있는 1750억 매개변수 모델로 구동되는 GPT-3를 서비스로 출시했습니다.
NVIDIA와 마이크로소프트(Microsoft)는 2021년에 글 분석이나 자연어 추론 작업에서 세계에서 가장 큰 모델 중 하나로서, 요약 작업이나 콘텐츠 생성 등을 쉽게 만드는 메가트론-튜링 자연어 생성 530B(Megatron-Turing Natural Language Generation 530B)를 개발했죠.
또한 작년에 애플리케이션 개발사 허깅페이스(HuggingFace)는 46개의 자연어와 12개 이상의 프로그래밍 언어로 텍스트를 생성할 수 있는 개방형 대규모 언어 모델인 블룸(BLOOM)을 소개했습니다.
또 다른 대규모 언어 모델인 코덱스(Codex)는 소프트웨어 엔지니어와 기타 개발자를 위해 텍스트를 코드로 변환합니다.
NVIDIA는 대규모 언어 모델을 쉽게 구축하고 배포하는 툴을 제공합니다:
- NVIDIA NeMo LLM 서비스는 NVIDIA가 관리하는 클라우드 API를 사용하거나 프라이빗 및 퍼블릭 클라우드를 통해 대규모 언어 모델을 사용자 지정하고 이를 대규모로 배포할 수 있는 빠른 경로를 제공합니다.
- NVIDIA NeMo Megatron은 NVIDIA AI 플랫폼 중 하나로, 대규모 언어 모델을 쉽고 효율적이며 비용 효과적으로 훈련하고 배포하는 프레임워크입니다. 엔터프라이즈 애플리케이션용으로 설계된 NeMo Megatron은 자동화된 분산 데이터 처리, 대규모의 맞춤형 GPT-3, T5, 다국어 T5 모델 교육, 규모에 맞는 추론용 모델 배포를 위해 엔드-투-엔드 워크플로우를 제공합니다.
- NVIDIA BioNeMo는 단백질체학, 소분자, DNA, RNA의 대규모 언어 모델을 위한 도메인별 관리 서비스 및 프레임워크입니다. NVIDIA NeMo Megatron 기반으로 슈퍼컴퓨팅 규모에 맞게 대규모 생체 분자 트랜스포머 AI 모델을 교육하고 배포합니다.
대규모 언어 모델의 도전 과제
대규모 언어 모델을 확장하고 유지하는 일은 어렵고 비용이 많이 소요될 수 있습니다.
기본적인 대규모 언어 모델을 구축하는 데는 종종 교육하는 데만 몇 개월이 걸리고 높은 비용이 필요하죠.
또한 상당한 양의 교육 데이터를 필요로 하기 때문에 개발자와 기업은 충분한 양의 데이터 세트를 얻는 데 어려움이 따릅니다.
대규모 언어 모델의 그 규모 때문에, 배포를 위해서는 딥 러닝, 트랜스포머 모델, 분산 소프트웨어 및 하드웨어에 대한 전문 지식 등 전문성이 필요합니다.
지금도 기술 분야의 수많은 리더들은 대규모 언어 모델이 널리 이용될 수 있게 개발에 매진하고 리소스를 구축하면서 모든 소비자와 기업이 혜택을 누릴 수 있도록 힘을 쏟고 있습니다.
대규모 언어 모델(LLM)에 대해 자세히 알아보세요!