지난 500년간 스웨덴왕립도서관(Kungliga biblioteket, KB)은 값어치를 매길 수 없는 중세 필사본부터 오늘날의 피자 메뉴에 이르기까지 스웨덴어로 제작된 출판물 전부를 수집해왔습니다.
스웨덴어로 출판되는 모든 것의 사본을 도서관에 제출하도록 하는 수백 년 묵은 법 덕분에 스웨덴왕립도서관은 책과 신문, 라디오와 TV 방송, 인터넷 콘텐츠, 박사 학위 논문, 엽서, 식당 메뉴, 비디오 게임 등을 총망라한 컬렉션을 보유하게 됐는데요. 데이터로는 26페타바이트 분량에 육박하는 이 광범위한 컬렉션은 최첨단 AI의 훈련에 이상적입니다.
스웨덴왕립도서관 산하 데이터 연구소인 KB랩(KBLab)의 책임자 러브 뵈르예존(Love Börjeson)은 “이처럼 최고의 데이터가 있어 최첨단 스웨덴어 AI 모델을 구축할 수 있습니다”고 설명합니다.
KB랩은 NVIDIA DGX 시스템을 기반으로 허깅 페이스(Hugging Face)에서의 사용이 가능한 오픈 소스 트랜스포머(transformer) 모델을 20개 넘게 개발해 왔습니다. 매달 최대 20만 명의 개발자가 다운로드하는 이 모델들은 왕립도서관과 여러 학술 기관의 연구를 지원하고 있죠.
“우리 연구소가 만들어지기 전에는 연구자들이 왕립도서관의 데이터세트에 액세스할 수 없었습니다. 그래서 한 번에 한 개의 대상밖에 확인할 수 없었습니다. 연구자들의 양적 연구를 지원할 데이터 세트들의 구축이 절실했습니다.”
이를 바탕으로 연구자들은 교회가 등장하는 스웨덴의 엽서, 특정 스타일을 차용한 텍스트, 책과 신문기사, TV 방송 전반에서 특정 역사적 인물이 언급된 사례 등을 따로 뽑아 초고도로 특화된 데이터 세트를 만들 수 있게 될 전망입니다.
도서관 기록물보관소를 AI 훈련용 데이터로 바꾸는 법
스웨덴왕립도서관의 데이터 세트에는 언어의 공식/비공식적 변경, 지역별 사투리, 시간의 경과에 따른 변화 등 스웨덴어의 다양성이 오롯이 담겨 있습니다.
“정보의 유입은 지속적인 동시에 꾸준히 증가합니다. 매달 50테라바이트가 넘는 분량의 새로운 데이터가 들어옵니다. 디지털 데이터의 기하급수적인 증가와 수백 년간 모아온 실물 자료의 디지털화 사이에서 컬렉션 추가 작업은 끝없이 계속될 겁니다.”
2019년에 KB랩이 설립된 직후 뵈르예존은 도서관의 방대한 기록물보관소에서 트랜스포머 언어 모델을 훈련시킬 가능성을 봤습니다. 그는 구글이 5GB의 스웨덴어 텍스트를 포함해 내놓은 초기 형태의 다국어 자연어 처리 모델에 영감을 받았죠.
KB랩의 첫 모델은 구글 초기 모델의 4배에 달하는 스웨덴어 텍스트를 사용했으며, 현재는 최소 1테라바이트의 스웨덴어 텍스트 훈련을 목표로 하고 있습니다. 다국어 데이터 세트가 AI의 성능 향상에 도움이 될 수 있다는 사실을 발견한 뒤에는 자체 데이터 세트에 네덜란드와 독일, 노르웨이어 콘텐츠를 추가하는 실험도 진행 중입니다.
모델 개발 가속하는 NVIDIA AI와 GPU
KB랩은 소비자 등급 NVIDIA GPU로 시작했지만, 얼마 지나지 않아 대규모 모델의 훈련을 위해 데이터센터급 컴퓨팅이 필요하다는 사실을 알게 됐습니다.
“소형 워크스테이션으로는 대규모 모델의 훈련이 힘들었습니다. NVIDIA DGX로 옮겨가는 건 어찌 보면 당연한 수순이었습니다. DGX 시스템이 없었다면 우리가 거둔 성과의 상당 부분은 실현이 불가능했을 겁니다.”
KB랩은 온프레미스 AI 개발에 스웨덴 업체 애드프로(AddPro)의 NVIDIA DGX 시스템 2개를 사용합니다. 이 시스템은 민감한 데이터를 처리하고, 대규모의 실험을 수행하며, 모델을 미세 조정합니다. 또한 룩셈부르크의 멜루시나(MeluXina) 시스템 등 EU 국가 전역의 GPU 기반 슈퍼컴퓨터에서 진행할 작업의 준비에도 사용되고 있습니다.
“DGX 시스템에 기반한 준비 작업은 특히 중요합니다. 고성능 컴퓨팅 환경을 활용할 기회가 왔을 때 성공적으로 작업할 수 있기를 바라기 때문입니다. 슈퍼컴퓨터의 능력을 최대한 활용할 수 있게 준비해야 합니다.”
KB랩은 또한 대규모 언어 모델의 훈련을 위한 파이토치(PyTorch) 기반 프레임워크인 NVIDIA NeMo Megatron과 NVIDIA CUDA, NVIDIA NCCL 라이브러리를 바탕으로 다중 노드 시스템에서 GPU 사용을 최적화합니다.
“우리는 NVIDIA 프레임워크와의 의존도가 매우 높습니다. 매 프로젝트마다 AI 훈련 최적화에 엔지니어 50명씩을 투입할 여건이 안 되는 우리 같은 소규모 연구소에 NVIDIA는 여러모로 큰 힘이 되어줍니다.”
인문학 연구와 멀티모달 데이터
KB랩은 스웨덴어 텍스트를 이해하는 트랜스포머 모델과 더불어 소리를 문자로 전사하는 AI 툴을 보유하고 있습니다. 이 툴은 스웨덴왕립도서관이 방대하게 보유 중인 라디오 방송 컬렉션을 전사해 오디오 기록물에서 구체적인 콘텐츠를 검색하게 해줍니다.
AI로 강화하는 데이터베이스는 실물 카드 색인에 오랫동안 저장된 도서관 기록들의 혁신적 진화입니다.
KB랩은 또한 생성형 텍스트 모델의 개발을 시작하는 한편, 비디오를 처리하고 콘텐츠 자동 설명을 생성하는 AI 모델을 구축하고 있습니다.
“우리의 또 다른 목표는 다양한 매체들의 연결입니다. 도서관의 데이터베이스에서 특정 용어를 검색할 때 텍스트와 오디오, 비디오를 모두 포함한 결과를 반환할 수 있어야 합니다.”
KB랩은 예테보리대학교(University of Gothenburg)의 연구자들과 협력하고 있습니다. 이들은 KB랩의 모델을 사용해 다운스트림 애플리케이션을 개발하고 언어 연구를 지원하는데요. 대표적으로는 스웨덴 아카데미(Swedish Academy)와 함께하는 프로젝트를 통해 스웨덴어 사전 편찬에 활용할 데이터 중심 기법을 현대화하고 있습니다.
이러한 모델들은 KB랩이 처음에 기대했던 것보다 훨씬 커다란 사회적 이익을 실현하고 있습니다.
이미지 제공: 스웨덴왕립도서관