고문서 읽어내는 새로운 기술, 딥 러닝으로 역사 문헌 해독

딥 러닝 연구자들은 지금 책과 씨름하고 있답니다.

고문서 속 내용을 한 자 한 자 전사하는 AI 도구를 개발해 수 세기를 거쳐온 문헌을 연구하는 이들을 위해 귀중한 자원을 만들어 내고 있는데요.

그간 고문서는 스캔 또는 사진 촬영으로 디지털화 했습니다. 그리스 소문자나 독일 프락투어체(Fraktur) 같은 고문서는 전문가라면 읽을 수 있겠지만, 일반인들이 읽거나 컴퓨터로 검색하기는 불가능하죠.

인력을 동원해 이런 고문서를 일일이 타이핑 해 파일로 만드는 작업은 시간도 많이 걸리고 비용도 많이 듭니다. 그래서 개발자들은 인쇄물이나 손글씨를 기계가 읽을 수 있는 형태로 변환하는 광학 문자 인식용 디지털 도구를 개발했답니다.

여기에 딥 러닝을 활용하면 이 도구의 정확성이 크게 향상되죠.

인문학 연구자들은 이와 같은AI 분석을 거친 텍스트를 사용해 책 속 특정 단어를 검색하고, 주로 사용됐던 표현이 시간의 흐름에 따라 어떻게 변화했는지 살펴보며 언어 진화 추이를 분석하거나 인구 통계나 사무 기록을 통해 개개인의 배경도 추적할 수 있습니다.

이 연구의 또 다른 이점이라면, 텍스트 이미지가 딥 러닝 네트워크의 객체 인식 학습 테스트를 수행하기에 이상적인 여건이 된다는 점인데요. 동물 사진이나 거리 풍경 속 여러 요소를 식별하는 경우와 달리, 텍스트 속 글자가 ‘c’ 인지 ‘o’ 인지 판가름해야 하는 경우, 나올 수 있는 답은 하나 뿐이기 때문이죠.

토마스 브로이엘(Thomas Breuel) 엔비디아 연구원은 “딥 러닝 모델에게 개 사진을 보여주면 여러 가지 답이 나올 수 있어요. ‘개’ 일수도 있고, ‘동물’ 일수도 있고, ‘단모 코기(cogi)’ 라고 답할 수도 있죠. 그러나 글자의 경우 답이 명확합니다. 정답과 오답이 무엇인지 분명히 알 수 있습니다.” 라고 설명했죠.

AI, 고문서와 만나다

브로이엘은 2004년부터 고문서 분석에 딥 러닝을 사용해 왔습니다. 순환 신경망의 일종인 LSTM을 이러한 작업에 적용한 최초의 연구자 그룹을 이끌었죠.

“인식률과 오독률 측면에서 정말 획기적이었습니다”라고 그는 설명했습니다. 그는 연구를 진행할 당시 독일 카이저스라우테른 대학교(the University of Kaiserslautern) 교수로 재직 중이었습니다.

구텐베르크 인쇄술의 본고장인 독일은 고문서 데이터를 열람하기에 딱 좋은 곳이었다고 브로이엘은 말합니다. 쿠텐베르크 인쇄술이 발명된 후 르네상스 시기 동안 유럽 전역에 걸쳐 인쇄기가 널리 보급되었죠.

Hvad_Prindsessen_sagde_ubt — 독일과 그 영향 하에 있던 국가에서 16세기부터 20세기 초까지 널리 사용되었던 문자였던 프락투어체(Fraktur). 1885년 출간된 덴마크 동화작가 한스 안데르센의 작품 ‘돼지 치는 왕자(The Swineherd)’가 바로 이 프락투어체로 쓰여 있다. (이미지 출처: 위키미디어 커먼스(Wikimedia Commons))

16세기부터 20세기 초까지 나온 여러 독일어 인쇄물은 프락투어(Fraktur)라고 불리는 예술적 서체로 작성됐습니다. 브로이엘의 설명에 따르면 지금은 이 서체를 읽을 수 있는 사람이 더 이상 없다는데요.

브로이엘 팀은 2007년 프락투어 인쇄물을 디지털 방식으로 전사하기 위해 OCRopus(optical character recognition)라고 불리는 오픈 소스 시스템을 개발했습니다.

이 소프트웨어의 최신 버전인 ocropus3은 깃허브에서 사용할 수 있습니다. 라틴어 텍스트 오독률이 0.1%에 불과하다는 군요. 연구진은 다른 언어와 텍스트 용으로 트레이닝된 데이터를 사용해 라틴어와 그리스어, 산스크리트어 텍스트에 OCRopus를 사용했답니다.

또 다른 독일 연구자인 우베 슈프링만(Uwe Springmann)은 OCRpus로 디지털 인문학 연구를 혁신했죠. 그가 다루는15세기~17세기 라틴어, 독일어 인쇄물에 대한 문자 인식률은 기존 85%에서 98%로 대폭 개선됐습니다.

“이건 점진적 발전이 아니라, 대 도약입니다” 라고 그는 말했습니다.

슈프링만과 그의 공동 저자로 주로 활약하는 크리스티안 레울(Christian Reul)은 현재 엔비디아 GPU와 LSTM과 컨볼루션 뉴럴 네트워크(convolutional neural networks)를 통합한 칼라마리(Calamari)라는 이름의 오픈 소스 딥 러닝 OCR 엔진을 사용하고 있습니다.

뷔르츠부르크 대학교(the University of Würzburg) 문헌학·디지털학 센터 디지털화 이사인 크리스티안 레울에 따르면 GPU를 사용해 트레이닝과 추론 속도가 10배 향상됐다고 하네요.

인쇄물을 읽어내는 AI

스웨덴 룰레오 공과대학교(Luleå University of Technology) 마커스 레비츠키(Marcus Liwicki) 머신 러닝 교수에 따르면 몇 년 전 역사학자들은 수 백만 페이지에 달하는 인쇄물을 스캔 이미지로 디지털화 했지만, ‘전부 다 전사하기란 불가능했다’고 합니다.

특정 정치 인사에 관심이 있던 어느 학자는 딥 러닝 기반 OCR 도구를 사용해 기계 판독이 가능한 고문서 버전을 쿼리할 수 있으며, 그 정치 인사를 언급한 모든 내용을 찾을 수 있습니다.

deep-learning-deciphers-historical-documents-text — 시편과 기도서를 통합한 14세기 초 문서 여백 부분에 그려진 원숭이 창 대결 삽화. (사진: 플리커(Flickr))

그러나 활자 인쇄 외에도 삽화, 여백에 기록된 내용, 워터마크 등 문서에 담긴 내용은 많죠. 레비츠키는 이러한 고문서의 특징을 분석할 수 있는 딥 러닝 도구를 개발하고 있습니다.

그는 “GPU는 디지털 인문학 연구 전 과정을 혁신시켰습니다”라고 말합니다.

그가 진행하는 프로젝트인 HisDoc은 뉴럴 네트워크를 사용해 출판 시기와 사용된 글꼴 등 문서와 관련된 고급 기능을 식별하며, 각 페이지를 분석해 글자가 있는지 이미지가 있는지 판별합니다.

레비츠키는 엔비디아 GPU 클러스터를 사용해 8만개 워터마크 데이터베이스에서 뉴럴 네트워크를 트레이닝 시켰습니다. 워터마크는 출판된 지역과 시기가 동일하다는 단서가 되므로, 학자들은 워터마크가 일치하는 문서에 관심이 많답니다.

손글씨도 읽어내는 AI

역사 기록은 인쇄물만 있는 것은 아니죠. 학자들이 관심을 보이는 여러 문서는 손글씨로 만들어졌습니다. 손글씨는 기계가 읽기 더 까다로운 부분이 있는데요, 작가가 축약어를 사용하기도 하고, 페이지마다 글씨체가 조금씩 달라지기도 하며, 인쇄물은 활자가 똑바른 수평을 이루는 반면, 손글씨는 갈수록 비뚤어지거나 기울기도 하죠.

여기에서도 뉴럴 네트워크가 효과적인 전사 도구로 사용된답니다.

이탈리아 로마 트레 대학교(Roma Tre University) 파올로 메리알도(Paolo Merialdo)와 도나텔라 피르마니(Donatella Firmani), 엘리나 니에두(Elena Nieddu) 연구원은 딥 러닝을 사용해 세계에서 가장 오랜 역사를 자랑하는 저장소인 바티칸 비밀 문서고에 보관돼 있던 12세기 교황 서신을 전사했습니다.

이들은 엔비디아 쿼드로 GPU와 컨볼루션 뉴럴 네트워크를 사용해 96% 정확도로 손글씨 문자를 인식하고, 라틴어 모델에 기반해 각 단어에 가장 알맞은 문자를 결정하는 시스템을 개발했죠.

우크라이나 이고르 시코르스키 키예프 공과대학교(Igor Sikorsky Kyiv Polytechnic Institute) 학생 연구원은 여기서 한 걸음 더 나아가 키예프의 성 소피아 성당 돌담에 그려진 중세 그래피티를 해석할 수 있는 뉴럴 네트워크를 개발했습니다.

논문 공동 저자인 유리 고르디엔코(Yuri Gordienko)에 따르면 일부 비문 해석을 놓고 학자들이 토론을 벌이고 있다고 하는데요. 엔비디아 GPU로 구동되는 이 팀의 딥 러닝 모델은 개별 문자 인식 작업에서 99% 정확도를 보였죠.

문서 분석 전문 컨퍼런스 뿐만 아니라 CVPR나 NeurlPS와 같은 주요 컴퓨터 비전, 머신 러닝 학회에서도 연구 결과가 발표되는 등 문서 분석은 매우 활발한 연구가 진행되는 분야랍니다.