딥 러닝으로 수백만개 일본 고대 문헌 해독

자연재해는 사람과 건물에 위협이 될 뿐 아니라, 진귀한 문서를 파기하고 역사 기록을 지워버릴 수 있죠. 일본 학자들은 문서보관을 위해 각 페이지를 스캔하거나 사진을 찍는 전형적인 방법을 통해 수백 년 전의 종이 기록을 디지털화하고 있습니다.

따라서 디지털 방식으로 콘텐츠를 보존할 수 있지만, 이는 연구원이 그 내용을 읽을 수 있다는 것을 의미하지는 않습니다. 쿠주시지(Kuzushiji)라는 오래된 스크립트에는 일본의 인문학 교수 중 10% 미만만이 읽을 수 있는 수백 만권의 실제 서적과 문서가 기록돼 있는데요.

일본 ROIS-DS 인문학 오픈 데이터센터(Japan’s ROIS-DS Center for Open Data in the Humanities)의 타린 클라누왓(Tarin Clanuwat) 연구원은 “우리는 연구원들이 검토를 위해 수백 년에 걸친 수십 억 개의 방대한 양의 이미지를 가지고 있습니다. 그러나 아직 이미지에 포함된 정보를 해석할 수 있는 쉬운 방법은 없죠”라고 말했습니다.

각 페이지의 단어를 기계로 읽을 수 있고 검색 가능한 형식으로 추출하는 작업은 추가 단계를 거치는데, 수동으로 또는 광학식 문자인식(OCR)이라는 컴퓨터 비전 방식을 통한 표기입니다.

클라누왓과 동료 연구원들은 8세기에서 20세기 초까지의 일본어 텍스트에서 주로 사용된 쿠주시지 작법을 현대식 한자로 바꾸기 위해 딥 러닝 OCR 시스템을 개발하고 있습니다.

클라누왓은 GPU 기반의 AI 훈련과 추론이 매우 중요하다고 말했습니다. 그는 “GPU없이 작업을 하는 것은 상상도 할 수 없습니다. GPU는 작업 속도를 높일 뿐만 아니라 이 연구를 가능하게 하기 때문이죠”라고 덧붙였습니다.

역사 속에 잊혀진 스크립트 분석

1900년 일본어가 표준화되고 현대적인 인쇄기술이 출현하기 전까지 쿠주시지는 서적과 기타 문서에서 널리 사용됐습니다. 수백만 개의 역사적인 텍스트가 필기체 서체로 쓰였는데, 오늘날에는 일부 전문가만이 판독이 가능하죠.

쿠주시지 텍스트의 극히 일부분만 현대적인 스크립트로 변환됐습니다. 따라서 전문가가 손으로 책을 필사하는데 많은 시간과 비용이 소요되죠. 클라누왓은 연구원들이 AI 지원 OCR 시스템을 사용해 더 많은 작품을 읽을 수 있고 탐구할 수 있기를 희망한다고 말했습니다.

클라누왓은 동료 연구원이자 일본 국립정보연구소(Japan’s National Institute of Informatics)의 아사노부 키타모토(Asanobu Kitamoto), 그리고 몬트리올 학습 알고리즘 연구소(Montreal Institute for Learning Algorithms, MILA)의 알렉스 램(Alex Lamb)과 함께 OCR 시스템을 공동으로 작업했습니다. 이들의 논문은 2018년 NeurIPS 학술회에서 창의력과 디자인 워크숍(Creativity and Design workshop)을 위한 머신 러닝 부문에 채택됐었죠.

연구진은 국립 일본문학연구소(National Institute of Japanese Literature)의 17세기부터 19세기까지의 도서목록 데이터 세트를 사용해 TITAN Xp를 포함해 NVIDIA GPU에 대한 딥 러닝 모델을 학습시켰습니다. 클라누왓은 이 모델을 교육시키는 데는 일주일 정도 걸렸지만 GPU를 교육하는 것은 불가능하다고 말했죠.

쿠주시지의 문자는 수천 개 일뿐만 아니라, 데이터 집합에서 거의 발생하지 않기 때문에 딥 러닝 모델은 문자를 인식하기가 어렵습니다. 그럼에도 불구하고 연구진의 구로넷(KuroNet) 문서인식 모델의 평균 정확도는 85%로 이전 모델을 능가합니다.

뉴럴 네트워크의 최신 버전은 2,000개 이상의 문자를 인식할 수 있습니다. 클라누왓은 문자 유형이 300자 미만의 더 쉬운 문서인 경우, 정확도는 약 95%로 향상한다고 했습니다.

클라누왓은 “데이터 세트에서 가장 어려운 문서 중 하나는 사전인데, 희귀하고 특이한 단어가 많이 포함돼 있기 때문입니다”라고 말했죠.

연구진이 직면한 한 가지 과제는 쿠주시지의 오랜 역사를 대표하는 교육자료를 찾는 것이었습니다. 이 스크립트는 수백 년 동안 사용되면서 변경됐지만, 교육 데이터는 최근 에도 시대(Edo period)의 것이죠.

클라누왓은 딥 러닝 모델로 더 많은 잠재 고객이 일본의 고전문학, 역사적 문서, 그리고 기후 기록에 대해 접근할 수 있게 되기를 희망합니다.

딥 러닝 기술의 보다 더 다양한 활용분야는 AI Conference 2019 에서 확인해보세요.

메인 이미지는 16세기경 겐지 모노가타리 우타와세 에마키(Genji Monogatari Utaawase Emaki) 에서 발췌한 것입니다. 근대 이전의 인문학 일본 텍스트 데이터세트의 공개 데이터를 위한 ROIS-DS 센터의 이미지는 국립 일본문학연구소(National Institute of Japanese Literature)가 소유하고 있습니다.