AI로 펼친 두루마리: 베수비오 화산에 묻힌 고대 파피루스, 모습을 드러내다

by NVIDIA Korea

천년 전, 베수비오 화산이 폭발했을 때에 폼페이와 함께 인근 마을인 헤르쿨라네움의 도서관도 화산재 속으로 사라졌습니다.

헤르쿨라네움의 문서들은 약 250년 전에 발견되었지만 지금까지도 학자들은 해독에 고전해 왔는데요, 미국 켄터키 대학의 연구진들 덕분에 고대에서 유일하게 살아남은 헤르쿨라네움 도서관이 그 묻혀진 역사를 곧 드러낼 수 있을 전망입니다.

켄터키 대학 연구진들은 단단히 감겨있던 두루마리 문서들을 디지털로 낱장으로 분리해냈습니다. 그리고 평평하게 펼쳐서 판독할 수 있도록 AI, GPU, 컴퓨터 이미징 프로그램인 “버추얼 언래핑(virtual unwrapping)”을 동원했지요.

13년 동안 이 두루마리 문서의 판독 연구를 해온 브렌트 실즈(W. Brent Seales) 켄터키 대학 컴퓨터 공학과 학과장은 “이 연구는 인디아나 존스와 같은 면이 있습니다”라고 말합니다.

용암의 열기에 그을린 헤르쿨라네움 문서들은 언뜻 대형 시가나 타 버린 장작처럼 보입니다. 실즈는 한마디로 “거의 지옥으로 보이죠”라고 논평합니다.

두루마리 훼손

섬세한 파피루스 두루마리 문서를 물리적으로 열려고 하면 심각한 손상이 불가피합니다. 두루마리는 약 20-30피트 길이에, 100회 정도 단단하게 말려있어 재질이 뻣뻣했으며, 영구적인 주름이 져 있었습니다. 각각의 두루마리마다 파피루스 낱장들이 다 눌러 붙어있었고요.

그것들을 한 장씩 분리하는 일은 크루아상의 페이스트리를 한 겹씩 벗겨내는 일과 같습니다.

두루마리를 풀어보려 했던 종전의 시도들은 대실패였습니다. 문서가 발견된 직후에 바티칸의 보존가가 기계를 도입하여 두루마리를 펼치기까지는 성공했으나 값비싼 대가를 치러야 했습니다. 그 기계가 각각의 두루마리의 한쪽 면을 완전히 읽을 수 없게끔 만들었기 때문이지요.

이후에 수은이나 장미수와 같은 물질을 활용한 시도도 있었지만 글자가 적혀 있는 양피지 면이 손상되고 말았습니다. 그 밖의 다른 시도들에도 불구하고 두루마리들은 단단히 눌러 붙어 있었고, 귀중한 문서 내용은 베일에 싸여 있었습니다.

두루마리를 풀기 위한 가장 최근의 시도는 1985년에 과학자들이 에탄올과 글리세린, 온수를 이용했던 것입니다. 이때 두루마리 한 개는 산산조각이 났고 다른 두루마리 역시 건조를 시키자 300개 이상의 조각으로 부서지고 말았습니다.

 

엔게디(Ein Gedi) 두루마리 펼치기

실즈와 연구진은 컴퓨터 토모그래피 (Tomography) 스캔을 활용하여 가상으로 두루마리를 펼치는 방법을 개발했습니다. 토모그래피는 X선의 한 종류로, 생체 세포의 세부적인 디지털 이미지를 만들어냅니다.

연구진은 CT 스캔을 세로로 조각 내서 두루마리의 내부 구조를 보여줍니다. 그 다음, 연구진의 소프트웨어가 디지털 방식으로 이를 평평하게 만들고, 판독이 가능하게끔 종이들을 재조립합니다.

9월에 실즈는 “버추얼 언래핑” 기법을 통해 이스라엘 엔게디(Ein Gedi) 고대 회당에서 발견된 손상된 두루마리가 레위기의 첫 2장임을 판독해냈습니다. (버추얼 언래핑과 엔게디 두루마리에 대한 보다 세부적인 내용은 연구진의 사이언스 어드밴시스(Science Advances) 기고문에서 확인할 수 있습니다.)

 

두루마리 읽기: 그을림과 잉크 구별하기 

그런데 엔게디 두루마리는 5장 분량의 두루마리 1개에 불과했습니다. 헤르쿨라네움 도서관에는 두툼한 두루마리가 수백 개가 있지요.

CT 스캔은 헤르쿨라네움 두루마리의 내부 구조를 보여줍니다. 이미지 제공: 브렌트 실즈 켄터키 대학 교수
CT 스캔은 헤르쿨라네움 두루마리의 내부 구조를 보여줍니다.
이미지 제공: 브렌트 실즈 켄터키 대학 교수

 

이렇게 복잡한 두루마리를 디지털로 펼쳐보려면 연구진은 내부를 한 장씩 식별하여 떼어낼 수 있어야 했습니다. 그리고 이를 위해서 연구진은 GPU 가속 머신 러닝이 필요했습니다.

실즈와 연구진은 판독기법 완성에 최선을 다하고 있습니다. 이들은 컴퓨터가 자동으로 낱장을 포착한 후 각 포인트를 정확하게 추적하여 한 페이지를 완전하고 정확하게 인식할 수 있게끔 트레이닝하는 것을 목표로 하고 있습니다. 실즈는 문서가 낱장으로 섞여 있으면 본문도 뒤죽박죽이 된다고 말합니다.

설사 이 목표를 달성한다 해도, 여전히 본문 판독이라는 숙제는 남습니다. 고대의 잉크는 목탄이나 기름 같은 식물성 염료이므로 파피루스가 숯덩이가 되지 않았다 해도 눈에 띕니다. 다만 CT 스캔은 파피루스의 그을림과 잉크를 구별하지 못하지요.

 

실즈는 연구 초기에 머신 러닝을 사용했지만 이제 두루마리 판독과 두루마리 낱장 구분을 보다 효율적으로 하기 위해서 딥 러닝을 사용합니다.

 

5백 년만의 대발견

“기술적인 도전들은 엄청납니다.”라고 실즈는 말합니다. 그는“이제서야 엔비디아와 같은 기업들이 우리의 (연산 집약적인) 문제 해결에 도움이 되는 하드웨어를 만드는 단계에 도달했습니다. 저희가 연구를 시작할 당시에는 이런 하드웨어가 없었거든요.”라고 밝혔습니다.

연구진은 현재 엔비디아의 지포스(GeForce) GTX1070 GPU를 하드웨어로 사용하고 있으며, 딥 러닝 테스트를 위해서는 cuDNN와 엔비디아 쿠다(CUDA) 병렬 컴퓨팅 플랫폼으로 구성된 텐서플로우(TensorFlow) 딥 러닝 프레임워크를 사용하고 있습니다.

연구진은 현재 약 250개 이상의 두루마리에 작업을 진행하고 있습니다. 헤르쿨라네움 도서관에는 약 1,800개의 두루마리가 있었다고 추산되는데요. 만약 AI가 헤르쿨라네움 두루마리의 비밀을 풀어낸다면, 학자들은 소실된 그리스, 로마 문학 작품을 복원할 수 있다는 희망을 품고 있습니다.

실즈는 “우리가 이 자료와 다른 발굴된 자료들의 판독기법을 완성시킨다면 이는 5백년 만의 최대 발견이 될 겁니다.”고 말했습니다.