- 일리아드의 이중언어 버젼(그리스어, 라틴어)


Vatican Library Making 4,000 Ancient Manuscripts Available Online For Free 


바티칸 사도 도서관(The Vatican Apostolic Library) 디지털화 프로젝트 진행 상황에 대해서 정리가 되어 있는 뉴스이다. 바티칸 사도 도서관은 수 많은 자료를 소장하고 있었으나, "음모론자"들의 온갖 추측의 대상이 될 정도로 비공개 정책을 유지했었다. 그러나 시대는 변했고, 교황청도 크라우드 펀딩을 통해서 자금을 모아서 바티칸 사도 도서관의 보유자료를 디지털화를 통해서 전 세계에 공개하려고 하고 있다. 



바로 : 혹자는 말한다. 디지털화가 반드시 필요하냐고? 디지털화를 통한 학문 분석 방법론이 정말 효용성이 있냐고? 좋다. 디지털을 통한 계량분석이나 양적분석 모두 인문학에서 의미가 없다고 하자. 하지만 우리가 지켜나가야될 문화유산에 대한 현재까지의 가장 막강한 보존 수단은 분명히 디지털이다. 덤으로 인류 문화유산의 공유의 효율성이 극대화된다. 그래도 디지털화 하지 말까?!





중국 전국고적 일제조사(全国古籍普查)는 중국의 디지털화에 대한 관심의 표상이다. 사고전서와 기본고적고로 관심이 집중된 도서관 중심의 디지털화 영역에서 중국전체고적DB화를 목적으로 아직 정리되지 않은 중국 전국의 고적목록을 조사하고 있는 것이다. 다만 이러한 행동은 중국 학문의 토대 부족을 나타내는 동시에 중국의 디지털인문학이 아직 초기단계라는 점을 보여준다.


전국고적일제조사(全国古籍普查) 홈페이지 : http://pcab.nlc.gov.cn/initialIndex.action





도쿄대학 지식의 구조화 센터(東京大学知の構造化センタ)에서 일본을 대표하는 사상 철학 처널인 이와나미 서점의 「사상(思想)」을 대상으로 디지털인문학의 방법론을 동원하여 연구한 프로젝트이다. 디지털 방법론의 1단계로 종이문서로 되어 있는 “사상(思想)”을 OCR 기술을 이용하여 디지털화하였다. 그 이후 디지털화 된 “사상(思想)” 텍스트에 대하여 자체 제작한 온톨로지 시스템 MIMA서치(MIMAサーチ)을 활용하여 말뭉치(코퍼스) 분석을 하여 그 결과를 시각화하였다. 


일본 잡지 사상의 구조화(「思想」の構造化) http://www.cks.u-tokyo.ac.jp/p1.html 



15세기에 고대 그리스어와 라틴어로 만들어진 호머의 일리아드


교황 니콜라스 5세가 바티칸도서관을 설립한 지 거의 600년이 지난 현재, 교황청이 전문가 50명, 스캐너 5대, 일본 IT 회사의 도움을 받아 값을 매길 수 없을 정도로 귀중한 원고 수백만 쪽을 디지털화하고 있다. 이를 통해 원고가 일반 대중에게 최초로 공개된다.


이 계획은 교황 도서관이라고 알려진 이 기관에서는 획기적인 일이다. 이 도서관에는 8만2,000개 이상의 원고가 소장돼 있으며 일부는 그 역사가 2세기까지 거슬러 올라간다. 학자들은 바티칸 성벽 내에 있는 도서관에 들어가기 위해 사유를 상세히 적어 출입 신청을 해야 한다. 한때 라파엘이 연구했던 1,600년 된 베르길리우스의 시 원고 등 가장 귀중한 작품들은 대체로 접근 불가다.

바티칸도서관을 여러 번 사용해 본 교회역사학자 알베르토 멜로니는 “이런 제한은 엄청난 수의 방문객들로부터 귀중한 원고를 보호할 수 있는 현명한 방법이었다”며 “아무나 도서관에 드나들게 하는 건 붓을 든 어린 아이를 모나리자 앞에 두는 것이나 마찬가지”라고 말했다.

1451년에 설립된 바티칸도서관은 이번 프로젝트를 통해 대영박물관, 프랑스국립도서관, 케임브리지대학교 도서관 등 고문서를 디지털화한 저명한 기관의 반열에 오르게 된다. 체사레 파시니 바티칸도서관장은 바티칸이“전 인류에게 서비스를 제공한다”고 최근 열린 프로젝트 발표에서 밝혔다.

바티칸 관리들은 지난 한 해 동안 매우 섬세한 문서들을 처리하도록 설계된 특수 스캐너를 시험하기 위해 일본 IT 회사 ‘NTT 데이터’의 전문가들과 긴밀히 협력했다. 문서에 흠집을 내지 않기 위해 시계와 장신구를 모두 제거하고 장갑을 낀 작업원들은 스캐너가 문서를 훼손하지 않도록 했다.

이 기계에는 원고가 빛에 노출되는 정도를 제한하기 위한 보호 스크린이 있으며, 스캔 작업 중에는 먼지와 불필요한 빛이 방 안에 들어오지 않도록 창문을 닫고 커튼을 쳐야 한다.

시험 단계가 끝나면 약 50명의 이탈리아 및 일본 작업원들이 바티칸 사서들의 감독 하에 곧 1차 원고 3,000개를 디지털화하기 시작할 것이다. 모든 과정은 도서관 안에서 이루어지며 4년이 걸릴 것으로 예상된다.

각 문서가 스캔된 후에는 장기 보관을 위한 형식으로 만들어지고 도서관 웹사이트에 공개된다. 디지털화된 이미지는 올해 하반기에 처음 온라인에 공개될 것으로 기대된다. 가장 섬세한 문서를 포함해 모든 원고들이 스캔될 것이며 사람들은 여러 각도에서 원고를 검토할 수 있게 된다.

바티칸도서관을 디지털화하는 것은 4만3,000조 바이트를 필요로 하는 거대한 작업이다. (1바이트는 알파벳 혹은 숫자 한 글자를 나타내기 위해 쓰이는 단위다.) 최종적으로는 약 4,000만 쪽이 일반에 공개될 것이다. 바티칸은 전체 프로젝트 소요 시간은 밝히지 않았다.

재해 복구 절차도 도입해 원본에 무슨 일이 생길 경우 원고 이미지가 보존되도록 할 것이다. 세인트루이스대학교의 제임스 R. 긴더 디지털인문학센터 소장은 “그러지 않기를 신께 기도하지만, 만약 끔찍한 일이 일어나면 최소한 모든 것을 잃지는 않을 것”이라고 말했다.

NTT 데이터는 처음 4년 동안 비용 1,800만 유로를 투입하기로 했으나 이 금액을 회수하기 위해 후원사를 찾고 있다. 기부를 장려하기 위해 바티칸도서관 웹사이트의 스캔된 이미지 옆에 후원사 로고가 표시될 것이다.

디지털화가 완료된 뒤에도 학자들과 연구자들은 직접 원본을 보려면 도서관 출입 허가를 받아야 할 것이라고 바티칸 관리들은 밝혔다.

바티칸도서관을 이용한 적이 있는 노터데임대학교의 칸디다 모스 교수는 “원고를 실제로 느껴보는 것이 정말 중요하다. 그리고 이것은 직접 도서관에 가야만 가능하다”고 말한다.

도서관 개방은 바티칸 음모론자들에게는 실망스러운 일일 수 있다. 바티칸도서관에 숨겨져 있다는 비밀은 댄 브라운이 쓴 소설 등 여러 추리소설에 등장하곤 했다.

디지털 기록이 대중에게 공개될 경우 바티칸의 평판이 무너지거나 당혹스러운 문서가 나올 수도 있냐고 묻자 장 루이 브뤼게 대주교는 “우리는 숨길 것이 없다”고 웃으며 말했다.


출처 : 월스트리트저널 한국어판

http://kr.wsj.com/posts/2014/04/15/바티칸-고문서-4년에-걸쳐-디지털화-된다/



바로 : 과거의 유산을 보전하고 대중에서 전파하는 가장 훌륭한 수단은 분명히 디지털화이다. 원본의 훼손을 걱정하지 않으면서 수 많은 정보를 시공간의 제약 없이 전달할 수 있게 되기 때문이다.


다만 교황청의 "디지털 도서관"은 어디까지나 스켄본만을 제공하는 초보적인 단계의 디지털화이다. 앞으로 TEXT 본으로 변환하는 일과 유의미한 정보(인명, 지명, 사건 등)에 대한 기계가독성을 확보하는 것이 차기 프로젝트가 될 것이다.


그나저나...일본. 진짜...이런 면에서는 배우고 또 배워야 된다. 기술경험 확보, 정보 확보는 둘째로 하더라도 일본의 "국격"은 은근히 하지만 강력하게 높아지게 된다. 쩝....


블로그에 자유롭게 쓴 글인데 생각보다 논문에 인용이 되서 당황스러운 심정이다. 개인적으로 블로그글도 학술적으로 사용할 수 있다고 생각하지만, 실제 학계의 분위기를 모르는 것도 아니다. 이에 만약 본 글을 인용하시려거든 다음과 같이 인용하시면 될 것으로 보인다.(내용이 100% 일치하지는 않지만, 기본 개념은 동일하다)


김바로, 『시맨틱 데이터 아카이브의 구축과 활용』, 파주:보고사, 2018.12.10, pp.17~20


김바로, 『시맨틱 데이터 아카이브의 구축과 활용 - 제도와 인사의 관계에 대한 근대(1895~1910) 학교 자료를 중심으로』, 파주:보고사, 2018.12.10, pp.17~20


알라딘 링크


디지털인문학이 요즘 인문학계의 화두로 떠오르고 있다. 그러나 디지털인문학에 대한 정의조차 제대로 모르면서 "디지털인문학"을 악용하려는 사람들도 급증하고 있다[각주:1].  디지털인문학 관련 내용을 올리는 블로거로서 최소한의 정의는 소개해야된다는 쓸데 없는 의무감이 생겨버렸다. 




1. 디지털인문학이란 무엇인가?







디지털인문학은 인문학과 정보기술(ICT: Information and Communication Technologies)이 합쳐진 융합학문이다. 전통적인 인문학의 연구과정에 정보기술의 설계, 구축, 분석, 해석 및 시각화의 과정이 융합되어 탄생된 인문학의 새로운 방법론이며, 학문분과이다. 



2. 디지털인문학의 설계와 구축


우선 전통적인 인문학에서의 수집을 생각해보자. 우리는 역사 연구를 위해서 해당 시대의 사료를 수집하여 정리하였다. 고고학 연구를 위해서 직접 발굴을 해서 연구자료를 획득하고 정리했다. 물론 1차적인 자료 뿐만을 수집하고 정리한 것이 아니다. 해당 분야에서 과거의 연구 성과를 모아서 연구사 혹은 선행연구를 정리한다. 


1) 1차 자료 정리

2) 연구사(선행연구) 자료 정리


그런데 현재 인문학계는 과거에 비해서 거대해졌다. 과거에는 사서삼경과 관련 도서 몇 백권이 유일한 1차 자료였고, 연구사 자료였다. 그러나 현재는 조선전기 정치사를 전공했다면, 같은 조선전기시대임에도 불구하고 민속사 영역으로 가면 연구사조차 제대로 파악하지 못하는 경우가 비일비재하다. 역사학계 자체 내에서 이런 상황이니 다른 학문(정치학, 예술학)으로 가면 일자무식이라고 해도 빈말이 아닌 상황이다. 


현재 학계는 방대해진 연구 성과에 짖눌려 있다. 현재 인문학의 가장 큰 숙제는 과거와는 상대도 되지 않는 방대한 자료의 처리 방법이라고 할 수 있다. 이제 일개 개인의 힘으로 단일 학문의 모든 연구자료와 연구사를 검토하는 것조차 불가능한 상황을 어떻게 타개할 것인가?! 정보기술이 현재로서는 유일무이한 해답이다. 

1) 정보기술을 활용하여 1차자료와 연구사를 수집-정리

2) 정보기술을 활용하여 개인에게 필요한 1차자료와 연구사를 제공

 

실제로 유럽의 모든 문화유물의 데이터를 총망라한 "유로피아나"나 미국 관련 모든 자료를 디지털화한 "아메리카메모리"와 같은 서양의 디지털 인문학 프로젝트를 통해서 정보기술을 활용하여 인문학을 어떻게 수집-정리 할 수 있는지 알 수 있다. 사실 멀리 볼 것도 없이 "조선왕조실록"이나 "한국역사정보통합시스템"만 하더라도 세계에 내놓아도 부끄럽지 않은 성과이다. 그리고 이렇게 "잘" 정리된 자료는 자연히 개인에게 방대한 정보에서 자신이 필요한 정보에 빠르게 접근할 수 있는 정보기술을 활용한 방법론도 제공하고 있다. 


쉽게 생각해보자. 디지털화된 논문정보를 제공하는 DBPIA나 KISS 혹은 RISS을 통해서 우리는 얼마나 빠르고 정확하게 원하는 논문을 검색하게 되었는가?! 이제 논문 뿐만이 아니라 인문학 자체를 디지털 자료로 이식하면 어떤 효과가 있겠는가?! 


그런데 아날로그의 지식을 컴퓨터가 이해 가능한 데이터로 변환하기 위해서는 아날로그의 지식 체계를 컴퓨터에게 알려주는 작업이 필요하다. 이를 데이터 설계 혹은 온톨로지 구축 작업이라고 할 수 있다. 그런데 인문학 영역 아날로그의 지식 체계는 디지털 영역의 전문가들에게 접근이 힘들거나 사실상 불가능한 영역이다. 그렇기에 대상 지식 체계를 파악하고 있는 인문학자의 힘이 필요하다. 






3. 디지털인문학의 분석(디지털 추론)

역시 전통적인 인문학에서의 분석을 생각해보자. 우리는 수집된 자료를 이용해서 분석하고 기존의 자료 이상의 내용을 추론해낸다. 조선시대의 복식을 재현해내고, 조선시대의 음식을 재현해낸다. 사회의 구조를 파악하고, 인류에게 최선인 사회 구조가 무엇인지를 예측한다. 


그런데 과거에 비하여 기가급수적으로 늘어난 연구성과들을 모두 파악하는 것조차 쉽지 않은 일이 되었다. 아무리 디지털화된 자료를 이용해서 최대한 빠르게 자료를 수집-정리할 수 있다고 하여도 개인의 힘으로는 방대해진 데이터를 파악하고 분석작업을 수행하는 것이 쉽지 않다. 어떻게 하면 개인의 분석능력을 향상시킬 수 있을까? 인간의 수명을 늘려야 하나? 게놈인간을 만들어서 지능을 올려야 하는가? 현재 가장 타당한 해법은 정보기술을 활용한 "디지털 추론"이다.


사실 "디지털 추론"은 이미 상업 영역에서 활발하게 사용되고 있다. 방대한 고객 데이터를 일정한 알로리즘(논리)을 통해서 맞춤형 마케팅을 하고 있다. 인터넷 서점으로 유명한 아마존 닷컴은 수 많은 고객데이터를 컴퓨터를 활용하여 실시간으로 분석하고, 해당 고객이 구매한 물품을 토대로 구매 가능성이 높은 물품을 추천하고 있다. 우리가 요즘 자주 말하는 "빅데이터"의 동반자인 "데이터 마이닝"이다. 




혹자는 정보기술이 모든 분석을 수행하면 더 이상 학자가 할 일이 없어지는 것은 아닐까 걱정할지도 모른다. 그러나 정보기술은 수백만의 데이터를 빠른 속도로 알고리즘(논리)에 의해서 처리하는 기술을 제공할 뿐이다. 분석방법인 알고리즘(논리)는 인간의 판단을 기다릴 뿐이다. 


실제로 인문학의 영역중에서 언어학과 사회학에서 "디지털 추론"방법을 많이 사용하고 있다. 말뭉치(코퍼스) 분석은 방대한 언어데이터를 분석하여 유의미한 결론을 유추하고 있다. 물론 정보기술 없이 개인이 언어데이터을 통해서 유의미한 결론을 유추할 수도 있다. 인간의 수명이 백만년정도 된다면 말이다. 사회학에서는 "네트워크 분석"을 통해서 다양한 관계망 분석을 시도하였고, 사회의 구조를 밝히는데 상당한 효과를 발휘하고 있다. 물론 최근에는 SNS 분석이나 의미망 분석과 같은 응용도 활발하게 이루어지고 있다. 


사실 디지털화는 어디까지나 디지털 추론을 위한 자료수집에 불과하다. 

어떤 인문학자가 자료 수집-정리만을 하고 분석이 필요 없다고 할 것인가?! 



4. 디지털인문학의 해석

분석은 연구 대상을 자르고 나누는 행위를 말한다. 다시 말해서 연구 대상에 대한 모든 자료를 다양한 방법을 통하여 수치화하는 방법론을 말한다. 그 동안 기존 인문학에서 분석과 해석을 구분하지 않고는 하였다. 실제로 대부분의 경우 한 명이 자료를 수집하고, 분석하여 해석하고 있었기에 구분이 무의미하였다. 그러나 전문화된 현대의 학문에서 "수치화"의 분석과 "의미부여"의 해석은 분명히 구분되어야 할 것이라고 생각된다. 


그런데 디지털인문학의 해석 영역은 대부분 기존 인문학에서 몇 천년동안 정립해 온 해석 방법론을 승계하고 있다. 디지털인문학은 어디까지나 디지털에서 수행하는 인문학 연구 방법론이며, 그 동안 기존 인문학이 해석에 "매몰"되었던 것을 탈피하고, 일정 이상의 자료와 분석결과를 통한 근거를 마련하기 위해서 강조되고 있다고 말할 수도 있을 것이다. 다시 말해서 디지털인문학은 범용 방법론으로서 가치를 가지고 있지만, 그렇다고 기존 인문학 방법론의 다양한 해석 방법론들을 폐기하는 것은 결코 아니다. 


반대로 디지털인문학은 새로운 해석 방법론에 그다지 큰 관심을 보이지 않는다. 그 동안 축적되어 온 기존 인문학의 해석 방법론을 재활용하는 것으로도 충분하기 때문이다. 그렇기에 디지털인문학에서는 해석의 영역을 그다지 크게 강조하지는 않는다. 그러나 그렇다고 해석이 중요하지 않다는 것은 아니다. 


(기존 글에서는 해석 영역에 대해서 서술하지 않고, 오프라인의 강의에서만 부과적으로 설명을 했더니 오해하시는 분들이 있어서 추가했습니다.)




5. 디지털인문학의 시각화

역시 전통적인 인문학에서의 출력을 생각해보자. 우리는 정리된 글을 논문발표, 서적출판 등의 형식으로 출력하였다. 심지어 최근에는 논문과 서적 모두가 이미 디지털화되어서 프린트를 통해서 출력되고 있다. 그런데 어차피 이미 디지털화된 것을 굳이 다시 종이 매체로 만들 필요가 있는가? 연구성과를 실시간으로 공유하여 인간의 지식영역을 빠르게 확장할 수는 없을까?


그래서 특히 인문학의 고유 관심자인 교육의 영역에서 상당히 많은 방법론의 모색이 있다. 정보기술을 통해서 우리는 시간과 공간의 장애를 벗어나서 교육자료를 제공해줄 수 있기 때문이다. 한국에서 인기를 끈 "정의란 무엇인가?"는 하버드 대학교의 강좌가 온라인을 통해서 언제 어디서나 볼 수 있었기에 한국에도 알려졌고 큰 인기를 끌게 되었다는 사실은 이미 유명하다. 한국에서 중고등학생의 기본 옵션이 되어버린 인터넷강의(인강)도 강사가 한 번의 촬영을 통해서 수 많은 학생에게 정보를 전달할 수 있게 해준다. 



물론 디지털 인문학의 출력에서 교육이라는 목적이 강조되고 있으며, 현재로서 가장 성공적인 수단이 인터넷 동영상 강의인 것은 맞다. 그러나 강의는 하나의 지식체계에 대한 전달 방식으로서 유용하다면, 단일 지식 혹은 특수한 지식의 전달 방법에 대한 다양한 시각화의 방법도 끊임 없이 모색되고 있다. 


예를 들어서 모든 의복에 대한 데이터를 모아놓고 분석을 하였더라도 관련 연구자나 사극 작가가 해당 데이터에 손쉽게 접근할 수 없다면 어떻게 쓸모가 있을 수 있겠는가? 데이터를 모으고 분석하는 방법 뿐만이 아니라, 성과를 어떻게 효율적으로 다양한 계층에게 전달하느냐도 인문학의 중요한 목적 중에 하나이다. 




6. 디지털인문학에 대한 오해

본인이 가장 걱정되는 것은 디지털 인문학을 어느 특정 인문학 분야가 선점을 해서 마치 특정 인문학 분야의 방법만이 디지털 인문학의 전부라고 착각하는 것이다. 디지털 인문학의 수집은 현재 문헌정보학이나 기록학에서 선도하고 있고, 디지털 인문학의 분석은 언어학과 사회학에서 선도해가고 있다. 그리고 디지털 인문학의 출력은 교육학의 영역에서 선도해가고 있다. 그리고 각각은 모두가 "디지털 인문학"이라는 이름을 붙이고 있다. 


문헌정보학, 기록학, 언어학, 사회학, 교육학에서 다루고 있는 새로운 방법론은 분명히 디지털 인문학이다. 그러나 착각하지 말아야 될 것은  단순히 디지털화만 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 디지털 분석만을 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 단순히 시각화를 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다.


디지털인문학은 데이터설계-데이터구축-분석-해석-출력의 모든 것을 아우르는 종합학문분과이다.







  1. 디지털만 붙이면 사람들이 무조건 좋게 봐줄 것이라고 생각했나?!....허허허.... [본문으로]

+ Recent posts