디지털 인문학에서 사용되는 중요 ICT 기술과 적용사례를 소개해본다. 해당 기술은 디지털 인문학에서 현재 가장 활발하게 사용되고 있는 기술일 뿐이며, 어떠한 ICT 기술도 디지털 인문학에서 활용될 가능성이 있다. 


XML 

XML(Extensible Markup Language)은 W3C에서 다른 특수 목적의 마크업 언어를 만드는 용도에서 권장되는 문서를 사람과 기계 모두가 읽을 수 있는 형식으로 부호화하는 규칙의 집합을 정의한 다목적 마크업 언어이다. XML은 텍스트 데이터 형식으로 유니코드를 통한 전 세계 언어를 지원할 뿐만이 아니라, 임의 자료구조에도 대응할 수 있도록 설계되어 있다. 이는 인문-사회학에서 진행되는 대부분의 연구가 다양한 언어와 형식의 자료를  바탕으로 진행되는 현실과 부합하기에 인문학 연구의 기초적인 데이터베이스 구축에 가장 적합한 ICT 기술로 생각되고 있다. 



[XML예시] 


해외의 디지털 인문학 연구에서 XML은 기본 언어로 다루어지고 있다. 다만 언어학 영역에서는 XML과 같이 SGML에서 파생된 TEI(Text Encoding Initiative)을 바탕으로 한 코퍼스 연구가 진행되고 있다. XML이나 TEI 모두 같은 SGML에서 파생되었기에 상호간의 호환이 가능하다. 


한국에서는 1995년 서울시스템주식회사(현 (주)솔트웍스)에서 CD-ROM <국역 조선왕조실록>과 <디지털 한국민족문화대백과사전>에 XML을 도입하기 시작한 이후로 한국고전종합DB을 비롯한 다양한 인문학 프로젝트에서 채용되고 있다. 그러나 한국 인문학 프로젝트의 ICT 기술편차로 인하여 다양한 인문학 프로젝트에서 XML 기술을 활용하지 못하고, 단순한 Text 데이터만을 제출하였다. 그 결과 재활용이 가능한 인문학 데이터베이스가 축적되지 못하였다. 




말뭉치(코퍼스, corpus)

말뭉치는 디지털 인문학의 주요 근원이 된 말뭉치 언어학(코퍼스 언어학)의 기초 기술이다. 말뭉치는 언어학에서 크고 구조를 이루고 있는 텍스트의 집합을 의미한다.  국제적으로 통용되는 말뭉치 언어는 SGML 기술의 일종인 TEI이다. 연구자들은 말뭉치를 통해서  빈도 정보를 획득한 이후에 연어 연구, 변이 연구, 비교 언어학 연구, 언어 교육, 사전 편찬등의 영역에서 신빙성 있는 증거자료로서 활용하고 있다.  


해외에서는 1963년 브라운 말뭉치 구축을 기점으로 1억 어절의 말뭉치를 구축한 BNC(British National Corpus)와 유럽 다국어 말뭉치(European Corpus Initiative Multilingual Corpus) 및 4억 어절을 구축한 COCA(Corpus of Contemporary American English) 등이 지속적으로 구축되고 있다. 코퍼스는 다양하게 활용되고 있지만, 언어학 내부의 활용이 아닌 인문학 전체에 대한 활용으로는 타이완역사 디지털도서관(台灣歷史數位圖書館, THDL)이 있다. 타이완역사 디지털 도서관에서는 1621년부터 1911년 사이의 250종류의 자료소스를 바탕으로 언어학의 분석 이론을 통하여 타이완의 근현대 사회상을 규명하고 있다. 예를 들어서 언어학의 접사분석모델을 이용하여 “主義”의 전방접사의 시대별 빈도를 추출해주고 있다. 특히 개념사 영역의 역사 연구자들은 특정 단어의 전방접사 빈도를 통하여 당시의 시대상과 용어의 변천에 대해서 규명하고 있다. 



[타이완역사 디지털도서관 - 主義 검색결과]


한국에서는 1987년 연세대학교의 연세 한국어 말뭉치가 구축된 이후에 1998년부터 “21세기 세종 계획 : 국어정보화 추진 중장기 사업”의 일환으로 국가차원에서 말뭉치가 구축되고 있다.  또한 서울대학교 꼬꼬마 프로젝트나 연세대의 깜짝새 프로그램 등 다양한 한글 자료 처리 프로그램들의 구축되어서 연구자들의 연구를 도와주고 있다. 그러나 한국의 말뭉치는 아직 언어학 내부의 방법론으로서만 활용되고 있으며, 다른 인문학 연구 영역에서는 활용도가 떨어진다고 할 수 있다. 




지리 정보 시스템(GIS, Geographic information system)

지리 정보 시스템은 지리공간적으로 참조가능한 모든 형태의 정보를 효과적으로 수집, 저장, 갱신, 조정, 분석, 표현 할 수 있도록 설계된 컴퓨터의 하드웨어와 소프트웨어 및 지리적 자료, 인적 자원의 통합체이다. 지리 정보 시스템은 1960년대부터 토지이용, 기상관측, 동식물연구 등의 다양한 영역에서 활용되어 왔다. 현재는 컴퓨터 기술의 발달과 더불어 구글 지도, 다음 지도, 네이버 지도와 같이 일반대중에게도 널리 활용되고 있다. 그러나 인문학 영역에서는 기술에 대한 능력 부족으로 시각화 영역에 한정되어서 사용되고 있으며, 지리 정보 시스템을 활용한 자료의 수집과 분석의 영역은 실험적인 단계이다. 


중국역사GIS(China Historical GIS, CHGIS, 中国历史地理信息系统)는 2001년부터 하버드 엔칭연구소와 복단대 역사지리연구소가 연합하여 하상주부터 민국시대까지 중국역사에 등장하는 모든 지명을 좌표점과 좌표면으로 시간축상에 표기하는 역사지리토대DB 구축 프로젝트이다. 중국의 고지명과 해당 고지명의 시간과 공간을 명시함으로써 인문학 연구에서의 지리적 토대를 마련했다. 



[China Historical GIS]


한국에서도 중국역사GIS와 유사한 개념으로 고려대학교 민족문화연구소가 중심이 되어서 조선시대 전자문화지도 시스템을 구축하였다. 조선시대 문화를 대상으로 하여 전자문화지도를 개발하고, 전자문화지도 개념을 응용하여 조선시대를 문화를 연구한다. 2년간 조선시대 문화를 주제별로 분류하고, 조선시대의 군현별 행정 구역을 초ㆍ중ㆍ후기로 나누어 복원하였으며 총 25개 주제에 대한 데이터베이스를 구축하였다. 그리고 그 연장선에서 현재 동북아역사재단의 주관으로 동북아시아 전자역사지도 개발을 진행중에 있다. 그러나 조선시대 전자문화지도 시스템은 유지보수가 이루어지지 않고, 데이터도 비공개로 되어 있어서 한계를 보이고 있으며, 동북아시아 역사지도는 아직 개발 단계에 있다. 


문화재청에서 주관한 문화재공간정보서비스는 문화재정보와 지도정보가 결합한 공간정보 활용체계이다. 문화재 위치정보, 속성정보에 대한 공간데이타베이스와 활용시스템을 구축하여 문화재 보존관리를 위한 의사결정을 지원하고, 위치정보를 기반으로 문화유산 콘텐츠 활용이 가능하도록 구축된 정보시스템이다. 문화재의 사진 및 도면, 영상, 설명등의 속성정보가 위성기반의 위치정보와 함께 결합되어 HGIS 지도 서비스 제공하고 있어서 연구적 가치 뿐만이 아니라 실용적 경제 가치도 뛰어나다.



[문화재공간정보서비스]




LOD(Linked open data, 링크드 데이터)

링크드 데이터는 웹 상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고, 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 모형이다. 디지털 인문학에서는 현재 산발적으로 진행되는 디지털 인문학 성과들을 통합하기 위한 방법으로서 각광 받고 있다. 



[LOD 다이어그램]


유로피아나(Europeana)는 유럽 연합의 전자 도서관 프로젝트이다. 선사시대부터 현대까지 유럽의 문화와 과학 유산을 종합하여 모든 사람들이 접근 가능한 데이터베이스를 만든다는 목적으로 유럽 문화에 관한 디지털화된 서적, 회화, 영화, 음악, 유물 등 모든 형태의 콘텐츠를 서비스하고 있다. 콘텐츠는 단순한 데이터모음이 아닌 EDM(the Europeana Data Model)으로 불리는 표준방식을 이용하여 대영박물관, 루브르 박물관 등 2000여 소의 관련 기관들에서 제공하는 정보를 통합데이터로 만들어 제공하고 있다. 



[유로피아나]


한국에서는 국사편찬위원회의 한국역사정보통합시스템을 통해서 한국고전번역원, 한국금석문 종합영상정보시스템, 조선왕조실록, 규장각 한국학연구원 등의 연계싸이트들로부터 데이터를 통합하여 한국 역사자료를 체계적이고 종합적으로 제공하고 있다. 연구자들은 개별 싸이트에 방문할 필요 없이 한국역사정보통합시스템을 통해서 통합적인 한국역사정보를 제공 받을 수 있다. 




[한국역사정보통합시스템]




사회 연결망(Social Network)

사회 연결망은 사회학에서 개인, 집단, 사회의 관계를 네트워크로 파악하는 개념이다. 즉 개인 또는 집단이 네트워크의 노드(node)이며, 개인과 집단 간의 연결 관계는 링크(link)로 표현한다. 연구자는 네트워크에서 노드와 링크의 관계를 파악하고, 그 의미를 연구하여 사회의 구조를 파악하는데 활용하고 있다. 


해외에서는 CBDB(China Biographical Database Project, 中國歷代人物傳記資料庫)가 대표적인 인문학적 사회 연결망 프로젝트라고 할 수 있다. CBDB는 중국역대인물들의 정보를 검색하고 활용할 수 있도록 하버드 옌칭연구소가 시스템을 지원하고, 중국 북경대학교에서 데이터베이스를 마련한 데이터베이스이다. 본 데이터 베이스는 인물의 생몰년뿐만이 아니라 지역, 관직, 저작 및 인물관계를 제공하고 있으며, 중국 역대 인물들의 모든 데이터 베이스를 제공하는데 목적을 두고 있다.  



[China Biographical Database Project(中國歷代人物傳記資料庫)]


한국에서는 성균관대의 한국족보자료시스템에서 족보에 수록된 혈연관계를 바탕으로 관계망을 구축하고 있다. 그러나 족보 정보에 한정되어 있으며 타 가문과의 연계정보도 극히 제한적으로만 제공하고 있기에 실험적인 단계에 멈추고 있다. 현재 성균관대 동아시아학술원은 고대 동아시아의 간찰(편지) 정보를 바탕으로 동아시아 교류 네트워크를 구성하는 사업을 추진중에 있다. 



[한국족보자료시스템]

+ Recent posts