세미나 블로그


세미나의 비디오 녹화 (MP4)

세미나의 오디오 녹음 (MP3)

프리젠 테이션 (PDF)



바로 : 저자는 유로피아나, 위키피디아, 유튜브, 피카사, PELAGIOS 등의 다양한 디지털 데이터를 서로 연결하여 EAGLE이라고 하는 고대 그리스어와 라틴어 비문들의 정보를 연결하는 시스템을 제안하고 있다. 문헌정보, 지리정보, 번역정보, 저자정보, 멀티미디어정보 등을 통합하여 고대 그리스어와 라틴어 비문에 대한 정보를 통괄한다면 그것보다 관련 연구자나 산업계에 도움이 되는 것이 있을까? 괜히 산업화를 이야기할 필요도 이유도 없다. 인문학자의 일은 데이터를 제공하는 것이지 데이터로 돈을 버는 것이 아니다.


또 다른 면에서 이런 세미나 자료를 동영상, 음성, PDF로 모두 공개한다는 것이 너무나 부럽다. 본인도 최선을 다해서 관련 내용을 블로그에 올리려고 하지만......아직도 다양한 이유로 공개하지 못하는 자료가 쌓여있는데 말이다. 다음부터 세미나때의 동영상촬영을 건의해볼까나...근데 편집해야되서...귀찮....쿨럭...


문화융성을 위한 규장각과 장서각 기록문화유산 통합관리시스템 구축


대전--(뉴스와이어) 2014년 04월 21일 -- 문화재청(청장 나선화)은 정부3.0과 문화융성을 위해, 규장각한국학연구원(원장 김인걸)과 한국학중앙연구원(원장 이배용) 장서각 소장 중요 기록유산에 대한 DB(Data base) 구축과 이를 연계·통합하여 대국민 서비스하는 사업을 추진한다. 


이번 사업은 2014년부터 2018년까지 5개년으로 추진되는데, 올해는 국민의 관심도가 높고, 기존의 DB 자료와 연계 가능한 조선왕조 의궤, 승정원일기, 동궁일기, 왕실족보, 종묘 관련 고문서 등 조선왕실도서 약 281,558면을 DB 구축한다. 


DB 구축 사업은 원문이미지 → 원문텍스트 → 표점텍스트 구축 순으로 추진한다. 아울러 구축된 자료는 문화재청 국가문화유산포털 내 ‘조선왕실 전자도서관(가칭)’을 개설하여 통합적으로 관리하고 대국민서비스를 시행할 예정이다. 


그동안 규장각한국학연구원과 한국학중앙연구원 장서각에서는 한정적인 예산으로 인하여, 원문이미지, 원문텍스트, 표점텍스트 구축을 동시에 진행하지 못해 불완전한 형태로 서비스됨에 따라 국민이 접근하기에 한계가 있었다. 


이번 사업은 이러한 문제점을 개선하고, 구축된 DB 자료가 궁궐, 향교, 서원 등의 문화행사 고증자료와 교육·학술자료로 활용되어 조선왕실 문화에 대한 이해도를 증진하고, 인문학 대중화에도 이바지할 것으로 기대된다. 


문화재청은 앞으로 문화유산3.0의 기관 간 협업을 통한 효율적인 서비스를 제공하기 위하여, 기록문화유산 소장처를 비롯한 관계기관 간에 유기적인 협업체계를 구축하고, 기록문화유산 연계 기관을 추가로 확대할 계획이다. 그리하여 우리나라의 소중한 문화재를 효율적으로 보존·관리하고, 구축된 기록문화유산 DB 자료가 문화콘텐츠로 활용될 수 있도록 적극적으로 노력해 나갈 예정이다. 


출처: 문화재청



바로 : 서로 다른 기관들이 협동을 해서 통합DB을 구축하는 것은 정부 3.0에 부합하는 행동이다. 과거 정부 3.0이라고 말로만 하면서 기관내의 DB만을 통합하는 것과 다르게 문화재청의 DB와 한국학중앙연구원 장서각 DB 그리고 서울대학교 규장각DB을 통합하는 것이야 말로 진정한 정부 3.0이라고 할 수 있다.


물론 장서각과 규장각의 기록문화유산은 본질적으로 문화재청에게 소유권이 있으며, 장서각과 규장각은 관리권을 위임받고 있기 때문에 현실적으로 비교적 수월하게 성사될 수 있었던 기획이지만, 그렇다고 하더라도 본 계획의 가치가 떨어지지는 않는다고 생각된다.


다만 서로 다른 기관에서 서로 방식으로 관리되어오던 DB을 통합하는 만큼 표준 메타데이터에 대한 설계부터 훗날 더 넓은 범위의 확장을 고려한 LOD 기술의 도입까지 다양한 고민들이 있어야지만 본 계획의 가치가 퇴색되는 일이 없을 것으로 생각된다. 


다시 말해서 단순히 데이터를 모으는 것이 아니라, 정부 3.0에 부합하는 확장성을 가진 오픈데이터를 어떻게 구축하느냐가 핵심인 것을 결코 잊어서는 안될 것이다. 

디지털 인문학에서 사용되는 중요 ICT 기술과 적용사례를 소개해본다. 해당 기술은 디지털 인문학에서 현재 가장 활발하게 사용되고 있는 기술일 뿐이며, 어떠한 ICT 기술도 디지털 인문학에서 활용될 가능성이 있다. 


XML 

XML(Extensible Markup Language)은 W3C에서 다른 특수 목적의 마크업 언어를 만드는 용도에서 권장되는 문서를 사람과 기계 모두가 읽을 수 있는 형식으로 부호화하는 규칙의 집합을 정의한 다목적 마크업 언어이다. XML은 텍스트 데이터 형식으로 유니코드를 통한 전 세계 언어를 지원할 뿐만이 아니라, 임의 자료구조에도 대응할 수 있도록 설계되어 있다. 이는 인문-사회학에서 진행되는 대부분의 연구가 다양한 언어와 형식의 자료를  바탕으로 진행되는 현실과 부합하기에 인문학 연구의 기초적인 데이터베이스 구축에 가장 적합한 ICT 기술로 생각되고 있다. 



[XML예시] 


해외의 디지털 인문학 연구에서 XML은 기본 언어로 다루어지고 있다. 다만 언어학 영역에서는 XML과 같이 SGML에서 파생된 TEI(Text Encoding Initiative)을 바탕으로 한 코퍼스 연구가 진행되고 있다. XML이나 TEI 모두 같은 SGML에서 파생되었기에 상호간의 호환이 가능하다. 


한국에서는 1995년 서울시스템주식회사(현 (주)솔트웍스)에서 CD-ROM <국역 조선왕조실록>과 <디지털 한국민족문화대백과사전>에 XML을 도입하기 시작한 이후로 한국고전종합DB을 비롯한 다양한 인문학 프로젝트에서 채용되고 있다. 그러나 한국 인문학 프로젝트의 ICT 기술편차로 인하여 다양한 인문학 프로젝트에서 XML 기술을 활용하지 못하고, 단순한 Text 데이터만을 제출하였다. 그 결과 재활용이 가능한 인문학 데이터베이스가 축적되지 못하였다. 




말뭉치(코퍼스, corpus)

말뭉치는 디지털 인문학의 주요 근원이 된 말뭉치 언어학(코퍼스 언어학)의 기초 기술이다. 말뭉치는 언어학에서 크고 구조를 이루고 있는 텍스트의 집합을 의미한다.  국제적으로 통용되는 말뭉치 언어는 SGML 기술의 일종인 TEI이다. 연구자들은 말뭉치를 통해서  빈도 정보를 획득한 이후에 연어 연구, 변이 연구, 비교 언어학 연구, 언어 교육, 사전 편찬등의 영역에서 신빙성 있는 증거자료로서 활용하고 있다.  


해외에서는 1963년 브라운 말뭉치 구축을 기점으로 1억 어절의 말뭉치를 구축한 BNC(British National Corpus)와 유럽 다국어 말뭉치(European Corpus Initiative Multilingual Corpus) 및 4억 어절을 구축한 COCA(Corpus of Contemporary American English) 등이 지속적으로 구축되고 있다. 코퍼스는 다양하게 활용되고 있지만, 언어학 내부의 활용이 아닌 인문학 전체에 대한 활용으로는 타이완역사 디지털도서관(台灣歷史數位圖書館, THDL)이 있다. 타이완역사 디지털 도서관에서는 1621년부터 1911년 사이의 250종류의 자료소스를 바탕으로 언어학의 분석 이론을 통하여 타이완의 근현대 사회상을 규명하고 있다. 예를 들어서 언어학의 접사분석모델을 이용하여 “主義”의 전방접사의 시대별 빈도를 추출해주고 있다. 특히 개념사 영역의 역사 연구자들은 특정 단어의 전방접사 빈도를 통하여 당시의 시대상과 용어의 변천에 대해서 규명하고 있다. 



[타이완역사 디지털도서관 - 主義 검색결과]


한국에서는 1987년 연세대학교의 연세 한국어 말뭉치가 구축된 이후에 1998년부터 “21세기 세종 계획 : 국어정보화 추진 중장기 사업”의 일환으로 국가차원에서 말뭉치가 구축되고 있다.  또한 서울대학교 꼬꼬마 프로젝트나 연세대의 깜짝새 프로그램 등 다양한 한글 자료 처리 프로그램들의 구축되어서 연구자들의 연구를 도와주고 있다. 그러나 한국의 말뭉치는 아직 언어학 내부의 방법론으로서만 활용되고 있으며, 다른 인문학 연구 영역에서는 활용도가 떨어진다고 할 수 있다. 




지리 정보 시스템(GIS, Geographic information system)

지리 정보 시스템은 지리공간적으로 참조가능한 모든 형태의 정보를 효과적으로 수집, 저장, 갱신, 조정, 분석, 표현 할 수 있도록 설계된 컴퓨터의 하드웨어와 소프트웨어 및 지리적 자료, 인적 자원의 통합체이다. 지리 정보 시스템은 1960년대부터 토지이용, 기상관측, 동식물연구 등의 다양한 영역에서 활용되어 왔다. 현재는 컴퓨터 기술의 발달과 더불어 구글 지도, 다음 지도, 네이버 지도와 같이 일반대중에게도 널리 활용되고 있다. 그러나 인문학 영역에서는 기술에 대한 능력 부족으로 시각화 영역에 한정되어서 사용되고 있으며, 지리 정보 시스템을 활용한 자료의 수집과 분석의 영역은 실험적인 단계이다. 


중국역사GIS(China Historical GIS, CHGIS, 中国历史地理信息系统)는 2001년부터 하버드 엔칭연구소와 복단대 역사지리연구소가 연합하여 하상주부터 민국시대까지 중국역사에 등장하는 모든 지명을 좌표점과 좌표면으로 시간축상에 표기하는 역사지리토대DB 구축 프로젝트이다. 중국의 고지명과 해당 고지명의 시간과 공간을 명시함으로써 인문학 연구에서의 지리적 토대를 마련했다. 



[China Historical GIS]


한국에서도 중국역사GIS와 유사한 개념으로 고려대학교 민족문화연구소가 중심이 되어서 조선시대 전자문화지도 시스템을 구축하였다. 조선시대 문화를 대상으로 하여 전자문화지도를 개발하고, 전자문화지도 개념을 응용하여 조선시대를 문화를 연구한다. 2년간 조선시대 문화를 주제별로 분류하고, 조선시대의 군현별 행정 구역을 초ㆍ중ㆍ후기로 나누어 복원하였으며 총 25개 주제에 대한 데이터베이스를 구축하였다. 그리고 그 연장선에서 현재 동북아역사재단의 주관으로 동북아시아 전자역사지도 개발을 진행중에 있다. 그러나 조선시대 전자문화지도 시스템은 유지보수가 이루어지지 않고, 데이터도 비공개로 되어 있어서 한계를 보이고 있으며, 동북아시아 역사지도는 아직 개발 단계에 있다. 


문화재청에서 주관한 문화재공간정보서비스는 문화재정보와 지도정보가 결합한 공간정보 활용체계이다. 문화재 위치정보, 속성정보에 대한 공간데이타베이스와 활용시스템을 구축하여 문화재 보존관리를 위한 의사결정을 지원하고, 위치정보를 기반으로 문화유산 콘텐츠 활용이 가능하도록 구축된 정보시스템이다. 문화재의 사진 및 도면, 영상, 설명등의 속성정보가 위성기반의 위치정보와 함께 결합되어 HGIS 지도 서비스 제공하고 있어서 연구적 가치 뿐만이 아니라 실용적 경제 가치도 뛰어나다.



[문화재공간정보서비스]




LOD(Linked open data, 링크드 데이터)

링크드 데이터는 웹 상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고, 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 모형이다. 디지털 인문학에서는 현재 산발적으로 진행되는 디지털 인문학 성과들을 통합하기 위한 방법으로서 각광 받고 있다. 



[LOD 다이어그램]


유로피아나(Europeana)는 유럽 연합의 전자 도서관 프로젝트이다. 선사시대부터 현대까지 유럽의 문화와 과학 유산을 종합하여 모든 사람들이 접근 가능한 데이터베이스를 만든다는 목적으로 유럽 문화에 관한 디지털화된 서적, 회화, 영화, 음악, 유물 등 모든 형태의 콘텐츠를 서비스하고 있다. 콘텐츠는 단순한 데이터모음이 아닌 EDM(the Europeana Data Model)으로 불리는 표준방식을 이용하여 대영박물관, 루브르 박물관 등 2000여 소의 관련 기관들에서 제공하는 정보를 통합데이터로 만들어 제공하고 있다. 



[유로피아나]


한국에서는 국사편찬위원회의 한국역사정보통합시스템을 통해서 한국고전번역원, 한국금석문 종합영상정보시스템, 조선왕조실록, 규장각 한국학연구원 등의 연계싸이트들로부터 데이터를 통합하여 한국 역사자료를 체계적이고 종합적으로 제공하고 있다. 연구자들은 개별 싸이트에 방문할 필요 없이 한국역사정보통합시스템을 통해서 통합적인 한국역사정보를 제공 받을 수 있다. 




[한국역사정보통합시스템]




사회 연결망(Social Network)

사회 연결망은 사회학에서 개인, 집단, 사회의 관계를 네트워크로 파악하는 개념이다. 즉 개인 또는 집단이 네트워크의 노드(node)이며, 개인과 집단 간의 연결 관계는 링크(link)로 표현한다. 연구자는 네트워크에서 노드와 링크의 관계를 파악하고, 그 의미를 연구하여 사회의 구조를 파악하는데 활용하고 있다. 


해외에서는 CBDB(China Biographical Database Project, 中國歷代人物傳記資料庫)가 대표적인 인문학적 사회 연결망 프로젝트라고 할 수 있다. CBDB는 중국역대인물들의 정보를 검색하고 활용할 수 있도록 하버드 옌칭연구소가 시스템을 지원하고, 중국 북경대학교에서 데이터베이스를 마련한 데이터베이스이다. 본 데이터 베이스는 인물의 생몰년뿐만이 아니라 지역, 관직, 저작 및 인물관계를 제공하고 있으며, 중국 역대 인물들의 모든 데이터 베이스를 제공하는데 목적을 두고 있다.  



[China Biographical Database Project(中國歷代人物傳記資料庫)]


한국에서는 성균관대의 한국족보자료시스템에서 족보에 수록된 혈연관계를 바탕으로 관계망을 구축하고 있다. 그러나 족보 정보에 한정되어 있으며 타 가문과의 연계정보도 극히 제한적으로만 제공하고 있기에 실험적인 단계에 멈추고 있다. 현재 성균관대 동아시아학술원은 고대 동아시아의 간찰(편지) 정보를 바탕으로 동아시아 교류 네트워크를 구성하는 사업을 추진중에 있다. 



[한국족보자료시스템]

서울--(뉴스와이어) 2014년 01월 23일 -- 미래창조과학부와 한국정보화진흥원은 ‘13년 국가DB 사업을 통해 웹기반 데이터 공유기술인 LOD(Linked Open Data)기술을 적용한 한국사DB 및 생물정보DB 구축 사업을 완료하였다. 


이번사업은 DB구축에 LOD기술을 최초 적용한 시범사업으로 보다 진보된 형태의 데이터 기반을 제공함으로써 일반 국민이 정제되고 융합된 데이터를 활용 할 수 있도록 신기술이 도입되었다. 


LOD기술은 기존의 웹을 문서뿐만 아니라 데이터들도 상호 연결(링크)시켜 웹을 하나의 거대한 데이터베이스처럼 활용할 수 있게 하는 것으로 www(월드와이드웹)의 창시자인 팀버너스리에 의해 정의되어 최근 빠르게 성장하고 있다. 


기존 정보시스템의 검색키워드 중심의 정보검색은 필요한 정보 외에 불필요한 정보들까지 함께 검색되기 때문에 사용자가 한번 더 정보를 가려내야 하지만, LOD기반의 정보시스템에서는 기계가 데이터간의 연관정보를 활용하여 분석하기 때문에 보다 정확하고 정제된 정보를 사용자에게 전달할 수 있다. 


한국사DB는 국사편찬위원회, 한국학중앙연구원의 민족문화대백과사전, 문화재청의 유물/유적 데이터 등 국내 한국사와 관련된 자료를 통합하여 정보의 접근성과 사용편이성을 확보하였다. 


예를 들어, 그동안 강감찬 장군에 관한 교육용 동영상 콘텐츠 제작을 위해서는 다양한 역사기관의 서비스에서 ‘강감찬’을 검색하고 관련내용을 다운받아 사용해야 했지만, LOD를 이용하면 ‘강감찬’과 관련된 분산된 연관자료를 한번에 검색하여 사용할 수 있다. 


또한, LOD 적용 과정에서 역사교과서 및 한국사 관련 주요 주제에 전문가 해설을 추가함으로써 역사 드라마, 영화 등의 한류콘텐츠와 역사교육자료로 활용될 것으로 기대된다. 


생물정보DB는 국가자연사 연구종합 정보시스템과 국가 생물종 지식정보시스템에 분산된 생물정보를 통합하여 단일창구를 제공함으로써 생물자원정보에 대한 접근성이 향상되었다. 


만약, 이용자가 ‘노랑부리백로’라는 정보를 검색한다면 ‘노랑부리백로’가 ‘백로속’에 속하는 척추동물이며, ‘백로’가 주로 ‘붕어’를 먹기 때문에 ‘붕어’가 서식하고 있는 ‘하천’에 ‘노랑부리백로’가 서식한다는 연관데이터 추출이 가능하여 향후 전자교과서 등 다양한 활용이 가능할 것으로 보인다. 


아울러, 그동안은 개별DB간에 연계가 어려웠으나 LOD 기술로 한국사DB와 생물정보DB간의 연동이 가능하여 생물정보 중 ‘소나무’를 검색했을 때 ‘경국대전에 따르면 일반인은 소나무의 벌채를 금하고 있다’라는 ‘경국대전’에 대한 연관정보와 이것을 ‘정도전’이 찬술했다는 연관정보를 제공함으로써 ‘소나무→경국대전→정도전’으로 이어지는 한국사정보까지 찾아낼 수 있게 될 것이다. 


최근 오픈데이터(정부3.0)는 링크드데이터(LOD)로 진화하고 있는 단계로, LOD기술은 향후 데이터 융·복합 비즈니스 창출, 빅데이터 분석 등 다양한 분야에 활용될 것으로 예상된다. 


실제로 미국과 유럽의 데이터개방 플랫폼에서 LOD방식으로 데이터를 제공하는 등 전 세계적으로 활용되고 있으나, ‘13년 실시한 국내 시장조사 결과에 따르면 국내에서는 아직 LOD에 대한 인식이 상대적으로 낮은 것으로 파악되었다. 


따라서, 미래부는 국가DB 구축 사업을 통해 LOD 적용 과제도 점차 확대해 나가는 한편, LOD기술에 대한 홍보와 더불어 LOD구축가이드를 마련하여 보다 쉽게 LOD를 구축·활용할 수 있도록 지원할 계획이다.

출처: 미래창조과학부



바로 : LOD의 핵심은 공유이다. 만약 수집되고 정리된 데이터가 공유되지 못한다면 LOD을 안하느니만 못한 상황이 된다. 그런데 미래창조과학부의 해당 뉴스자료에는 구체적인 데이터 베이스 접속 방법에 대한 이야기가 없다. 또한 한국사데이터베이스쪽에서도 데이터 공유에 대한 내용이 없다.


미래할 선도할 LOD 적용이 진정한 효과를 발휘하기 위해서...개방적인 데이터 이용이 가능했으면 하는 마음뿐이다. ^^



+ Recent posts