도쿄대학 지식의 구조화 센터(東京大学知の構造化センタ)에서 일본을 대표하는 사상 철학 처널인 이와나미 서점의 「사상(思想)」을 대상으로 디지털인문학의 방법론을 동원하여 연구한 프로젝트이다. 디지털 방법론의 1단계로 종이문서로 되어 있는 “사상(思想)”을 OCR 기술을 이용하여 디지털화하였다. 그 이후 디지털화 된 “사상(思想)” 텍스트에 대하여 자체 제작한 온톨로지 시스템 MIMA서치(MIMAサーチ)을 활용하여 말뭉치(코퍼스) 분석을 하여 그 결과를 시각화하였다. 


일본 잡지 사상의 구조화(「思想」の構造化) http://www.cks.u-tokyo.ac.jp/p1.html 


Mirador는 복합데이터(빅데이터)을 시각적으로 간단하게 분석을 할 수 있는 툴이다. 데이터 간의 최종 해석이야 인간이 할 수 밖에 없지만, 유의미하다고 판단할 수 있는 수 많은 연관 패턴을 제시함으로써 인간의 해석을 도와줄 수 있는 툴이다. 



Mirador 홈페이지 : http://fathom.info/mirador/


Mirador 소개 : http://codeanticode.wordpress.com/2014/06/18/finding-correlations/

세계일보에서 디지털 시대의 사전편찬의 문제를 제기하였다. (네이버 국어사전 따로 국어원 표준사전 따로?“포털, 국어사전 발전에 기여해야” 95%이 많은 사전 속에 韓流·다문화가 없다고?) 모든 학문은 문사철로 귀결된다는 말이 있다. 언어가 없으면 의사소통이 불가능하고, 철학이 없으면 학문이 성립되지 않으며, 역사가 없으면 학문이 유지되지 못하기 때문이다. 그 중에서 기본 중에 기본이 되는 것이 언어이다. 그리고 언어의 토대 중에 토대가 사전이기에 세계일보의 이번 기획기사는 상당한 의미가 있다고 생각된다.




1. 한국의 사전 편찬 현황 

국립국어원이 한국어에 대한 최고권한을 가지고 있다. 또한 한국의 모든 사전은 국립국어원으로 귀속된다. 일반적인 국어사전 뿐만이 아니라, 과학기술용어사전이나 조선왕조실록사전과 같은 전문사전도 모두 국립국어원이 최고권한을 가지고 있고, 해당 사전 데이터를 획득할 수 있는 법적 보장을 받고 있다. 


국립국어원의 사전에 대한 막강한 권리는 긍정적인 측면과 부정적인 측면 모두를 가지고 있다. 우선 "표준어"을 위해서는 국립국어원과 같은 존재가 반드시 필요하다. "표준어"라는 말 자체가 강력한 표준규칙을 요구하고 있기 때문이다. 극단적으로 국립국어원과 같은 존재가 없으면 표준어가 사라지고, 한국인끼리도 서로 의사소통이 되지 않는 상황에 직면할 수도 있다. 


문제는 국립국어원이 모든 것을 관리할 수 없음에도 불구하고, 모든 것을 관리하려고 하기에 문제가 발생한다. 모든 사전을 자신에게 귀속하지만, 모든 사전을 검수할 수 있는 인력과 재정능력은 부족하다. 그렇다면 자신의 권한을 위임하는 형식으로 권한 혹은 권력을 나누어주어야 하지만, 자신의 영역을 결코 내어주지는 않는다.



2. 디지털 사전 vs 종이 사전

한국 뿐만이 아니라 세계의 사전 모두가 디지털 사전의 승리로 이미 방점을 찍었다. 상징적인 사건은 위키백과 사전의 패권장악과 브리태니커 백과사전의 종이 사전 출판 중단과 온라인 전환이라고 할 수 있다. 한국도 특히 포털에서 제공하는 사전들로 인하여 종이사전은 사실상 멸절하였다. 


디지털 사전은 종이 사전의 모든 기능을 포괄할 뿐만이 아니라, 더 빠른 검색, 더 빠른 교정-교열, 더 빠른 새로운 단어 추가, 더 효율적인 연관단어 기능 제공, 이론적으로 무한대에 가까운 지면 한계을 제공한다. 디지털 사전은 선택하지 않는 것이 바보짓으로 보일 수 밖에 없다. 


문제는 디지털 사전의 확장으로 종이 사전이 몰락한 것이야 당연한 시대의 흐름이지만, 종이 사전에서 사전을 편찬하던 인력들이 디지털 사전으로 진입하지 못하고 같이 몰락해버렸다는 점이다. 그로 인하여 새로운 단어에 대한 추가가 느려지거나 힘들어졌고, 디지털 사전의 기본이 되는 국립국어원의 디지털 사전의 업데트도 정체되었다. 



3. 디지털 사전의 발전 방향

3.1. 열린 국립국어원 구축

국립국어원은 모든 사전의 기본이 되는 데이터를 수집하고 보유하고 있다. 문제는 정작 국립국어원은 자신의 데이터를 정부 3.0에 부합하도록 오픈하고 있지 않다. 그 뿐만이 아니라, 디지털 마인드를 가진 정책과 전략이 부재할 뿐만이 아니라, 다양한 피드백들을 인력과 재정능력의 한계로 처리하지 못하고 있다. 


예를 들어서 네이버 사전은 기본적으로 국립국어원 사전을 가지고 왔다. 그러나 네이버측은 어디까지나 국립국어원과의 계약을 통해서 전체 데이터베이스를 가지고 왔을 뿐이다. 정부 3.0에 부합하려면 국립국어원은 공공데이터인 사전정보에 대한 오픈데이터베이스를 구축했어야 했다. 만약 오픈데이터베이스가 있다면 국립국어원의 수정 내용은 곧장 네이버 사전에 반영되었을 것이다.


또한 네이버 사전은 사전 데이터의 오류에 대한 수 많은 사용자들의 피드백에 대해서 지속적으로 정오표를 발표하고 데이터를 수정하고 있다. 그러나 이렇게 수정된 정보는 네이버만이 가지고 있는 정보일 뿐이고, 다시 국립국어원으로 제대로 흡수되고 있지 않다. 


한국의 사전의 중심은 국립국어원이다. 국립국어원이 디지털 사전으로의 발전을 추동하지 못하면, 다른 곳도 자연스럽게 정체될 수 밖에 없다. 만약 지금과 같은 상황이 지속되면 국립국어원의 강력한 권한에 대한 의문과 비판이 강력해질 것이다.



3.2. 사전 편찬의 연구 성과 인정과 원고료 인상

사전 편찬을 하는 인원은 기본적으로 학자들이다. 해당 영역을 연구해온 학자들이 학문의 성과를 사회로 환원하는 가장 기본적이며 강력한 방법이다. 그런데 사전 편찬은 학자들의 연구 성과로 인정되지 못하고 있다. 그러다보니 경쟁이 치열해진 학자들의 사전 편찬 참여는 점차 저조해질 수 밖에 없다. 또한 사전 편찬에 투입되는 원교료 예산도 거의 증액되지 못하고 있기에 참여율은 더더욱 저조해진다. 그 뿐만이 아니라, 원고의 질이 저하되는 현상도 분명히 발생하고 있다. 


물론 학문의 의무인 성과의 사회환원으로 채찍질을 하며 학자들의 사전 편찬을 지속적으로 유도하고 있는 있으나 채찍질로만은 한계가 있을 수 밖에 없다. 연구 성과 인정과 원고료 인상이라는 현실적인 당근이 절실히 필요한 상황이다.



3.3. 디지털 시대에 부합하는 사전편찬 방법론 개발

디지털 시대에는 디지털 시대에 적합한 새로운 사전 편찬 방법론이 필요하다. 국립국어원이 사전의 허브가 되는 것은 현실적으로 당연한 일이다. 문제는 국립국어원이 디지털 시대에 부합하는 사전 허브인가에 대해서는 의문이 강력하게 제기된다는 점이다.


개인적으로 국립국어원은 위키백과의 성공을 반드시 벤치마킹해야된다고 생각한다. 위키백과는 완전한 공개편집 시스템을 사용하여 빠른 단어 추가와 빠른 교정-교열을 가능하게 하였다. 물론 그로 인하여 사전 항목들의 검증의 부정확이나 공신력의 저하등의 문제들이 존재한다. 그렇다면 국립국어원은 자신들이 보유하고 있는 사전 필진 정보를 통하여 제한적인 오픈사전을 제작함으로써 위키백과의 장점을 흡수하고 단점을 배제할 수 있을 것으로 보인다. 또한 전문사전의 위탁 편찬 및 위탁 관리를 통해서 정부 3.0에 부합하는 효율적인 시스템을 구축할 수 있다. 


물론 학계의 자기 반성과 디지털 시대에 부합하는 사전편찬 방법론 채택도 반드시 필요하다. 기존의 전통적인 사전편찬 방법론에만 매몰되어 디지털 시대와 동 떨어져 있는 것이 학계의 현실이다. 학계는 학문의 성과를 사회로 환원하는 것이 학문의 기본적인 역할 중에 하나라는 점을 분명히 인지하고, 현재의 사회가 디지털 시대에 이미 돌입했다는 분명히 인지하고, 디지털 시대에 학문이 해야될 일을 생각하고 또 행동해야 할 것이다.




바로 : 응?? 오랜만에 괜찮은 기획기사를 읽고 이런저런 생각을 해보았다....세계일보 굿!! -0-




VOYANT는 웹기반 말뭉치(코퍼스) 분석 시스템이다. 텍스트를 직접 입력하여 분석하거나, 대용량 문서의 경우 문서파일을 업로드하여 분석을 진행할 수도 있다. 정교한 말뭉치(코퍼스)분석까지는 불가능하지만, 일반적인 태그클라우드, 단어출현빈도, 단어전후위어 분석 등은 효율적인 인터페이스(UI)을 통해서 사용자에게 제공하고 있다. 다만 영어에 대한 분석만을 지원하고 있다. 


http://voyeurtools.org/


바로 : 같은 방식의 한국어 웹기반 말뭉치 분석 시스템도 구축가능할듯 하다. 이쪽은 언어학계열에서 만들지 않을까?! 본인에게는 직접적인 관심사가 아니라...^^:::







2014년 6월 27일 한국학중앙연구원과 국립중앙도서관은 MOU을 체결하고 한국학중앙연구원의 인물정보와 국립중앙도서관의 문헌 정보를 연계하기로 하였다. 


구체적으로  한국학중앙연구원의 역대인물정보시스템(http://people.aks.ac.kr/)과 국립중앙도서관 지식정보 통합검색 사이트인 ‘디브러리(http://www.dibrary.net/)가 연계된다. 이를 통해서 국립중앙도서관은 문헌자료의 저자와 편자 정보를 손쉽게 얻을 수 있고, 한국학중앙연구원은 인물에 대한 문헌 정보를 손쉽게 받아볼 수 있다. 


개인적으로 정부 3.0 정책에 부합하는 인문학계의 성공적인 사례가 될 것으로 기대하고 있다. 


관련 뉴스 : 

국립중앙도서관·한국학중앙연구원, 한국학 대중화 '윈윈'

국립중앙도서관 홈페이지, 한국학중앙연구원 9만명 역대인물 정보 연계

국립중앙도서관, 한국학중앙연구원과 MOU


PELAGIOS는 로마시대의 문헌 데이터를 구축하고, 문헌 데이터에 등장하는 지명을 GIS(지리정보시스템)과 연동했다. 문헌데이터는 W3C의 Open Annotation Data Model(오픈 주석 데이터 모델)을 채용하였다. 


지리정보 연동 시스템 : http://pelagios.org/recogito/map?doc=1

문헌 데이터 : http://www.christusrex.org/www1/ofm/pilgr/bord/10Bord01Lat.html#583

구축 설명01 : http://pelagios-project.blogspot.kr/2014/06/what-have-romans-ever-mapped-for-us.html

구축 설명02 : http://pelagios-project.blogspot.co.uk/2014/01/theres-pliny-of-room-at-bottom-1.html



지리정보 매칭 시스템


지리정보 매칭시스템



기존 인문학의 산업화와 디지털인문학의 산업화는 무엇이 다를까? 기존 인문학의 산업화는 자료를 인문학자가 전통 인문학 결과물(논문, 사전 등)으로 생산을 하고, 이를 정보공학자가 디지털화 하여 데이터 베이스로 만드는 중간과정 이후에나 사업가들에 의해서 경제적으로 활용된다. 물론 사업자들이 직접적으로 전통적인 인문학결과물에 접근하는 경우도 있으나, 방대한 인문학 결과물을 사업자가 모두 파악하는 것은 불가능에 가깝다.


이에 비해서 디지털인문학의 산업화 개념은 "디지털인문학자"가 핵심 키워드로 등장을 한다. "디지털인문학자"는 디지털 지식을 갖춘 인문학자을 의미하거나 프로젝트의 진행단계부터 디지털 지식을 가진 정보공학자가 참가하는 것을 의미한다. "디지털인문학자"의 등장으로 인문학의 결과물은 종이매체의 단계를 넘어서 직접적으로 디지털에 최적화된 형태로 공개가 된다. 이 결과 사업가들이 인문학결과물에 효율적으로 접근을 할 수 있을 뿐만이 아니라, 디지털 지식을 갖춘 인문학자들도 다른 디지털인문학 결과물에 손쉽게 접근을 하고, 자신의 연구에 활용할 수 있다. 


그런데 이런 말을 하면 기존의 방식이 더 합당하다는 대답이 많다. 인문학자는 전통적인 방법으로 결과물을 제시하면 되고, 그 다음의 과정은 정보공학자나 다른 사람들의 역할이라는 것이다. 예를 들어서 인문학자는 사전만 만들면 되고, 그 사전을 디지털로 전환하는 것은 나중 일이라는 이야기이다. 



디지털인문학의 산업화가 기존 방식과 다른 것의 핵심은 정확성과 효율에 있다. 


1. 연구의 정확도와 효율 향상

디지털인문학 방식의 도입으로 연구의 정확도와 효율을 향상할 수 있다. 디지털인문학에서는 기존과는 다른 엄격한 규칙을 적용하여야 하기에 명확한 구조체계를 가지게 되고, 기존에 인간의 힘으로 확인이 힘들었던 오류들을 자동적으로 확인할 수 있다. 


예를 들어서 특정사전을 편찬하거나 특정사료를 번역한다고 생각해보자. 기존에는 명확한 규칙에 의거하기보다는 항목을 제시해주고 느슨한 틀을 제시하였다. 그래서 "불국사"에 대한 내용을 집필하게 될 때, 역사학자의 집필내용과 고미술학자의 집필내용과 불교학자의 집필내용이 서로 상이하는 현실적인 문제점이 발생한다. 만약 디지털인문학의 방법론을 사용하면 엄격한 규칙에 의거하여 모든 관점을 담아낼 수 있다. 또한 기존의 집필방식으로는 자연스럽게 발생하는 오탈자 문제도 디지털인문학에서는 훨씬 더 효율적으로 수정이 가능하다. 


그 뿐만이 아니라 프로젝트 관리 차원에서도 디지털인문학 방법론에서는 스케쥴 관리부터 원고 분량 및 내용뿐만이 아니라, 예산책정까지 통합관리가 가능하기에 기존 방식과는 비교 자체가 불가능한 효율성을 가질 수 있다.(다 떠나서 최소한 집필-교정-교열 과정의 각각의 원고들을 프린트 하는 비효율은 없어진다.)



2. 종이매체의 한계 극복을 통한 새로운 연구 가능

디지털 매체는 종이매체가 가지는 지면 한계가 사실상 존재하지 않는다. 그렇기에 종이매체에서는 시도 자체가 불가능하거나 제한적으로 제공할 수 밖에 없던 수 많은 방법들이 사용 가능해진다.


예를 들어서 특정 사전을 편찬하거나 특정 사료를 번역한다고 생각해보자. 기존의 사전편찬에서는 특정 항목의 관련된 항목을 제한적으로만 보여줄 수 있었다. 잘해봐야 몇 개의 동의어나 상위어를 제시해줄 수 있을 뿐이다. 그러나 디지털 매체에서는 사실상 무한대로 확장이 가능하고, 사용자들에게도 모든 내용을 제시해줄 수 있다. 종이 매체에서 자료을 찾기 위해서 제한적으로 제공하는 인덱스(색인) 기능은 디지털 매체에서는 훨씬 더 강화된 방법으로 온갖 방식의 검색 기능을 제공할 수 있다는 것은 굳이 말할 필요도 없다. 



3. 기존 연구 성과의 재활용 효율 향상

디지털인문학의 최대 강점 중에 하나가 바로 기존 연구 성과의 재활용이다. 인문학자들은 이미 다른 사람들의 논문이나 문헌을 통해서 수 많은 정보를 수집하고 있다. 최근에는 다양한 논문이나 문헌 싸이트을 통해서 훨씬 더 편하게 특정 논문이나 문헌을 접할 수 있다. 그것을 더 발달시켜서 데이터를 가지고 와서 직접 사용할 수 있다면 어떻겠는가?


예를 들어보자. 한국학중앙연구원에는 역대인물사전이 존재한다. 우리가 어떠한 인문학 연구를 진행하든지 인물을 벗어날 수는 없다. 만약 단순히 역대인물사전의 내용의 일부분을 복사하는 수준이 아니라 자신이 보유하거나 작성중인 데이터베이스와 연동을 시킬 수 있다면 인문학 연구성과의 축적은 지금과는 비교가 될 수 없을 정도의 빠를 것이다. 


실제로 한국학중앙연구원의 역대인물사전은 국립도서관의 문헌자료와의 데이터 연동을 기획중에 있다. 한국학중앙연구원은 역대인물사전의 인물데이터와 연동된 국립도서관의 문헌자료를 통해서 해당 인물의 문헌자료를 확장할 수 있고, 국립도서관의 문헌자료는 한국학중앙연구원의 역대인물사전과 연동해서 특정 문헌의 저자들의 데이터를 확장할 수 있다. 


반대로 기 구축된 데이터베이스를 사용하지 못하고, 처음부터 문헌자료를 축적하거나 인물정보를 축적하는 것은 인문학 연구의 중복연구 논란을 야기 할 뿐이며, 선행연구에 대해서 파악하고 이용하는 기본적인 인문학 연구 방법 사상에도 위배된다고 할 수 있다. 



4. 사업적 활용의 효율 향상

디지털인문학의 성과는 자연스럽게 통합되거나 서로 간에 연동될 것이다. 그렇게 되면 인문학적 소양이 부족한 사업가의 입장에서는 그 동안 조각이 되어 있어서 파악하기 힘들었던 인문학 정보를 손 쉽게 받아 볼 수 있는 길이 열리는 것이다. 


예를 들어서 당신 스스로를 사극 작가로 생각해보자. 그 동안은 어떤 시대를 배경으로 사극을 쓸려면, 해당 시대의 역사적 사실이 있는 데이터베이스를 살펴보고, 따로 해당 시대의 인물 정보를 살펴보고, 해당 시대의 복식에 대한 데이터베이스를 다시 살펴봐야되는 부담 뿐만이 아니라, 각기 다른 데이터베이스간의 연결을 할 능력까지 요구되었다. 그러나 모든 정보가 통합이 된다면 훨씬 더 효율적으로 특정 정보에 접근할 수 있다. 이는 사실 사업가 뿐만이 아니라 일반적인 인문학자들에게도 통용된다. 전문화로 인한 학문 파편화는 자신의 전공영역 밖의 정보 습득을 힘들게 하고 있지 않은가?!



오해가 없도록 직접적으로 이야기하자면..


디지털인문학은 인문학의 연구 방법론에 주목한다. 산업화는 2차적인 문제일 뿐이다. 다만 그 어떤 산업화에 대한 논의보다 오히려 산업화에 유용하다는 것이 아이러니 아닌 아이러니다. 





바로 : 흐음..한번 두들겨 봤습니다. 아직 정리가 좀 더 필요할 듯 하군요. 머....블로그에서는 생각나는대로 쓰고 퇴고를 최대한 하지 않고 일단 공개하는 것으로 가자고 생각을 굳혔기 때문에 그냥 날 것으로 올리도록 하겠습니다. 



 

미래부 신산업 창조 프로젝트 모식도


2014년 6월 29일 미래창조기획부와 연구성과실용화진흥원은 신산업 창조 프로젝트 신규과제로 5개 분야 6개 과제를 선정했다. 본 선정 과제는  3차원(3D) 프린팅 분야 1개, 클라우드 서비스 분야 1개, 실감형 콘텐츠 분야 1개, 사물인터넷 관련 2개, 바이오센서 분야 1개 등 5개 분야 6개이며, 향후 2년간 총 144억원(2014년 72억원)을 투자할 계획이다.


개인적으로 3D프린팅과 실감형 및 사물인터넷은 미래부에서 주도하기에 적합하고, 추후 디지털인문학으로 해당 기술을 응용하는 것을 목표로 하고 있다. (해당 연구에서 발전된 사항으로 디지털인문학에 적용하면...특히 실감형 콘텐츠...하악하악!!! )그러나 클라우드 서비스 분야만은 도무지 이해가 되지 않는다. 


미래부는 클라우드 서비스를  "초중고 학생들이 쉽게 사용할 수 있도록 3만원대 가격의 어른 엄지손가락만한 크기의 일명 ‘손가락PC’와 손가락PC로 활용 가능한 교육용 소프트웨어를 개발하는 것"이라고 정의하고 있다. 그러나 클라우드 서비스의 원래 의미를 생각하면 본연의 목적보다는 교육영역에 침을 발라놓으려는 밑그림으로 보인다. 


교육은 단순히 기술을 응용하는 것보다는 가르치는 내용 그 자체가 중요하다. 아무리 최첨단 기술이라도 내용(콘텐츠)가 별로라면 교육현장에서 외면 받는 보여주기식 내용 밖에 되지 않는다. (그리고 이 부분은...솔직히 그럴 가능성이 높아 보인다. 대체 클라우드 기술을 응용해야될 정도로 한국의 교육 콘텐츠가 발전해 있나? 안타깝지만 솔직히 왠만한 웹서버만 돌려도 충분히 커버 가능하겠다. 왠 클라우드와 교육의 연계인가?)






으아아악!!! 암 걸릴 것 같아!!!!!!! 알 사람은 안다!!! 으아아아악!!!!!


그래도 내 여친은 혼자서 원도우도 설치 가능하지. 음하하하하하....-0-!







인터넷에 퍼져 있는 논문의 완성과정입니다[각주:1]. 압권은 국문초록의 내용이겠지요. 모두가 공감할 겁니다. 다만 위의 것 중에서 도무지 공감이 안되는 것은 "그래도 사랑해" 입니다. 아! 사랑일 수도 있겠군요. 아예 버릴 수도 없고, 그렇다고 불태워 버릴 수도 없는......

  1. 원출처가 불분명해서 표기하기 힘들군요. 진정한 원본은 사실 프로그램의 완성과정입니다. 그것을 논문 버젼으로 변환한건데...음...누가 하셨는지 모르겠네요. [본문으로]

+ Recent posts