요즘 "빅데이타"라는 키워드가 뜨면서, 빅데이타를 분석하는 "데이타 마이닝"이라는 키워드도 반사이익을 얻고 있다. 빅데이타나 데이타 마이닝 모두가 이미 예전부터 존재하고 있었고, 실제 현장에서 사용되고 있었는데 마치 웹 2.0 처럼 하나의 마케팅 키워드로 떠오르는 것에 대해서 유감스러운 점이 없지는 않다. 그러나 빅데이타나 데이타 마이닝 모두가 중요한 개념이고, 이를 통해서 IT의 부흥?!이 이루어진다면 큰 문제는 없을 것이라 생각하기에 조용히 있다.
문제는 인문학에 대한 데이타 마이닝까지 일부 거론되고 있다는 점이다. 인문학과 IT의 융합학문인 인문정보학으로 박사과정을 전공하는 입장에서 누구보다 인문학 분야에 대한 데이타 마이닝을 적용을 실현시키고 싶다. 그러나 인문학에 대한 데이타 마이닝은 데이타 마이닝의 역사와 조건을 간과한 몽상적인 이야기일 뿐이다.
데이타 마이닝은 요즘 빅데이타라고 불리우는 어마어마한 데이타에 대해서 효과적인 분석을 수행하기 위하여 탄생하였고, 지금까지 발전을 이어오고 있다. 그런데 인문학은 빅데이타가 사실상 존재하지 않는다. 더 정확하게 말해서 데이타 마이닝을 적용할 수 있는 빅데이타가 극소수에 불과하다.
그럼 혹자는 지금까지 인문학에서 축적한 빅데이타가 많다고 반박할지도 모른다. 조선왕조실록은 원문과 번역본 모두가 번역되었고, 인터넷을 통해서 검색기능을 지원하고 있다. 그 외의 수 많은 역사서들이 디지털화되어서 인터넷에서 서비스를 하고 있다. 그 뿐인가? 현재 한국에서 진행되는 인문학 프로젝트들은 사실상 모두가 DB화를 포함한다고 할 수 있다. 그런데 이런 DB들은 그냥 덩치만 큰 공룡들이다.
데이타 마이닝을 기계적으로 처리하기 위해서는 고유값의 존재가 사실상 필수적이다. 특히 시간, 인물, 지리에 대한 고유값은 필수라고 할 수 있다. 지금 현재 기업에서 활용되는 데이타 마이닝이 효과적인 이유는 고객에 대한 각각의 고유값(ID)을 가지고 있기에 기준으로서 작용할 수 있기 때문이다. 그런데 한국에서 현재까지 구축된 인문학 DB의 거의 대부분이 시간, 인물, 지리에 대한 공통적인 고유값은 고사하고, 자체적인 고유값조차 가지지 못하는 경우가 많다.
시간, 인물, 지리가 고유값을 가지지 못하게 된다면, 문헌에 출현하는 갑신년이 984년인지, 1044년인지 혹은 그 외의 다른 년도인지 도무지 알 방법이 없다. 또한 문헌에 출현하는 태조가 고려태조인지, 조선태조인지 혹은 중국이나 일본의 어느 태조인지 알 방법이 없다. 물론 인문학 지식이 어느 정도 있는 사람들은 문맥으로 누구인지 파악할 수 있으나, 컴퓨터에게 그런 경험적인 추론을 수행하게 하는 것은 지금의 기술로는 불가능에 가깝다고 할 수 있다.
그렇기에 인문학의 데이타 마이닝을 위해서는 우선 현재 우후죽순식으로 진행되고 있는 DB들의 가장 기본적인 공통규칙을 마련하고, 시간, 인물, 지리를 위한 한국표준고유값을 만드는 것이 선행되어야 한다.이를 이루지 못하면 데이타 마이닝을 고사하고, 그냥 크기만 큰 조잡하고 쓸데 없는 빅데이타가 되어서 공룡처럼 멸망해버리고 말리라.
----
오랜만에 글을 올립니다....그 동안 이래저래 정신이 없었습니다. 당분간은 전공공부에 집중하기 위해서 좀 재미가 없을지는 몰라도 전공에 관한 내용이 많이 올라올 겁니다. 이런 정보를 필요로 하는 사람은 아직 극소수이겠지만, 그래도 공유하는 것이 좋다고 생각해서 조금이나마 올리도록 하겠습니다.
아! 다만 인문정보학 연구사 정리를 위해서 지금까지의 인문정보학 연구 및 성과물을 간략하게 리뷰해서 올릴 내용은 인문학이나 IT 쪽에 속한 분들은 한 번쯤 봐도 괜찮을 내용일겁니다. 인문학계열 분들은 이런 DB가 있다는 것을 알고 활용하시면 좋을것이고, IT쪽 분들은 인문학의 측면에서 바라본 IT기술과 활용이 어떤 것인지 살펴볼 수 있을 겁니다.