요즘 "빅데이타"라는 키워드가 뜨면서, 빅데이타를 분석하는 "데이타 마이닝"이라는 키워드도 반사이익을 얻고 있다. 빅데이타나 데이타 마이닝 모두가 이미 예전부터 존재하고 있었고, 실제 현장에서 사용되고 있었는데 마치 웹 2.0 처럼 하나의 마케팅 키워드로 떠오르는 것에 대해서 유감스러운 점이 없지는 않다. 그러나 빅데이타나 데이타 마이닝 모두가 중요한 개념이고, 이를 통해서 IT의 부흥?!이 이루어진다면 큰 문제는 없을 것이라 생각하기에 조용히 있다.


문제는 인문학에 대한 데이타 마이닝까지 일부 거론되고 있다는 점이다. 인문학과 IT의 융합학문인 인문정보학으로 박사과정을 전공하는 입장에서 누구보다 인문학 분야에 대한 데이타 마이닝을 적용을 실현시키고 싶다. 그러나 인문학에 대한 데이타 마이닝은 데이타 마이닝의 역사와 조건을 간과한 몽상적인 이야기일 뿐이다.


데이타 마이닝은 요즘 빅데이타라고 불리우는 어마어마한 데이타에 대해서 효과적인 분석을 수행하기 위하여 탄생하였고, 지금까지 발전을 이어오고 있다. 그런데 인문학은 빅데이타가 사실상 존재하지 않는다. 더 정확하게 말해서 데이타 마이닝을 적용할 수 있는 빅데이타가 극소수에 불과하다.


그럼 혹자는 지금까지 인문학에서 축적한 빅데이타가 많다고 반박할지도 모른다. 조선왕조실록은 원문과 번역본 모두가 번역되었고, 인터넷을 통해서 검색기능을 지원하고 있다. 그 외의 수 많은 역사서들이 디지털화되어서 인터넷에서 서비스를 하고 있다. 그 뿐인가? 현재 한국에서 진행되는 인문학 프로젝트들은 사실상 모두가 DB화를 포함한다고 할 수 있다. 그런데 이런 DB들은 그냥 덩치만 큰 공룡들이다.


데이타 마이닝을 기계적으로 처리하기 위해서는 고유값의 존재가 사실상 필수적이다. 특히 시간, 인물, 지리에 대한 고유값은 필수라고 할 수 있다. 지금 현재 기업에서 활용되는 데이타 마이닝이 효과적인 이유는 고객에 대한 각각의 고유값(ID)을 가지고 있기에 기준으로서 작용할 수 있기 때문이다. 그런데 한국에서 현재까지 구축된 인문학 DB의 거의 대부분이 시간, 인물, 지리에 대한 공통적인 고유값은 고사하고, 자체적인 고유값조차 가지지 못하는 경우가 많다.


시간, 인물, 지리가 고유값을 가지지 못하게 된다면, 문헌에 출현하는 갑신년이 984년인지, 1044년인지 혹은 그 외의 다른 년도인지 도무지 알 방법이 없다. 또한 문헌에 출현하는 태조가 고려태조인지, 조선태조인지 혹은 중국이나 일본의 어느 태조인지 알 방법이 없다. 물론 인문학 지식이 어느 정도 있는 사람들은 문맥으로 누구인지 파악할 수 있으나, 컴퓨터에게 그런 경험적인 추론을 수행하게 하는 것은 지금의 기술로는 불가능에 가깝다고 할 수 있다[각주:1].


그렇기에 인문학의 데이타 마이닝을 위해서는 우선 현재 우후죽순식으로 진행되고 있는 DB들의 가장 기본적인 공통규칙을 마련하고, 시간, 인물, 지리를 위한 한국표준고유값을 만드는 것이 선행되어야 한다[각주:2].이를 이루지 못하면 데이타 마이닝을 고사하고, 그냥 크기만 큰 조잡하고 쓸데 없는 빅데이타가 되어서 공룡처럼 멸망해버리고 말리라. 




----

오랜만에 글을 올립니다....그 동안 이래저래 정신이 없었습니다. 당분간은 전공공부에 집중하기 위해서 좀 재미가 없을지는 몰라도 전공에 관한 내용이 많이 올라올 겁니다. 이런 정보를 필요로 하는 사람은 아직 극소수이겠지만, 그래도 공유하는 것이 좋다고 생각해서 조금이나마 올리도록 하겠습니다.


아! 다만 인문정보학 연구사 정리를 위해서 지금까지의 인문정보학 연구 및 성과물을 간략하게 리뷰해서 올릴 내용은 인문학이나 IT 쪽에 속한 분들은 한 번쯤 봐도 괜찮을 내용일겁니다. 인문학계열 분들은 이런 DB가 있다는 것을 알고 활용하시면 좋을것이고, IT쪽 분들은 인문학의 측면에서 바라본 IT기술과 활용이 어떤 것인지 살펴볼 수 있을 겁니다.


  1. 물론 복잡한 법칙을 억지로 적용시키면 어떻게든 할 수 있을 것이다. 그런데 그건 마치 토대공사를 잘못한 집을 어떻게든 고쳐보겠다는 행동에 불과하다. 아직 공사가 많이 진척되지 않았으면, 지금이라도 토대공사를 다시 하는 것이 좋다. 그래야 수백미터의 고층빌딩을 올릴 것 아닌가! [본문으로]
  2. 사실 인물은 한국학중앙연구원이 역대인물종합DB을 기반으로 발전하면 될 것이다. 다만 시간과 장소에 대한 고유값은......현재 열심히 이것저것 고민하며 직접 구축하려고 시도하고 있다. 덕분에 쓸데 없이 바쁘다..ㅠㅠ [본문으로]

(서울=뉴스와이어) 2013년 04월 21일 -- 미래창조과학부(장관 최문기)는 공공과 민간이 보유한 대용량의 데이터를 연계하여 공익형 서비스를 개발하는 빅데이터 시범사업을 추진한다.


빅데이터는 기존의 데이터베이스에 존재하는 정형화된 데이터 뿐만 아니라 SNS, 동영상, 위치·센터데이터 등에서 실시간으로 생성되는 대용량의 데이터를 포함한다. 최근 빅데이터가 새로운 가치를 창출하는 성장동력으로 주목받고 있으나, 빅데이터를 제대로 이해하고 활용하는 국내 기업은 소수에 불과하고 관련 산업과 서비스 또한 초기단계이다.

미래창조과학부는 빅데이터 분야의 경쟁력 확보를 위해 한국정보화진흥원와 함께 공공데이터와 민간데이터, 창의적 아이디어를 결합한 빅데이터 서비스 모델을 발굴해 나갈 예정이다. 이번 시범사업을 통해 공공기관이 가진 데이터와 위치정보, 결제정보 등 민간의 데이터를 융합한 지능형 서비스 모델이 나올 수 있을 것으로 전망된다.

빅데이터 시범사업은 5월까지 우수 서비스 모델과 사업자를 선정하고 연말까지 과제 개발을 하는 일정으로 추진된다. 올해 지원예산은 과제 당 2~4억원으로 총 14억원 규모이며, 4개 내외의 컨소시엄을 선정하여 매칭펀드 형태로 지원될 예정이다. 컨소시엄은 데이터 보유기관, 서비스 이용기관, 서비스 개발사 등이 참여할 수 있다.

미래창조과학부는 이번 빅데이터 시범사업을 통해 수혜자가 체감할 수 있는 서비스를 발굴하는 것 뿐 만 아니라, 공공·민간간 데이터 개방과 공유가 활발히 이루어질 수 있도록 데이터가 연계되어 시너지 효과를 내는 데 초점을 맞출 예정이다. 또한, 미래창조과학부는 빅데이터 활용 서비스가 사회 전반에 확산되어 새로운 일자리와 비즈니스를 창출해 나갈 수 있도록 다양한 지원방안을 마련해 나갈 예정이다.

우리나라는 세계최고의 네트워크 인프라와 함께 풍부한 데이터를 보유하고 있기 때문에 빅데이터가 활성화될 수 있는 여건은 충분하며, 시범사업 등을 통해 공공· 민간 데이터와 창의성을 결합하는 계기를 만들어 낸다면 빅데이터 분야가 양질의 일자리와 새로운 비즈니스 창출하는 창조경제 구현에 기여할 수 있을 것으로 기대된다.


빅데이터는 현재 IT업계의 중요한 키워드 중에 하나이다. 더 정확하게 말해서 미래창조과학부에서 하겠다는 것은 사실 이쪽 업계에서는 상식수준의 발언이다. 하지만 빅데이터가 비교적 최신 키워드임을 감안하고 미래창조과학부가 정부기관이라는 점을 생각하면 놀라울 정도로 빠른 반응속도라고 감히 말할 수 있다.

다만 인문정보학의 입장에서 인문학의 DB는 현재 빅데이터를 논할 수준이 아니라고 말할 수 있다. 아직 수 많은 정보들이 디지털화 되지 않은 것도 문제이지만, DB화 되어 있는 것도 제대로 모아져 있지 않다는 것이 문제이다. 


하지만 이미 구축된 빅데이타급 인문정보DB을 이용하여 해당 프로젝트에 참가하는 것도 가능하며 의미도 있을듯 하다.




+ Recent posts