블로그에 자유롭게 쓴 글인데 생각보다 논문에 인용이 되서 당황스러운 심정이다. 개인적으로 블로그글도 학술적으로 사용할 수 있다고 생각하지만, 실제 학계의 분위기를 모르는 것도 아니다. 이에 만약 본 글을 인용하시려거든 다음과 같이 인용하시면 될 것으로 보인다.(내용이 100% 일치하지는 않지만, 기본 개념은 동일하다)
김바로, 『시맨틱 데이터 아카이브의 구축과 활용』, 파주:보고사, 2018.12.10, pp.17~20
김바로, 『시맨틱 데이터 아카이브의 구축과 활용 - 제도와 인사의 관계에 대한 근대(1895~1910) 학교 자료를 중심으로』, 파주:보고사, 2018.12.10, pp.17~20
디지털인문학이 요즘 인문학계의 화두로 떠오르고 있다. 그러나 디지털인문학에 대한 정의조차 제대로 모르면서 "디지털인문학"을 악용하려는 사람들도 급증하고 있다[각주:1]. 디지털인문학 관련 내용을 올리는 블로거로서 최소한의 정의는 소개해야된다는 쓸데 없는 의무감이 생겨버렸다.
1. 디지털인문학이란 무엇인가?
디지털인문학은 인문학과 정보기술(ICT: Information and Communication Technologies)이 합쳐진 융합학문이다. 전통적인 인문학의 연구과정에 정보기술의 설계, 구축, 분석, 해석 및 시각화의 과정이 융합되어 탄생된 인문학의 새로운 방법론이며, 학문분과이다.
2. 디지털인문학의 설계와 구축
우선 전통적인 인문학에서의 수집을 생각해보자. 우리는 역사 연구를 위해서 해당 시대의 사료를 수집하여 정리하였다. 고고학 연구를 위해서 직접 발굴을 해서 연구자료를 획득하고 정리했다. 물론 1차적인 자료 뿐만을 수집하고 정리한 것이 아니다. 해당 분야에서 과거의 연구 성과를 모아서 연구사 혹은 선행연구를 정리한다.
1) 1차 자료 정리
2) 연구사(선행연구) 자료 정리
그런데 현재 인문학계는 과거에 비해서 거대해졌다. 과거에는 사서삼경과 관련 도서 몇 백권이 유일한 1차 자료였고, 연구사 자료였다. 그러나 현재는 조선전기 정치사를 전공했다면, 같은 조선전기시대임에도 불구하고 민속사 영역으로 가면 연구사조차 제대로 파악하지 못하는 경우가 비일비재하다. 역사학계 자체 내에서 이런 상황이니 다른 학문(정치학, 예술학)으로 가면 일자무식이라고 해도 빈말이 아닌 상황이다.
현재 학계는 방대해진 연구 성과에 짖눌려 있다. 현재 인문학의 가장 큰 숙제는 과거와는 상대도 되지 않는 방대한 자료의 처리 방법이라고 할 수 있다. 이제 일개 개인의 힘으로 단일 학문의 모든 연구자료와 연구사를 검토하는 것조차 불가능한 상황을 어떻게 타개할 것인가?! 정보기술이 현재로서는 유일무이한 해답이다.
1) 정보기술을 활용하여 1차자료와 연구사를 수집-정리
2) 정보기술을 활용하여 개인에게 필요한 1차자료와 연구사를 제공
실제로 유럽의 모든 문화유물의 데이터를 총망라한 "유로피아나"나 미국 관련 모든 자료를 디지털화한 "아메리카메모리"와 같은 서양의 디지털 인문학 프로젝트를 통해서 정보기술을 활용하여 인문학을 어떻게 수집-정리 할 수 있는지 알 수 있다. 사실 멀리 볼 것도 없이 "조선왕조실록"이나 "한국역사정보통합시스템"만 하더라도 세계에 내놓아도 부끄럽지 않은 성과이다. 그리고 이렇게 "잘" 정리된 자료는 자연히 개인에게 방대한 정보에서 자신이 필요한 정보에 빠르게 접근할 수 있는 정보기술을 활용한 방법론도 제공하고 있다.
쉽게 생각해보자. 디지털화된 논문정보를 제공하는 DBPIA나 KISS 혹은 RISS을 통해서 우리는 얼마나 빠르고 정확하게 원하는 논문을 검색하게 되었는가?! 이제 논문 뿐만이 아니라 인문학 자체를 디지털 자료로 이식하면 어떤 효과가 있겠는가?!
그런데 아날로그의 지식을 컴퓨터가 이해 가능한 데이터로 변환하기 위해서는 아날로그의 지식 체계를 컴퓨터에게 알려주는 작업이 필요하다. 이를 데이터 설계 혹은 온톨로지 구축 작업이라고 할 수 있다. 그런데 인문학 영역 아날로그의 지식 체계는 디지털 영역의 전문가들에게 접근이 힘들거나 사실상 불가능한 영역이다. 그렇기에 대상 지식 체계를 파악하고 있는 인문학자의 힘이 필요하다.
3. 디지털인문학의 분석(디지털 추론)
역시 전통적인 인문학에서의 분석을 생각해보자. 우리는 수집된 자료를 이용해서 분석하고 기존의 자료 이상의 내용을 추론해낸다. 조선시대의 복식을 재현해내고, 조선시대의 음식을 재현해낸다. 사회의 구조를 파악하고, 인류에게 최선인 사회 구조가 무엇인지를 예측한다.
그런데 과거에 비하여 기가급수적으로 늘어난 연구성과들을 모두 파악하는 것조차 쉽지 않은 일이 되었다. 아무리 디지털화된 자료를 이용해서 최대한 빠르게 자료를 수집-정리할 수 있다고 하여도 개인의 힘으로는 방대해진 데이터를 파악하고 분석작업을 수행하는 것이 쉽지 않다. 어떻게 하면 개인의 분석능력을 향상시킬 수 있을까? 인간의 수명을 늘려야 하나? 게놈인간을 만들어서 지능을 올려야 하는가? 현재 가장 타당한 해법은 정보기술을 활용한 "디지털 추론"이다.
사실 "디지털 추론"은 이미 상업 영역에서 활발하게 사용되고 있다. 방대한 고객 데이터를 일정한 알로리즘(논리)을 통해서 맞춤형 마케팅을 하고 있다. 인터넷 서점으로 유명한 아마존 닷컴은 수 많은 고객데이터를 컴퓨터를 활용하여 실시간으로 분석하고, 해당 고객이 구매한 물품을 토대로 구매 가능성이 높은 물품을 추천하고 있다. 우리가 요즘 자주 말하는 "빅데이터"의 동반자인 "데이터 마이닝"이다.
혹자는 정보기술이 모든 분석을 수행하면 더 이상 학자가 할 일이 없어지는 것은 아닐까 걱정할지도 모른다. 그러나 정보기술은 수백만의 데이터를 빠른 속도로 알고리즘(논리)에 의해서 처리하는 기술을 제공할 뿐이다. 분석방법인 알고리즘(논리)는 인간의 판단을 기다릴 뿐이다.
실제로 인문학의 영역중에서 언어학과 사회학에서 "디지털 추론"방법을 많이 사용하고 있다. 말뭉치(코퍼스) 분석은 방대한 언어데이터를 분석하여 유의미한 결론을 유추하고 있다. 물론 정보기술 없이 개인이 언어데이터을 통해서 유의미한 결론을 유추할 수도 있다. 인간의 수명이 백만년정도 된다면 말이다. 사회학에서는 "네트워크 분석"을 통해서 다양한 관계망 분석을 시도하였고, 사회의 구조를 밝히는데 상당한 효과를 발휘하고 있다. 물론 최근에는 SNS 분석이나 의미망 분석과 같은 응용도 활발하게 이루어지고 있다.
사실 디지털화는 어디까지나 디지털 추론을 위한 자료수집에 불과하다.
어떤 인문학자가 자료 수집-정리만을 하고 분석이 필요 없다고 할 것인가?!
4. 디지털인문학의 해석
분석은 연구 대상을 자르고 나누는 행위를 말한다. 다시 말해서 연구 대상에 대한 모든 자료를 다양한 방법을 통하여 수치화하는 방법론을 말한다. 그 동안 기존 인문학에서 분석과 해석을 구분하지 않고는 하였다. 실제로 대부분의 경우 한 명이 자료를 수집하고, 분석하여 해석하고 있었기에 구분이 무의미하였다. 그러나 전문화된 현대의 학문에서 "수치화"의 분석과 "의미부여"의 해석은 분명히 구분되어야 할 것이라고 생각된다.
그런데 디지털인문학의 해석 영역은 대부분 기존 인문학에서 몇 천년동안 정립해 온 해석 방법론을 승계하고 있다. 디지털인문학은 어디까지나 디지털에서 수행하는 인문학 연구 방법론이며, 그 동안 기존 인문학이 해석에 "매몰"되었던 것을 탈피하고, 일정 이상의 자료와 분석결과를 통한 근거를 마련하기 위해서 강조되고 있다고 말할 수도 있을 것이다. 다시 말해서 디지털인문학은 범용 방법론으로서 가치를 가지고 있지만, 그렇다고 기존 인문학 방법론의 다양한 해석 방법론들을 폐기하는 것은 결코 아니다.
반대로 디지털인문학은 새로운 해석 방법론에 그다지 큰 관심을 보이지 않는다. 그 동안 축적되어 온 기존 인문학의 해석 방법론을 재활용하는 것으로도 충분하기 때문이다. 그렇기에 디지털인문학에서는 해석의 영역을 그다지 크게 강조하지는 않는다. 그러나 그렇다고 해석이 중요하지 않다는 것은 아니다.
(기존 글에서는 해석 영역에 대해서 서술하지 않고, 오프라인의 강의에서만 부과적으로 설명을 했더니 오해하시는 분들이 있어서 추가했습니다.)
5. 디지털인문학의 시각화
역시 전통적인 인문학에서의 출력을 생각해보자. 우리는 정리된 글을 논문발표, 서적출판 등의 형식으로 출력하였다. 심지어 최근에는 논문과 서적 모두가 이미 디지털화되어서 프린트를 통해서 출력되고 있다. 그런데 어차피 이미 디지털화된 것을 굳이 다시 종이 매체로 만들 필요가 있는가? 연구성과를 실시간으로 공유하여 인간의 지식영역을 빠르게 확장할 수는 없을까?
그래서 특히 인문학의 고유 관심자인 교육의 영역에서 상당히 많은 방법론의 모색이 있다. 정보기술을 통해서 우리는 시간과 공간의 장애를 벗어나서 교육자료를 제공해줄 수 있기 때문이다. 한국에서 인기를 끈 "정의란 무엇인가?"는 하버드 대학교의 강좌가 온라인을 통해서 언제 어디서나 볼 수 있었기에 한국에도 알려졌고 큰 인기를 끌게 되었다는 사실은 이미 유명하다. 한국에서 중고등학생의 기본 옵션이 되어버린 인터넷강의(인강)도 강사가 한 번의 촬영을 통해서 수 많은 학생에게 정보를 전달할 수 있게 해준다.
물론 디지털 인문학의 출력에서 교육이라는 목적이 강조되고 있으며, 현재로서 가장 성공적인 수단이 인터넷 동영상 강의인 것은 맞다. 그러나 강의는 하나의 지식체계에 대한 전달 방식으로서 유용하다면, 단일 지식 혹은 특수한 지식의 전달 방법에 대한 다양한 시각화의 방법도 끊임 없이 모색되고 있다.
예를 들어서 모든 의복에 대한 데이터를 모아놓고 분석을 하였더라도 관련 연구자나 사극 작가가 해당 데이터에 손쉽게 접근할 수 없다면 어떻게 쓸모가 있을 수 있겠는가? 데이터를 모으고 분석하는 방법 뿐만이 아니라, 성과를 어떻게 효율적으로 다양한 계층에게 전달하느냐도 인문학의 중요한 목적 중에 하나이다.
6. 디지털인문학에 대한 오해
본인이 가장 걱정되는 것은 디지털 인문학을 어느 특정 인문학 분야가 선점을 해서 마치 특정 인문학 분야의 방법만이 디지털 인문학의 전부라고 착각하는 것이다. 디지털 인문학의 수집은 현재 문헌정보학이나 기록학에서 선도하고 있고, 디지털 인문학의 분석은 언어학과 사회학에서 선도해가고 있다. 그리고 디지털 인문학의 출력은 교육학의 영역에서 선도해가고 있다. 그리고 각각은 모두가 "디지털 인문학"이라는 이름을 붙이고 있다.
문헌정보학, 기록학, 언어학, 사회학, 교육학에서 다루고 있는 새로운 방법론은 분명히 디지털 인문학이다. 그러나 착각하지 말아야 될 것은 단순히 디지털화만 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 디지털 분석만을 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 단순히 시각화를 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다.
디지털인문학은 데이터설계-데이터구축-분석-해석-출력의 모든 것을 아우르는 종합학문분과이다.
사족 : ...1시간동안 마구잡이로 두들긴 결과군요. 아직 더 보충하고 싶은 부분이 있으나 일단 올리고 세부적인 내용을 계속 보충해가는 형식으로 하겠습니다. 보충했으면 하는 내용이나 수정했으면 내용이 있으시면 언제든지 말씀해주시기 바랍니다^^
1. 디지털인문학이란 무엇인가?
디지털인문학은 인문학과 정보기술(ICT: Information and Communication Technologies)이 합쳐진 융합학문이다. 전통적인 인문학의 연구과정에 정보기술의 입력, 저장, 분석, 해석 및 출력의 과정이 융합되어 탄생된 인문학의 새로운 방법론이며, 학문분과이다.
2. 디지털인문학의 수집(디지털화)
우선 전통적인 인문학에서의 수집을 생각해보자. 우리는 역사 연구를 위해서 해당 시대의 사료를 수집하여 정리하였다. 고고학 연구를 위해서 직접 발굴을 해서 연구자료를 획득하고 정리했다. 물론 1차적인 자료 뿐만을 수집하고 정리한 것이 아니다. 해당 분야에서 과거의 연구 성과를 모아서 연구사 혹은 선행연구를 정리한다.
1) 1차 자료 정리
2) 연구사(선행연구) 자료 정리
그런데 현재 인문학계는 과거에 비해서 거대해졌다. 과거에는 사서삼경과 관련 도서 몇 백권이 유일한 1차 자료였고, 연구사 자료였다. 그러나 현재는 조선전기 정치사를 전공했다면, 같은 조선전기시대임에도 불구하고 민속사 영역으로 가면 연구사조차 제대로 파악하지 못하는 경우가 비일비재하다. 역사학계 자체 내에서 이런 상황이니 다른 학문(정치학, 예술학)으로 가면 일자무식이라고 해도 빈말이 아닌 상황이다.
현재 학계는 방대해진 연구 성과에 짖눌려 있다. 현재 인문학의 가장 큰 숙제는 과거와는 상대도 되지 않는 방대한 자료의 처리 방법이라고 할 수 있다. 이제 일개 개인의 힘으로 단일 학문의 모든 연구자료와 연구사를 검토하는 것조차 불가능한 상황을 어떻게 타개할 것인가?! 정보기술이 현재로서는 유일무이한 해답이다.
1) 정보기술을 활용하여 1차자료와 연구사를 수집-정리
2) 정보기술을 활용하여 개인에게 필요한 1차자료와 연구사를 제공
실제로 유럽의 모든 문화유물의 데이터를 총망라한 "유로피아나"나 미국 관련 모든 자료를 디지털화한 "아메리카메모리"와 같은 서양의 디지털 인문학 프로젝트를 통해서 정보기술을 활용하여 인문학을 어떻게 수집-정리 할 수 있는지 알 수 있다. 사실 멀리 볼 것도 없이 "조선왕조실록"이나 "한국역사정보통합시스템"만 하더라도 세계에 내놓아도 부끄럽지 않은 성과이다. 그리고 이렇게 "잘" 정리된 자료는 자연히 개인에게 방대한 정보에서 자신이 필요한 정보에 빠르게 접근할 수 있는 정보기술을 활용한 방법론도 제공하고 있다.
쉽게 생각해보자. 디지털화된 논문정보를 제공하는 DBPIA나 KISS 혹은 RISS을 통해서 우리는 얼마나 빠르고 정확하게 원하는 논문을 검색하게 되었는가?! 이제 논문 뿐만이 아니라 인문학 자체를 디지털 자료로 이식하면 어떤 효과가 있겠는가?!
3. 디지털인문학의 분석(디지털 추론)
역시 전통적인 인문학에서의 분석을 생각해보자. 우리는 수집된 자료를 이용해서 분석하고 기존의 자료 이상의 내용을 추론해낸다. 조선시대의 복식을 재현해내고, 조선시대의 음식을 재현해낸다. 사회의 구조를 파악하고, 인류에게 최선인 사회 구조가 무엇인지를 예측한다.
그런데 과거에 비하여 기가급수적으로 늘어난 연구성과들을 모두 파악하는 것조차 쉽지 않은 일이 되었다. 아무리 디지털화된 자료를 이용해서 최대한 빠르게 자료를 수집-정리할 수 있다고 하여도 개인의 힘으로는 방대해진 데이터를 파악하고 분석작업을 수행하는 것이 쉽지 않다. 어떻게 하면 개인의 분석능력을 향상시킬 수 있을까? 인간의 수명을 늘려야 하나? 게놈인간을 만들어서 지능을 올려야 하는가? 현재 가장 타당한 해법은 정보기술을 활용한 "디지털 추론"이다.
사실 "디지털 추론"은 이미 상업 영역에서 활발하게 사용되고 있다. 방대한 고객 데이터를 일정한 알로리즘(논리)을 통해서 맞춤형 마케팅을 하고 있다. 인터넷 서점으로 유명한 아마존 닷컴은 수 많은 고객데이터를 컴퓨터를 활용하여 실시간으로 분석하고, 해당 고객이 구매한 물품을 토대로 구매 가능성이 높은 물품을 추천하고 있다. 우리가 요즘 자주 말하는 "빅데이터"의 동반자인 "데이터 마이닝"이다.
혹자는 정보기술이 모든 분석을 수행하면 더 이상 학자가 할 일이 없어지는 것은 아닐까 걱정할지도 모른다. 그러나 정보기술은 수백만의 데이터를 빠른 속도로 알고리즘(논리)에 의해서 처리하는 기술을 제공할 뿐이다. 분석방법인 알고리즘(논리)는 인간의 판단을 기다릴 뿐이다.
실제로 인문학의 영역중에서 언어학과 사회학에서 "디지털 추론"방법을 많이 사용하고 있다. 말뭉치(코퍼스) 분석은 방대한 언어데이터를 분석하여 유의미한 결론을 유추하고 있다. 물론 정보기술 없이 개인이 언어데이터을 통해서 유의미한 결론을 유추할 수도 있다. 인간의 수명이 백만년정도 된다면 말이다. 사회학에서는 "네트워크 분석"을 통해서 다양한 관계망 분석을 시도하였고, 사회의 구조를 밝히는데 상당한 효과를 발휘하고 있다. 물론 최근에는 SNS 분석이나 의미망 분석과 같은 응용도 활발하게 이루어지고 있다.
사실 디지털화는 어디까지나 디지털 추론을 위한 자료수집에 불과하다.
어떤 인문학자가 자료 수집-정리만을 하고 분석이 필요 없다고 할 것인가?!
4. 디지털인문학의 해석
분석은 연구 대상을 자르고 나누는 행위를 말한다. 다시 말해서 연구 대상에 대한 모든 자료를 다양한 방법을 통하여 수치화하는 방법론을 말한다. 그 동안 기존 인문학에서 분석과 해석을 구분하지 않고는 하였다. 실제로 대부분의 경우 한 명이 자료를 수집하고, 분석하여 해석하고 있었기에 구분이 무의미하였다. 그러나 전문화된 현대의 학문에서 "수치화"의 분석과 "의미부여"의 해석은 분명히 구분되어야 할 것이라고 생각된다.
그런데 디지털인문학의 해석 영역은 대부분 기존 인문학에서 몇 천년동안 정립해 온 해석 방법론을 승계하고 있다. 디지털인문학은 어디까지나 디지털에서 수행하는 인문학 연구 방법론이며, 그 동안 기존 인문학이 해석에 "매몰"되었던 것을 탈피하고, 일정 이상의 자료와 분석결과를 통한 근거를 마련하기 위해서 강조되고 있다고 말할 수도 있을 것이다. 다시 말해서 디지털인문학은 범용 방법론으로서 가치를 가지고 있지만, 그렇다고 기존 인문학 방법론의 다양한 해석 방법론들을 폐기하는 것은 결코 아니다.
반대로 디지털인문학은 새로운 해석 방법론에 그다지 큰 관심을 보이지 않는다. 그 동안 축적되어 온 기존 인문학의 해석 방법론을 재활용하는 것으로도 충분하기 때문이다. 그렇기에 디지털인문학에서는 해석의 영역을 그다지 크게 강조하지는 않는다. 그러나 그렇다고 해석이 중요하지 않다는 것은 아니다.
(기존 글에서는 해석 영역에 대해서 서술하지 않고, 오프라인의 강의에서만 부과적으로 설명을 했더니 오해하시는 분들이 있어서 추가했습니다.)
5. 디지털인문학의 출력(시각화)
역시 전통적인 인문학에서의 출력을 생각해보자. 우리는 정리된 글을 논문발표, 서적출판 등의 형식으로 출력하였다. 심지어 최근에는 논문과 서적 모두가 이미 디지털화되어서 프린트를 통해서 출력되고 있다. 그런데 어차피 이미 디지털화된 것을 굳이 다시 종이 매체로 만들 필요가 있는가? 연구성과를 실시간으로 공유하여 인간의 지식영역을 빠르게 확장할 수는 없을까?
그래서 특히 인문학의 고유 관심자인 교육의 영역에서 상당히 많은 방법론의 모색이 있다. 정보기술을 통해서 우리는 시간과 공간의 장애를 벗어나서 교육자료를 제공해줄 수 있기 때문이다. 한국에서 인기를 끈 "정의란 무엇인가?"는 하버드 대학교의 강좌가 온라인을 통해서 언제 어디서나 볼 수 있었기에 한국에도 알려졌고 큰 인기를 끌게 되었다는 사실은 이미 유명하다. 한국에서 중고등학생의 기본 옵션이 되어버린 인터넷강의(인강)도 강사가 한 번의 촬영을 통해서 수 많은 학생에게 정보를 전달할 수 있게 해준다.
물론 디지털 인문학의 출력에서 교육이라는 목적이 강조되고 있으며, 현재로서 가장 성공적인 수단이 인터넷 동영상 강의인 것은 맞다. 그러나 강의는 하나의 지식체계에 대한 전달 방식으로서 유용하다면, 단일 지식 혹은 특수한 지식의 전달 방법에 대한 다양한 시각화의 방법도 끊임 없이 모색되고 있다.
예를 들어서 모든 의복에 대한 데이터를 모아놓고 분석을 하였더라도 관련 연구자나 사극 작가가 해당 데이터에 손쉽게 접근할 수 없다면 어떻게 쓸모가 있을 수 있겠는가? 데이터를 모으고 분석하는 방법 뿐만이 아니라, 성과를 어떻게 효율적으로 다양한 계층에게 전달하느냐도 인문학의 중요한 목적 중에 하나이다.
5. 디지털인문학에 대한 오해
본인이 가장 걱정되는 것은 디지털 인문학을 어느 특정 인문학 분야가 선점을 해서 마치 특정 인문학 분야의 방법만이 디지털 인문학의 전부라고 착각하는 것이다. 디지털 인문학의 수집은 현재 문헌정보학이나 기록학에서 선도하고 있고, 디지털 인문학의 분석은 언어학과 사회학에서 선도해가고 있다. 그리고 디지털 인문학의 출력은 교육학의 영역에서 선도해가고 있다. 그리고 각각은 모두가 "디지털 인문학"이라는 이름을 붙이고 있다.
문헌정보학, 기록학, 언어학, 사회학, 교육학에서 다루고 있는 새로운 방법론은 분명히 디지털 인문학이다. 그러나 착각하지 말아야 될 것은 단순히 디지털화만 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 디지털 분석만을 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 단순히 시각화를 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다.
디지털인문학은 수집-분석-해석-출력의 모든 것을 아우르는 종합학문분과이다.
사족 : ...1시간동안 마구잡이로 두들긴 결과군요. 아직 더 보충하고 싶은 부분이 있으나 일단 올리고 세부적인 내용을 계속 보충해가는 형식으로 하겠습니다. 보충했으면 하는 내용이나 수정했으면 내용이 있으시면 언제든지 말씀해주시기 바랍니다^^
1. 디지털인문학이란 무엇인가?
디지털인문학은 인문학과 정보기술(ICT: Information and Communication Technologies)이 합쳐진 융합학문이다. 전통적인 인문학의 연구과정에 정보기술의 입력, 저장, 분석, 출력의 과정이 융합되어 탄생된 인문학의 새로운 방법론이며, 학문분과이다.
2. 디지털인문학의 수집(디지털화)
우선 전통적인 인문학에서의 수집을 생각해보자. 우리는 역사 연구를 위해서 해당 시대의 사료를 수집하여 정리하였다. 고고학 연구를 위해서 직접 발굴을 해서 연구자료를 획득하고 정리했다. 물론 1차적인 자료 뿐만을 수집하고 정리한 것이 아니다. 해당 분야에서 과거의 연구 성과를 모아서 연구사 혹은 선행연구를 정리한다.
1) 1차 자료 정리
2) 연구사(선행연구) 자료 정리
그런데 현재 인문학계는 과거에 비해서 거대해졌다. 과거에는 사서삼경과 관련 도서 몇 백권이 유일한 1차 자료였고, 연구사 자료였다. 그러나 현재는 조선전기 정치사를 전공했다면, 같은 조선전기시대임에도 불구하고 민속사 영역으로 가면 연구사조차 제대로 파악하지 못하는 경우가 비일비재하다. 역사학계 자체 내에서 이런 상황이니 다른 학문(정치학, 예술학)으로 가면 일자무식이라고 해도 빈말이 아닌 상황이다.
현재 학계는 방대해진 연구 성과에 짖눌려 있다. 현재 인문학의 가장 큰 숙제는 과거와는 상대도 되지 않는 방대한 자료의 처리 방법이라고 할 수 있다. 이제 일개 개인의 힘으로 단일 학문의 모든 연구자료와 연구사를 검토하는 것조차 불가능한 상황을 어떻게 타개할 것인가?! 정보기술이 현재로서는 유일무이한 해답이다.
1) 정보기술을 활용하여 1차자료와 연구사를 수집-정리
2) 정보기술을 활용하여 개인에게 필요한 1차자료와 연구사를 제공
실제로 유럽의 모든 문화유물의 데이터를 총망라한 "유로피아나"나 미국 관련 모든 자료를 디지털화한 "아메리카메모리"와 같은 서양의 디지털 인문학 프로젝트를 통해서 정보기술을 활용하여 인문학을 어떻게 수집-정리 할 수 있는지 알 수 있다. 사실 멀리 볼 것도 없이 "조선왕조실록"이나 "한국역사정보통합시스템"만 하더라도 세계에 내놓아도 부끄럽지 않은 성과이다. 그리고 이렇게 "잘" 정리된 자료는 자연히 개인에게 방대한 정보에서 자신이 필요한 정보에 빠르게 접근할 수 있는 정보기술을 활용한 방법론도 제공하고 있다.
쉽게 생각해보자. 디지털화된 논문정보를 제공하는 DBPIA나 KISS 혹은 RISS을 통해서 우리는 얼마나 빠르고 정확하게 원하는 논문을 검색하게 되었는가?! 이제 논문 뿐만이 아니라 인문학 자체를 디지털 자료로 이식하면 어떤 효과가 있겠는가?!
3. 디지털인문학의 분석(디지털 추론)
역시 전통적인 인문학에서의 분석을 생각해보자. 우리는 수집된 자료를 이용해서 분석하고 기존의 자료 이상의 내용을 추론해낸다. 조선시대의 복식을 재현해내고, 조선시대의 음식을 재현해낸다. 사회의 구조를 파악하고, 인류에게 최선인 사회 구조가 무엇인지를 예측한다.
그런데 과거에 비하여 기가급수적으로 늘어난 연구성과들을 모두 파악하는 것조차 쉽지 않은 일이 되었다. 아무리 디지털화된 자료를 이용해서 최대한 빠르게 자료를 수집-정리할 수 있다고 하여도 개인의 힘으로는 방대해진 데이터를 파악하고 분석작업을 수행하는 것이 쉽지 않다. 어떻게 하면 개인의 분석능력을 향상시킬 수 있을까? 인간의 수명을 늘려야 하나? 게놈인간을 만들어서 지능을 올려야 하는가? 현재 가장 타당한 해법은 정보기술을 활용한 "디지털 추론"이다.
사실 "디지털 추론"은 이미 상업 영역에서 활발하게 사용되고 있다. 방대한 고객 데이터를 일정한 알로리즘(논리)을 통해서 맞춤형 마케팅을 하고 있다. 인터넷 서점으로 유명한 아마존 닷컴은 수 많은 고객데이터를 컴퓨터를 활용하여 실시간으로 분석하고, 해당 고객이 구매한 물품을 토대로 구매 가능성이 높은 물품을 추천하고 있다. 우리가 요즘 자주 말하는 "빅데이터"의 동반자인 "데이터 마이닝"이다.
혹자는 정보기술이 모든 분석을 수행하면 더 이상 학자가 할 일이 없어지는 것은 아닐까 걱정할지도 모른다. 그러나 정보기술은 수백만의 데이터를 빠른 속도로 알고리즘(논리)에 의해서 처리하는 기술을 제공할 뿐이다. 분석방법인 알고리즘(논리)는 인간의 판단을 기다릴 뿐이다.
실제로 인문학의 영역중에서 언어학과 사회학에서 "디지털 추론"방법을 많이 사용하고 있다. 말뭉치(코퍼스) 분석은 방대한 언어데이터를 분석하여 유의미한 결론을 유추하고 있다. 물론 정보기술 없이 개인이 언어데이터을 통해서 유의미한 결론을 유추할 수도 있다. 인간의 수명이 백만년정도 된다면 말이다. 사회학에서는 "네트워크 분석"을 통해서 다양한 관계망 분석을 시도하였고, 사회의 구조를 밝히는데 상당한 효과를 발휘하고 있다. 물론 최근에는 SNS 분석이나 의미망 분석과 같은 응용도 활발하게 이루어지고 있다.
사실 디지털화는 어디까지나 디지털 추론을 위한 자료수집에 불과하다.
어떤 인문학자가 자료 수집-정리만을 하고 분석이 필요 없다고 할 것인가?!
4. 디지털인문학의 출력(시각화)
역시 전통적인 인문학에서의 출력을 생각해보자. 우리는 정리된 글을 논문발표, 서적출판 등의 형식으로 출력하였다. 심지어 최근에는 논문과 서적 모두가 이미 디지털화되어서 프린트를 통해서 출력되고 있다. 그런데 어차피 이미 디지털화된 것을 굳이 다시 종이 매체로 만들 필요가 있는가? 연구성과를 실시간으로 공유하여 인간의 지식영역을 빠르게 확장할 수는 없을까?
그래서 특히 인문학의 고유 관심자인 교육의 영역에서 상당히 많은 방법론의 모색이 있다. 정보기술을 통해서 우리는 시간과 공간의 장애를 벗어나서 교육자료를 제공해줄 수 있기 때문이다. 한국에서 인기를 끈 "정의란 무엇인가?"는 하버드 대학교의 강좌가 온라인을 통해서 언제 어디서나 볼 수 있었기에 한국에도 알려졌고 큰 인기를 끌게 되었다는 사실은 이미 유명하다. 한국에서 중고등학생의 기본 옵션이 되어버린 인터넷강의(인강)도 강사가 한 번의 촬영을 통해서 수 많은 학생에게 정보를 전달할 수 있게 해준다.
물론 디지털 인문학의 출력에서 교육이라는 목적이 강조되고 있으며, 현재로서 가장 성공적인 수단이 인터넷 동영상 강의인 것은 맞다. 그러나 강의는 하나의 지식체계에 대한 전달 방식으로서 유용하다면, 단일 지식 혹은 특수한 지식의 전달 방법에 대한 다양한 시각화의 방법도 끊임 없이 모색되고 있다.
예를 들어서 모든 의복에 대한 데이터를 모아놓고 분석을 하였더라도 관련 연구자나 사극 작가가 해당 데이터에 손쉽게 접근할 수 없다면 어떻게 쓸모가 있을 수 있겠는가? 데이터를 모으고 분석하는 방법 뿐만이 아니라, 성과를 어떻게 효율적으로 다양한 계층에게 전달하느냐도 인문학의 중요한 목적 중에 하나이다.
5. 디지털인문학에 대한 오해
본인이 가장 걱정되는 것은 디지털 인문학을 어느 특정 인문학 분야가 선점을 해서 마치 특정 인문학 분야의 방법만이 디지털 인문학의 전부라고 착각하는 것이다. 디지털 인문학의 수집은 현재 문헌정보학이나 기록학에서 선도하고 있고, 디지털 인문학의 분석은 언어학과 사회학에서 선도해가고 있다. 그리고 디지털 인문학의 출력은 교육학의 영역에서 선도해가고 있다. 그리고 각각은 모두가 "디지털 인문학"이라는 이름을 붙이고 있다.
문헌정보학, 기록학, 언어학, 사회학, 교육학에서 다루고 있는 새로운 방법론은 분명히 디지털 인문학이다. 그러나 착각하지 말아야 될 것은 단순히 디지털화만 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 디지털 분석만을 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 단순히 시각화를 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다.
디지털인문학은 수집-분석-출력의 모든 것을 아우르는 종합학문이다.
사족 : ...1시간동안 마구잡이로 두들긴 결과군요. 아직 더 보충하고 싶은 부분이 있으나 일단 올리고 세부적인 내용을 계속 보충해가는 형식으로 하겠습니다. 보충했으면 하는 내용이나 수정했으면 내용이 있으시면 언제든지 말씀해주시기 바랍니다^^
디지털만 붙이면 사람들이 무조건 좋게 봐줄 것이라고 생각했나?!....허허허.... [본문으로]
Sogou는 현재 중국 최대 사용자를 보유하고 있는 중국어 입력기를 서비스하고 있는 회사이다. Sogou는 자신들의 서비스에서 추출된 중국어 단어들을 대상으로 무료로 단어 데이터(Word DB)을 서비스하고 있다.
한국어로 설명을 할까도 생각을 했지만, 해당 DB을 사용할 사람들은 기본적으로 중국어를 할 수 있다고 생각되어서 설명을 생략하도록 하겠다. 혹시 설명이 필요하신 분들이 있다면 연락을 주시면 상세 설명을 추가하도록 하겠다.
互联网词库(SogouW)(2006) : 중국어 단어 데이터이다. 단순한 단어 데이터 뿐만이 아니라 단어의 속성까지 명시해주고 있다. 다만 조사 시간이 2006년 10월이어서 최신 데이터를 구했으면 하는 아쉬움이 있다.
中文词语搭配库(SogouR)(2006) : 중국어 단어 연결 데이터이다. 어떤 단어 뒤에 어떤 단어가 자주오는지를 분석한 결과이다. 단어 데이터와 마찬가지로 최신 데이터가 있으면 더욱 좋았을 것 같다.
互联网语料库(SogouT)(2012) : 중국어로 작성된 1.3억개의 웹페이지의 정보를 모아둔 자료이다. 압축 전 용량이 5TB이며, 압축을 해도 2.13TB이다. 현재 중국에 관하여 데이타 마이닝을 할 경우에 적합한 빅데이터라고 할 수 있다.
본인은 현재 한국 고대문헌들에 대한 텍스트 마이닝을 시도하고 있다. 위의 자료는 단어 데이터를 찾으려고 발악하다가 찾게 된 것으로서 필요하신 분들이 있을 것 같아서 자료 공유차원에서 올려본다.......다시 말해서.....혹시 한자로 된 고대문헌에 대한 자연어처리를 지원하는 패키지 아시는 분?! 아무리 찾아도 없어. ㅠㅠ