'dh' 태그의 글 목록

dh

[DH교육] 사전편찬교실 - 고려대 2019.12.16
인문학에서의 데이타 마이닝은 시기상조이다. 2013.07.13 1

[DH교육] 사전편찬교실 - 고려대

바로바로 2019. 12. 16. 06:59

2019. 12. 16. 06:59

고려대학교 민족문화연구원 사전학센터에서 제12기 사전편찬교실을 개최합니다.

이번 사전편찬교실은 고려대 대학혁신지원사업단과 함께 <사전과 디지털 큐레이션 아카데미: 인문학 기반 디지털 융복합 사전 큐레이션에 대한 이론과 실제>라는 주제로 개최하게 되었습니다.

디지털 시대에 필요한 사전을 기획, 편찬할 수 있도록 구성한 프로그램으로, 국어사전, 외국어사전, 전문용어 사전의 편찬의 이론과 실제를 주제로 강의를 진행합니다.

특히 DB 구축, 코퍼스 활용법, 디지털 사전 편찬 도구를 활용한 편찬 실습을 경험할 수 있도록 구성하였습니다.

관심 있는 분들의 많은 참여를 바랍니다.

▶ 신청 안내

▷ 인원: 30명 내외

▷ 신청 기간: 2020년 12월 10일 ~ 1월 5일

▷ 신청 방법:

https://drive.google.com/open?id=1A2ca1TeEy7DtSunpTYOQm8KHmFDnz5OMjJSBpTmOTI8

에 접속하여 신청

▷ 등록비: 5만 원 (고려대 학생 제외)

▷ 문의: 02) 3290-1618 / lexico2016@gmail.com

▶ 프로그램: 포스터 참조

바로: 고려대학교 민족문화연구원 사전학센터에서 개최하는 사전편찬 교실이다. 디지털 시대에 유의미한 데이터로서의 사전 편찬의 기본 개념을 학습하고, 실제 실무까지 배울 수 있는 좋은 기회라고 생각한다.

'디지털인문학 > DH_강의' 카테고리의 다른 글

한국학중앙연구원 김바로 강의 - RDB와 데이터분석 (0)	2022.02.05
디지털 인문학 교육에 대한 여러 생각들: 서울대 자유전공학부의 사례를 바탕으로 - 차주항(서울대) (0)	2020.01.09
[DH교육] MSSQL 입문 - 인문지식의 집적과 분석을 위한 기술 (0)	2015.07.20
김현의 한국의 디지털 인문학 - 과거, 현재, 그리고 미래 (1)	2014.12.08
[강의] 인문학 정보란 무엇인가? - 기록관리의 가치에 대한 음미와 함께 - 김현 (0)	2014.09.22

인문학에서의 데이타 마이닝은 시기상조이다.

바로바로 2013. 7. 13. 18:57

2013. 7. 13. 18:57

요즘 "빅데이타"라는 키워드가 뜨면서, 빅데이타를 분석하는 "데이타 마이닝"이라는 키워드도 반사이익을 얻고 있다. 빅데이타나 데이타 마이닝 모두가 이미 예전부터 존재하고 있었고, 실제 현장에서 사용되고 있었는데 마치 웹 2.0 처럼 하나의 마케팅 키워드로 떠오르는 것에 대해서 유감스러운 점이 없지는 않다. 그러나 빅데이타나 데이타 마이닝 모두가 중요한 개념이고, 이를 통해서 IT의 부흥?!이 이루어진다면 큰 문제는 없을 것이라 생각하기에 조용히 있다.

문제는 인문학에 대한 데이타 마이닝까지 일부 거론되고 있다는 점이다. 인문학과 IT의 융합학문인 인문정보학으로 박사과정을 전공하는 입장에서 누구보다 인문학 분야에 대한 데이타 마이닝을 적용을 실현시키고 싶다. 그러나 인문학에 대한 데이타 마이닝은 데이타 마이닝의 역사와 조건을 간과한 몽상적인 이야기일 뿐이다.

데이타 마이닝은 요즘 빅데이타라고 불리우는 어마어마한 데이타에 대해서 효과적인 분석을 수행하기 위하여 탄생하였고, 지금까지 발전을 이어오고 있다. 그런데 인문학은 빅데이타가 사실상 존재하지 않는다. 더 정확하게 말해서 데이타 마이닝을 적용할 수 있는 빅데이타가 극소수에 불과하다.

그럼 혹자는 지금까지 인문학에서 축적한 빅데이타가 많다고 반박할지도 모른다. 조선왕조실록은 원문과 번역본 모두가 번역되었고, 인터넷을 통해서 검색기능을 지원하고 있다. 그 외의 수 많은 역사서들이 디지털화되어서 인터넷에서 서비스를 하고 있다. 그 뿐인가? 현재 한국에서 진행되는 인문학 프로젝트들은 사실상 모두가 DB화를 포함한다고 할 수 있다. 그런데 이런 DB들은 그냥 덩치만 큰 공룡들이다.

데이타 마이닝을 기계적으로 처리하기 위해서는 고유값의 존재가 사실상 필수적이다. 특히 시간, 인물, 지리에 대한 고유값은 필수라고 할 수 있다. 지금 현재 기업에서 활용되는 데이타 마이닝이 효과적인 이유는 고객에 대한 각각의 고유값(ID)을 가지고 있기에 기준으로서 작용할 수 있기 때문이다. 그런데 한국에서 현재까지 구축된 인문학 DB의 거의 대부분이 시간, 인물, 지리에 대한 공통적인 고유값은 고사하고, 자체적인 고유값조차 가지지 못하는 경우가 많다.

시간, 인물, 지리가 고유값을 가지지 못하게 된다면, 문헌에 출현하는 갑신년이 984년인지, 1044년인지 혹은 그 외의 다른 년도인지 도무지 알 방법이 없다. 또한 문헌에 출현하는 태조가 고려태조인지, 조선태조인지 혹은 중국이나 일본의 어느 태조인지 알 방법이 없다. 물론 인문학 지식이 어느 정도 있는 사람들은 문맥으로 누구인지 파악할 수 있으나, 컴퓨터에게 그런 경험적인 추론을 수행하게 하는 것은 지금의 기술로는 불가능에 가깝다고 할 수 있다^[각주:1].

그렇기에 인문학의 데이타 마이닝을 위해서는 우선 현재 우후죽순식으로 진행되고 있는 DB들의 가장 기본적인 공통규칙을 마련하고, 시간, 인물, 지리를 위한 한국표준고유값을 만드는 것이 선행되어야 한다^[각주:2].이를 이루지 못하면 데이타 마이닝을 고사하고, 그냥 크기만 큰 조잡하고 쓸데 없는 빅데이타가 되어서 공룡처럼 멸망해버리고 말리라.

----

오랜만에 글을 올립니다....그 동안 이래저래 정신이 없었습니다. 당분간은 전공공부에 집중하기 위해서 좀 재미가 없을지는 몰라도 전공에 관한 내용이 많이 올라올 겁니다. 이런 정보를 필요로 하는 사람은 아직 극소수이겠지만, 그래도 공유하는 것이 좋다고 생각해서 조금이나마 올리도록 하겠습니다.

아! 다만 인문정보학 연구사 정리를 위해서 지금까지의 인문정보학 연구 및 성과물을 간략하게 리뷰해서 올릴 내용은 인문학이나 IT 쪽에 속한 분들은 한 번쯤 봐도 괜찮을 내용일겁니다. 인문학계열 분들은 이런 DB가 있다는 것을 알고 활용하시면 좋을것이고, IT쪽 분들은 인문학의 측면에서 바라본 IT기술과 활용이 어떤 것인지 살펴볼 수 있을 겁니다.

물론 복잡한 법칙을 억지로 적용시키면 어떻게든 할 수 있을 것이다. 그런데 그건 마치 토대공사를 잘못한 집을 어떻게든 고쳐보겠다는 행동에 불과하다. 아직 공사가 많이 진척되지 않았으면, 지금이라도 토대공사를 다시 하는 것이 좋다. 그래야 수백미터의 고층빌딩을 올릴 것 아닌가! [본문으로]
사실 인물은 한국학중앙연구원이 역대인물종합DB을 기반으로 발전하면 될 것이다. 다만 시간과 장소에 대한 고유값은......현재 열심히 이것저것 고민하며 직접 구축하려고 시도하고 있다. 덕분에 쓸데 없이 바쁘다..ㅠㅠ [본문으로]

저작자표시 비영리 변경금지 (새창열림)

'디지털인문학 > 잡담잡상' 카테고리의 다른 글

연세대 디지털 인문학은 디지털 언어학이다. (0)	2013.07.17
인문학자와 프로그래머 - 그들의 트라우마 (2)	2013.07.15
인문학 통합정보시스템에 대한 거친 구상 (0)	2013.07.14
박근혜정부의 ICT 정책의 핵심은 콘텐츠?! (0)	2013.03.21
인문학에서의 다중지성을 실현한다는 의미는? (7)	2013.03.14

PREV 이전 1 NEXT 다음

바로바로의 중얼중얼

dh

[DH교육] 사전편찬교실 - 고려대

'디지털인문학 > DH_강의' 카테고리의 다른 글

인문학에서의 데이타 마이닝은 시기상조이다.

'디지털인문학 > 잡담잡상' 카테고리의 다른 글

+ Recent posts

티스토리툴바