고적한자출현빈도통계는 강희자전(康熙字典)과 사고전서(四库全书) 그리고 사부총간(四部丛刊)의 디지털화 작업을 하면서 출현하는 한자들의 빈도수를 조사하였다. 그 외에도 디지털화를 하는 과정에서의 몇 가지 규칙들이 같이 소개되어 있다. 인문정보학을 공부하는 사람이라면 한번쯤 읽어볼만 하다.





그러나 재미있는 것은 그것이 아니라!!! "고적에서 가장 많이 출현하는 한자가 무엇이냐!?"라는 단순한 궁금증이다. 고문에서 가장 많이 등장하는 상위 50개 한자를 아래에 첨부하였다. 다른 숫자는 굳이 볼 필요가 없을 것이고, 한자 아래 등장하는 첫항은 해당 한자의 총 출현횟수이고, 그 다음은 만자당 해당 한자가 출현하는 평균횟수이다.



之가 압도적인 1위를 하였다. 그 다음으로 不자가 2등을 하였고, 미세한 차이로 以가 3등을 차지하였다. 이 수치들을 이용하여 해당 내용을 시각화해서 보여주면 나름 재미있을 것 같다. 3만자의 한자가 고적에 출현하는 빈도를 보여주는 시각화라.....한가해지면 해볼까나. -0-!



제목 : 《中国语言生活绿皮书-古籍汉字字频统计》

작가 : 北京书同文数字化技术有限公司 编

출판사 : 商务印书馆

출판년도 : 2008-07-01

ISBN : 9787100056076


  1. Favicon of http://golbin.net BlogIcon 골빈해커 2013.07.18 16:57

    저걸 다 디지털로 옮기는게 일이겠군요;; 옮기고 난 다음에야 한시간도 안걸릴 듯..

  2. Favicon of https://www.ddokbaro.com BlogIcon 바로바로 2013.07.18 21:03 신고

    문제는 기존 한자코드에 글자가 존재하지 않는 경우도 있고, 이체자(같은 글자인데 다르게 쓰기)등의 다양한 문제가 존재하기에 최소한 기본적인 한자에 대한 교육을 받은 사람이 입력작업을 해야됩니다. 그런데 이런 사람은 나름 "고급인력"이죠. 그래서 몇 가지 꼼수들이 등장했지만...그렇다고 하더라도 노가다 입력이라는 점은 변함이 없지요. 앞으로 증가할 수 밖에 없는 디지털화에서 현재 인문학 석박사들이 많이 동원될겁니다. 기본적인 생계를 보장되겠....쿨럭...

+ Recent posts