미래창조과학부와 한국정보화진흥원은 국내 빅데이터 서비스 도입과 보급을 위한 "빅데이터 업무절차 및 기술 활용 매뉴얼 1.0"을 발표하였다. "빅데이터 업무절차 및 기술 활용 매뉴얼 1.0"은 데이터 수집, 관리 및 분석·활용 분야별 실무경험이 있는 산·학·연 20여명의 전문가(반장 : 강원대학교 김화종교수)로 실무반을 구성(‘13.9∼’14.2)하여  빅데이터를 수집하고 저장·관리, 분석, 이용하는데 필요한 단계별 업무절차와 필요한 기술들, 기술 도입·활용 시 중점 체크해야 할 기능 고려사항 등 빅데이터 실무자를 위한 정보와 관련 노하우를 담았다.



실무자를_위한_빅데이터_업무절차_및_기술활용_매뉴얼_1.0.pdf




바로 : 아는 사람들은 이미 다 아는 쉬운 내용이다. 하지만 입문자들에게 매우 유용하게 작성되었다. 빅데이터에 관심을 가지고, 활용을 모색하고 있다면 천천히 본 매뉴얼을 읽어보는 것만으로도 최소한의 기본을 가질 수 있다고 생각된다.






소셜 네트워크 분석|

존 스콧슨 (지은이) | 

김광재, 김효동 (옮긴이) | 

커뮤니케이션북스 | 

2012-10-24 | 

원제 Social Network Analysis: a handbook|


소셜 네트워크에 대한 개론서 강력추천하고 싶은 책이다. 소셜 네트워크의 기본과 응용에 대해서 초보자들도 쉽게 접근할 수 있는 수준으로 핵심을 다루고 있다. 다만 소셜 네트워크의 이론 부분을 주로 다루고 있고, 실무 작업에 대한 설명은 간략화되어 있다. 



주요 문장 : 

계량화된 척도를 사용하여 특정한 연구 문제나 사회현상을 적용하는 것은 연구자의 지적 판단(infomed judgment)가 요구되는 중요한 문제라는 점이다. 이런 문제점들은 단순화되어서, 부분적으로 이해된 수학 개념을 이용함으로써 피할 수 있는 것이 아니다. 오직 계량화되는 척도에 대한 기본적인 논리를 명확하게 이해하는 것이 바탕이 되어야하며, 이를 통해서만 지적이며 사회학적인 판단과 분석이 가능하다. - P3


일반적인 사회과학에서 사용되는 데이터의 가장 평범한 특징은 그것들이 문화적 가치와 상징에 기초한다는 점이다. 물리학에서 사용되는 데이터와는 달리 사회과학 데이터는 의미(meaning), 동기(motives), 정의(definition), 분류(typification) 등을 바탕으로 구성되며, 종종 이런 데이터를 이해하기 위해서는 판단 혹은 해석이 필요하다. 사회과학자들은 이런 특성, 즉 데이터의 문화적 가치나 상징 그리고 그에 대한 판단 혹은 해석에 기초하여 독특한 유형의 데이터와 그 분석법을 연구해 왔다. 

대표적인 것이 '속성형 데이터(attribute data)'와 '관계형 데이터(relational data)'다. 속성형 데이터는 일반적으로 사람들(agents)의 속성(attributes), 의견(opinions), 행동(behaviors)과 관계가 있으며, 이 속성은 해당 개인 혹은 단체에 귀속된 특성(properties), 본질(qualities), 특징(characteristics) 등으로 여겨진다. 예를 들면 서베이나 인터뷰에서 얻은 데이터들은 단순히 특정한 개인들의 속성을 나타내는 것이라고 여겨지고 기존의 통계학적인 절차를 통해서 분석되는 것이 대부분이다. 여기서 말하는 기존 통계학적 방법들은 변수 분석(가령 수입, 직업, 교육 등의 특정한 변수 값이 측정되고 이들 간의 변량 분석이나 상관관계 분석이 이루어지는)을 말한다.

반면에 관계형 데이터는 연락(contacts), 유대(ties), 관련(connections), 단체 귀속(group attachments), 만남(meetings) 등을 기록하여 얻을 수 있는데, 이런 종류의 데이터는 일반 사람들 간의 관계를 나타내는 것으로서 개개인의 속성 등으로 환원할 수 없다. 관계는 개인의 속성이나 특성이 아니라 개인이 속한 체제(system)의 특성이 되는 것이다. 즉 관계는 개인 간에 존재하는 연결을 전체적인 관계의 체제로 이어주는 수단인 것이다. 이런 종류의 데이터 분석에 어울리는 분석 방법들을 연결망 분석이라고 한다. 이런 분석 방법들은 대개 관계를 개인 혹은 단체 간의 연결을 나타내는 것으로 간주한다. 연결망 연구는 양적인 혹은 통계학적인 데이터를 다룰 뿐만이 아니라, 질적인 척도를 사용하기도 한다.

물론 속성형 데이터나 관계형 데이터가(대부분의 개설서나 방법론들이 주로 이 둘을 다루기는 하지만) 사회과학 데이터의 종류의 전부라고 볼 수는 없다. 세번째 종류는 데이터로는 관념형 데이터(ideational data)가 있다. 관념형 데이터는 의미, 동기, 정의 , 분류 등 그 자체가 기술하는 데 쓰인다. 사실 이런 관념 데이터가 사회과학의 구심점임에도 불구하고 이런 종류의 데이터를 다루는 기술은 그리 발전해 오지 않았다. 베버(Weber, 1920~1921)가 제창하였던 유형 분석(typological analysis)이 가장 생산적인 접근이었지만 현재로서는 아직 발전 단계에 있다고 하겠다. - P4~P5



고적한자출현빈도통계는 강희자전(康熙字典)과 사고전서(四库全书) 그리고 사부총간(四部丛刊)의 디지털화 작업을 하면서 출현하는 한자들의 빈도수를 조사하였다. 그 외에도 디지털화를 하는 과정에서의 몇 가지 규칙들이 같이 소개되어 있다. 인문정보학을 공부하는 사람이라면 한번쯤 읽어볼만 하다.





그러나 재미있는 것은 그것이 아니라!!! "고적에서 가장 많이 출현하는 한자가 무엇이냐!?"라는 단순한 궁금증이다. 고문에서 가장 많이 등장하는 상위 50개 한자를 아래에 첨부하였다. 다른 숫자는 굳이 볼 필요가 없을 것이고, 한자 아래 등장하는 첫항은 해당 한자의 총 출현횟수이고, 그 다음은 만자당 해당 한자가 출현하는 평균횟수이다.



之가 압도적인 1위를 하였다. 그 다음으로 不자가 2등을 하였고, 미세한 차이로 以가 3등을 차지하였다. 이 수치들을 이용하여 해당 내용을 시각화해서 보여주면 나름 재미있을 것 같다. 3만자의 한자가 고적에 출현하는 빈도를 보여주는 시각화라.....한가해지면 해볼까나. -0-!



제목 : 《中国语言生活绿皮书-古籍汉字字频统计》

작가 : 北京书同文数字化技术有限公司 编

출판사 : 商务印书馆

출판년도 : 2008-07-01

ISBN : 9787100056076


  1. Favicon of http://golbin.net BlogIcon 골빈해커 2013.07.18 16:57

    저걸 다 디지털로 옮기는게 일이겠군요;; 옮기고 난 다음에야 한시간도 안걸릴 듯..

  2. Favicon of https://www.ddokbaro.com BlogIcon 바로바로 2013.07.18 21:03 신고

    문제는 기존 한자코드에 글자가 존재하지 않는 경우도 있고, 이체자(같은 글자인데 다르게 쓰기)등의 다양한 문제가 존재하기에 최소한 기본적인 한자에 대한 교육을 받은 사람이 입력작업을 해야됩니다. 그런데 이런 사람은 나름 "고급인력"이죠. 그래서 몇 가지 꼼수들이 등장했지만...그렇다고 하더라도 노가다 입력이라는 점은 변함이 없지요. 앞으로 증가할 수 밖에 없는 디지털화에서 현재 인문학 석박사들이 많이 동원될겁니다. 기본적인 생계를 보장되겠....쿨럭...

+ Recent posts