Sogou는 현재 중국 최대 사용자를 보유하고 있는 중국어 입력기를 서비스하고 있는 회사이다. Sogou는 자신들의 서비스에서 추출된 중국어 단어들을 대상으로 무료로 단어 데이터(Word DB)을 서비스하고 있다.


한국어로 설명을 할까도 생각을 했지만, 해당 DB을 사용할 사람들은 기본적으로 중국어를 할 수 있다고 생각되어서 설명을 생략하도록 하겠다. 혹시 설명이 필요하신 분들이 있다면 연락을 주시면 상세 설명을 추가하도록 하겠다.


互联网词库(SogouW)(2006) : 중국어 단어 데이터이다. 단순한 단어 데이터 뿐만이 아니라 단어의 속성까지 명시해주고 있다. 다만 조사 시간이 2006년 10월이어서 최신 데이터를 구했으면 하는 아쉬움이 있다. 


中文词语搭配库(SogouR)(2006) : 중국어 단어 연결 데이터이다.  어떤 단어 뒤에 어떤 단어가 자주오는지를 분석한 결과이다. 단어 데이터와 마찬가지로 최신 데이터가 있으면 더욱 좋았을 것 같다.


互联网语料库(SogouT)(2012) : 중국어로 작성된 1.3억개의 웹페이지의 정보를 모아둔 자료이다. 압축 전 용량이 5TB이며, 압축을 해도 2.13TB이다. 현재 중국에 관하여 데이타 마이닝을 할 경우에 적합한 빅데이터라고 할 수 있다.


본인은 현재 한국 고대문헌들에 대한 텍스트 마이닝을 시도하고 있다. 위의 자료는 단어 데이터를 찾으려고 발악하다가 찾게 된 것으로서 필요하신 분들이 있을 것 같아서 자료 공유차원에서 올려본다.......다시 말해서.....혹시 한자로 된 고대문헌에 대한 자연어처리를 지원하는 패키지 아시는 분?! 아무리 찾아도 없어. ㅠㅠ


댓글을 달아 주세요

BLOG main image
바로바로의 중얼중얼
인문학과 IT의 융합을 추구하는 디지털 인문학을 공부하고 있습니다. 그리고 중국을 비롯한 다양한 취미생활을 통하여 박학을 추구하는 잡학입니다. 개인적인 문의는 제 메일(ddokbaro@g메일.com)로 해주시기 바랍니다.
by 바로바로

카테고리

분류 전체보기 (3623)
디지털인문학 (259)
30살의 병사생활 (5)
중얼중얼 (435)
한국이야기 (140)
중국이야기 (1351)
중국유학 (282)
중국만화 (487)
역사-歷史 (202)
번역 프로젝트 (70)
취미생활 (224)
로바로바 (8)
Language (40)
中文 (100)
일본이야기 (17)
TNM Media textcube get rss DNS Powered by DNSEver.com
바로바로's Blog is powered by Textcube. Designed by Qwer999. Supported by TNM Media.