김바로, 딥러닝으로 불경 읽기- Word2Vec으로 CBETA 불경 데이터 읽기, 『원불교사상과 종교문화』, 2019년 6월

 

초록:

본 연구는 CBETA 불경 데이터를 대상으로 딥러닝 방법인 Word2Vec을 통해서 불경을 분석하고 시각화 하는 방법을 탐색하고, 이를 토대로 인공지능이 불경을 읽는 방법의 장단점을 검토했다.

우선 인공지능에 대한 불교학 연구가 인공지능에 대한 비판의 측면에 집중되어 있는 현상을 제시하며, 인공지능을 활용한 불교학 연구를 제안하였다. 이를 위해서 Word2Vec을 통한 불경 분석의 이론적 배경과 분석 알고리즘을 서술하였다. 또한 불교학 연구자가 분석 결과에 대해서 탐색할 수 있는 방법을 제시하고, 이를 불교학 연구자가 분석 결과에 손쉽게 접근하여 사용할 수 있는 시각화 방안을 제시하였다.

마지막으로 인공지능 분석 방법의 장점으로 "넓게 보기", "다르게 보기", "디지털 학문 선순환"을 제시하였고, 단점으로 형태적인 접근의 한계”, “설명 불가능한 인공지능”, “해석 불가능한 인공지능의 문제를 서술하였다. 그리고 서술한 문제를 해결하는 방안으로 불교학의 지식과 사유를 디지털에 이식하기 위한 불교학 디지털 온톨로지를 제안하였다.

 

1. 데이터:

1.1. RAWDATA : CBETA XML P5 版本: https://github.com/cbeta-org/xml-p5

 

1.2. 전처리 데이터(CSV): 

1.2.1. 전체 데이터: https://drive.google.com/open?id=1L5UHGe1V2NxphCJkeucDGJHesVBytua5

1.2.2. 반주삼매경(般舟三昧經)(CBETA API 1.2.7 적용):https://drive.google.com/open?id=1bRcZlZnxDbBXBmCkzIUdd9JPNa5iYFWY

 

1.2.3. 반주삼매경(般舟三昧經)(CBETA API 1.2.7 미적용):https://drive.google.com/open?id=1d8gkISMEyZlKPx0IHUdesMGjq6xd40PL

 

 

2. Word2Vec 분석

2.1. 분석알고리즘(Colab): https://colab.research.google.com/drive/17GcOVcql1KC2mxGYaitAudD65VFlYeHo

(Python 3.6.7, Ubuntu 18.04.2 LTS, Intel(R) Xeon(R) CPU @ 2.30GHz, MemTotal: 13335268 kB, NVIDIA-SMI 418.56 11441MiB)

 

2.2. Word2Vec 모델: https://drive.google.com/open?id=1hFgmd8ql1PL8kYNpgMSRTKbwRkVpHdTI

(cbeta_word2vec_e_size100_window10_min5_wokres1_lter5_sg1.model)

 

 

3. 시각화

3차원 시각화(Embedding Projector)http://projector.tensorflow.org/?config=https://gist.githubusercontent.com/ddokbaro/8792a74013766241f9a9dc869fb155cf/raw/d15f4d8385776c47bcbce91edc089b4c1eda4525/cbeta_word2vec.json

 

BLOG main image
바로바로의 중얼중얼
인문학과 IT의 융합을 추구하는 디지털 인문학을 공부하고 있습니다. 그리고 중국을 비롯한 다양한 취미생활을 통하여 박학을 추구하는 잡학입니다. 개인적인 문의는 제 메일(ddokbaro@g메일.com)로 해주시기 바랍니다.
by 바로바로

카테고리

분류 전체보기 (3620)
디지털인문학 (256)
30살의 병사생활 (5)
중얼중얼 (435)
한국이야기 (140)
중국이야기 (1351)
중국유학 (282)
중국만화 (487)
역사-歷史 (202)
번역 프로젝트 (70)
취미생활 (224)
로바로바 (8)
Language (40)
中文 (100)
일본이야기 (17)
TNM Media textcube get rss DNS Powered by DNSEver.com
바로바로's Blog is powered by Textcube. Designed by Qwer999. Supported by TNM Media.