김바로, 딥러닝으로 불경 읽기- Word2Vec으로 CBETA 불경 데이터 읽기, 『원불교사상과 종교문화』, 2019년 6월
초록:
본 연구는 CBETA 불경 데이터를 대상으로 딥러닝 방법인 Word2Vec을 통해서 불경을 분석하고 시각화 하는 방법을 탐색하고, 이를 토대로 인공지능이 불경을 읽는 방법의 장단점을 검토했다.
우선 인공지능에 대한 불교학 연구가 인공지능에 대한 비판의 측면에 집중되어 있는 현상을 제시하며, 인공지능을 활용한 불교학 연구를 제안하였다. 이를 위해서 Word2Vec을 통한 불경 분석의 이론적 배경과 분석 알고리즘을 서술하였다. 또한 불교학 연구자가 분석 결과에 대해서 탐색할 수 있는 방법을 제시하고, 이를 불교학 연구자가 분석 결과에 손쉽게 접근하여 사용할 수 있는 시각화 방안을 제시하였다.
마지막으로 인공지능 분석 방법의 장점으로 "넓게 보기", "다르게 보기", "디지털 학문 선순환"을 제시하였고, 단점으로 “형태적인 접근의 한계”, “설명 불가능한 인공지능”, “해석 불가능한 인공지능”의 문제를 서술하였다. 그리고 서술한 문제를 해결하는 방안으로 불교학의 지식과 사유를 디지털에 이식하기 위한 불교학 디지털 온톨로지를 제안하였다.
1. 데이터:
1.1. RAWDATA : CBETA XML P5 版本: https://github.com/cbeta-org/xml-p5
1.2. 전처리 데이터(CSV):
1.2.1. 전체 데이터: https://drive.google.com/open?id=1L5UHGe1V2NxphCJkeucDGJHesVBytua5
1.2.2. 반주삼매경(般舟三昧經)(CBETA API 1.2.7 적용):https://drive.google.com/open?id=1bRcZlZnxDbBXBmCkzIUdd9JPNa5iYFWY
1.2.3. 반주삼매경(般舟三昧經)(CBETA API 1.2.7 미적용):https://drive.google.com/open?id=1d8gkISMEyZlKPx0IHUdesMGjq6xd40PL
2. Word2Vec 분석
2.1. 분석알고리즘(Colab): https://colab.research.google.com/drive/17GcOVcql1KC2mxGYaitAudD65VFlYeHo
(Python 3.6.7, Ubuntu 18.04.2 LTS, Intel(R) Xeon(R) CPU @ 2.30GHz, MemTotal: 13335268 kB, NVIDIA-SMI 418.56 11441MiB)
2.2. Word2Vec 모델: https://drive.google.com/open?id=1hFgmd8ql1PL8kYNpgMSRTKbwRkVpHdTI
(cbeta_word2vec_e_size100_window10_min5_wokres1_lter5_sg1.model)
3. 시각화
3차원 시각화(Embedding Projector): http://projector.tensorflow.org/?config=https://gist.githubusercontent.com/ddokbaro/8792a74013766241f9a9dc869fb155cf/raw/d15f4d8385776c47bcbce91edc089b4c1eda4525/cbeta_word2vec.json