라마야나 원문-번역문-음성 통합 뷰어(The Mewar Ramayana) 홈페이지

라마야나 원문-번역문-음성 통합 뷰어(The Mewar Ramayana) 실제 사용 페이지


본 프로젝트는 영국 국립 도서관(BRITISH LIBRARY)에 의해 진행된 고대인도의 2대 서사시로 뽑히는 라마야나의 디지털화에 대한 연구이다. 본 프로젝트는 라마야나의 원문이미지와 번역문건 및 음성파일을 서로 연결하여 시각화를 시도하고 있다. 원문이미지와 번역텍스트 및 음성파일을 같이 보여주는 개념은 사실 한국에서도 이미 훌륭한 사례가 많이 있다. 오히려 원문이미지와 번역텍스트 UI나 텍스트에 대한 기계가독성 처리 부분은 한국보다 뒤떨어지는 부분도 상당히 눈에 띄인다.


다만 본 프로젝트에서 배워야될 점은 웹 표준인 HTML5을 적용하였다는 점이다. 그 덕분에 익스플로우(IE)는 물론이고, 크롬이나 파이어폭스를 비롯한 다양한 웹브라우져에서 사용이 가능하다. 한국의 엑티브엑스나 기타 온갖 잡다 스크립트를 이용한 소위 "원문뷰어"에 괴로워 한 경험이 있는 사람이라면 웹 표준 준수가 왜 중요한지 충분히 알 것이라고 생각한다. 

네이버-문화융성위원회-문화재청, 문화 가치 확산 위한 업무 협약 체결

서울--(뉴스와이어) 2014년 07월 29일 -- 네이버㈜(대표 이사 사장 김상헌)는 문화융성위원회(위원장 김동호), 문화재청(청장 나선화)와 문화 가치 확산과 우리 문화유산의 보전 활성화를 위한 업무 협약을 체결했다고 밝혔다. 


이번 업무 협약을 통해, 문화융성위원회와 문화재청이 10월 이전까지 구축할 예정인 아리랑 무형문화유산 DB가 네이버에서 유통되어, 누구나 손쉽게 인터넷을 통해 해당 정보를 찾아볼 수 있게 된다. 


또한, 문화재청 및 관련 기관이 보유한 국가문화유산포털(www.heritage.go.kr)의 정보 역시 네이버를 통해 대중에게 공개될 예정이다. 


이외에도 네이버 측은 문화융성위원회가 추진하는 ‘문화가 있는 날’ 정책을 홍보하고, 네이버 지식백과와 네이버캐스트 등의 서비스를 활용해 아리랑 및 문화유산 정보를 널리 알리는 데 앞장설 예정이다. 


문화융성위원회 김동호 위원장은 “문화를 통해 삶의 가치를 높이는 ‘문화융성’의 시대를 열어감에 있어서는 다양한 기관 간의 협업은 필수”임을 강조하며, “특히 이번 업무협약을 통해 아리랑을 비롯한 한국의 자랑스러운 문화유산이 살아있는 문화 콘텐츠로 재창조되고, 국민 누구나 다양한 문화 콘텐츠를 보다 쉽게 접하고 누릴 수 있는 계기가 되기를 기대한다.”고 밝혔다. 


문화재청 나선화 청장은 “문화재청이 그간 축적해온 수많은 문화유산 정보가 네이버의 경험과 결합되어 국민 눈높이에 맞는 콘텐츠로 거듭남으로써 현재 및 미래세대의 국민행복이 실현되는 데 기여할 것으로 기대한다.”고 밝혔다. 


네이버 김상헌 대표는, “네이버는 문화유산의 아름다움을 오롯이 전달할 수 있도록 많은 지원과 노력을 아끼지 않을 것”이라며, “그로 인해 선조들이 남긴 문화유산의 가치와 그 안에 담긴 정신이 후세들에게 더욱 가깝고 친근하게 다가갈 수 있기를 기원한다”고 밝혔다.


출처 : 네이버-문화융성위원회-문화재청, 문화 가치 확산 위한 업무 협약 체결



바로 : [디지털인문학/DH_News] - 다음 검색과 한국학중앙연구원 한국민족문화대백과사전의 만남 가 네이버의 인문데이터 확보뉴스였다면 이번에는 네이버의 인문데이터 확보 뉴스이다. 


아무리 생각해도......인문학자의 역할을 제대로 된 "DB"을 만들어주면 된다. 그럼 인문학 자신의 발전에도 도움이 되며, 산업화는 산업계에서 좋아라하면서 가져다 쓰게 된다. 인문학자의 역할을 잊지 말자. 인문학은 어디까지나 기본을 튼튼하게 하면 된다. 





버클리 인물연구 서비스(Berkeley Prosopography Services, BPS)는 인문학 데이터 속의 인물에 대해서 코퍼스분석(TEI)과 네트워크 분석 및 시각화를 지원하는 서비스이다. 2014년 미국 인문학재단(NEH)의 "디지털인문학 실행 기금(Digital Implementation Grants )"까지 받으며 온라인 디지털인문학 분석툴의 모범으로 뽑히고 있다.


버클리 인물연구 서비스(Berkeley Prosopography Services, BPS) 홈페이지

버클리 인물연구 서비스(Berkeley Prosopography Services, BPS) WIKI



사실 오프라인을 통해서는 코퍼스나 네트워크 분석을 지원하는 다양한 프로그램들이 존재한다. 그러나 웹 기반으로 코퍼스나 네트워크 분석을 지원하는 서비스는 인문학 영역뿐만이 아니라, 그 외의 영역에서도 다양한 이유로 그다지 많지 않다.


한국도 한국연구재단이나 한국학진흥사업단의 인문학 프로젝트로 축적된 데이터가 존재한다. 문제는 대부분의 인문학자들은 다른 데이터를 돌아볼 여유도 없고, 분석을 실행할 여유는 더더욱 없는 것이 문제이다. 그렇다면 축적된 인문학 데이터를 바탕으로 위와 같은 간단한 분석툴만 제공해도 상당한 효과가 발생하지 않을까 생각해본다.


한국학중앙연구원과 다음 커뮤니케이션은 검색 콘텐츠 제휴 업무 협약(MOU)을 체결하였다. 이번 협약을 통해서 다음은 한국민족문화대백과사전에 수록된 표제어 6만 8000여건에 대한 백과 데이터베이스을 확보하여 PC와 모바일 다음 통합 검색 결과에 적용하게 된다. 


한국민족문화대백과사전은 국가의 지원을 받아 구축된 한국인의 역사, 종교, 정치, 생활, 문화, 과학 전반의 기록을 집대성한 백과사전이다. 이미 다양한 방식의 OpenAPI을 제공하고 있지만, 다음과의 MOU을 통하여 수용자들이 자주 사용하는 검색 시스템에 적용됨으로서 수용자들이 보다 더 편안하게 국가지식정보자원에 접근할 수 있게 되었다. 


이것이 정부 3.0이고, 인문지식의 대중화이다.  인문학자가 직접 온갖 삽질을 하면서 대중화에 신경쓸 필요는 없다. 인문학자는 오직 현재의 디지털기술에 적합한 방식으로 데이터베이스를 축적하면 된다. 그것을 대중화하고 산업화하는 것은 그쪽 영역의 문제이다. 현재의 문제는 엉터리 인문학 데이터베이스가 많다는 것일 뿐이다.




세계 디지털인문학(Digital humanities) 대회가 7월 8일~14일의 일정을 종료하였다. (홈페이지 : http://dh2014.org/ ) 물론 가서 세계 디지털인문학 동향을 듣고 싶었으나, 돈도 시간도...무엇보다 영어능력의 부재로 가지 못했다. 본인과 같은 사람들을 위하여 2014 세계 디지털인문학 대회 관련 정보를 간략하게 모아보았다.


디지털인문학 2014 홈페이지 : http://dh2014.org/

디지털인문학 2015 홈페이지 : http://dh2015.org/


The Spatial in Digital Humanities

TALK AT DIGITAL HUMANITIES 2014

S1E7: Humanities Savior Narrative

The British Library at Digital Humanities 2014



--- 또 다른 관련 글을 아시는 분은 제보 부탁드립니다. ---



언젠가 한국에서도 세계 디지털인문학 대회가 열릴 날이 올거다...암암...-0-!



세미나 블로그


세미나의 비디오 녹화 (MP4)

세미나의 오디오 녹음 (MP3)

프리젠 테이션 (PDF)



바로 : 저자는 유로피아나, 위키피디아, 유튜브, 피카사, PELAGIOS 등의 다양한 디지털 데이터를 서로 연결하여 EAGLE이라고 하는 고대 그리스어와 라틴어 비문들의 정보를 연결하는 시스템을 제안하고 있다. 문헌정보, 지리정보, 번역정보, 저자정보, 멀티미디어정보 등을 통합하여 고대 그리스어와 라틴어 비문에 대한 정보를 통괄한다면 그것보다 관련 연구자나 산업계에 도움이 되는 것이 있을까? 괜히 산업화를 이야기할 필요도 이유도 없다. 인문학자의 일은 데이터를 제공하는 것이지 데이터로 돈을 버는 것이 아니다.


또 다른 면에서 이런 세미나 자료를 동영상, 음성, PDF로 모두 공개한다는 것이 너무나 부럽다. 본인도 최선을 다해서 관련 내용을 블로그에 올리려고 하지만......아직도 다양한 이유로 공개하지 못하는 자료가 쌓여있는데 말이다. 다음부터 세미나때의 동영상촬영을 건의해볼까나...근데 편집해야되서...귀찮....쿨럭...


I am a huge fan of Ben Marwick. He has so many useful pieces of code for the programming archaeologist or historian!

Edit July 17 1.20 pm: Mea culpa: I originally titled this post, ‘Doing OCR within R’. But, what I’m describing below – that’s not OCR. That’s extracting text from pdfs. It’s very fast and efficient, but it’s not OCR. So, brain fart. But I leave the remainder of the post as it was. For command line OCR (really, actual OCR) on a Mac, see the link to Ben Schmidt’s piece at the bottom. Sorry.

Edit July 17 10 pm: I am now an even bigger fan of Ben’s. He’s updated his script to either a) perform OCR by calling Tesseract from within R or b) grab the text layer from a pdf image. So this post no longer misleads. Thank you Ben!

Object Character Recognition, or OCR, is something that most historians will need to use at some point when working with digital documents. That is, you will often encounter pdf files of texts that you wish to work with in more detail (digitized newspapers, for instance). Often, there is a layer within the pdf image containing the text already: if you can highlight text by clicking and dragging over the image, you can copy and paste the text from the image. But this is often not the case, or worse, you have tens or hundreds or even thousands of documents to examine. There is commercial software that can do this for you, but it can be quite expensive

One way of doing OCR on your own machine with free tools, is to use Ben Marwick’s pdf-2-text-or-csv.r script for the R programming language. Marwick’s script uses R as wrapper for the Xpdf programme from Foolabs. Xpdf is a pdf viewer, much like Adobe Acrobat. Using Xpdf on its own can be quite tricky, so Marwick’s script will feed your pdf files to Xpdf, and have Xpdf perform the text extraction. For OCR, the script acts as a wrapper for Tesseract, which is not an easy piece of software to work with. There’s a final part to Marwick’s script that will pre-process the resulting text files for various kinds of text analysis, but you can ignore that part for now.

  1. Make sure you have R downloaded and installed on your machine (available from http://www.r-project.org/)
  2. Make sure you have Xpdf downloaded and installed (available from ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.04.zip ). Make a note of where you unzipped it. In particular, you are looking for the location of the file ‘pdftotext.exe’. Also, make sure you know where ‘pdftoppm’ is located too (it’s in that download).
  3. Download and install Tesseract https://code.google.com/p/tesseract-ocr/ 
  4. Download and install Imagemagick http://www.imagemagick.org/
  5. Have a folder with the pdfs you wish to extract text from.
  6. Open R, and paste Marwick’s script into the script editor window.
  7. Make sure you adjust the path for “dest” and the path to “pdftotext.exe” to the correct location
  8. Run the script! But read the script carefully and make sure you run the bits you need. Ben has commented out the code very well, so it should be fairly straightforward.

Obviously, the above is framed for Windows users. For Mac users, the steps are all the same, except that you use the version of Xpdf, Tesseract, and Imagemagick built for IOS, and your paths to the other software are going to be different. And of course you’re using R for Mac, which means the ‘shell’ commands have to be swapped to ‘system’! (As of July 2014, the Xpdf file for Mac that you want is at ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-mac-3.04.tar.gz ) I’m not 100% certain of any other Mac/PC differences in the R script – these should only exist at those points where R is calling on other resources (rather than on R packages). Caveat lector, eh?

The full R script may be found athttps://gist.github.com/benmarwick/11333467. So here is the section that does the text extraction from pdf images (ie, you can copy and highlight text in the pdf):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
###Note: there's some preprocessing that I (sg) haven't shown here: go see the original gist
 
################# Wait! ####################################
# Before proceeding, make sure you have a copy of pdf2text
# on your computer! Details: https://en.wikipedia.org/wiki/Pdftotext
 
# Tell R what folder contains your 1000s of PDFs
dest <- "G:/somehere/with/many/PDFs"
 
# make a vector of PDF file names
myfiles <- list.files(path = dest, pattern = "pdf",  full.names = TRUE)
 
# now there are a few options...
 
############### PDF to TXT #################################
# convert each PDF file that is named in the vector into a text file
# text file is created in the same directory as the PDFs
# note that my pdftotext.exe is in a different location to yours
lapply(myfiles, function(i) system(paste('"C:/Program Files/xpdf/bin64/pdftotext.exe"', paste0('"', i, '"')), wait = FALSE) )
 
# where are the txt files you just made?
dest # in this folder

And here’s the bit that does the OCR

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
</pre>
                     ##### Wait! #####
# Before proceeding, make sure you have a copy of Tesseract
# on your computer! Details & download:
# and a copy of ImageMagick: http://www.imagemagick.org/
# and a copy of pdftoppm on your computer!
# And then after installing those three, restart to
# ensure R can find them on your path.
# And note that this process can be quite slow...
 
# PDF filenames can't have spaces in them for these operations
# so let's get rid of the spaces in the filenames
 
sapply(myfiles, FUN = function(i){
  file.rename(from = i, to =  paste0(dirname(i), "/", gsub(" ", "", basename(i))))
})
 
# get the PDF file names without spaces
myfiles <- list.files(path = dest, pattern = "pdf",  full.names = TRUE)
 
# Now we can do the OCR to the renamed PDF files. Don't worry
# if you get messages like 'Config Error: No display
# font for...' it's nothing to worry about
 
lapply(myfiles, function(i){
  # convert pdf to ppm (an image format), using
  shell(shQuote(paste0("pdftoppm ", i, " -f 1 -l 10 -r 600 ocrbook")))
  # convert ppm to tif ready for tesseract
  shell(shQuote(paste0("convert *.ppm ", i, ".tif")))
  # convert tif to text file
  shell(shQuote(paste0("tesseract ", i, ".tif ", i, " -l eng")))
  # delete tif file
  file.remove(paste0(i, ".tif" ))
  })
 
# where are the txt files you just made?
dest # in this folder

Besides showing how to do your own OCR, Marwick’s script shows some of the power of R for doing more than statistics. Mac users might be interested in Ben Schmidt’s tutorial ‘Command-line OCR on a Mac’ from his digital history graduate seminar at Northeastern University, online athttp://benschmidt.org/dighist13/?page_id=129.


출처 : Extracting Text from PDFs; Doing OCR; all within R


바로 : 요즘은 PDF에서 곧장 텍스트를 추출할 수 있다. 그러나 다양한 이유로 텍스트 추출이 어려운 경우가 있다. 물론 이를 지원하는 수 많은 유료소프트웨어가 있기는 하지만......돈 없는 우리가 불법행위를 하지 않으면서 텍스트를 추출하는 방법은 무엇인가?! 저자는 무료툴인 R을 통해서 텍스트를 추출하는 방법에 대해서 서술하고 있다. 


출처 : Collaborative Academic Writing: Tools and Features


공동 학술 도구 설명 관련 포스트

Collaborative Academic Writing: Tools and Features

The right tool for the job: Five collaborative writing tools for academics



공동 학술 도구 

Confluence – www.confluence.atlassian.com 

Dropbox – www.dropbox.com

Etherpad – www.etherpad.org

Fidus Writer – www.fiduswriter.org

Git / GitHub – www.github.com 

Google Drive – www.drive.google.com

Libre Office – www.libreoffice.org 

Mediawiki – www.mediawiki.org

ownCloud – www.owncloud.org

Penflip – www.penflip.com

ZOHO Docs / Writer – www.writer.zoho.com



바로 : 개인적으로 기본적인 공동집필의 경우 구글드라이브를 통해서 사실상 거의 모든 일을 처리할 수 있다. 결국 기존 세력?!의 압박으로 파일관리시스템을 유지해야된다면 구글드라이브보다 드롭박스가 더 좋을 수도 있을 것이다. 만약 외부로 공개 가능한 자료라면 위키도 좋은 툴이다.


사실 툴이 중요한 것이 아니라, 툴을 대하는 마인드가 중요하다. "몰라. 어려울거야. 그냥 지금까지 하던대로 하자."보다는 "오?! 이걸 하면 뭐가 편해지는데?!"라고 해야되지 않을까?! 원고지에다가 논문을 쓰는 것보다 워드나 한글에서 쓰는 것이 몇 백배나 편하지 않은가?! 공동 학술 도구도 이와 동일하다.






안녕하세요. 역사학회 사무국입니다.

2014년 하반기 역사학회 학술대회를 안내해드립니다.


일시: 2014년 8월 22일 금요일 오후 1시 ~ 6시

장소: 서울역 앞 대우재단 빌딩 7층 세미나 1실

주제: 역사학과 ICT의 융합 모색 -한국 역사학의 미래 탐색-

    

일정:

13:00 ~ 13:10 - 개화사 (역사학회 회장)

      

제 1부 (13:10~14:40)

 

주제 1 - 역사연구와  디지털 결합 실제 사례

세부 주제 : < Case Study: 역사학·ICT의 융합교육과정 현황과 문제점 >

발표자 : 임승휘 (선문대학교)

 

주제 2 - GIS 활용 역사 연구 방법론 

세부 주제 : < GIS 기법의 활용을 통한 조선시대 월경지의 복원 >

발표자 : 정요근 (덕성여자대학교)

 

주제 3 - ICT와 역사 콘텐츠

세부 주제 : < ICT를 활용한 역사콘텐츠의 기획과 개발 >

발표자 : 최희수 (상명대학교)

 

 

제 2부 (14:50~16:40)


주제 4 - Visualization

세부 주제 : < 시각적 인문학 >

발표자 : 김  현 (한국학중앙연구원)

 

주제 5 - 문화콘텐츠 차원의 역사학

세부 주제 : < 문화콘텐츠의 핵심원천으로서의 역사학 >

발표자 : 김기덕 (건국대학교)

 

주제 6 - 인문학에 대한 ICT 전문가의 제언

세부 주제 : < 디지털 시대의 기록하는 역사와 '잊혀질 권리' >

발표자 : 정혜승 (Daum 커뮤니케이션 정책 실장)


제 3부 (16:50~18:00)

종합토론

토론자 : 문종현 (한양대학교) /  김종혁 (고려대학교) / 홍성덕 (전주대학교)

            유동환 (건국대학교) /  김   호 (경인교육대학교)


18:10 ~ 20:00 - 만 찬

 

* 더욱 자세한 일정 및 내용은 첨부된 안내문을 참고하십시오.  


2014년 역사학회 학술대회 안내.hwp



출처 : 역사학회 2014년 하반기 역사학회 학술대회 안내


바로 : 역사학도였던 입장에서 역사학의 디지털인문학 모색에 대해서 환영한다. 역사학자의 능력이 자료수집이 아니라 자료해석이라는 점에 동의한다면 자료수집이 반자동적으로 이루어지는 디지털인문학에 동의하지 않을 수 없다. 또한 학자의 의무 중에 하나인 성과의 사회반환에 대해서 고민한다면 디지털인문학만이 현재의 가장 합리적인 답안이라는 것을 말해 무엇하리오. 


귀찮다고? 무섭다고? 내가 할일이 아니라고? 핑계다. 워드나 한글을 하지 못해서 원고지에 논문을 쓰겠다는 것과 무엇이 다른가?! 이제 새로운 역사학 연구 방법론의 세계로 가보자.



2014년도 과학전시전문가과정 수강생모집(제4회) 과학문화 대중화 및 과학기술 마인드 확산을 통한 과학기술 중심사회를 실현하고, 과학관 확충과 운영활성화에 대비하여 과학전시를 담당할 현장 전문인력을 양성하고자 국립중앙과학관과 KAIST문화기술대학원에서 ‘2014 과학전시 전문인력 양성사업 전문가과정’을 개설하고 수강생을 모집합니다.


‘2014 과학전시 전문인력양성 전문가과정’은, 특화된 “과학전시 기획 및 창의체험 과학전시 컨텐츠개발” 을 중심으로 단기집중 교육합니다. “과학전시와 과학문화”를 중심으로 한 공개강좌와 “과학전시기획” “과학컨텐츠 기획 및 개발”, “뉴미디어의 활용전시”, 등을 중심으로 한 세미나와 현장 인턴실습 프로젝트교육을 통해 전시실무 개발경험을 축적시키고 새로운 전시기술을 교육하여 과학전시전문인력을 양성합니다.



추가 정보는 다음 파일을 참고해주시기 바랍니다. 참고로 "무료"입니다!!!


#01. 과학전시2014 안내NEW.pdf


#02. 과학전시2014 신청서.hwp





바로 : 저는 시간관계상 참가하기가 힘들듯 하더군요. ㅠㅠ 다만 너무 빡빡한 일정이 아닌가라는 생각이 좀 많이 드는군요. 교육일정표의 하나 하나의 강좌가 쉽지 않은 내용인데 실제 강의시간은 1시간 정도니까...죽음의 행진이 될 가능성이 높군요^^:::


+ Recent posts