정부 3.0을 비롯한 오픈데이터 정책에 따라서 현재 다양한 데이터들이 공개되고 있다. 그런데 어떤 형식과 기술이 제공자와 사용자를 만족시킬 수 있는 방법일까? 간략하게 생각해보도록 하겠다.
* 지속적으로 업데이트 처리하고 있습니다. 관련 사항에 대한 의견 부탁드려요^^
1. 원데이터 제공(RAW DATA)
공급자가 데이터가 최초에 생산된 형태(XML, HWP, 엑셀 등)로 사용자에게 콘텐츠를 제공하는 것을 의미한다. 공급자는 별다른 투자 없이 직접적으로 사용자에게 데이터를 제공할 수 있고, 사용자는 원데이터에 직접적으로 접근하여 활용할 수 있는 장점이 있다. 그러나 원데이터의 양이 방대할 경우 사용자가 원하는 데이터를 찾아내기 어렵고, 사용자에게 데이터활용 능력이 부족할 경우 데이터를 활용한 재창조가 제한적이다. 또한 원데이터에 개인정보가 존재할 경우 개인정보보호에 대한 문제가 발생할 여지가 있다.
원데이터 제공 방식은 전체 데이터의 제공방식으로는 부적합하다. 다만 전체 데이터의 일부분에 대한 검색서비스를 제공하는 조건 하에서 사용자에게 부가적인 서비스로서 원데이터 제공이 의미를 가진다고 할 수 있다.
다만 원데이터는 차후 활용성을 생각하면 XML 방식의 데이터 형식을 사용 할 것을 권장한다.
2. RDB 직접 접속
공급자가 원데이터를 이용하여 구축한 RDB에 사용자가 직접적으로 접속할 수 있게 하는 방식이다. 공급자는 별다른 투자 없이 직접적으로 사용자에게 데이터를 제공할 수 있고, 사용자는 정제된 데이터베이스를 쉽게 활용할 수 있다. 그러나 사용자에게 RDB에 대한 직접적인 접속을 제공함으로서 DDOS 공격 등의 보안상의 문제가 발생할 가능성이 매우 높다. 또한 원데이터에 개인정보가 존재할 경우 개인정보보호에 대한 문제가 발생할 여지가 있다.
RDB 직접 접속은 특히 보안상의 문제로 인하여 일반적인 서비스로 제공할 수 없다. 다만 상호간의 신뢰관계가 구축된 기관 및 개인 간의 "상호데이터제공협정"을 통해서 RDB 직접접속 방식의 데이터 제공방식을 사용할 수 있다.
3. 공개 API(Open Application Programmer Interface, Open API, 오픈 API)
공개 API(Open Application Programmer Interface, Open API, 오픈 API)는 누구나 사용할 수 있도록 공개된 API를 말한다. 웹 2.0의 핵심 기술의 하나로서 공급자가 특정 콘텐츠나 기술을 누구나 사용할 수 있도록 하는 기술을 의미한다. 대표적인 예로는 구글맵이 있으며, 전세계의 사용자들이 구글맵을 이용하여 다양한 콘텐츠와 "매쉬업"하여 새로운 서비스를 창조하고 있다. 공개 API는 공급자에게는 사용자에게 제공하는 콘텐츠의 내용을 제어할 수 있으며, 사용자는 정제된 데이터를 간단한 방식으로 제공받음으로서 다양한 활용을 시도할 수 있다.
공개 API는 현재 실무에서 가장 합당한 데이터 제공방식이다. 공급자는 보안 문제 없이 자신이 원하는 범위에서 콘텐츠를 공유할 수 있고, 사용자는 간단한 방식으로 데이터를 제공 받아서 활용할 수 있다.
관련 추가항목 :
공개 API http://en.wikipedia.org/wiki/Open_API
매쉬업 http://en.wikipedia.org/wiki/Mashup_(web_application_hybrid)
JSON http://en.wikipedia.org/wiki/JSON
REST http://en.wikipedia.org/wiki/Representational_state_transfer
OAuth http://en.wikipedia.org/wiki/OAuth
4. 링크드 데이터(linked data)
링크드 데이터(linked data)는 웹 상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고, 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 모형이다. 단일 사용자가 제공하는 데이터 뿐만이 아니라, 해당 데이터와 연계된 모든 관련 데이터를 사용자가 획득할 수 있기에 가장 이상적인 데이터 공유 방식이라고 할 수 있다. 그러나 링크드 데이터을 위해서는 공급자"들"이 현존하는 모든 원데이터를 특정 표준형식에 맞추어서 상호간 연결을 할 수 있도록 기존의 데이터에 대한 재처리가 필요하다.
가장 이상적인 데이터 공유방식이라고 할 수 있다. 그러나 기본적으로 기존 데이터에 대한 재처리 작업의 필요성이나 전세계적 표준형식의 부재 등으로 인하여 실무에서의 활용은 아직 제한적이라고 할 수 있다. 다만 미래를 대비하여 지금부터 만들어지는 원데이터에 대해서는 더블린코어나 유로피아나와 같은 비교적 활성화된 표준방식을 응용하는 것을 추천한다.
관련 추가항목 :
RDF http://en.wikipedia.org/wiki/Resource_Description_Framework
시맨틱 웹 http://en.wikipedia.org/wiki/Semantic_Web
온톨로지 http://en.wikipedia.org/wiki/Ontologies
OWL http://en.wikipedia.org/wiki/Web_Ontology_Language
더블린코어 http://en.wikipedia.org/wiki/Dublin_Core
TEI http://en.wikipedia.org/wiki/Text_Encoding_Initiative
SKOS http://en.wikipedia.org/wiki/SKOS
EUROPEANA http://pro.europeana.eu/
'디지털인문학 > DH_기술문서' 카테고리의 다른 글
역사관계 데이터베이스 설계(인물관계코드 등) (4) | 2014.01.11 |
---|---|
XML DTD 관련 요약정리 (0) | 2014.01.08 |
오픈 데이터-SW 저작권 관련 정보모음 (0) | 2014.01.07 |
MSSQL XML 관련 요약정리 (0) | 2013.12.31 |
공공기관용 오픈API 개발 자동화툴 (0) | 2013.11.29 |