1. Metadata란?
1.1 정의
- 일반적인 정의 : 정보에 관한 정보
- 웹과 관련한 보다 자세한 정의 : 컴퓨터가 스스로 웹 페이지를 검색하고 처리할 수 있을 정도로 구조화 된 분류, 목록 및 서술 정보
1.2 W3C에서 정의한 메타데이터
- 데이터에 관한 구조화된 데이터 (structured data about data)
- 웹 자료나 다른 것들에 관해 기계가 이해할 수 있는 정보(Metadata is machine understandable information about web resources or other thing.)
- 한 문헌에 대한 메타데이터는 문헌 안에 있을 수도 있고, 문헌과 분리되어 존재할 수 있다.
1.3 EU-NSF Working Group on Metadata에서 정의한 Metadata
- 이용자가 문헌과 이미지를 탐색하고, 처리하는 것을 돕기 위한 구조화된 데이터 (예: 도서관의 목록, 웹페이지의 bibliographic headers)
- user communities에 따라 메타데이터를 다르게 정의
- 메타데이터는 전자상거래를 가능하게 하고, 전자출판을 가능하게 하는 필수적인 요소
2. Dublin Core
2.1 배경과 목적
- 1995년 OCLC & NCSA의 더블린(오하이오) 워크숍에서 합의한 메타데이터 스펙
- 목적 : 데이터의 호환성을 유지, 네트워크자원의 기술에 필요한 일련의 데이터요소를 규정, 이들 자원의 신속한 검색
2.2 기본 원칙
- 고유성 : 자원의 본질적인 특성을 기술요소로 함
- 확장성 : 규정된 필수 데이터 요소 외에 부가적인 내용이나 특성을 기술요소로 사용
- 구문의 독립성 : 응용분야나 표현기법을 규정하지 않음
- 선택성 : 각 요소의 수록여부를 강제하지 않음
- 반복성 : 모든 기술요소는 반복사용 가능
- 수정가능성 : 한정어(scheme)를 사용하여 세부사항을 조정
2.3 Dublin Core의 요소(Element)
- Title, Subject, Description, Creator, Publisher, Contributor, Identifier 등 15개
- 모든 엘리먼트는 선택적이며 반복적
2.4 Dublin Core의 문법(Syntax)
1996년에 열린 제2차 Warwick 2nd metadata workshop에서 HTML SGML을 표준구문으로 사용하도록 권고
- Meta tag를 이용하여 HTML을 단독으로 사용하거나 link tag를 이용하여 외부 참조(SGML)를 한다
- Meta tag를 이용한 예 (HTML version 4.0)
<meta name="DC.Subject" scheme="MESH" content="Myocardial Infarction; Pericardial Effusion"> |
- Link tag를 이용한 예 (HTML version 4.0)
<link rel="schema.DC" href="http://purl.org/DC/elements/1.0/"> |
2.5 한계
- 더블린 코아는 메타데이터 자체이고, 다양한 메타데이터가 존재하므로 이것을 수용할 포괄적인 구조가 필요해짐
- Warwick Framework 등장, Warwick Framework의 개념을 구체적으로 실현하는 수단으로 W3C에서 RDF제안
3. RDF(Resource Description Framework) 소개
3.1 RDF의 필요성
- 현재도 웹에서 검색 엔진이 존재하므로 문장 전체에서 검색어를 찾기 때문에 의미론적으로(Sematically) 비효율적
- 대부분 HTML 문서에서 'meta' 태그를 사용 중이기 때문에 대부분의 HTML 문서가 가지는 'meta' 태그는 'keywords' 정도로 검색의 효율성 제고는 가능하지만 의미론적으로(Sematically)는 여전히 비효율적
- Dublic Core 등의 메타데이타에 관한 스펙이 이미 존재
따라서, 1. 메타데이타와 데이타가 같이 위치 따라서 다양한 관점에서의 분류 불가능 (아동용 포탈의 분류와 디자이너 포탈의 분류)
2. 별도의 메타데이타 생성 시, 서로 다른 포맷이나 인덱스 사용 검색 엔진이나 전자 도서관 등 메타데이타 생성자 사이의 정보 교환이 불가능(건강에 관한 Resource 하나를 스포츠 포탈과 건강 포탈에서 검색)
- 메타데이터 자체에 대한 포괄적인 구조가 필요 : RDF
3.2 RDF의 목적
- 메타데이터 서술 : An Abstract 'Model' For Metadata
- 메타데이터 교환 : An XML Presentation Of That Model
3.3 RDF 사용의 기대 효과 : A Mental Leap
- Resource Discovery : 검색엔진의 성능 향상
- Cataloging & Analysis : 웹사이트, 페이지, 전자도서관(Digital Library)의 유용한 내용 및 내용과 내용 사이의 관계를 기술
- Intelligent Software Agents : 지식의 공유와 교환 실현
- Content Rating : PICS 등의 관련 스펙의 기반 기술
- Intellectual Property Rights : 신용있는 웹(Web of Trust)의 기반 기술
3.4 XML을 놓아두고 RDF를 따로 만든 이유 : Scalability
- Order : XML 문서에서는 순서가 중요하지만, 메타데이터 서술에는 큰 의미가 없음
- No Restriction : XML은 다양한 형식의 데이터를 포괄
4. RDF
4.1 RDF Spec
- Model and Syntax Specification : W3C Recommendation 22 February 1999(http://www.w3.org/TR/REC-rdf-syntax)
- Schema Specification 1.0 : W3C Candidate Recommendation 27 March 2000 (http://www.w3.org/TR/rdf-schema)
4.2 RDF Characteristics
- Independence : Property도 Resource이기 때문에 누구나 Property를 설정 가능
- Interchange : RDF Statement는 XML 형태로 변환이 가능
- Scalability : RDF Statement가 triple(또는 3-tuple) 형태(Resource, Property, value)로 간단
- Properties are Resources : 하나의 Property 자체가 개인이 다룰 수 없을 정도로 다양한 값을 보유
- Values Can Be Resources : value들도 다양한 Property들을 가지는 Resource
- Statements Can Be Resources : Metadata about Metadata
5. RDF Model & Syntax
5.1 BASIC RDF Model
- RDF 데이터 모델은 특정 언어와 무관한 방법으로 자원들간의 관계를 표시
- Property들을 간단히 XML로 표현 가능
<rdf:Description about='http://www.textuality.com/RDF/Why-RDF.html'> <Author>Tim Bray</Author> <Home-Page rdf:resource='http://www.textuality.com' /> </rdf:Description> |
가. 3가지 객체 유형
- Resource : RDF expression에 의해 기술된 모든 것
- Property : Resource의 속성(Attribute), 즉 Resource를 기술하는데 사용되는 관계 Property도 Resource 가능
Statement : 각각 하나씩의 Resource, Property, 그리고 Property의 값의 조합으로 구성 (이들을 Statement의 'subject', 'predicate', 그리고 'object'라고 지칭/ 단 object는 또 다른 Resource 또는 String Literal)
5.2 RDF model의 예 : Model Diagram
- Ora Lassila is the creator of the resource http://www.w3.org/Home/Lassila
Subject(resource) : "http://www.w3.org/Home/Lassila" (URI) Predicate(property) : "creator " Object(literal) : "Ora Lassila" (String Literals(Double Quotes) or URI) |
5.3 Basic RDF Syntax
- RDF Syntax는 메타데이터를 만들고, 교환하기 위해 필요 상호교환 구문으로 XML 사용
- RDF schema와 property를 정확하게 관련시키기 위해 XML의 namespace 기능을 이용
- RDF data model instance를 인코딩하기 위해 두 개의 XML syntax 이용
- serialization syntax : 일반적인 유형의 데이터 모델의 모든 가능성을 표현 같은 resource의 multiple statement는 description element로 그룹화하여 조정
예) <rdf:RDF> <rdf:Description about="http://www.w3.org/Home/Lassila"> <s:Creator>Ora Lassila</s:Creator> </rdf:Description> </rdf:RDF> |
- abbreviated syntax : 데이터모델의 하부집합을 표현하기 위해 좀 더 압축된 형식을 제공하는 부가적인 기능들
예) <rdf:RDF> <rdf:Description about="http://www.w3.org/Home/Lassila" s:Creator="Ora Lassila" /> </rdf:RDF> |
6. RDF Schema
6.1 RDF Schema
- 속성과 관계를 포함한 RDF 노드에 관한 정보의 집합
- 정보자원의 속성을 표현하는 어휘들을 선언하기 위해 사용
- XML의 namespace는 RDF 스키마를 식별하기 위한 것
- 기본 스키마 유형 : Property, PropertyType, InstanceOF, SubTypeOF, Domain Range
- 데이터 모형으로 표현
- 인간이 이해할 수 있고, 기계가 처리할 수 있는 어휘를 정형화
->상이한 메타데이터에서 사용된 어휘를 재사용하거나 교환 가능
->RDF의 핵심 사상
7. References
7.1 W3C
- http://www.w3c.org/RDF
- http://www.w3c.org/2001/SW
7.2 XML Professional, 2nd Ed.
- Chapter 22
7.3 메타데이터 (Metadata)
- http://my.netian.com/~kpj2027/ir/metadata.html
7.4 What is RDF - By Tim Bray
- Published on XML.com http://www.xml.com/pub/a/2001/01/24/rdf.html