01 Lab | How is Artwork Information Intelligently Recorded and Extracted?

Date: 2019-07-05 Danfeng Liu

   公众号:lingyilab

零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

作者简介:

刘丹枫,伦敦大学学院数字人文理学硕士,主要研究艺术品信息数据的整理及可视化表达。曾任职于香港大学,担任数码教育项目研究员。爱好中国青铜器史、文化人类学及博物馆学。

摘要

数字文化遗产CH(Cultural Heritage)信息的组织、处理及共享需求,促进了对于该领域知识的形式和呈现模型的发展。信息的呈现模型技术,主要基于RDF(The Resource Description Framework)和OWL(Web Ontology Language)而构建。

 

简单来说,网络本体论 (OWL)是一系列用于创作本体的知识的表述语言。本体Ontology,在这里的语境下,是描述分类法和分类网络的标准方式。主要定义各种领域的知识结构,表示对象物质的名词及表示对象之间关系的关联动词。

 

资源描述框架(The Resource Description Framework )是一系列万维网联盟(W3C)规范,最初设计为元数据数据模型。它已经被用作使用各种语法符号和数据序列化格式在网络资源中实现的信息的概念描述或建模的一般方法。

 

对于CH最常用的语义网标准数据模型,本文将简略概述,并介绍三种最常用的CH的模型,以及评估它们满足艺术收藏品数据建模要求的能力。它们分别是CIDOC-CRM,Europeana和VRA。这三种模型为本体(Ontology)提供增强和针对性的知识表述功能,也同时支持通过网络进行推理、查询和链接。

 

正文阅读时间:9分钟

◆  ◆  ◆  ◆  ◆

 

1

文化遗产信息数据模型的必要性及针对性

博物馆、美术馆和其他文遗机构拥有大量多样化和异构的文化遗产信息,如雕塑、绘画作品、影视、音乐、甚至是抽象而不具实物载体的文化概念等。因此,记载这类信息的载体,也就是信息学中使用的元数据模型,需要被更好地调整以更高效地组织此类数据,并增强数据服务的开发。此类信息库的构建能让实体收藏品和他们的数字对应信息。而为此目的开发的可用元数据模型中,语义网络的Ontology是最广泛使用的。这主要是因为它们增强了表达性,能较为直观表示文化遗产实体之间的复杂语义关系。

更细化地来说,Ontology本体被W3C(2015)定义为一套“语义词表”。它指“用于描述和表示所关注领域的概念和关系”,“对可以在特定应用中使用的术语进行分类,并描述可能的关系。”本体也提供对域的共享理解,并支持数据网中数据的语义互操作性。笔者举一个运用本体的具体RDF例子,以助大家理解。

图1: RDF 数据模型展现艺术品信息:《粉红桃树》梵高

图 1 展现了在元数据层(Metadata Level)“P-4”分类下附属类是 “Artist”艺术家(rdf:type),得出一个名为“Vincent Van Gogh”的人出生于1853年。“P-18”分类下得出信息,画作在“Netherland”荷兰制作。

 

在本体层(Ontology Level),该模型用于描述分类,属性(例如:在…制作“isProducedin”,被…制作“isProducedBy”)及其层次关系(例如:应用RDF Schema的关系语义:“附属类于”“rdfs:subClassOf”)。因此,元数据和本体在一个图中被连贯地表示,揭示了语义网上必要的不同描述级别和属性。

 

这里的图例可以通过三元组陈述出来:“The pink peach tree’(Artwork) is produced by Vincent Van Gogh (Artist).”也就是“粉红桃树(艺术品)由Vincent Van Gogh(艺术家)制作。”

 

如上述表现的本体强大的关系表达能力之外,其广泛运用的另一个原因是出于它们拥有较强的功能属性,如可扩展性(extensibility),普遍性(generality)和推理支持(inference support)。简单来说,可扩展性表示该语义关系可以根据藏品的特征拓展新的类别或属性,也就是说信息的包容性很强。普遍性,意指本体设计对于信息的普遍应用,可以在较大程度上套用于各类藏品信息,使得数据记录统一化。推理支持,则是指在语义网中相类似的信息或需求的相关信息能通过本体数据模型智能推送和链接。

 

在艺术收藏品情况中数据建模挑战甚至比文遗的其他领域更大。艺术品有多种形式(如图像、文字等)、多主题(如艺术、科学等)、多文化和多目标、及不同的接收者[1]。因此,这对开发统一的数据模型增加了难度。此类模型要求可以有效地捕获所有这些不同的多样性和异质性,但同时保持操作使用的简易性。

 

2

三种常用艺术品数据模型概览

文化遗产信息的领域学是最早采用语义网(Semantic Web)数据模型、其方法论和工具来建模收藏品相关信息及在线发布共享[2]。在该领域,技术主要用于两个目的:内部管理系统的开发和开放数据收集库的建立。本体和数据模型,需开发建立标准化词汇表以描述相关文遗实体及其信息的关系构建,并由此实现不同文遗机构之间的互通和共享的操作性。

 

艺术品的本体模型 (Ontology Model),通常用于建模艺术品收藏元数据,常见的三种有:概念参考模型Conceptual ReferenceModel(CIDOC-CRM), EuropeanaData Model(EDM)和视觉资源协会核心类别数据模型Visual Resources Association (VRA Core)。以下简单介绍其特征和使用领域的应用。

 

CIDOC概念参考模型(CIDOC-CRM

CIDOC-CRM是由国际博物馆理事会(ICOM)的国际文献委员会(CIDOC)开发的一种正式结构,用于描述CH文档中使用的隐含和明确的概念和关系[3]。它的事件中心机制采用由82个类和262个属性组成的词汇表并遵循RDF语义,通过常见事件实现人、事、地点和时间跨度之间的相互关系。2016年,CIDOC-CRM成为文化遗产信息交换的ISO标准(ISO 21127:2006)。它旨在涵盖与艺术史,考古学,科学和技术等广泛领域相关的文化机构中所有类型的馆藏信息。所以它的运用可以说是所有细分数据模型的初始参考架构,在EDM和其他大型数据模型建模中起着至关重要的作用。同时它也是一个非常宽泛的数据采集模型。

 

Europeana数据模型(EDM

EDM是在欧洲Europeana项目的背景下开发的,由欧盟的连接欧洲基金和欧盟成员国提供资金。它是一个基于语义网的框架。它常用于表示博物馆、图书馆和档案馆中的跨域元数据收集[4]。该项目建立了欧洲文化遗产网上公开数据系统检索,https://www.europeana.eu/portal/en,它与CIDOC-CRM皆以事件为中心设定模型,且两者之间的条目定义保持高度一致。为增强互操作性,它兼用其他语义网词汇表中的元素,例如RDF,OAI-ORE框架、简单知识组织系统(SKOS)、DublinCore和W3C数据目录词汇表(DCAT)[5]。同时,它也持续引入11个新类和30个属性。可见其为一类较为综合的数据模型。

 

可视资源协会核心类别数据模型(VRA CORE

VRA Core是为描述视觉文化和收藏品,及记录对应图像而开发的[6] (图2)。因此,它代表了三大类实体,即作品,图像和收藏。相较前者,它的范围比CIDOC-CRM和EDM窄得多。由19个元素组成,包括标题、记录类型、材料、创建者、尺寸测量、技法、主题、关系和所属权。它最初是作为XML Schema开发的,但最近已成为RDF本体,可以在语义Web环境中使用。相对来说,它是一款针对性非常强的数据模型,应用面也仅限于视觉文化收藏。许多美术馆、博物馆等文遗机构都会参照此模型发展自己的数据库和模型。如普林斯顿美术博物馆(https://artmuseum.princeton.edu/)的信息系统中也运用到了涵盖VRA CORE的Cataloging Cultural Objects (CCO) 模型基础。

图2: VRA数据描述模型的核心框架

 

3

数据模型的实际效果和运用

数据模型的多样使得不同类别的信息能对应记录和分享。但如前文所言,在艺术收藏品的数据建模挑战相对更大。故此,此领域的建模需考虑解决一个重要的研究问题:当前的文遗本体模型是否满足艺术收藏品的数据建模要求?尤其是满足艺术品特质的需求,包括(a)编目(收集和保护管理);(b)显示和公布元数据(数据记录);(c)资料收集载体和数据系统管理。我们之后将就此进行更全面的测评介绍和讨论。

注:本文基于2017年 刘丹枫,比卡基斯(副教授),沃拉基蒂(高级讲师)【伦敦大学学院信息研究系】所发表文章《Evaluation of Semantic Web Ontologies for Modelling Art Collections》

 

原文信息如下:

Liu D., Bikakis A.,Vlachidis A. (2017) Evaluation of Semantic Web Ontologies for Modelling ArtCollections. In: Kirikova M. etal. (eds) New Trendsin Databases and Information Systems. ADBIS, 2017. Communications in Computer and Information Science, vol 767. Springer, ChamDOI: https://doi.org/10.1007/978-3-319-67162-8_34.


参考文献

[1] Mantegari,G. (2009). Cultural Heritage on the Semantic Web: From representation tofruition. Ph.D. dissertation, Universita degli Studi di Milano Bicocca. Available online at: https://boa.unimib.it/handle/10281/9184.

[2] Hyvönen,E. (2012). Publishing and Using Cultural Heritage Linked Data on the SemanticWeb. United States: Morgan & Claypool.

[3] Doerr, M.(2003). The CIDOC Conceptual Reference Module: An Ontological Approach to Semantic Interoperability of Metadata. AI Magazine, vol. 24, no. 3, pp.75–92.

[4] Doerr M.,Meghini C., Isaac A., Hennicke S. and Gradmann S. (2010). The Europeana DataModel (EDM). In World Library and Information Congress. 76th IFLA General Conference and Assembly, Gothenburg, Sweden, 10-15 August 2010.

[5] Europeana(2016). EDM Mapping Guidelines V2.3. Available online at: http://pro.europeana.eu/page/edm-documentation.

[6] The Libraryof Congress (2007) VRA Core 4.0 Schemas and Documentation. Available online at: https://www.loc.gov/standards/vracore/schemas.html



主编 / 徐力恒

责编 / 顾佳蕙

美编 / 傅春妍

关注零壹Lab,获取更多数字人文信息!