当前位置:舍宁秘书网 > 专题范文 > 公文范文 > 文化遗产数据资源关联集成模型研究

文化遗产数据资源关联集成模型研究

时间:2024-02-15 11:45:01 来源:网友投稿

范 炜 林君松

(四川大学公共管理学院信息管理技术系,成都,610064)

文化遗产承载着一个国家或民族优秀的传统文化与风俗记忆,是无数劳动人民辛勤汗水和智慧凝聚的结晶,被各国作为重要的“战略资源”进行传承与保护。我国文化遗产保护与传承发展目前正走向由“量”到“质”的转变。2021年10月28日,《国务院办公厅关于印发“十四五”文物保护和科技创新规划的通知》[1]在总结以往文化遗产保护事业取得辉煌成就的同时,更加强调对文化遗产的保护要面向高质量发展,需要在已有的文物资源保护基础上,提升文物科技创新能力和应用水平,尤其是在强化文物数字化保护与利用层面,通过完善信息资源基础设施,升级馆藏资源数字化水平,健全文物标准体系,建设文化大数据与文化云、鼓励数据开放共享等方式,构建起文化遗产数据资源创新利用的服务体系。

图书馆、博物馆、档案馆、美术馆等文化机构服务于国家文化战略需求,借助信息技术手段开展数字化资源建设,向公众提供多元化网络服务。这些文化机构长期致力于资源采集加工、知识组织与传播传承、跨机构资源共建与数据共享,为文化遗产数据资源的创新利用提供了一定的知识储备与经验参考[2]。然而,文化机构之间缺乏相对统一的数据资源标准,其内部资源库的多元性与异构性给文化遗产数据资源的共享和利用造成了障碍,一定程度上限制了文化遗产内涵挖掘、传播与利用。

文化遗产数据资源的典型特征是结构化、语义化与开放化,其核心在于实现分布异构的数据资源之间的语义组织和关联集成。在国外文化遗产数据化实践中,以事件为中心的数据建模思路是当前的主流实践。以CIDOC CRM为代表的国际资源标准,是国外文化机构广泛应用于跨机构、分布式数字资源集成整合的实施参考。

在国外众多文化遗产项目中,事件是理解资源之间语义关系的核心。以事件为中心的数据模型将不同文化机构开放的数字资源,通过URI进行识别与链接,汇聚元数据,实现各类资源的语义互操作,形成以事件为线索的数据资源网络。

与传统(静物)资源组织视角不同,以事件为中心的数据建模从动态活动角度来看待文化遗产资源各要素之间关系,有助于协调文化机构内外部资源,有利于全方位揭示文化遗产内容特征及多维联系,从而实现文化遗产数据资源的关联集成。

2.1 文化遗产数据资源与关联集成

近年来,智慧数据(smart data)以其丰富的创新内涵,即通过对任何规模的、可信的、情境化的、相关切题的、可认知的、可预测的和可消费的数据的使用,获得重大的见解和洞察力[3],在图档博领域得到广泛认知。王晓光等[4]认为,语义网环境下对这些数据的改造利用赋予了数据以“智慧”,而从数据中提炼“智慧”,实现各类数据资源从数字化、数据化再到智慧化的转型升级,这是当前文化遗产信息资源建设的新方向。智慧数据一方面为文化遗产数据资源建设指出了新目标,另一方面也为文化遗产数据基础设施完善提出了保障性要求。

文化机构分布各地,其拥有各自宝贵的馆藏数字资源。文化遗产数据资源主要以文化机构自身馆藏为基础进行建设和开发利用,具有分散性特点,其本质是文化遗产资源经历数字化阶段,逐步脱离纸本与实体,形成的结构化元数据与数字替代物(如数字图像)等。随着网络开放和资源共享的需求,文化机构在一定范围内逐步开放其拥有的文化遗产信息,但开放程度差异较大。

语义网环境下对文化遗产数据资源的组织利用,需要在开放化与结构化基础上,通过细粒度的语义描述和知识组织的关联集成方式,对数据资源改造,进而实现赋予数据资源以“智慧”并提炼数据“智慧”的过程。因此,在数据开放共享的基础上,致力于推动文化遗产数据资源结构化、语义化和关联化是智慧数据达成的逐步递进逻辑。

关联集成是数据资源集成的一种实现方式。在开放数据环境中,关联数据为文化遗产数据资源提供了资源识别、链接的集成实现方式。通过关联数据实现关联集成,是当前成熟且稳固的“弱”集成模式。其优点在于,资源拥有者各自管理,根据业务需求与场景服务变化,通过资源URI识别与链接,实现特定主题或领域的数据汇聚。这种实现技术成本低、可行性高。其缺点在于,与整合、聚合等“强”集成模式相比,数据资源仅是链接引用的关联,缺乏深度融合。

在文化遗产数据资源共建共享层面,统一建立集中式数据仓储和管护不太现实。关联集成提供的“弱”集成模式比较现实,既能保证各自拥有,又能共享集成。关联数据用于收集与指向来自文化机构的资源URI,在网络中进行关联,形成虚拟化的开放、互联、互通、共用的数据网络。

文化遗产数据资源的关联集成实现核心在于“因何”关联,以物件为中心和以事件为中心是两种不同的数据建模思路。长期以来,在图书馆界,书目资源描述主要以物件为中心的思路展开描述与著录;
在博物馆界,则是以事件为中心的资源组织思路。CIDOC CRM(ISO 21127:2014)是文化遗产数据资源建设的成熟概念参考模型,以事件为中心展开,对理解文化遗产领域知识关联、规范语义描述具有广泛的适用性。CIDOC CRM模型定位高度抽象的概念模型参考,整体较为复杂,其开发版本处在不断修订变化中[5]。

目前,以事件为中心的文化遗产数据资源的关联集成是国际上的主流做法。以下围绕CIDOC CRM的相关研究实践进行简要评述,分析现有以事件为中心的建模方法与应用实践。

2.2 以事件为中心的CIDOC CRM国内外研究实践概述

(1)国外相关研究实践

国外文化机构在CIDOC CRM的长期应用实践中已形成了规模化、示范化的项目成效。国外博物馆界与图书馆界已联合起来开展基于CIDOC CRM的模型扩展,主要应用于馆藏文化遗产数字资源建设与开放共享。

以事件为中心的建模应用相关研究,例如,Mazurek等[6]探讨CIDOC CRM应用于波兰数字图书馆联合会近70万份馆藏出版物语义组织的可行性,通过“出版事件”,探讨其对象描述的类与属性的层级应用;
Lin等[7]根据CIDOC CRM基于事件的表示方法和层级结构,对数字图书馆资源进行资源集成与事实推理;
Bekiari等[8]提出从CIDOC CRM的事件模型出发,建立适用于小型博物馆馆藏资源组织与管理的服务系统;
Padfield等[9]复用CIDOC CRM,对英国伦敦国家美术馆文化遗产布局建模、建筑空间与作品数据进行关联,开发了CrossCult项目;
Tran等[10]从CIDOC CRM中的事件出发,将艺术家及其作品进行关联,并借助Getty词表实现集成。

国外已有较多项目实践涌现,在学界和业界取得了一定影响力。当前的典型项目包括通过EDM模型实现欧洲地区各类文化机构文化遗产数据资源关联集成的Europeana项目[11],借助芬兰国家本体基础设施和BioCRM模型完成对数据资源语义关联集成的芬兰人物传记平台BiographySampo项目[12],以及由美国14家艺术博物馆组建的联盟,以开放网络社区组织形式,致力于在语义网环境中开放各类文化遗产关联数据集和语义关联集成项目Linked Art倡议[13]等。

国外CIDOC CRM研究与项目实践研究着重于对文化遗产数据资源组织的关联集成、应用情境与广泛涉及的应用领域,对国内具有重要参考价值。面向图档博数据资源和语义组织,以事件为中心关联与集成外部链接,通过CIDOC CRM的复用与拓展,促进分布异构的文化遗产数据在特定场景中的互联与语义丰富化。

以事件为中心的关联集成模型蕴含在这些典型项目的研究与实践中,将在第3节展开分析。

(2)国内相关研究实践

相较于国外,国内对以事件为中心的CIDOC CRM研究及应用,目前主要是跟踪介绍和单点小规模的个体研究探索,还未形成大规模成熟且有影响力的文化遗产数据资源项目。代表性的相关研究如董坤[14]在CIDOC CRM的基础上构建了具有地域特色的非物质文化遗产本体,其核心类包括非遗项目、人物、位置、事件、时间段、类型以及事物六个类,并进行了关联数据的发布;
牛力等[15]从数字记忆中的数字文档资源语义组织出发,基于CIDOC CRM构建数字文档资源的基本属性、事件属性和关系属性描述框架,并通过历史人物属性进行了实例研究;
童茵等[16]参考CIDOC CRM,构建了董其昌人物及其相关艺术作品的本体模型,并采用机器学习算法对董其昌相关图像进行特征提取,实现人物作品年表、作品数字图像、社会关系网络的可视化;
陈艳等[17]从文化遗产资源异构与多样性难以满足信息系统统一存取的需求出发,提出以CIDOC CRM为中介对DC元数据进行映射,实现对文化遗产资源的元数据集成方案。

国内现有研究对CIDOC CRM这一国际标准的本土化落定有较好的理论认知与模型参考,但以事件为中心的建模理念意识不够清晰,事件的第一性强化有待加强。从历史文化语境看,物件不是单独的存在,有其背后的过往与故事。从事件出发,将事件相关要素进行系统化梳理,建立活动过程、多维关联的文化遗产数据资源网络,有助于提高数据质量,促进文化遗产资源的价值激活。

从行业机构角度看,国内除了实力雄厚、级别较高的少数文化机构(国家博物馆、国家图书馆、故宫博物院、上海博物馆、上海图书馆等),文化机构馆藏数据资源基础设施建设和开发利用情况差异很大。总体而言,文化机构馆藏数字资源基础建设情况一般,开放共享程度不高,开展跨机构、分布式文化遗产数据资源集成的现有实施难度较高。通过对国外有影响力的项目介绍与数据模型分析,有助于文化机构管理者知晓如何“做数据”和“共享数据”的国外经验,进一步助推数据开放的关联集成模型,实现文化遗产数据资源的价值体现与智慧应用。

以下从关联集成角度,选取三个具有影响力的国外文化遗产数据资源建设项目,重点分析其数据模型,结合实践经验,对比分析各模型特点,提出一个相对通用的顶层关联集成框架,以期对我国文化遗产数据资源建设提供有价值的研究参考。

欧洲Europeana项目的数据模型EDM、芬兰人物传记BiographySampo项目的BioCRM模型以及关联艺术(Linked Art)倡议提出的数据模型LADM是三个典型的基于CIDOC CRM的、以事件为中心的关联集成模型。

3.1 Europeana的数据模型EDM

2008年11月20日上线的Europeana是欧洲甚至全球范围内的文化遗产数据资源建设的重要项目实践。Europeana建立的初衷是为了让欧盟各国人民充分了解本国的历史瑰宝和文化遗产,其重点是对历史文化资源进行数字加工[18]。项目建立了一个对欧洲文化遗产机构所藏数字资源的关联集成服务平台。欧洲Europeana项目影响范围与成效最为显著,以CIDOC CRM作为兼容框架的数据模型EDM现已集成超过4000余家机构的数据资源,通过关联数据技术,搭建了覆盖44国的数据资源网络。

Europeana包含海量的文化遗产资源,来源于各成员机构的贡献,汇聚的各类资源体量庞大且类型丰富。目前,在Europeana资源页面,可搜索得到的各类文化遗产资源近6240余万件[19]。在这些提供相关文化遗产数据资源并开展合作的机构之中,既包括各类美术馆、图书馆、档案馆和博物馆等文化机构(国外统称为GLAM),还包括提供技术支持、开展学术研究和共享特色资源的企业组织、研究机构与个人。项目资源包括图片、文本、视频、声音和3D等载体类型,资源主题涵盖考古、艺术、时尚、工业遗产、地图、手稿、移民、音乐、报纸、摄影和运动等。

多源异构的文化遗产数据资源在元数据描述上缺乏统一标准,规模化集成的现实难度大。Europeana在参考METS标准和W3C RDF等的基础上,设计出满足跨机构的多源异构资源的关联集成数据模型EDM。该模型以CIDOC CRM为基础,提出兼容框架,协调并集成描述不同资源的元数据方案和词表规范。通过复用CIDOC CRM的部分类和属性,实现对文化遗产资源的元数据描述、数据组织和管理。

EDM能够实现不同数据集的异构数据之间的整合、关联与共享。在元数据标准的选择方面,EDM对早期的Europeana语义元素做了进一步优化。早期方案采用DC元数据,该方案在考虑不同来源格式类型的开放性与通用性上,尽可能使用DC元素进行简化描述,但同时也在一定程度上削减了对原有资源描述的丰富性。EDM保留了原有的核心元素,并通过结构扩展和标准复用,增加了各类型资源描述的类和属性。EDM定义了11个类,其中6个类复用了CIDOC CRM,定义属性主要包括EDM和DC两类属性[20]。

在资源的类型区分方面,EDM需要实现将上千个文化机构中的数据进行集成管理的复杂过程,其首要处理的问题是来自资源的多元性和开放性。EDM定义的核心类包括Provided-CHO、WebResource和ore:Aggregation,将资源划分为资源对象、数字形式和资源集合,以及强调事件关联资源对象的情境类。ore:Proxy类集成来自数据提供商的元数据内容,通过属性ore:proxyIn和ore:proxyFor明确不同机构对资源对象的元数据描述,将资源对象和其元数据进行关联。cc:license将资源所属的版权信息进行区分描述,指明文化机构约定的开放共享版权策略。

3.2 芬兰人物传记项目的数据模型BioCRM

芬兰语义计算小组(Sematic Computing Research Group,SeCo)在全球范围较早开展文化遗产的语义网应用实践。该小组由芬兰赫尔辛基大学和阿尔托大学共同发起,旨在建立一系列基于关联数据和语义服务的文化遗产门户网站以及相关配套的数据基础设施。其开发的项目最早可追溯至2004年上线的MuseumFinland项目。其后,SeCo主要以Sampo模型为基础,设计开发了一系列语义门户项目,提供语义基础数据和本体服务[21]。

BiographySampo是该系列项目中用于描述历史人物传记的重要语义平台,其核心是基于CIDOC CRM的BioCRM数据模型。BiographySampo采用以事件为中心的建模思路,集成了芬兰国内众多文化机构提供的超过6万件的人物传记与相关的档案、手稿等。其模型将单一人物传记表示成事件,复用时间、地点、参与者等要素构建模型,通过自定义角色信息,将参与者在不同情境下的身份、职业等表示为特定情境下参与事件描述的角色变化属性[22]。BioCRM的核心类复用CIDOC CRM的部分核心类,包括事件、地点、参与者、时间等,并扩展引入参与者角色(actor_role),通过属性(inheres_in)与参与者进行关联,强调人物在事件之中的关系角色定位。

BioCRM数据模型与芬兰国家语义本体(FINNOTO)紧密相关。芬兰国家语义本体项目是芬兰国家层面的语义基础设施,其目标是为芬兰国内元数据应用、本体构建、本体服务和关联数据框架奠定基础,并展示其在实际应用中的可用性[23]。该国家本体为BiographySampo项目提供了必要的语义服务支持,如BioCRM使用到的本体逻辑关系和规范术语等。

在数据收集方面,BiographySampo数据来源包括芬兰国内的博物馆、档案馆、图书馆等专门化机构的出版物,同时也可能来源于民众手中的资料文献等。在特定主题领域语义门户的数据收集上,往往基于已有的规模化、半结构化文献资料进行整理。Biog-raphySampo门户构建所需要的核心数据来源于1997年出版的《芬兰国家传记》,该传记由不同领域的977位学者参与撰写,通过数字化、知识抽取、自然语言处理、语义文本标注、RDF转换以及国家本体对人物传记的知识组织等过程,最终发布为关联数据集,并由芬兰文学学会传记中心负责相关的管理与维护[24]。在对数据内容进行关联层面,BiographySampo根据BioCRM模型从内部与外部两种方式进行实现,内部以RDF通过BioCRM模型逻辑顺序和人物事件关系链接已有的核心数据集,外部关联则根据第三方机构网站提供的不同资源数据链接实现数据资源的语义丰富化,如与维基百科、Getty艺术家联合目录(ULAN)等建立链接。

3.3 关联艺术的数据模型LADM

相较于前两者,关联艺术是以网络社区形式运作的跨文化机构资源关联集成的虚拟组织。关联艺术社区绕过本体的复杂性,通过关联数据,以较低复杂度的关联集成方式,根据主题链接汇聚了不同文化机构的馆藏数字资源,以增强艺术资源之间的访问、关联与共享,其核心是基于CIDOC CRM的关联艺术数据模型(Linked Art Data Model,LADM)。目前代表性项目是由荷兰艺术史研究所、梵高博物馆和克鲁勒-穆勒博物馆共同打造的梵高全球(Van Gogh Worldwide)项目[25]。

关联艺术社区项目得到了许多其他项目及其资助者的直接或间接支持。最早由美国艺术合作社(AAC)发起、牛津大学英国艺术与人文研究委员会(AHRC)和塞缪尔·克雷斯基金会共同支持,其资源开放范围拥有众多的合作伙伴项目和联盟,例如,美国艺术合作社(AAC)的关联数据倡导计划[26]、PHAROS照片档案联盟[27]、拉斐尔前派在线项目[28]、英国伦敦艺术大学关联保存数据项目[29]等。这些合作伙伴与项目机构提供了大量文化遗产信息(照片、档案和艺术品元数据等)的开放链接,以关联艺术模型为基础,在开发的系统平台中运用关联数据发布技术,搭建起不同文化机构各自文化遗产数据的关联集成通道。

关联艺术数据模型描述的资源对象定位于文化遗产领域的艺术资源,其目的是尽可能地遵循现有文化遗产数据标准和实践经验,以实现博物馆馆藏数字艺术品和相关活动的关联集成[30]。在模型构建上,相比EDM与BioCRM两种模型,LADM汲取了CIDOC CRM对多源异构数据兼容的优势,简化了CIDOC CRM数据模型,直接复用了部分实用且可互操作的类与属性。LADM核心类主要包括事件的子类活动、人物、时间、地点以及资源对象五个。在数据取值上,大量复用已有的文化遗产词表资源。为保持数据描述过程中的一致性,关联艺术将博物馆行业认可的Getty词表与LADM模型结合,通过使用艺术与建筑叙词表(AAT)、艺术家联合目录(ULAN)以及Getty地名词表(TGN)等术语资源进行规范描述。在关联集成上,通过实体抽象,应用类与属性实现不同实体之间的有效关联,为每一个描述的内容对象尽可能地提供外在资源链接,关联至不同平台,形成相对完整的对象描述。

表1列举了以上三个模型的核心类及其描述,可以发现,三个模型均以CIDOC CRM模型为基础,以事件为中心展开,围绕事件相关的语义要素关联集成,扩展细节上因具体应用情境有所差异。

表1 以事件为中心的三种数据模型核心类

事件是主体对事物的有用性和关联性的认知起点,具有动态和多维的关联要求。以事件为中心的建模核心要素包括人(行为者)、事(事件)、物(资源对象)、时(时间)和地(地点)。事件作为理解数据资源的中介,将事件发生过程的这些相关要素进行识别和关联,从而实现文化遗产数据资源的高度结构化和语义丰富化。以事件为中心的数据建模,在文化遗产的语义描述和知识组织层面是关联集成实现的有效方式。

通过以上三个数据模型的分析,以事件为中心理解文化遗产数据资源的语义组织方式,从人物、资源对象、事件以及情境四个维度,对三种数据模型进行比较,如表2所示。其中,情境是事件在特定时空条件下的表现形态;
时间与地点贯穿于事件各要素之中,是三个模型的重要组成部分。在应用类型层面,三种模型复用CIDOC CRM的类与属性相对一致,此处不再展开论述。

表2 三种数据模型的比较

结合三个数据模型,以下分别对四个维度展开分析,以便进一步总结与抽象出更通用的关联集成要素。

(1)人物维度

人是资源建设与形成过程中的重要参与者,人的行为是产生文化遗产资源的重要形式,其本质是社会活动中所有资源对象的社会属性的总和。在LADM中,为规范个体与群体关系,定义了“la:member_of”属性,复用Getty艺术家联合目录词表,进行规范化描述。

相比LADM区分两种类别的人物特征,BioCRM更关注人在参与不同事件活动中所具有的一元角色、二元关系角色和事件关系角色。其中,一元角色(bioc:unary_role)表示人物的个体属性角色;
二元关系角色则表示人物在各类关系中的身份角色,如人物关系(bioc:person_relationship_role)类、团体关系(bioc:group_relationship_role)以及团体之间的关系(bioc:intergroup_relationship_role),其中人物关系还包括家庭关系(bioc:family_relationship_role)与社会关系(bioc:social_relationship_role),这三类关系统归于bioc:binary_relationship_role,形成层级结构分明的人物关系角色描述的二元关系。EDM将行为者(edm:agent)作为情境类的子类,描述特定情境下的行为者状态,如内容提供商或已有数据资源的人物描述。

(2)资源对象维度

除人之外,资源对象是与文化遗产关联最为紧密的实体。数据模型的构建基于各类资源对象的形式化描述,并通过已有资源与外部网络资源的关联,实现对资源对象描述的丰富。在LADM中,画作、雕塑等博物馆馆藏或活动中流转的资源对象被抽象为object概念,该实体是人造物(crm:e22_human_made_object)类的实例,并强调对资源对象的性质与来源过程进行全方位标注,将不同资源对象的属性特征进行分面细化。与LADM强调对资源对象的特征与过程的分面描述不同,BioCRM更注重不同事件过程中的资源来源,如人物手稿、照片实体及其相关的信息对象等。EDM主要区分为三种类型的资源对象描述,即描述书籍、绘画等不同实体对象的Pro-videdCHO类;
与文化遗产资源对象相关联的数字表示形式WebResource类(如照片、网页等);
以及利用oai-ore提供的基于网络资源聚合的关联ore:aggregation,关联资源对象和数字表示类形成集合Europeana Aggregation类(如数据集、第三方平台等)。EDM三种资源类型的区分兼顾了资源对象实体信息的追踪以及记录了资源的描述性元数据。

(3)事件维度

事件是人类认识世界和理解世界的一种基本语义单元。在特定时间和环境下,发生的现象、参与的角色等要素,构成了事件用于知识表示的动态性特征,也是事件模型的重要表现方式。LADM参考CIDOC CRM的层级结构与定义,简单区分为非人为直接参与的事件和人为参与的活动,其面向人为参与的艺术品和博物馆活动事件建模的核心为活动(activity)类。在BioCRM中,事件是表现人物传记中人物活动轨迹及其发展历程的核心类,由于CIDOC CRM在定义事件概念关系时,并没有对事件间的关系进行说明,BioCRM通过自定义的bioc:event_role类(bioc:actor_role的子类)用于表示在某个时间范围内人参与事件的现象,或发挥作用引起的一系列变化,从而揭示事件之间的一个动态关系。

与LADM以事件为中心、BioCRM强调人物角色与事件为中心不同,EDM聚焦于跨文化机构提供的资源对象的事件变化。EDM强调对这些资源数据的关联描述,采用以对象和事件为中心的方式。具体来看,一方面,EDM关注于用户对于资源对象本身的需求,元数据在描述这些资源对象时,这些资源对象表现出了事件各要素之间的动态关系;
另一方面,关注用户在对提供更具表现力和连贯性的资源对象起源与历史记录变化的兴趣,促使以对象为中心和事件为中心两种描述方式的出现。在两类关联上,EDM自定义的属性edm:has_met将资源对象与特定时空内发生的事件进行关联,从而实现以资源对象与事件的语义联系,构建edm:event类与crm:e4_period(时间类)的对接扩展,具有较强的通用性。

(4)情境维度

情境用于描述特定对象在特定时空环境中与各类要素关系及其变化态势的呈现形态。情境语义信息用于建模,对情境中的概念、子概念、关系、属性和事实进行统一描述,使情境现实中的实体被形式化,映射为机器可理解、可共享的知识结构[31]。一般情况下,情境由诸多要素构成,它可能由人、事、物、地点以及时间要素等共同构建,情境在个性化定制、知识推送等创新服务中予以创新应用。

在文化遗产领域,情境是追溯与记录资源对象的重要语义形式,构建情境语义信息能够明确资源对象特征属性与其他实体之间的关系或联系。BioCRM强调以持续性的事件为应用情境,通过人物、地点、时间与需要的其他资源(crm:P12_occurred_in_the_presence_of)实现将零散的资源表述记录进行关联集成,构建人物传记的语义描述。EDM通过构建一个情境类(edm:noninformationResource),定义其作为要素创设情境的一个扩展点(extension point)。在这个情境类中,通过考虑数字文化资源描述增强语义关联的需要,EDM构建了获取对象相关情境信息的5个实体要素,包括事件、主体、地点、自然实体、时间范围,这些元素使用受控词表概念(skos:concept)进行描述。在该情境类中,事件不单独作为一个描述实体,而是作为情境类的一个子类,与其他要素共同构建基于各种来自数据或资源提供商的内容与过程情境。因此,从资源对象描述看,EDM构建的edm:noninformationResource为资源描述提供了一个较为通用的情境实体。

以上对文化遗产领域三个典型数据模型进行了分析,以事件为中心的关联集成思路得以明晰化,为进一步提出通用的关联集成顶层分析框架打下了基础。

对三种模型的分析可以发现,EDM注重从资源对象之间的关系关联集成来自不同数据提供商的数据内容;
BioCRM关注人物在事件活动中的多元关系与角色变化,通过人物角色关系关联集成不同传记数据类型;
LADM更强调对事件活动发生的不同情境的描述,以不同情境描述来关联集成不同的资源状态。三种文化遗产项目数据模型扩展或复用了CIDOC CRM国际标准,继承了其将人、事、物、时、地用于描述资源的事件建模核心要素;
而从三种模型中抽象出的情境概念,则为数据资源的关联集成提供了应用状态,适用于文化遗产数据资源的多元化特征描述,在不同的应用情境下服务于用户个性化知识需求满足与资源匹配。

针对文化遗产数据资源建设现实语义关联需求,为以事件为中心的关联集成框架构设提供理论与现实依据,本文提出更通用化、综合性的关联集成框架,如图1所示。

在该框架中,事件是描述资源之间关系的语义单元,构成对特定层面概念的理解。以事件为中心,将事件发生相关的时间、地点、人物、资源对象在特定情境下进行关联,并集成事件衍生的子事件,逐渐扩展成资源关联网络。这些要素分别解释了事件中的何人、何物、何时以及何地的问题。事件及其要素在特定时空维度下共同形成一个情境,该概念能够跨越机构异构资源之间的界限,通过不同文化机构开放的资源唯一识别符,建立事件内部与事件之间的关系,集成各类实体之间的语义联系,从而呈现出事件在特定情境下是如何发生的。

图1 以事件为中心的文化遗产数据资源关联集成框架

此处以近代重大历史事件“红军长征”为例,展示以事件为中心的关联集成框架的分析作用。该示例取自《长征记》一书[32],选取红军长征部分重要历史事件,分析识别出的基本要素如表3所示。

表3 “红军长征”部分重要历史事件的元素

在第五次反“围剿”失败,红军被迫进行战略转移的历史情境下,对“红军长征”相关联的部分历史事件与相关数据资源进行关联集成局部示意,如图2所示。

参考关联艺术模型的图例表示,椭圆表示情境类,粉色表示人物类,浅蓝色表示时间类,蓝色表示事件类,绿色表示地点类,棕色表示资源对象类,浅灰色表示实例值,白色矩形表示类本身;
在受控词表的选择上,为尽可能保持词汇的一致性,橙色用于表示类型或受控词表,Getty词表作为主要使用的值词表,用于表示特定的实例,如ulan:500322044表示人物“毛泽东”,tgn:7001843表示地点“江西瑞金”。“_label”以标签形式,对类与属性予以说明。在关联集成方面,通过Getty词表实现关联,也可以通过关联链接指向特定实体,如人物关联的维基百科词条页面等。

在此特定情境下,各要素的关系与变化态势,如“三人团”中的博古(人物)于1934年(时间)的江西瑞金(地点),在“左”倾冒险主义思想的影响下作出相关错误决策,直接导致了后续的主要历史事件“红军长征”的发生。此处复用crm:P16_used_specific_object将资源对象与情境关联。作为一个重大历史事件,“红军长征”是理解不同要素之间关系的主要事件单元,也是关联集成相关资源的网络核心节点。

图2 以“红军长征”事件为中心的关联集成框架图示(局部)

在该事件中的人、资源对象、时间、地点分别用于描述“红军长征”事件中的何人、何物、何时与何地等特征。关联集成框架支持对事件的延伸扩展描述,能够集成事件“红军长征”衍生的子事件,例如,“湘江战役”“遵义会议”“会宁会师”等事件,同时子事件包含更多子事件,通过不断地扩展与细粒度描述,回答了以“红军长征”事件为中心的系列事件在上述情境中的动态发展与关联集成过程。

关联集成框架通过识别各类文化遗产数据资源中的人物、资源对象、时间、地点、事件、情境等概念实体,构建数据模型;
继而,借助RDF和关联数据方法,对数据进行形式化描述和规范化控制,实现低技术门槛的关联集成实际效果。

目前,国内文化机构对文化遗产数据资源关联集成的研究与实践尚处于起步阶段,文化遗产数据只在小范围内开放,关联数据的应用落地性尚有不足。充分跟踪和学习国外文化遗产项目经验和技术方法,结合我国现实国情与文化遗产数据资源现状,进行本土化设计与实施是长期工作。以事件为中心的视角,国外三种关联集成数据模型及其之上的关联集成框架为我国文化遗产数据资源建设的基础核心问题探讨提供了研究参考。关联集成框架不是真空存在的,其作用发挥还需现实基础和配套的相关工作。围绕关联集成框架,提出四点建议,以期对我国文化遗产数据资源建设有所帮助。

(1)逐步开放文化遗产数据,为关联集成框架提供数据基础。开放是关联集成的前提条件。各类文化机构馆藏资源数据开放不断增多,面向文化遗产领域数据资源组织实践提供了一套基于事件描述的关联数据模型事实标准。这种宽松的关联模式适用于我国文化遗产资源分布不均、时空差异较大以及数据开放的早期阶段。

(2)开发文化遗产数据资源平台接口和互操作体系,为关联集成框架提供互通互联基础。Europeana是很好的学习对象,它基于EDM扩展、复用与映射的数据模型近60种,本身是文化遗产数据资源汇聚与展示平台,突出国家和地方机构的二元属性,实现不同文化机构来源的多元异构数据的关联集成。这种模式强调集成平台中机构数据的表现形式统一,以及不同系统和机构数据之间的关系揭示。

(3)构建本体与词表中枢服务,为关联集成框架提供可扩展和复用的模型基础和词汇规范。BiographySampo语义平台的构建依赖于芬兰国家本体基础设施对BioCRM模型的本体与词表服务的支持,重在利用本体和关联数据实现对人物传记的描述与可视化,提供数字人文服务相关研究工具,尽可能实现关联集成数据的最大程度开发利用。本体和词表中枢属于数据资源基础设施,面对文化机构庞大且繁杂的资源现实情况,是关联集成框架能够实现语义丰富化的重要保障。

(4)运用以事件为中心的关联集成框架,自上而下实现文化遗产数据资源动态多维创新利用。对资源进行静态描述与归类的传统组织方式,越来越无法满足对资源的内外部特征语义描述与利用的多样化需求。以事件为中心的关联集成框架作为理解资源数据化的顶层分析框架,通过兼容知识组织结构与描述标准,运用主流的关联数据方法,跨越资源多源异构的障碍,实现跨机构资源集成与语义互操作。由此形成的结构化、语义化和关联化的数据资源形式,可以针对不同情境下的个性化文化知识需求,进行动态多维匹配,从而实现创新利用。

在文化遗产数据资源建设中,以事件为中心的关联集成框架根植于数据资源语义的深度理解。数据资源体系的关联集成化实现,有助于促进文化遗产智慧数据建设目标的达成。

猜你喜欢数据模型语义关联真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31不惧于新,不困于形——一道函数“关联”题的剖析与拓展新世纪智能(数学备考)(2021年9期)2021-11-24语言与语义开放教育研究(2020年2期)2020-03-31“一带一路”递进,关联民生更紧当代陕西(2019年15期)2019-09-02面板数据模型截面相关检验方法综述中央民族大学学报(自然科学版)(2018年3期)2018-11-09奇趣搭配学苑创造·A版(2018年11期)2018-02-01智趣读者(2017年5期)2017-02-15“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型党政干部学刊(2015年7期)2015-12-24汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27

推荐访问:文化遗产 关联 模型

猜你喜欢