第6章 结语
数字人文与知识图谱是当今世界正在蓬勃发展的两个研究领域。知识图谱为重构数字人文资源、拓展研究人员的学术视野和挖掘潜力提供了新的方式。尽管知识图谱在诸多领域已有成熟的应用,但是数字人文领域的知识图谱构建仍需进一步探索。本书的目的正是结合数字人文领域的数据资源和相关实践的特点,分析数字人文领域知识图谱构建在不同阶段所面临的特定问题,提出数字人文领域知识图谱的构建方法,并以家谱的具体实践来展示及验证相关理论和方法的可行性和效果。
本书首先介绍了知识图谱的起源和基础知识,而后介绍了数字人文知识图谱构建的方法,主要包括领域本体构建、知识抽取、知识融合、知识推理,以及基于众包的人机协作模式和全过程质量控制。在数字人文领域本体构建部分,可以根据实际需要将自顶向下和自底向上的本体构建结合起来。一方面,复用现有的本体,建设初步的领域本体模型;另一方面,基于实际数据和应用,结合众包或知识抽取的结果,归纳领域核心概念,对初步的领域本体模型加以完善,使之更好地适应具体应用和数据的需求。在知识抽取部分,基于规则的方法在实际项目中应用较为广泛,更加符合技术发展趋势的是基于机器学习的方法,尤其是基于深度学习的方法值得尝试。使用前期构建的本体作为指导,同时使用深度学习进行信息抽取,信息抽取的结果还可以用于完善本体模型。在知识融合部分,是相关的实体加以关联、整合,进行实体对齐、冲突检验等,可以有效地完善和扩大知识图谱。对不同来源的数据还需要考虑进行模式对齐。进行知识融合,也有利于发现和消除可能存在的错误、歧义和不一致,不断提升知识的质量。知识推理也是知识图谱构建不可或缺的一部分,根据现有的事实去推断潜在的事实,进行链接预测和知识图谱补全,以及检测冲突和不一致性,进一步提升知识图谱的质量。基于众包的人机协作模式是数字人文领域知识图谱构建区别于通用领域知识图谱构建的一个重要特征。构建数字人文领域知识图谱,仍然需要人类参与其中,完成或者示范完成那些需要人类认知和智慧才能完成的任务,并通过机器学习来自动高效地完成那些规模较大、有重复性的、有章可循的任务。通过众包和机器学习的有机结合,开展人机协作,力求获得良好的效率和效果。数字人文领域知识图谱构建涉及的环节多、周期长,有必要进行全过程的质量控制,对各个环节出现的问题及时发现和改正。
接下来,本书聚焦在家谱知识图谱构建这一具体实践,介绍了依托浙江高迁的吴氏西宅宗谱构建家谱知识图谱的相关工作。首先,按照上下结合的方法构建所需的本体。一方面,对现有的本体进行复用,建设初步的领域本体模型;另一方面,从高迁吴氏西宅宗谱数据的实际情况出发,完善上述领域本体模型的概念和关系、属性,使之更好地适应具体应用和数据集的表达需求。接下来,运用前期构建的本体指导知识抽取的过程,使用深度学习的方法进行古汉语的信息抽取,通过联合学习的方法同时解决实体识别和关系抽取两个子任务。在知识融合阶段,使用基于规则的方法进行人物实体消歧和冲突检验,提高知识图谱的质量。围绕项目中的知识抽取部分的人工标注任务,展示了人机协作模式的实现。基于所构建的家谱知识图谱,实现了家谱可视化应用,主要是结合传统家谱的特点,提出了相应的可视化形式,并设计和实现了可视化平台的原型。
本研究是围绕数字人文领域知识图谱构建展开的一项探索性工作。将知识图谱用于数字人文资源组织,既符合技术发展趋势,也符合数字人文发展的需要,具有重要的研究意义。首先,本书使用新兴的知识图谱技术对数字人文资源进行组织和重构,这种知识组织方式将为人文研究提供新的视角和方式方法,使研究人员面向内容而不是文献进行研究,从而更便捷地找到内容之间的脉络联系。这种知识组织方式还将促进与其他历史信息、地理信息的关联,为研究人员提供更丰富的背景。其次,本书的工作是在数字人文领域对知识图谱构建方法和技术的探索。与通用的知识图谱相比,领域知识图谱的实体的属性和数据模式往往更加细致和丰富,且在构建时需要考虑到数字人文研究的数据和实践的特点,其构建方式方法的研究是对领域知识图谱构建研究的扩展和完善。
当然,数字人文是一个正在不断发展的新兴领域,知识图谱的技术同样处在不断的发展演进中,围绕数字人文领域的知识图谱构建和应用还有许多问题等待进一步探索。
在本体建模方面,构建数字人文领域的本体、为各子领域的本体建设提供基础是非常重要的工作。这些语义化工作必将为未来的数字人文研究提供有力的支持。有必要加强本体模型的时空语义的表达,从而更好地表达时间、地理的相关信息。比如,在古代文书中常使用中国传统的干支纪年法,这些时间可以按一定的规则换算为公元纪年,为了保证在研究时按照公历方便计算和比较,同时保持传统文化的原汁原味,有必要按不同纪年方式对时间点进行记录和存储。同时,在中华五千年文明长河中,大量的时间缺少确切的记录,仅有模糊的记录,或记录了与其他事件的时序关系,这些都对本体模型的时间语义表达能力提出了更高的要求。对于空间语义的表达也是如此,增强空间实体的语义表达,对于在历史地名及区域划分的变更等情景下的叙事表达更加游刃有余。
在知识抽取方面,本研究使用深度学习方法在家谱古文字上进行信息抽取,这也是深度学习模型在古汉语信息抽取上的探索。相关方法的可扩展性可进一步在其他家谱数据集上进行检验。未来在数字人文其他子领域的文本数据上或图像等其他格式的数据上,结合信息抽取、自然语言理解等技术的进展,也有继续探索的广阔空间。不过,不论相关技术在效果上有多好的表现和提升,都无法达到百分之百的准确,尤其是在人文研究的资料中的错误、冲突等在所难免,通过人机协作的方式高效地获得高质量的抽取结果是未来的趋势所向。
在知识融合方面,目前是在一个家族内部的数据集上进行的实体消歧、冲突检验等工作,通过融合建立人物关系网络,并进一步提高数据的质量。未来需要围绕多源数据融合继续开展工作。比如,不仅仅关注一个家族内部的关联,也要关注家族之间的相互关联。又如,考虑与历史地理等不同类型的数据相融合。随着不断添加新的人物节点以及其他类型的节点,知识融合可以带来更丰富的背景信息和研究视角,使网络的价值不断凸显;同时,它还有助于考证彼此的源流,对于修正知识图谱中潜在的错误、提高知识图谱的质量也不无裨益。
在图谱应用方面,基于所构建的知识图谱更是有众多的应用开发的机会。以家谱平台为例,可以进一步完善相关功能,比如基于GIS进行家族分布及迁徙的可视化,使用VR/AR技术增强数字人文图谱展示的沉浸感,等等。知识图谱也为语义检索、智能问答提供了支撑,通过问题理解、信息检索、答案生成提供更加友好的信息服务。更进一步地,还可以为研究人员提供交互式探索分析的功能。通过使用语义检索、智能问答和图表展示,更好地解释一些复杂的现象或过程,帮助研究人员增进对复杂问题的理解,从而更好地发挥知识图谱在助力数字人文研究中的潜力。
面向大数据时代数字人文资源重构、开发和利用的强烈需求,知识图谱将为重构数字人文资源、拓展研究人员的学术视野和挖掘潜力、拓展研究的广度和深度提供极大的便利。这些探索同时也丰富了领域知识图谱构建的研究和实践。在大数据时代的变革中,这股人文与科技的交汇融合尤其令人瞩目,学科教育和学术研究正从分散走向综合,人文的智慧与科技的力量相互启发、紧密结合,科技赋予人文智慧和中华文明新的生机,人文为科技发展和创新带来源源不断的动力。