余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

探索数字人文的未来之路,看知识图谱将为我们提供何种便利

xiyangw 2023-09-15 17:29 8 浏览 0 评论

第6章 结语

第6章 结语

数字人文与知识图谱是当今世界正在蓬勃发展的两个研究领域。知识图谱为重构数字人文资源、拓展研究人员的学术视野和挖掘潜力提供了新的方式。尽管知识图谱在诸多领域已有成熟的应用,但是数字人文领域的知识图谱构建仍需进一步探索。本书的目的正是结合数字人文领域的数据资源和相关实践的特点,分析数字人文领域知识图谱构建在不同阶段所面临的特定问题,提出数字人文领域知识图谱的构建方法,并以家谱的具体实践来展示及验证相关理论和方法的可行性和效果。

本书首先介绍了知识图谱的起源和基础知识,而后介绍了数字人文知识图谱构建的方法,主要包括领域本体构建、知识抽取、知识融合、知识推理,以及基于众包的人机协作模式和全过程质量控制。在数字人文领域本体构建部分,可以根据实际需要将自顶向下和自底向上的本体构建结合起来。一方面,复用现有的本体,建设初步的领域本体模型;另一方面,基于实际数据和应用,结合众包或知识抽取的结果,归纳领域核心概念,对初步的领域本体模型加以完善,使之更好地适应具体应用和数据的需求。在知识抽取部分,基于规则的方法在实际项目中应用较为广泛,更加符合技术发展趋势的是基于机器学习的方法,尤其是基于深度学习的方法值得尝试。使用前期构建的本体作为指导,同时使用深度学习进行信息抽取,信息抽取的结果还可以用于完善本体模型。在知识融合部分,是相关的实体加以关联、整合,进行实体对齐、冲突检验等,可以有效地完善和扩大知识图谱。对不同来源的数据还需要考虑进行模式对齐。进行知识融合,也有利于发现和消除可能存在的错误、歧义和不一致,不断提升知识的质量。知识推理也是知识图谱构建不可或缺的一部分,根据现有的事实去推断潜在的事实,进行链接预测和知识图谱补全,以及检测冲突和不一致性,进一步提升知识图谱的质量。基于众包的人机协作模式是数字人文领域知识图谱构建区别于通用领域知识图谱构建的一个重要特征。构建数字人文领域知识图谱,仍然需要人类参与其中,完成或者示范完成那些需要人类认知和智慧才能完成的任务,并通过机器学习来自动高效地完成那些规模较大、有重复性的、有章可循的任务。通过众包和机器学习的有机结合,开展人机协作,力求获得良好的效率和效果。数字人文领域知识图谱构建涉及的环节多、周期长,有必要进行全过程的质量控制,对各个环节出现的问题及时发现和改正。

接下来,本书聚焦在家谱知识图谱构建这一具体实践,介绍了依托浙江高迁的吴氏西宅宗谱构建家谱知识图谱的相关工作。首先,按照上下结合的方法构建所需的本体。一方面,对现有的本体进行复用,建设初步的领域本体模型;另一方面,从高迁吴氏西宅宗谱数据的实际情况出发,完善上述领域本体模型的概念和关系、属性,使之更好地适应具体应用和数据集的表达需求。接下来,运用前期构建的本体指导知识抽取的过程,使用深度学习的方法进行古汉语的信息抽取,通过联合学习的方法同时解决实体识别和关系抽取两个子任务。在知识融合阶段,使用基于规则的方法进行人物实体消歧和冲突检验,提高知识图谱的质量。围绕项目中的知识抽取部分的人工标注任务,展示了人机协作模式的实现。基于所构建的家谱知识图谱,实现了家谱可视化应用,主要是结合传统家谱的特点,提出了相应的可视化形式,并设计和实现了可视化平台的原型。

本研究是围绕数字人文领域知识图谱构建展开的一项探索性工作。将知识图谱用于数字人文资源组织,既符合技术发展趋势,也符合数字人文发展的需要,具有重要的研究意义。首先,本书使用新兴的知识图谱技术对数字人文资源进行组织和重构,这种知识组织方式将为人文研究提供新的视角和方式方法,使研究人员面向内容而不是文献进行研究,从而更便捷地找到内容之间的脉络联系。这种知识组织方式还将促进与其他历史信息、地理信息的关联,为研究人员提供更丰富的背景。其次,本书的工作是在数字人文领域对知识图谱构建方法和技术的探索。与通用的知识图谱相比,领域知识图谱的实体的属性和数据模式往往更加细致和丰富,且在构建时需要考虑到数字人文研究的数据和实践的特点,其构建方式方法的研究是对领域知识图谱构建研究的扩展和完善。

当然,数字人文是一个正在不断发展的新兴领域,知识图谱的技术同样处在不断的发展演进中,围绕数字人文领域的知识图谱构建和应用还有许多问题等待进一步探索。

在本体建模方面,构建数字人文领域的本体、为各子领域的本体建设提供基础是非常重要的工作。这些语义化工作必将为未来的数字人文研究提供有力的支持。有必要加强本体模型的时空语义的表达,从而更好地表达时间、地理的相关信息。比如,在古代文书中常使用中国传统的干支纪年法,这些时间可以按一定的规则换算为公元纪年,为了保证在研究时按照公历方便计算和比较,同时保持传统文化的原汁原味,有必要按不同纪年方式对时间点进行记录和存储。同时,在中华五千年文明长河中,大量的时间缺少确切的记录,仅有模糊的记录,或记录了与其他事件的时序关系,这些都对本体模型的时间语义表达能力提出了更高的要求。对于空间语义的表达也是如此,增强空间实体的语义表达,对于在历史地名及区域划分的变更等情景下的叙事表达更加游刃有余。

在知识抽取方面,本研究使用深度学习方法在家谱古文字上进行信息抽取,这也是深度学习模型在古汉语信息抽取上的探索。相关方法的可扩展性可进一步在其他家谱数据集上进行检验。未来在数字人文其他子领域的文本数据上或图像等其他格式的数据上,结合信息抽取、自然语言理解等技术的进展,也有继续探索的广阔空间。不过,不论相关技术在效果上有多好的表现和提升,都无法达到百分之百的准确,尤其是在人文研究的资料中的错误、冲突等在所难免,通过人机协作的方式高效地获得高质量的抽取结果是未来的趋势所向。

在知识融合方面,目前是在一个家族内部的数据集上进行的实体消歧、冲突检验等工作,通过融合建立人物关系网络,并进一步提高数据的质量。未来需要围绕多源数据融合继续开展工作。比如,不仅仅关注一个家族内部的关联,也要关注家族之间的相互关联。又如,考虑与历史地理等不同类型的数据相融合。随着不断添加新的人物节点以及其他类型的节点,知识融合可以带来更丰富的背景信息和研究视角,使网络的价值不断凸显;同时,它还有助于考证彼此的源流,对于修正知识图谱中潜在的错误、提高知识图谱的质量也不无裨益。

在图谱应用方面,基于所构建的知识图谱更是有众多的应用开发的机会。以家谱平台为例,可以进一步完善相关功能,比如基于GIS进行家族分布及迁徙的可视化,使用VR/AR技术增强数字人文图谱展示的沉浸感,等等。知识图谱也为语义检索、智能问答提供了支撑,通过问题理解、信息检索、答案生成提供更加友好的信息服务。更进一步地,还可以为研究人员提供交互式探索分析的功能。通过使用语义检索、智能问答和图表展示,更好地解释一些复杂的现象或过程,帮助研究人员增进对复杂问题的理解,从而更好地发挥知识图谱在助力数字人文研究中的潜力。

面向大数据时代数字人文资源重构、开发和利用的强烈需求,知识图谱将为重构数字人文资源、拓展研究人员的学术视野和挖掘潜力、拓展研究的广度和深度提供极大的便利。这些探索同时也丰富了领域知识图谱构建的研究和实践。在大数据时代的变革中,这股人文与科技的交汇融合尤其令人瞩目,学科教育和学术研究正从分散走向综合,人文的智慧与科技的力量相互启发、紧密结合,科技赋予人文智慧和中华文明新的生机,人文为科技发展和创新带来源源不断的动力。

相关推荐

域名交易策略之如何在竞争激烈的拍卖市场中胜出

域名交易策略之如何在竞争激烈的拍卖市场中胜出作为在域名领域拥有丰富经验的专业人士,您或许早就注意到了域名拍卖。我们的网站提供实时的域名拍卖清单,如果您想更加深入的了解域名拍卖,看这篇文章准没错!Dyn...

icp备案和域名备案两者之间有什么区别?
icp备案和域名备案两者之间有什么区别?

目前备案域名是比较常见的产品,但是也有很多人不懂什么是备案域名,还有大家所说的ICP备案,它和域名备案有什么区别呢?下面和大家分享一下,希望对大家有所帮助。什...

2023-09-28 15:33 xiyangw

直接挑战支付宝、微信?抖音支付正式上线:首批支持十家银行
直接挑战支付宝、微信?抖音支付正式上线:首批支持十家银行

了解更多热门资讯、玩机技巧、数码评测、科普深扒,点击右上角关注我们----------------------------------1月19日,不少网友发现,...

2023-09-28 15:33 xiyangw

Firefox测试新版站点隔离功能 可将每个网站置于单独的进程中
Firefox测试新版站点隔离功能 可将每个网站置于单独的进程中

Mozilla当前正在Firefox每夜构建版(NightlyBuild)和Beta通道测试一项全新的安全体系架构,特点是能够将每个站点都置于单独的...

2023-09-28 15:31 xiyangw

如何给域名估值?

我们从域名注册商中购买了一个流行的域名,有时候申请注册了自己也不会去用,其实可以转卖给别人,但是价格比我们当前购买的时候会有很大的变化。打算开展新的业务,想要寻求一个新的域名,但是很多时候也不知道具体...

二进制部署k8s集群

环境准备kube-apiserver:使用节点本地nginx实现高可用;关闭非安全端口8080和匿名访问;在安全端口6443接收https请求;严格的认证和授权策略(x509、tok...

域名实名制认证
域名实名制认证

为贯彻国家工信部对域名持有者实名制审核管理的相关规范,现在已经全面推行域名实名认证。域名实名认证包括域名命名审核(指域名将由国家监管部门认定是否含有政策不允许注...

2023-09-28 15:30 xiyangw

dns巡检脚本

#!/bin/bash#定义需要巡检的DNS服务器地址DNS_SERVERS=("8.8.8.8""114.114.114.114")#定义需要解析的域...

字节跳动再次蓄力小程序,相关域名花落谁家?
字节跳动再次蓄力小程序,相关域名花落谁家?

2017年1月9日,腾讯的微信小程序上线;2018年9月,阿里巴巴的支付宝小程序上线;2019年,字节跳动也加入了小程序的队伍,然而......字节跳动又上线新...

2023-09-28 15:30 xiyangw

保护您的域名:迈出第一步
保护您的域名:迈出第一步

AkamaiDNS团队互联网上的每一个人和每一件事都依赖于域名系统(DNS)的正常运作。近年来,DNS一直是网络攻击的常见对象,2019年当然也不例外。大多数...

2023-09-28 15:30 xiyangw

利用阿里云API实现DDNS,不用花钱再用花生壳花生棒了
利用阿里云API实现DDNS,不用花钱再用花生壳花生棒了

前言:自从家里有小孩后手机里的照片多的没地方放,又想实时能查看,家里人的手机都拍了宝宝照片视频,也没法相互查看,所以这个场景下不管是云备份,qq空间都无法实现这...

2023-09-28 15:29 xiyangw

TOP域名突破210万,保留域名开始抢滩

2016年5月5日12:00,.top精品保留域名开放溢价注册。本次开放.top域名包括三字母、精品双拼域名,广大用户可根据自身需要选择中意域名。本次.top溢价域名详细列表,已上传公告附件。请广...

关于西部数码.CC/.TV域名开启实名认证通知
关于西部数码.CC/.TV域名开启实名认证通知

根据工信部网站发布信息,工业和信息化部同意威瑞信互联网技术服务(北京)有限公司成为“.CC”“.TV”(含中文.CC和中文.TV)顶级域域名注册管理机构。西部数...

2023-09-28 15:29 xiyangw

SEO也可以走捷径:域名的选择
SEO也可以走捷径:域名的选择

做SEO域名选择很关键,在选择网站域名的时候我们会考虑到很多的因素。如:域名中要包含英文关键词或拼音的形式来增加网站的信用度、域名中添加地区或地区缩写来圈定服务...

2023-09-28 15:29 xiyangw

副业-小白网站建设-Day02
副业-小白网站建设-Day02

非洲待的时间较长了,一直在考虑做副业,所以我的网站是为后续当地副业做准备,下面写写域名注册的步骤和坑。首先,建立一个自己的网站,第一步需要注册域名。域名注册需要...

2023-09-28 15:28 xiyangw

取消回复欢迎 发表评论: