知识图谱的资料收集

shaoheshaohe · 发表于 2020-3-7 16:03:05

https://mp.weixin.qq.com/s/X0Aoy8blwE3lUMZUTxbFhA

【导读】知识图谱是当下的研究热点。最近18位学者共同撰写了一篇《知识图谱》综述论文，讲述了知识图谱的创建、丰富、质量评估、细化和发布的方法，有130页pdf，547篇参考文献。

在本文中，我们对知识图谱进行了全面的介绍，在需要开发多样化、动态、大规模数据收集的场景中，知识图谱最近引起了工业界和学术界的极大关注。在大致介绍之后，我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论schema, identity, 和 context 在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用，以及它们如何使用上述技术。最后，我们总结了未来高层次的知识图谱研究方向。

尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440]，但它的现代形式起源于2012年发布的谷歌知识图谱[459]，随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明，学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题，其中包括书籍(如[400])，以及概述定义(如[136])的论文，新技术(如[298,399,521])，以及对知识图谱具体方面的调查(如[375,519])。

所有这些发展的核心思想是使用图形来表示数据，通常通过某种方式显式地表示知识来增强这种思想[365]。结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365]。在这种情况下，与关系模型或NoSQL替代方案相比，使用基于图的知识抽象有很多好处。图为各种领域提供了简洁而直观的抽象，其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的定义，允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展，特别是对于获取不完整的知识[2]。与(其他)NoSQL模型不同，专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等)，而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符。标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义。可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等，以获得对所描述领域的洞察。各种表示形式也被开发出来，支持直接在图上应用机器学习技术[519,527]。
总之，构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术。但是，我们还没有看到一个通用的统一总结，它描述了如何使用知识图谱，使用了哪些技术，以及它们如何与现有的数据管理主题相关。
本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目标受众包括对知识图谱不熟悉的研究人员和实践者。因此，我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的定义仍然存在争议[36,53,136]，其中出现了一些(有时相互冲突的)定义，从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里，我们采用了一个包容性的定义，其中我们将知识图谱视为一个数据图，目的是积累和传递真实世界的知识，其节点表示感兴趣的实体，其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型，它可以是一个有向边标记的图，一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累，也可以从知识图谱本身中提取。知识可以由简单的语句组成，如“圣地亚哥是智利的首都”，也可以由量化的语句组成，如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句，那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如，“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。

知识图谱通常来自多个来源，因此，在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述，知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。

在实践中 知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中，我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布，使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域，它们要么是从Wikipedia[232,291]中提取出来的，要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过，如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的，并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459]，推荐[83,205,214,365]，个人代理[392]，广告[214]，商业分析[214]，风险评估[107,495]，自动化[223]，以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

结构。本文件其余部分的结构如下:

第2节概述了图形数据模型和可用于查询它们的语言。

第3节描述了知识图谱中模式、标识和上下文的表示形式。

第四节介绍了演绎式的形式主义，通过这种形式主义，知识可以被描述和推导出来。

第5节描述了可以提取额外知识的归纳技术。

第6节讨论了如何从外部资源中创建和丰富知识图谱。

第7节列举了可用于评估知识图谱的质量维度。

第8节讨论知识图谱细化的各种技术。

第9节讨论发布知识图谱的原则和协议。

第10节介绍了一些著名的知识图谱及其应用。

第11节总结了知识图谱的研究概况和未来的研究方向。

附录A提供了知识图谱的历史背景和以前的定义。

附录B列举了将从论文正文中引用的正式定义。