Task1知识图谱介绍 - 问答 - Web开发 Web开发 - Powered by BBS!NT

我的中心

Web开发 » 常识 » 常识 » Task1知识图谱介绍

返回列表

发新话题

回复该主题

查看: 6\|回复: 0	Task1知识图谱介绍 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别新手上路生日帖子1 积分12 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2025-04-26 17:58 \|只看楼主目录一、知识图谱简介二、怎么构建知识图谱呢？三、知识图谱的存储四、Neo4J介绍与安装五、Neo4J实战六、通过Python操作Neo4j七、通过csv文件批量导入图数据参考资料一、知识图谱简介 1.1引言从一开始的Google搜索，到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统，无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。早在年微软就开始构建知识图谱，包括Satori和Probase；年，Google正式发布了GoogleKnowledgeGraph，现在规模已超亿。目前微软和Google拥有全世界最大的通用知识图谱，Facebook拥有全世界最大的社交知识图谱，而阿里巴巴和亚马逊则分别构建了商品知识图谱。业内布局.jpg图1业内布局业内应用.jpg图2业内应用本章以通俗易懂的方式来讲解知识图谱相关的知识、介绍从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段。本次组队学习还将动手实践一个关于kg在智能问答中的应用。 1.2什么是知识图谱呢？知识图谱是由Google公司在年提出来的一个新的概念。从学术的角度，我们可以对知识图谱给一个这样的定义：“知识图谱本质上是语义网络（SemanticNetwork）的知识库”。但这有点抽象，所以换个角度，从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图（Multi-relationalGraph）。 1.2.1什么是图（Graph）呢？图（Graph）是由节点（Vertex）和边（Edge）来构成，多关系图一般包含多种类型的节点和多种类型的边。实体（节点）指的是现实世界中的事物比如人、地名、概念、药物、公司等，关系（边）则用来表达不同实体之间的某种联系，比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。图3图（Graph）介绍 1.2.2什么是Schema呢？知识图谱另外一个很重要的概念是Schema:图中的DataType限定了知识图谱节点值的类型为文本、日期、数字（浮点型与整型）图中的Thing限定了节点的类型及其属性（即图1-1中的边）介绍：限定待加入知识图谱数据的格式；相当于某个领域内的数据模型，包含了该领域内有意义的概念类型以及这些类型的属性作用：规范结构化数据的表达，一条数据必须满足Schema预先定义好的实体对象及其类型，才被允许更新到知识图谱中，一图胜千言举例说明：基于下图Schema构建的知识图谱中仅可含作品、地方组织、人物；其中作品的属性为电影与音乐、地方组织的属性为当地的商业（eg：饭店、俱乐部等）、人物的属性为歌手tips：本次组队学习不涉及schema的构建 Schema定义.PNG图4Schema定义 1.3知识图谱的价值在哪呢？从图5中可以看出，知识图谱是人工智能很重要的一个分支,人工智能的目标为了让机器具备像人一样理性思考及做事的能力-在符号主义的引领下，知识工程（核心内容即建设专家系统）取得了突破性的进展-在整个知识工程的分支下，知识表示是一个非常重要的任务-而知识图谱又恰恰是知识表示的重要一环学科概念.PNG图5学科概念二、怎么构建知识图谱呢？ 2.1知识图谱的数据来源于哪里？知识图谱的构建是后续应用的基础，而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说，它们的数据源主要来自两种渠道：第一种：业务本身的数据。这部分数据通常包含在公司内的数据库表并以结构化的方式存储，一般只需要简单预处理即可以作为后续AI系统的输入；第二种：网络上公开、抓取的数据。这些数据通常是以网页的形式存在所以是非结构化的数据，一般需要借助于自然语言处理等技术来提取出结构化信息。 image.png图6数据来源比如在下面的搜索例子里，BillGates和MalindaGate的关系就可以从非结构化数据中提炼出来，比如维基百科等数据源。 image.png图7举例说明 2.2信息抽取的难点在哪里？信息抽取的难点在于处理非结构化数据。在下面的图中，我们给出了一个实例。左边是一段非结构化的英文文本，右边是从这些文本中抽取出来的实体和关系。图8信息抽取的难点举例 2.3构建知识图谱所涉及的技术？在构建类似的图谱过程当中，主要涉及以下几个方面的自然语言处理技术：实体命名识别（NameEntityRecognition）关系抽取（RelationExtraction）实体统一（EntityResolution）指代消解（CoreferenceResolution）...2.4、知识图谱的具体构建技术是什么？下面针对每一项技术解决的问题做简单的描述，至于这些是具体怎么实现的，不在这里一一展开，后续课程和知识图谱第二期的课程将会慢慢展开： image.png图9具体构建技术示例 2.4.1实体命名识别（NamedEntityRecognition）实体命名识别（英语：NamedEntityRecognition），简称NER目标：就是从文本里提取出实体并对每个实体做分类/打标签；举例说明：比如从上述文本里，我们可以提取出实体-“NYC”，并标记实体类型为“Location”；我们也可以从中提取出“VirgilsBBQ”，并标记实体类型为“Restarant”。这种过程称之为实体命名识别，这是一项相对比较成熟的技术，有一些现成的工具可以用来做这件事情。2.4.2关系抽取（RelationExtraction）关系抽取（英语：RelationExtraction），简称RE介绍：通过关系抽取技术，把实体间的关系从文本中提取出来；举例说明：比如实体“hotel”和“Hiltonproperty”之间的关系为“in”；“hotel”和“TimeSquare”的关系为“near”等等。 image.png图9NER和RE示例 2.4.3实体统一（EntityResolution）实体统一（英语：EntityResolution），简称ER介绍：对于有些实体写法上不一样，但其实是指向同一个实体；举例说明：比如“NYC”和“NewYork”表面上是不同的字符串，但其实指的都是纽约这个城市，需要合并。价值：实体统一不仅可以减少实体的种类，也可以降低图谱的稀疏性（Sparsity）；2.4.4指代消解（Disambiguation）指代消解（英语：Disambiguation）介绍：文本中出现的“it”,“he”,“she”这些词到底指向哪个实体，比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。 image.png图10ER和Disambiguation示例三、知识图谱的存储知识图谱主要有两种存储方式：一种是基于RDF的存储；另一种是基于图数据库的存储。它们之间的区别如下图所示。RDF一个重要的设计原则是数据的易发布以及共享，图数据库则把重点放在了高效的图查询和搜索上。其次，RDF以三元组的方式来存储数据而且不包含属性信息，但图数据库一般以属性图为基本的表示形式，所以实体和关系可以包含属性，这就意味着更容易表达现实的业务场景。其中Neo4j系统目前仍是使用率最高的图数据库，它拥有活跃的社区，而且系统本身的查询效率高，但唯一的不足就是不支持准分布式。相反，OrientDB和JanusGraph（原Titan）支持分布式，但这些系统相对较新，社区不如Neo4j活跃，这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。如果选择使用RDF的存储系统，Jena或许一个比较不错的选择。 image.png图11RDF的存储和基于图数据库的存储的区别四、Neo4J介绍与安装 4.1引言 “工欲善其事，必先利其器”，知识图谱作为一种特殊的图结构，自然需要专门的图数据库进行存储。知识图谱由于其数据包含实体、属性、关系等，常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点，因此知识图谱数据的存储一般是采用图数据库（GraphDatabases）。而Neo4j是其中最为常见的图数据库。 4.2Neo4J下载首先在Neo4J
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题