公共文化知识图谱平台及其使用办法的制作方法

文档序号:12596450阅读:237来源:国知局
公共文化知识图谱平台及其使用办法的制作方法与工艺

本发明属于公共文化大数据共享服务领域,具体涉及计算机知识管理和知识挖掘的人工智能方法,特别涉及一种公共文化知识图谱平台及其使用办法。



背景技术:

公共文化服务是指为公众提供的文化信息、文化资源的服务。随着网络公共文化服务的快速发展,产生了大量的文化资源和数据。解决网络公共文化资源共享的问题,成了公共文化服务的重点。在这些文化资源和数据中,蕴含着大量的文化知识。相对于单调的资源列表,公众更喜欢从资源中挖掘出的知识。这些知识连接着各种不同的资源,因此,基于知识的资源共享,成为了一种更高层次的公共文化共享服务。

知识图谱是前沿人工智能技术,其基本思想来自于知识库技术,能够挖掘、管理、和分析大量的知识。知识图谱技术是一种交叉领域技术,涉及到知识工程、信息检索、语义网、大数据、自然语言处理、可视化技术、人工智能、机器学习、深度学习等领域。知识图谱可以将大规模数据中的隐藏的知识抽取出来,构建一个基于图的数据模型。对于知识图谱,可以使用多种分析方法进行深度的挖掘和分析。知识图谱应用广泛,可以用于认知研究、知识检索、语义搜索引擎、个性化推荐、金融欺诈分析、知识可视化等。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱,如Google Knowledge Graph等,整合各个领域的知识,知识面广泛,但不深入。领域知识图谱服务于某一个特定领域,知识领域比较集中,但有较好的专业性和深度。

问题:当前的公共文化共享服务还停留在数据资源共享的阶段,用户获得的是列出的资源,例如,用户检索一个知识点,传统的检索系统返回给用户资源列表,用户必须逐个查看资源,从中提取和理解每个资源中的知识,其中还存有大量重复的知识。繁琐且枯燥的过程让用户对公共文化资源的兴趣迅速衰减。如何实现对公共文化知识领域中的快速、高效搜索公共文化知识成为了亟待解决的问题。



技术实现要素:

为了解决现有技术中的上述问题,即为了解决如何实现对公共文化知识领域中的快速、高效搜索公共文化知识的问题,本发明提供了一种公共文化知识图谱平台,包括:

用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。

优选地,所述采集处理系统包括数据采集处理模块、知识模板模块和知识挖掘模块;

所述数据采集处理模块,具体包括用于采集所有数据源并对其进行相应处理;

所述知识模板模块,用于在所述数据采集处理模块处理数据源时提供模板支持作为判定依据;

所述知识挖掘模块,用于在所述数据采集处理模块处理的数据中进行公共文化知识挖掘。

优选地,所述数据采集处理模块具体包括采集单元、数据清洗单元、数据转换单元、判定器单元和自然语言处理单元,

所述采集单元,用于采集数据源;

所述数据清洗单元,用于将所述采集单元所采集的所有数据源进行噪声数据消除和数据消重处理;

所述判定器单元,用于对所述数据清洗单元处理前的数据进行有效性判定,当判定结果为无效数据时,由所述数据清洗单元进行数据清洗;否则保留数据。

所述数据转换单元,用于将经所述数据清洗单元清洗后的数据进行格式转换;

所述自然语言处理单元,用于将经所述数据转换单元格式转换后的数据进行自然语言处理后存储。

优选地,所述知识挖掘模块具体包括知识抽取单元、知识融合单元、知识扩展单元和知识验证单元,

所述知识抽取单元与所述自然语言处理单元通信连接,用于将经所述语言处理单元自然语言处理后得到的数据中提取出公共文化实体,以及实体之间的语义关系;

所述知识融合单元,用于对相同实体或相似实体的融合、相同实体属性或相似实体属性的融合,以及相同实体关系或相似实体关系的融合;

所述知识扩展单元,用于对所述存储处理系统中所存储的公共文化知识进行数据扩展挖掘;

所述知识验证单元,用于对经所述知识融合单元和所述知识扩展单元处理后的公共文化知识进行验证,验证后的公共文化知识由所述存储处理系统保存。

优选地,所述存储处理系统用于分类存储所有的公共文化知识数据,包括存储各种结构化数据的第一存储模块、存储图片、视频数据的第二存储模块、存储知识图谱模型的第三存储模块、存储文本文档的第四存储模块、存储本体模型和规则模板的第五存储模块以及存储系统数据的第六存储模块。

优选地,所述第一存储模块具体为关系型数据库集群,所述第二存储模块具体为分布式文件系统,所述第三存储模块具体为图数据库,所述第四存储模块具体为文档数据库,所述第五存储模块具体为可扩展标记语言XML,以及所述第六存储模块具体为列数据库。

优选地,所述公共文化知识图谱平台还包括与所述管理系统通信连接的调配处理系统,所述调配处理系统用于根据所述管理系统的指示对其所连接的各处理系统进行统一调配处理。

优选地,所述调配处理系统中还包括用于为所述分析处理系统提供数据分析时所需使用计算框架的计算框架模块,为所述分析处理系统提供数据分析时所需使用算法的算法库模块,以及为所述存储处理系统中所存储的模型提供配置的模型管理模块。

本发明还提供了一种公共文化知识图谱平台的使用方法,包括:

接收公共文化知识的查询请求;

根据所述查询请求查询公共文化知识;

将查询到公共文化知识进行展示。

与现有技术相比,本发明至少具有以下优点:

通过本发明的设计,实现了对公共文化知识领域中的公共文化知识的快速、高效搜索,以及公共文化知识的聚合和挖掘。

附图说明

图1是本发明所提供的公共文化知识图谱平台中的公共文化知识图谱的示意图;

图2是本发明所提供的公共文化知识图谱平台的使用方法的流程示意图;

图3是本发明所提供的公共文化知识图谱平台工作流程的示意图

图4是本发明所提供的公共文化知识图谱平台的架构流程示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

如图1所示,描述了知识图谱平台中的知识图谱的基本结构。知识图谱的基本结构是图。图论中对图的基本定义为G=(V,E):V为点集,E为边集,G为图,由点跟边构成。

知识图谱由实体、实体属性、关系、关系属性构成。实体描述现实世界中的事物,如三国演义,罗贯中;实体属性描述实体的属性,如图1所示,上方的点是三国演义实体,它的2个属性是{名称:三国演义;题材:小说};关系描述实体之间的关系,如三国演义与罗贯中有关系,其属性描述为{小说:作者}。知识图谱的基本结构是图,其中实体表达为点,关系表达为点与点之间的连接线。

本发明提出一种公共文化知识图谱平台的使用方法,下面结合附图,对本发明具体实施方式进行详细说明。

如图2-4所示,该方法具体包括如下步骤:

步骤201,接收公共文化知识的查询请求。

步骤202,根据所述查询请求查询公共文化知识。

步骤203,将查询到的公共文化知识进行展示。

在上述步骤201-203中,在该公共文化知识图谱平台100接收到查询请求后,由服务处理系统104对外提供查询知识服务。其中,该服务处理系统104中具体包括了对于公共文化知识的实体、属性、和关系的搜索的知识查询模块1041,提供了公共文化知识的知识分析模块1042,允许第三方应用系统配置个性化的知识图谱的知识图谱配置模块1043和为第三方应用系统提供了用于知识可视化的一系列方法的知识可视化模块1044。

对于知识图谱配置模块1043而言,举例,很多应用只涉及到很小的子图的分析,而不是整个知识图谱。通过该知识图谱配置模块1043所设置的性质,可以在分析的初期先提取出有效的子图,提高分析的效率;该知识可视化模块1044相关的一系列方法中,可以是但不局限于基于浏览器HTML5方法和Javascript方法,从而实现通过图形界面展示用户感兴趣的公共文化知识。

本发明所提供的公共文化知识图谱平台100中,包括用于采集公共文化知识的采集处理系统101,用于存储经所述采集处理系统101所采集处理后的公共文化知识的存储处理系统102,用于将所述存储处理系统102所存储的公共文化知识进行分析处理的分析处理系统103,提供公共文化知识查询的服务处理系统104和对各处理系统实现调配管理的管理系统105。

其中,所述采集处理系统101包括数据采集处理模块1011、知识模板模块1012和知识挖掘模块1013;

所述数据采集处理模块1011,具体用于采集所有数据源并对其进行相应处理;对于数据源,其包含多种不同的数据来源:公共文化机构网站、中文百科网站、中文词库、中文文化网站。公共文化机构网站是指公共文化机构所建立的网站,例如国家博物馆网站、中国美术馆网站、国家图书馆网站、群艺馆网站、地区文化馆网站。中文百科网站包括但不局限于百度百科、维基百科中文版(结构化数据DBpedia)、互动百科等。中文词库是一种半结构化的数据,记录的中文单词的含义、属性、关系等,可以用来进行同义词匹配。HowNet是一种高效的中文词典。中文文化网站是指专业的中国文化网站、各大网站的中国文化频道(如搜狐文化、凤凰文化)、垂直的文化网站(如豆瓣网)。

进一步地,所述数据采集处理模块1011具体包括采集单元10111、数据清洗单元10112、数据转换单元10113、判定器单元10114和语言处理单元10115,

所述采集单元10111,用于采集数据源;

所述数据清洗单元10112,用于将所述采集单元10111所采集的所有数据源进行噪声数据消除和数据消重处理;

所述判定器单元10114,用于对所述数据清洗单元10112处理前的数据进行有效性判定,如果判定为无效数据,则由所述数据清洗单元10112进行清洗,否则保留数据。该判定器单元10114是一个二元分类器,能够自动判定输入的网页数据是否有效。此处有效数据的含义是该网页的内容属于公共文化范畴(即是非噪声数据)并且该网页与已经采集的网页内容重复率不超过预设阀值(即是非重复网页);判定器单元10114使用大量的数据集对判定器进行训练,用于构建和优化判定器模型;其中,所提供的判定器可以包括:启发式判定器和模板式判定器;启发式判定器使用公共文化语料库和分类算法构建二元分类器;模板式判定器使用公共文化分类库和预定义的知识模板模块,对所输入的数据进行类型匹配,判断其是否属于公共文化范畴。

所述数据转换单元10113,用于将经所述数据清洗单元10112清洗后的数据进行格式转换;

所述语言处理单元10115,用于将经所述数据转换单元10113格式转换后的数据进行自然语言处理。具体的,自然语言处理单元10115使用格式转换完毕的数据构建和管理语料库。语料库的数据通过中文处理子单元,进行中文分词、词性标注、和关键词提取等自然语言处理工作。这些工作是知识挖掘模块进行知识挖掘的前提条件。

所述知识模板模块1012,用于在所述数据采集处理模块1011处理数据源时提供模板支持作为判定依据;知识模板模块1012中的知识模板由公共文化领域专家制定,包含公共文化本体模板10121和公共文化挖掘规则10122。知识模板模块1012为判定器单元10114和知识挖掘模块1013提供支持。其中,公共文化本体模板10121包含公共文化概念和概念之间的关系,是公共文化图谱中的实体和关系的模板。公共文化概念定义了公共文化实体的类型和相关属性,概念之间的关系可以映射为实体之间的关系。概念是实体的抽象,概念的关系是实体之间关系的抽象。例如:概念:小说,实体:三国演义;概念的关系:小说-作者,实体之间的关系:三国演义-罗贯中。公共文化本体模板10122用来进行实体的判定和关系的识别。

所述知识挖掘模块1013,用于在所述数据采集处理模块1011处理的数据中进行公共文化知识挖掘。该模块具体包括知识抽取单元10131、知识融合单元10132、知识扩展单元10133和知识验证单元10134。

所述知识抽取单元10131与所述自然语言处理单元10115通信连接,用于将经所述自然语言处理单元10115进行自然语言处理后得到的数据中提取出公共文化实体,以及实体之间的语义关系;在进行知识抽取时,所使用方法可以是但不局限于:实体抽取使用CRF条件随机场算法,关系抽取使用Bootstrapping方法。

所述知识融合单元10132,用于对相同实体或相似实体的融合、相同实体属性或相似实体属性的融合,以及相同实体关系或相似实体关系的融合;有些实体名字不同,但表达的事物是相同或者非常相似的,比如计算机和电脑。同样,该单元也对相同或者非常相似的属性和关系进行融合,如“名字”和“姓名”是相同属性。该单元可以使用的方法包含但不局限于基于NowNet的同义词模板法、词向量语义分析算法、主题模型分析算法等。

所述知识扩展单元10133,用于对所述存储处理系统102中所存储的公共文化知识进行数据扩展挖掘;包括新关系的挖掘和新属性的挖掘。可以使用的方法包括但不局限于基于规则的逻辑推理方法、基于机器学习的分类和聚类方法等。如图1所示,实体“三国演义”的属性“题材”值为“小说”,其作者“罗贯中”所处的朝代为“明朝”,因此,通过逻辑推理方法,就可以得到“三国演义”的新属性“年代:明朝”。

所述知识验证单元10134,用于对经所述知识融合单元10132和所述知识扩展单元10133处理后的公共文化知识进行验证,验证后的公共文化知识由所述存储处理系统102保存。

在所述存储处理系统102中,其也为公共文化知识数据库102,用于分类存储所有的公共文化知识数据,包括存储各种结构化数据的第一存储模块、存储图片、视频数据的第二存储模块、存储知识图谱模型的第三存储模块、存储文本文档的第四存储模块、存储本体模型和规则模板的第五存储模块以及存储系统数据的第六存储模块。其中,公共文化知识数据库102中所使用由数据采集处理系统101获取的组成部件来创建、更新、和管理公共文化知识图谱,以及管理跟公共文化知识图谱紧密相关的非结构化数据,例如文本文档、图片、音频、视频。知识图谱模型物理存储在图数据库中,非结构化数据物理存储在文档数据库、分布式文件系统和其他相应的数据存储中,并将存储地址保存在公共文化知识图谱的属性中,公共文化知识数据库102进行逻辑上的操作和管理。

其中,所述第一存储模块具体为关系型数据库集群,如MySQL Cluster;所述第二存储模块具体为分布式文件系统,如Ceph;所述第三存储模块具体为图数据库,如OrientDB;所述第四存储模块具体为文档数据库,如MongoDB;所述第五存储模块具体为可扩展标记语言XML,以及所述第六存储模块具体为列数据库,如HBase。

在分析处理系统103中,分析方法包括:搜索、推理、排序、聚类、分类、相似度等。该分析处理系统103使用但不局限于机器学习方法、基于规则的推理方法、深度学习方法等。

在该公共文化知识图谱平台100中,还包括与所述管理系统105通信连接的调配处理系统106,所述调配处理系统106用于根据所述管理系统的指示对其所连接的各处理系统进行统一调配处理;该调配处理系统106中还包括用于为所述分析处理系统103提供数据分析时所需使用计算框架的计算框架模块1061,为所述分析处理系统103提供数据分析时所需使用算法的算法库模块1062,以及为所述存储处理系统102中所存储的模型提供配置的模型管理模块1063。该调配处理系统106是对公共文化知识图谱平台100的硬件资源和基础设施进行管理。硬件管理包括计算设备、存储设备、网络设备、安全设备、辅助设备等。公共文化知识图谱平台100使用虚拟化技术Open Stack+KVM将硬件资源转化为虚拟资源,如虚拟机、虚拟网络等。之后使用计算机集群技术组件虚拟计算机集群并由该调配处理系统106进行统一管理。公共文化知识图谱平台100中创建的存储、计算等其他模块都部署安装在虚拟计算机集群上。

上述调配处理系统106中,计算框架模块1061包含了各种所需的计算框架,包括分布式并行计算框架,如Hadoop MapReduce,用于大数据批处理;图计算框架,如Spark GraphX,结合图数据库,对知识图谱进行分析;内存计算框架,如Apache Spark,用于小规模快速分析;流计算框架,如Spark Streaming,用于实时计算,如实时统计;SparQL是用于RDF遍历的脚本语言,计算框架中提供SparQL环境,用于对本体模型的分析;Gremlin是一种用于图遍历的脚本语言,可以用于公共文化知识图谱的遍历和分析。

该算法库模块1062管理着部署在公共文化知识图谱平台100的知识图谱分析算法,涉及到机器学习算法、深度学习算法、以及自然语言处理算法等。

该模型管理模块1063管理着公共文化知识数据库102和知识模版模块1012。该模块维护着各种模型所需的软件环境和配置信息。

该管理系统105管理和协调着各个处理系统,同时它还包括安全管理、消息系统、日志系统、性能监控、系统配置管理、缓存系统、用户管理等。

对于该公共文化知识图谱平台100而言,其中还包括运行环境系统107,通过该系统提供了各种用于提供服务的运行环境,包含但不局限于Web服务器,如Apache服务器;(反向)代理服务器,如NginX;应用服务器,如Tomcat服务器;API管理服务器等。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1