基于百科知识的移动应用知识图谱复合型补全方法及装置与流程

文档序号:20030198发布日期:2020-02-28 10:17阅读:245来源:国知局
基于百科知识的移动应用知识图谱复合型补全方法及装置与流程

本发明涉及计算机技术领域,尤其涉及一种基于百科知识的移动应用知识图谱复合型补全方法及装置。



背景技术:

在现有技术中,从移动应用市场爬取移动应用数据并构建移动应用知识图谱是最直接的方式,但是仅通过应用市场数据构建的移动应用知识图谱存在较为严重的属性值缺失的问题,影响业务应用效果。



技术实现要素:

本发明实施例提供一种基于百科知识的移动应用知识图谱复合型补全方法及装置,用以解决现有技术中仅通过应用市场数据构建的移动应用知识图谱存在较为严重的属性值缺失,影响业务应用效果的问题。

本发明实施例提供一种基于百科知识的移动应用知识图谱复合型补全方法,包括:

对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;

利用网络爬虫抓取筛选出的所述百科页面并存储;

针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;

根据抽取的所述结构化知识,更新allegrograph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。

本发明实施例还提供一种基于百科知识的移动应用知识图谱复合型补全装置,包括:

筛选模块,用于对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;

抓取模块,用于利用网络爬虫抓取筛选出的所述百科页面并存储;

抽取模块,用于针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;

更新模块,用于根据抽取的所述结构化知识,更新allegrograph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。

采用本发明实施例,对百科知识进行结构化抽取,并用于更新补全图谱数据,使得移动应用知识图谱更加完整,业务应用效果更佳。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1是本发明实施例的基于百科知识的移动应用知识图谱复合型补全方法的流程图;

图2是本发明实施例的针对不同的移动应用属性值采取不同的属性识别算法的示意图;

图3是本发明实施例的实例1的示意图;

图4是本发明实施例的实例2的示意图;

图5是本发明实施例的实例2的示意图;

图6是本发明实施例的bilstm-crf模型框架的示意图;

图7是本发明实施例的基于百科知识的移动应用知识图谱复合型补全装置的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

方法实施例

根据本发明实施例,提供了一种基于百科知识的移动应用知识图谱复合型补全方法,在使用应用市场数据初步构建的移动应用知识图谱的基础上,引入百科知识,对移动应用知识图谱属性进行补全。图1是本发明实施例的基于百科知识的移动应用知识图谱复合型补全方法的流程图,如图1所示,根据本发明实施例的基于百科知识的移动应用知识图谱复合型补全方法具体包括:

步骤1,对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;

在步骤1中,读取该站点对应的配置文件之前,需要给定图数据库中的移动应用名称,预先设置爬虫脚本中的所述配置文件,其中,所述配置文件用于驱动读取百科中移动应用的知识挖掘过程,所述配置文件具体包括以下至少之一:百科中移动应用所属的类别集合、移动应用名称词典、移动应用的属性词典。

步骤2,利用网络爬虫抓取筛选出的所述百科页面并存储;

步骤3,针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;

步骤3具体包括:

1、针对inforbox中结构化的属性特征,采用基于字符串映射的移动应用知识图谱属性补全方法;具体地:对每一个百科知识平台,分别建立百科知识平台中inforbox各属性字符串与移动应用知识图谱后台图数据库中的属性名称的属性字符串映射表;对每个移动应用对应的百科知识页面,首先抽取inforbox中的属性字符串,并与百科平台的属性字符串映射表进行比对,如果该属性字符串存在于映射表中,则从百科知识页面中继续抽取属性值,用于补全至移动应用知识图谱中。

2、针对移动应用功能点的属性特征,采用基于模版触发词的移动应用知识图谱属性补全方法;具体地,针对特定的属性建立有针对性的模板触发词表,根据所述模板触发词表中的模板触发词进行提取,用于补全移动应用知识图谱。

3、针对移动应用属性实体的属性特征,采用基于bilstm-crf的移动应用知识图谱属性补全方法。

具体地,通过crf模型对属性中每个实词的上下文信息建模,捕捉语义特征;通过bilstm根据所述语义特征,积累属性中所有的有用信息,用于补全移动应用知识图谱。

步骤4,根据抽取的所述结构化知识,更新allegrograph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。

以下结合附图,对本发明实施例的技术方案进行详细说明。

百科知识以无结构或半结构的数据为主,本文通过字符串映射、bilstm-crf和模板触发词多种复合技术相结合的方法,对百科知识进行结构化抽取,并用于更新补全图谱数据。

利用百科知识补全移动应用知识图谱的外围步骤如下:

1)给定图数据库中的移动应用名称,预先设置爬虫脚本中的配置文件,用于驱动读取百科中移动应用的知识挖掘过程。爬虫脚本中的配置文件具体包括:百科中移动应用所属的类别集合(categoriesset)、移动应用名称词典、移动应用的属性词典等。

2)对于给定的百科站点,读取该站点对应的配置文件,并利用配置文件中的信息,筛选出该百科中和移动应用相关联的页面。

3)利用网络爬虫抓取上一步筛选出的百科页面,并存储到本地。

4)如图2所示,采用基于百科知识的移动应用知识图谱复合型补全方法,针对不同的移动应用属性值采取不同的属性识别算法。通常将抽取的结果统一存储为ntriples格式。

5)基于上一步抽取好的结构化知识,更新allegrograph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。

以下进行举例说明。

一、基于字符串映射的移动应用知识图谱属性补全方法

对于inforbox中结构化的属性信息,采用基于字符串映射的属性补全方法。

具体步骤为:

1、对每一个百科知识平台,如百度百科、搜狐百科,分别建立百科知识平台中inforbox各属性字符串与移动应用知识图谱后台图数据库中的属性名称的映射表;

2、对每个移动应用对应的百科知识页面,首先抽取inforbox中的属性字符串,并与百科平台的属性字符串映射表进行比对,如果该属性字符串存在于映射表中,则从百科知识页面中继续抽取属性值,并将之补全至移动应用知识图谱中。

如图3所示的方框部分为移动应用“陌陌”在百度百科知识页面的inforbox部分,其中的“外文名”、“开发商”、“平台”、“上线时间”等属性即可以通过基于字符串映射的方法进行提取并用于补全知识图谱。

二、基于模版触发词的移动应用知识图谱属性补全方法

对于统计模型难于识别的属性特征,针对特定的属性建立有针对性的模板触发词表,如图4所示方框部分为移动应用“陌陌”在百度百科知识页面的“特色功能”部分,其中的“社交”、“发现附近人”、“即时互动”等陌陌具备的功能即可以通过基于模板触发词的方法进行提取并用于补全知识图谱。

三、基于bilstm-crf的移动应用知识图谱属性补全方法

如图5中方框中所示为百科知识页面移动应用介绍性描述文字,其中涉及到的人名、地名、机构名、公司名等实体,可通过bilstm+crf的方法识别提取并用于补全移动应用知识图谱。bilstm-crf模型框架如图6所示。其中crf模型的方式是对句子中每个实词的上下文信息建模,捕捉n-gram级别的语义特征。

crf层的参数是矩阵p和a,pi∈rk的每一维pij都视作将字xi分类到第j个标签的打分值;在(k+2)×(k+2)的矩阵a中,aij表示从第i个标签到第j个标签的转移得分,(k+2)的原因是每句话前后都要加入一个起始状态和中止状态。

bilstm属于递归神经网络(cnn),它对于序列建模有独特的优势,能积累一句话所有的信息。如果一个标签序列为y=(y1,y2,….,yn),那么模型对于句子x的标签等于y的打分为:

综上所述,借助于本发明实施例的技术方案,通过字符串映射、bilstm-crf和模板触发词多种复合技术相结合的方法,对百科知识进行结构化抽取,并用于更新补全图谱数据,使得移动应用知识图谱更加完整,业务应用效果更佳。

装置实施例

根据本发明实施例,提供了一种基于百科知识的移动应用知识图谱复合型补全装置,图7是本发明实施例的基于百科知识的移动应用知识图谱复合型补全装置的示意图,如图7所示,根据本发明实施例的基于百科知识的移动应用知识图谱复合型补全装置具体包括:

筛选模块70,用于对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;

抓取模块72,用于利用网络爬虫抓取筛选出的所述百科页面并存储;

抽取模块74,用于针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;

所述抽取模块74具体包括:

字符串映射子模块,用于针对inforbox中结构化的属性特征,采用基于字符串映射的移动应用知识图谱属性补全方法;所述字符串映射子模块具体用于:对每一个百科知识平台,分别建立百科知识平台中inforbox各属性字符串与移动应用知识图谱后台图数据库中的属性名称的属性字符串映射表;对每个移动应用对应的百科知识页面,首先抽取inforbox中的属性字符串,并与百科平台的属性字符串映射表进行比对,如果该属性字符串存在于映射表中,则从百科知识页面中继续抽取属性值,用于补全至移动应用知识图谱中;

模版触发词子模块,用于针对移动应用功能点的属性特征,采用基于模版触发词的移动应用知识图谱属性补全方法;所述模版触发词子模块具体用于:针对特定的属性建立有针对性的模板触发词表,根据所述模板触发词表中的模板触发词进行提取,用于补全移动应用知识图谱;

bilstm-crf子模块,用于针对移动应用属性实体的属性特征,采用基于bilstm-crf的移动应用知识图谱属性补全方法;所述bilstm-crf子模块具体用于:通过crf模型对属性中每个实词的上下文信息建模,捕捉语义特征;通过bilstm根据所述语义特征,积累属性中所有的有用信息,用于补全移动应用知识图谱。

更新模块76,用于根据抽取的所述结构化知识,更新allegrograph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。

优选地,在本发明实施例中,上述装置进一步包括:

设置模块,用于给定图数据库中的移动应用名称,预先设置爬虫脚本中的所述配置文件,其中,所述配置文件用于驱动读取百科中移动应用的知识挖掘过程,所述配置文件具体包括以下至少之一:百科中移动应用所属的类别集合、移动应用名称词典、移动应用的属性词典。

本发明实施例中各个模块的具体处理可以参上上述方法实施例进行理解,在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1