一种提取实体词和上位词的方法及装置与流程

文档序号:11155567阅读:737来源:国知局
一种提取实体词和上位词的方法及装置与制造工艺

本发明涉及搜索技术领域,尤其涉及一种提取实体词和上位词的方法及装置。



背景技术:

在搜索引擎中,实体词和上位词都是重要的基础数据,分析用户意图所属的概念范畴,缩小用户查询(Query)与文档的语义距离,助益搜索引擎检索到潜在语义相关的搜索结果。比如:用户查询“新入职员工是否享受福利”,而某一网页标题为“新入职员工能否享受当年带薪休假”,由于“休假”的上位词是“福利”,所以用户查询和该网页是语义相关的。这个例子说明上位词可以用来解决一部分语义相关的搜索问题。实体词和上位词也是构建知识图谱的基础数据,描述概念和实体、实体和实体之间的上下位关系。因此研究实体词和上位词的高效挖掘方法有很多应用价值,是信息检索领域的一项关键技术,也是自然语言处理领域的基本问题。

垂直领域的实体词和上位词,一般是由人工挖掘,准确率高,基本上容易覆盖本领域,满足实际应用。但是对于网页信息检索领域,实体词和上位词的数量庞大,人工挖掘的时间成本太高,导致实体词和上位词的提取效率很低。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的提取实体词和上位词的方法及装置。

本发明的一个方面,提供了一种提取实体词和上位词的方法,包括:

基于第一网页数据,构造第一训练样本;

基于所述第一训练样本,训练第一深度神经网络模型;

利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。

优选地,所述第一网页数据为百科网页数据。

优选地,所述基于第一网页数据,构造第一训练样本,包括:

对所述百科网页数据进行分类,获得U类百科网页数据,U为正整数;

基于所述U类百科网页数据,构造所述第一训练样本。

优选地,所述对所述百科网页数据进行分类,获得U类百科网页数据,包括:

从所述百科网页数据中提取部分百科网页数据;

基于所述部分百科网页数据,构建第二训练样本;

基于所述第二训练样本,训练第二深度神经网络模型;

利用所述第二深度神经网络模型,对所述百科网页数据进行分类,获得所述U类百科网页数据。

优选地,所述基于所述部分百科网页数据,构建第二训练样本,包括:

在所述部分百科网页数据中的每个百科网页中提取预设信息;

基于所述预设信息,对所述每个百科网页进行分类,获得M类百科网页数据,M为正整数;

基于所述M类百科网页数据,构建所述第二训练样本。

优选地,所述预设信息,包括:

词条标题、词条副标题、词条摘要、词条信息框内信息、词条分段标题中的一种或多种。

优选地,所述基于所述M类百科网页数据,构建所述第二训练样本,包括:

在所述M类百科网页中的每一类百科网页中提取一组特征词,共获得M组特征词,其中,所述M组特征词中的每组特征词均包括N个特征词,所述特征词用于表示所述百科网页的类别,N为正整数;

基于所述M组特征词,生成M个N维特征词向量,其中,所述M个N维特征词向量即为所述第二训练样本。

优选地,所述基于所述U类百科网页数据,构造所述第一训练样本,包括:

基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,共获得U个特征语句向量,所述U个特征语句向量与所述U类百科网页一一对应,所述U个特征语句向量即为所述第一训练样本。

优选地,所述基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,包括:

在第一类百科网页中,提取特征语句,所述特征语句中包含实体词和上位词,所述第一类百科网页是所述U类百科网页中的任一类百科网页;

标记所述特征语句中实体词和上位词的位置;

基于标记后的所述特征语句,生成所述第一类百科网页对应的特征语句向量。

优选地,所述在第一类百科网页中,提取特征语句,包括:

提取所述第一类百科网页中的词条摘要;

对所述词条摘要进行语句分割;

从分割后的语句中筛选出包含词条标题的语句,其中,所述包含词条标题的语句即为所述特征语句。

优选地,所述标记所述特征语句中实体词和上位词的位置,包括:

检测所述特征语句中是否包含第一预设字符和第二预设字符;

若包含,则将所述特征语句中的所述第一预设字符前面的词语标记为实体词成分,并将所述特征语句中的所述第二预设字符后面的词语标记为上位词成分,其中,标记为所述实体词成分的词语组成所述实体词,标记为所述上位词成分的词语组成所述上位词。

优选地,所述标记所述特征语句中实体词和上位词的位置,包括:

检测所述特征语句中是否包含第三预设字符和第四预设字符;

若包含,则将所述特征语句中所述第三预设字符前面的词语标记为实体词成分,并将所述特征语句中所述第三预设字符和第四预设字之间的词语标记为上位词成分,其中,标记为所述实体词成分的词语组成所述实体词,标记为所述上位词成分的词语组成所述上位词。

优选地,所述标记所述特征语句中实体词和上位词的位置,包括:

基于正则表达式,标记所述特征语句中实体词和上位词的位置。

优选地,所述基于所述第一训练样本,训练第一深度神经网络模型,包括:

提取所述U个特征语句向量中的每个特征语句向量中的每个特征语句;

基于所述特征语句中实体词和上位词的位置,从所述每个特征语句中提取所述实体词和上位词;

基于提取出所述实体词和上位词,生成U个实体词和上位词向量;

将所述U个特征语句向量作为所述第一深度神经网络模型的输入数据,将所述U个实体词和上位词向量作为所述第一深度神经网络模型的输出数据,对所述第一深度神经网络模型进行训练。

优选地,所述利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,包括:

提取所述第二网页中的文字内容;

对所述第二网页中的文字内容进行语句分割,获得L个语句,L为正整数;

将所述L个语句依次输入至所述第一深度神经网络模型中,从而在第二网页数据中提取实体词和上位词。

本发明的另一方面,提供了一种提取实体词和上位词的装置,包括:

构造单元,用于基于第一网页数据,构造第一训练样本;

训练单元,用于基于所述第一训练样本,训练第一深度神经网络模型;

提取单元,用于利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。

优选地,所述第一网页数据为百科网页数据。

优选地,所述构造单元,包括:

分类子单元,用于对所述百科网页数据进行分类,获得U类百科网页数据,U为正整数;

构造子单元,用于基于所述U类百科网页数据,构造所述第一训练样本。

优选地,所述分类子单元,具体用于:

从所述百科网页数据中提取部分百科网页数据;基于所述部分百科网页数据,构建第二训练样本;基于所述第二训练样本,训练第二深度神经网络模型;利用所述第二深度神经网络模型,对所述百科网页数据进行分类,获得所述U类百科网页数据。

优选地,所述分类子单元,具体用于:

在所述部分百科网页数据中的每个百科网页中提取预设信息;基于所述预设信息,对所述每个百科网页进行分类,获得M类百科网页数据,M为正整数;基于所述M类百科网页数据,构建所述第二训练样本。

优选地,所述预设信息,包括:

词条标题、词条副标题、词条摘要、词条信息框内信息、词条分段标题中的一种或多种。

优选地,所述分类子单元,具体用于:

在所述M类百科网页中的每一类百科网页中提取一组特征词,共获得M组特征词,其中,所述M组特征词中的每组特征词均包括N个特征词,所述特征词用于表示所述百科网页的类别,N为正整数;基于所述M组特征词,生成M个N维特征词向量,其中,所述M个N维特征词向量即为所述第二训练样本。

优选地,所述构造子单元,具体用于:

基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,共获得U个特征语句向量,所述U个特征语句向量与所述U类百科网页一一对应,所述U个特征语句向量即为所述第一训练样本。

优选地,所述构造子单元,具体用于:

在第一类百科网页中,提取特征语句,所述特征语句中包含实体词和上位词,所述第一类百科网页是所述U类百科网页中的任一类百科网页;标记所述特征语句中实体词和上位词的位置;基于标记后的所述特征语句,生成所述第一类百科网页对应的特征语句向量。

优选地,所述构造子单元,具体用于:

提取所述第一类百科网页中的词条摘要;对所述词条摘要进行语句分割;从分割后的语句中筛选出包含词条标题的语句,其中,所述包含词条标题的语句即为所述特征语句。

优选地,所述构造子单元,具体用于:

检测所述特征语句中是否包含第一预设字符和第二预设字符;若包含,则将所述特征语句中的所述第一预设字符前面的词语标记为实体词成分,并将所述特征语句中的所述第二预设字符后面的词语标记为上位词成分,其中,标记为所述实体词成分的词语组成所述实体词,标记为所述上位词成分的词语组成所述上位词。

优选地,所述构造子单元,具体用于:

检测所述特征语句中是否包含第三预设字符和第四预设字符;若包含,则将所述特征语句中所述第三预设字符前面的词语标记为实体词成分,并将所述特征语句中所述第三预设字符和第四预设字之间的词语标记为上位词成分,其中,标记为所述实体词成分的词语组成所述实体词,标记为所述上位词成分的词语组成所述上位词。

优选地,所述构造子单元,具体用于:

基于正则表达式,标记所述特征语句中实体词和上位词的位置。

优选地,所述训练单元,包括:

第一提取子单元,用于提取所述U个特征语句向量中的每个特征语句向量中的每个特征语句;

第二提取子单元,用于基于所述特征语句中实体词和上位词的位置,从所述每个特征语句中提取所述实体词和上位词;

生成子单元,用于基于提取出所述实体词和上位词,生成U个实体词和上位词向量;

训练子单元,用于将所述U个特征语句向量作为所述第一深度神经网络模型的输入数据,将所述U个实体词和上位词向量作为所述第一深度神经网络模型的输出数据,对所述第一深度神经网络模型进行训练。

优选地,所述提取单元,包括:

第三提取子单元,用于提取所述第二网页中的文字内容;

分割子单元,用于对所述第二网页中的文字内容进行语句分割,获得L个语句,L为正整数;

输入子单元,用于将所述L个语句依次输入至所述第一深度神经网络模型中,从而在第二网页数据中提取实体词和上位词。

本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

在本发明实施例中,公开了一种提取实体词和上位词的方法,包括:基于第一网页数据,构造第一训练样本;基于所述第一训练样本,训练第一深度神经网络模型;利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。本发明解决了现有技术中,在网页信息中提取实体词和上位词时,存在效率低的技术问题,实现了高效率地在网页信息中提取实体词和上位词的技术效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了根据本发明一个实施例的一种提取实体词和上位词的方法的流程图;

图2示出了根据本发明一个实施例的一种提取实体词和上位词的装置的结构图;

图3示出了根据本发明一个实施例中的百科网页的示意图。

具体实施方式

本发明实施例提供了一种提取实体词和上位词的方法及装置,用以解决现有技术中,在网页信息中提取实体词和上位词时,存在效率低的技术问题。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

本实施例提供了一种提取实体词和上位词的方法,如图1所示,包括:

步骤S101:基于第一网页数据,构造第一训练样本。

在具体实施过程中,第一网页数据为百科网页数据。

举例来讲,第一网页数据可以为“360百科”网页数据。“360百科”是一个网络百科全书,涵盖了大量的知识领域,收录了超过800万的词条,“360百科”网页是由人工编辑的丰富的结构化信息,这为我们提供了高质量的挖掘语料库。如图3所示,给出了“360百科”网页中的一个词条“卧虎藏龙”的网页信息。本实施主要是利用“360百科”网页数据训练第一深度神经网络模型,并利用第一深度神经网络模型进行实体词和上位词的挖掘和提取。

作为一种可选的实施例,步骤S101,包括:对百科网页数据进行分类,获得U类百科网页数据,U为正整数;基于所述U类百科网页数据,构造第一训练样本。

在具体实施过程中,由于相同类别的百科网页,通常具有相同或相似的特点,实体词和上位词的分布位置存在相同或相似的规律,为了提高实体词和上位词的提取效率,此处可以先将百科网页数据进行分类,再基于分类后的百科网页数据构造第一训练样本。

在具体实施过程中,可以将百科网页数据分为以下类别:影视类、书籍类、人物类、地点类、公司类、游戏类、学校类、神话故事类、网站类、动画类、植物类、国家类、疾病类、食物类、杂志类、动物类、语言类、车站类、成语类、等等。此处,对百科网页数据进行分类,也就是对百科网页上的词条进行分类。

在具体实施过程中,所述对百科网页数据进行分类,获得U类百科网页数据,包括:从百科网页数据中提取部分百科网页数据;基于部分百科网页数据,构建第二训练样本;基于第二训练样本,训练第二深度神经网络模型;利用第二深度神经网络模型,对百科网页数据进行分类,获得U类百科网页数据。

举例来讲,可以从全部百科网页数据中提取一部分百科网页数据来训练第二深度神经网络模型,再通过第二深度神经网络模型对全部百科网页数据进行分类。此处,提取的百科网页数据数量越多,获得的第二训练样本效果越好,最终训练得到的第二深度神经网络模型的分类准确率越高。

在具体实施过程中,所述基于部分百科网页数据,构建第二训练样本,包括:在部分百科网页数据中的每个百科网页中提取预设信息;基于预设信息,对这部分百科网页数据中的每个百科网页进行分类,获得M类百科网页数据,M为正整数;基于所述M类百科网页数据,构建第二训练样本。

其中,所述预设信息中包含有用于表示百科网页的类别的特征词。

举例来讲,影视类百科网页对应有“电影”、“影片”、“导演”、“主演”、“编剧”、“上映时间”、“片长”、“对白”、“制片”、“剧情”、“演员”、“角色”等特征词;游戏类百科网页对应有“游戏”、“网游”、“单机”、“电竞”、“玩家”、“游戏装备”、“游戏赛事”、“打怪”、“刷副本”、“主线任务”等特征词;书籍类百科网页对应有“作者”、“出版”、“出版社”、“自传”、“小说”、“书名”、“图书”、“文学”、“装帧”、“印张”、“目录”等特征词;学校类百科网页对应有“学校”、“大学”、“中学”、“小学”、“专科”、“本科”、“教育部”、“博士点”、“硕士点”、“高校”、“学院”、“校区”、“校址”、“校歌”、“校训”、“招生”、“教学”、“师资力量”、“录取分数”、“科研”、“办学”、“校友”、“学科”“教务处”、“学生处”、“学生会”、“教工”、“教员”等特征词。通过识别这些特征词,有助于确定百科网页的类别。

在具体实施过程中,所述预设信息,包括:词条标题、词条副标题、词条摘要、词条信息框内信息、词条分段标题中的一种或多种。在这些信息中,通常有能够表示该网页的类别的特征词。例如,如图3所示,对于词条“卧虎藏龙”的百科网页,词条副标题中含有特征词“电影”、词条摘要中含有特征词“电影”、“影片”等,在词条信息框中含有特征词“导演”、“主演”、“编剧”、“上映时间”、“片长”、“对白”、“制片”等,在词条分段标题中含有特征词“剧情”、“演员”、“角色”、“影片”等,通过识别这些特征词,有助于确定该百科网页属于影视类。

在具体实施过程中,所述基于所述M类百科网页数据,构建第二训练样本,包括:在所述M类百科网页中的每一类百科网页中提取一组特征词,共获得M组特征词,所述M组特征词中的每一组特征词均包括N个特征词,该特征词用于表示百科网页的类别,N为正整数;基于所述M组特征词,生成M个N维特征词向量,所述M个N维特征词向量即为第二训练样本。

举例来讲,在对部分百科网页数据进行分类,获得M类百科网页数据后,对于每一类百科网页数据,可以提取该类百科网页数据对应的全部特征词,然后利用TF-IDF(term frequency–inverse document frequency)算法计算每个特征词的权重,并按照权重大小对每个特征词进行排序,再筛选出排序靠前的N个特征词。其中,特征词的权重越大,则表明基于该特征词确定百科网页的类别时的准确率越高。此处,对于每一类百科网页数据,需要筛选出权重大的特征词,淘汰权重小的特征词。其中,N的取值可以根据实际情况设置,此处给出的取值范围为50~250,例如,N可以为50、或100、或150、或200、或250,等等。

举例来讲,可以选用Word2vec训练所述M个N维特征词向量。其中,Word2vec是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为多维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。

在具体实施过程中,所述第二训练样本中包含所述M个N维特征词向量,同时还包括所述M类百科网页数据的类别信息,其中,所述M个N维特征词向量和所述M类百科网页数据的类别信息一一对应。

在获得第二训练样本之后,即可基于第二训练样本训练第二深度神经网络模型。

在具体实施过程中,第二深度神经网络模型可以采用OPTIMUS平台的提供的CNN(Convolutional Neural Networks,卷积神经网络)模型,从而提高第二深度神经网络模型的泛化能力和可扩展性。其中,OPTIMUS是优秀的过程集成与优化设计平台。过程集成和优化设计软件,集成CAD/CAE仿真工具,实现仿真流程自动化,包括试验设计、单目标/多目标优化、鲁棒性/可靠性设计等模块,是多学科仿真设计辅助工具。

在具体实施过程中,在基于第二训练样本,训练第二深度神经网络模型时,可将所述M个N维特征词向量作为第二深度神经网络模型的标准输入,将所述M类百科网页数据的类别信息作为第二深度神经网络模型的标准输出,以此训练第二深度神经网络模型。训练完成的第二深度神经网络模型具有对任一百科网页进行分类的能力,可以根据任一百科网页上的特征词组成的征词向量对该百科网页进行分类。

作为一种可选的实施例,还可以将第二训练样本分成多份,并利用每一份训练样本训练一个小型CNN模型,获得多个小型CNN模型,最后再利用全部第二训练样本训练一个大型CNN模型。在训练完成第二深度神经网络模型后,即可利用第二深度神经网络模对全部百科网页数据进行分类,从而获得所述U类百科网页数据。例如,可以对“360百科”中800万的网页进行分类预测,每个百科网页依次经过小型CNN模型和大型CNN模型,从而对每个百科网页进行分类,其中,一个百科网页可以有多个类别。

在对全部百科网页数据进行分类后,则按照已分类类别聚类百科网页,获得所述U类百科网页数据。

在获得所述U类百科网页数据后,即可基于所述U类百科网页数据,构造第一训练样本。

作为一种可选的实施例,所述基于所述U类百科网页数据,构造第一训练样本,包括:基于U类百科网页数据中的每一类百科网页,生成每一类百科网页对应的特征语句向量,共获得U个特征语句向量,所述U个特征语句向量与所述U类百科网页一一对应,所述U个特征语句向量即为第一训练样本。

其中,所述基于所述U类百科网页数据中的每一类百科网页,生成每一类百科网页对应的特征语句向量,包括:在第一类百科网页中,提取特征语句,特征语句中包含实体词和上位词,第一类百科网页是U类百科网页中的任一类百科网页;标记特征语句中实体词和上位词的位置;基于标记后的特征语句,生成第一类百科网页对应的特征语句向量。这样,就获得了所述U类百科网页数据各自对应的特征语句向量。其中,每个特征语句向量中包含多个特征语句,并且在每个特征语句中标记出了实体词和上位词的位置。

在具体实施过程中,按照分类类别聚类百科网页后,可以发现一个现象:在某些分类中,在词条摘要中,含有词条标题语句中往往含有词条标题的上位词。可见,实体词和上位词在语句中的位置,带有显著的模式特征。

在具体实施过程中,在第一类百科网页中提取特征语句时,可以提取第一类百科网页中的词条摘要;对词条摘要进行语句分割;从分割后的语句中筛选出包含词条标题的语句,其中,包含词条标题的语句即为特征语句。其中,在对词条摘要进行语句分割时,可以按照“!”、“?”“。”三种标点符号切割语句。

举例来讲,如表1所示,左栏为词条摘要中的包含词条标题的特征语句,右栏为对应的实体词和上位词。在词条“上古战纪”的词条摘要中含有特征语句“《上古战纪》是一款以即时战斗模式为核心的神话战争游戏。”,其中包含实体词“上古战纪”和上位词“神话战争游戏”;在词条“何塞·加拉特”的词条摘要中含有特征语句“何塞·加拉特是西班牙的一名足球运动员,他踢的是前锋”,其中包含实体词“何塞·加拉特”和上位词“足球运动员”;在词条“联记饼家”的词条摘要中含有特征语句“联记饼家,是一家位于佛山市的糕点制作店”,其中包含实体词“联记饼家”和上位词“糕点制作店”;在词条“兰花笑”的词条摘要中含有特征语句“《兰花笑》是一部励志的短片小说,讲述了主人公兰花通过不懈的努力”,其中包含实体词“兰花笑”和上位词“短片小说”。可见,在这样的特征语句中包含实体词和上位词,可以基于这样的特征语句进行实体词和上位词的挖掘和提取。

表1

在具体实施过程中,所述标记特征语句中实体词和上位词的位置,包括以下两种实施方式:

方式一:检测特征语句中是否包含第一预设字符和第二预设字符;若包含,则将特征语句中的第一预设字符前面的词语标记为实体词成分,并将特征语句中的第二预设字符后面的词语标记为上位词成分,其中,标记为实体词成分的词语组成实体词,标记为上位词成分的词语组成上位词。

在对特征语句标记成分时,e代表实体词成分,h代表上位词成分,o代表其他成分,一般,特征语句中的标点符号标记为其他成分。

具体来讲,第一预设字符可以为“是”,第二预设字符可以为“的”,也就是说,对于“A是……的B”的语句模式,若A属于词条标题,则A属于实体词,B为上位词。

举例来讲,对于特征语句“《上古战纪》是一款以即时战斗模式为核心的神话战争游戏。”,可以对其中的每个词语进行成分标记,标记结果如下:

《:o上古:e战纪:e》:o是:o一款:o以:o即时:o战斗:o模式:o为:o核心:o的:o神话:h战争游戏:h。:o

其中,标记为e的词语“上古”和“战纪”一起组成实体词“上古战纪”,标记为h的词语“神话”和“战争游戏”一起组成上位词“神话战争游戏”。

另外,第一预设字符还可以为“地处”,第二预设字符可以为“的”,也就是说,对于“A地处……的B”的语句模式,若A属于词条标题,则A属于实体词,B为上位词。

举例来讲,对于特征语句“烟台国华酒店地处山东省烟台市黄金经济中心,胶东最大的小商品批发市场”,可以对其中的每个词语进行成分标记,标记结果如下:

烟台:e国华酒店:e地处:o山东省:o烟台市:o黄金经济中心:o,:o胶东:o最大:o的:o小商品:h批发市场:h”

其中,标记为e的词语“烟台”和“国华酒店”一起组成实体词“烟台国华酒店”,标记为h的词语“小商品”和“批发市场”一起组成上位词“小商品批发市场”。

方式二:检测特征语句中是否包含第三预设字符和第四预设字符;若包含,则将特征语句中第三预设字符前面的词语标记为实体词成分,并将特征语句中第三预设字符和第四预设字之间的词语标记为上位词成分,其中,标记为实体词成分的词语组成实体词,标记为上位词成分的词语组成上位词。

具体来讲,第三预设字符可以为“是”,第四预设字符可以为“之一”,也就是说,对于“A是B之一”的语句模式,若A属于词条标题,则A属于实体词,B为上位词。

举例来讲,对于特征语句“肥肉糊是热菜菜谱之一,以肥肉,芝麻为制作主料”,可以对其中的每个词语进行成分标记,标记结果如下:

肥肉糊:e是:o热菜:h菜谱:h之一:o,:o以:o肥肉:o,:o芝麻:o为:o制作:o主料o

其中,标记为e的词语“肥肉糊”是实体词,标记为h的词语“热菜”和“菜谱”一起组成上位词“热菜菜谱”。

此处,为了提高标记效率,可以先基于正则表达式,确定特征语句中实体词和上位词的位置,再进行标记。例如:

对于具有“A是……的B”的语句模式的特征语句,可以利用如下正则表达式:

regx=u'([《\u4e00-\u9fa5》·-]{1,})是[\u4e00-\u9fa5\w\s·-]{1,}的([\u4e00-\u9fa5“”""]{1,})[,。]*'

对于具有“A地处……的B”的语句模式的特征语句,可以利用如下正则表达式:

regx=u'[,\s]*([\u4e00-\u9fa5《》“”""\-·\w()\s():;]{1,}).*地处[\u4e00-\u9fa5\w,]{1,}的([\u4e00-\u9fa5、“”《》]{1,})[,。;]*'

对于具有“A是B之一”的语句模式的特征语句,可以利用如下正则表达式:

regx=u'([\u4e00-\u9fa5《》\-“”""·\w()\s()]{1,})是([\u4e00-\u9fa5\w\s、]{1,})之一[\u4e00-\u9fa5,。;]*'

基于以上方法即可获得第一训练样本,其中,第一训练样本具体为所述U个特征语句向量,其中,每个特征语句向量中包含多个特征语句,并且在每个特征语句中标记出了实体词和上位词的位置。

步骤S102:基于第一训练样本,训练第一深度神经网络模型。

作为一种可选的实施例,步骤S102,包括:提取所述U个特征语句向量中的每个特征语句向量中的每个特征语句;基于每个特征语句中实体词和上位词的位置,从每个特征语句中提取实体词和上位词;基于提取出实体词和上位词,生成U个实体词和上位词向量;将所述U个特征语句向量作为第一深度神经网络模型的标准输入数据,并将所述U个实体词和上位词向量作为第一深度神经网络模型的标准输出数据,对第一深度神经网络模型进行训练。

在具体实施过程中,每个特征语句向量中包含K个特征语句,每个实体词和上位词向量中包含有K对实体词和上位词,K为正整数,所述K个特征语句和所述K对实体词和上位词一一对应,所述U个特征语句向量和所述U个实体词和上位词向量一一对应。这样,第一深度神经网络模在从所述U个特征语句向量中获取一个特征语句时,对应地就可以从所述U个实体词和上位词向量中获取该特征语句对应的实体词和上位词,从而完成对该特征语句和对应的实体词和上位词的学习。

在具体实施过程中,第一深度神经网络模型可以采用双向的BLSTM-RNN(Bidirectional Long Short-Term Memory Recurrent Neural Network,双向递归神经网络短期记忆)模型。训练完成的第一深度神经网络模型即可根据输入的任一语句,预测出该语句中实体词和上位词的位置,最后提取实体词和上位词。

步骤S103:利用第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,第二网页数据包括第一网页数据,上位词与实体词对应。

作为一种可选的实施例,步骤S103,包括:提取第二网页中的文字内容;对第二网页中的文字内容进行语句分割,获得L个语句,L为正整数;将L个语句依次输入至第一深度神经网络模型中,从而在第二网页数据中提取实体词和上位词。

在具体实施过程中,第二网页可以为网络上的任一网页,包含百科网页,也可以是其他任一网页(例如:“360问答”网页、论坛网页,等等)。以百科网页为例,可以从百科网页的词条摘要中提取实体词和上位词,也可以从正文中提取实体词和上位词,由于正文中数据量更大,所以提取到的实体词和上位词也更多。

在具体实施过程中,在利用第一深度神经网络模型从第二网页数据中提取实体词和上位词时,需要先对第二网页中的文字内容进行语句分割,如上文所述,可以按照“!”、“?”“。”三种标点符号切割语句,在将分割后的语句组成的语句向量输入到第一深度神经网络模型中,第一深度神经网络模型输出的也是一个向量,其中包含提取到成对的实体词和上位词。

在具体实施过程中,在步骤S103中,通过第一深度神经网络模型可以获得大量的实体词和上位词,此处,可以进一步计算出每一对实体词和上位词的置信度,并将置信度低于某一个阈值的实体词和上位词过滤掉,保留置信度较高的实体词和上位词,从而进一步提高抽取实体词和上位词的准确率。

上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:

在本发明实施例中,公开了一种提取实体词和上位词的方法,包括:基于第一网页数据,构造第一训练样本;基于所述第一训练样本,训练第一深度神经网络模型;利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。本发明解决了现有技术中,在网页信息中提取实体词和上位词时,存在效率低的技术问题,实现了高效率地在网页信息中提取实体词和上位词的技术效果。

实施例二

基于同一发明构思,本实施例提供了一种提取实体词和上位词的装置,如图2所示,包括:

构造单元201,用于基于第一网页数据,构造第一训练样本;

训练单元202,用于基于所述第一训练样本,训练第一深度神经网络模型;

提取单元203,用于利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。

作为一种可选的实施例,所述第一网页数据为百科网页数据。

作为一种可选的实施例,构造单元201,包括:

分类子单元,用于对所述百科网页数据进行分类,获得U类百科网页数据,U为正整数;

构造子单元,用于基于所述U类百科网页数据,构造所述第一训练样本。

作为一种可选的实施例,分类子单元,具体用于:

从所述百科网页数据中提取部分百科网页数据;基于所述部分百科网页数据,构建第二训练样本;基于所述第二训练样本,训练第二深度神经网络模型;利用所述第二深度神经网络模型,对所述百科网页数据进行分类,获得所述U类百科网页数据。

作为一种可选的实施例,分类子单元,具体用于:

在所述部分百科网页数据中的每个百科网页中提取预设信息;基于所述预设信息,对所述每个百科网页进行分类,获得M类百科网页数据,M为正整数;基于所述M类百科网页数据,构建所述第二训练样本。

作为一种可选的实施例,所述预设信息,包括:

词条标题、词条副标题、词条摘要、词条信息框内信息、词条分段标题中的一种或多种。

作为一种可选的实施例,分类子单元,具体用于:

在所述M类百科网页中的每一类百科网页中提取一组特征词,共获得M组特征词,其中,所述M组特征词中的每组特征词均包括N个特征词,所述特征词用于表示所述百科网页的类别,N为正整数;基于所述M组特征词,生成M个N维特征词向量,其中,所述M个N维特征词向量即为所述第二训练样本。

作为一种可选的实施例,构造子单元,具体用于:

基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,共获得U个特征语句向量,所述U个特征语句向量与所述U类百科网页一一对应,所述U个特征语句向量即为所述第一训练样本。

作为一种可选的实施例,构造子单元,具体用于:

在第一类百科网页中,提取特征语句,所述特征语句中包含实体词和上位词,所述第一类百科网页是所述U类百科网页中的任一类百科网页;标记所述特征语句中实体词和上位词的位置;基于标记后的所述特征语句,生成所述第一类百科网页对应的特征语句向量。

作为一种可选的实施例,构造子单元,具体用于:

提取所述第一类百科网页中的词条摘要;对所述词条摘要进行语句分割;从分割后的语句中筛选出包含词条标题的语句,其中,所述包含词条标题的语句即为所述特征语句。

作为一种可选的实施例,构造子单元,具体用于:

检测所述特征语句中是否包含第一预设字符和第二预设字符;若包含,则将所述特征语句中的所述第一预设字符前面的词语标记为实体词成分,并将所述特征语句中的所述第二预设字符后面的词语标记为上位词成分,其中,标记为所述实体词成分的词语组成所述实体词,标记为所述上位词成分的词语组成所述上位词。

作为一种可选的实施例,构造子单元,具体用于:

检测所述特征语句中是否包含第三预设字符和第四预设字符;若包含,则将所述特征语句中所述第三预设字符前面的词语标记为实体词成分,并将所述特征语句中所述第三预设字符和第四预设字之间的词语标记为上位词成分,其中,标记为所述实体词成分的词语组成所述实体词,标记为所述上位词成分的词语组成所述上位词。

作为一种可选的实施例,所述构造子单元,具体用于:

基于正则表达式,标记所述特征语句中实体词和上位词的位置。

作为一种可选的实施例,训练单元202,包括:

第一提取子单元,用于提取所述U个特征语句向量中的每个特征语句向量中的每个特征语句;

第二提取子单元,用于基于所述特征语句中实体词和上位词的位置,从所述每个特征语句中提取所述实体词和上位词;

生成子单元,用于基于提取出所述实体词和上位词,生成U个实体词和上位词向量;

训练子单元,用于将所述U个特征语句向量作为所述第一深度神经网络模型的标准输入数据,将所述U个实体词和上位词向量作为所述第一深度神经网络模型的标准输出数据,对所述第一深度神经网络模型进行训练。

作为一种可选的实施例,提取单元203,包括:

第三提取子单元,用于提取所述第二网页中的文字内容;

分割子单元,用于对所述第二网页中的文字内容进行语句分割,获得L个语句,L为正整数;

输入子单元,用于将所述L个语句依次输入至所述第一深度神经网络模型中,从而在第二网页数据中提取实体词和上位词。

上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:

由于本实施例所介绍的提取实体词和上位词的装置为实施本申请实施例中提取实体词和上位词的方法所采用的装置,故而基于本申请实施例中所介绍的提取实体词和上位词的方法,本领域所属技术人员能够了解本实施例的提取实体词和上位词的装置的具体实施方式以及其各种变化形式,所以在此对于该提取实体词和上位词的装置如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中提取实体词和上位词的方法所采用的装置,都属于本申请所欲保护的范围。

上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:

在本发明实施例中,公开了一种提取实体词和上位词的装置,包括:构造单元,用于基于第一网页数据,构造第一训练样本;训练单元,用于基于所述第一训练样本,训练第一深度神经网络模型;提取单元,用于利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。本发明解决了现有技术中,在网页信息中提取实体词和上位词时,存在效率低的技术问题,实现了高效率地在网页信息中提取实体词和上位词的技术效果。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种提取实体词和上位词的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1