本发明涉及自动学习技术领域,特别涉及一种基于指数概率模型的文档结构学习与生成方法及装置。
背景技术:
不同场景、不同领域对文档结构有不同的要求,如何通过目标场景直接得到特定领域的文档结构是本领域亟待解决的问题,相关技术中,没有一种高效的通过语料库自动学习特定领域文档结构的方法。
技术实现要素:
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于指数概率模型的文档结构学习与生成方法,该方法将文档结构看作本体中话题的次序结构,使用场景描述中的话题顺序来捕获文章的局部连贯信息,提供一个自动学习文档结构的方法,可以高效的根据语料库自动学习特定领域文档结构。
本发明的另一个目的在于提出一种基于指数概率模型的文档结构学习与生成装置。
为达到上述目的,本发明一方面实施例提出了一种基于指数概率模型的文档结构学习与生成方法,包括:
获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;
构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;
通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。
本发明实施例的基于指数概率模型的文档结构学习与生成方法,通过获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
另外,根据本发明上述实施例的基于指数概率模型的文档结构学习与生成方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述带有标注语料的数据库为由多个话题的序列组成。
进一步地,在本发明的一个实施例中,所述与结构相关的特征信息包括:
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征f1用于捕获当前话题和前一个话题的相关信息,特征f2用于捕获当前话题和前两个话题之间的相关信息,特征f3用于描述当前话题与之前的出现过的话题类型之间的关系。
进一步地,在本发明的一个实施例中,所述与节点及其取值相关的特征信息包括:
其中,特征f4用于描述话题本身的重要程度,特征f5用于描述话题本身类型的重要程度,特征f6用于描述话题所包含的属性和关系的类型,特征f7用于描述话题所包含的属性和关系的取值。
进一步地,在本发明的一个实施例中,所述文档结构的指数概率概率模型为:
其中,f(xi,yi)为特征信息,λ从语料库学习的参数。
为达到上述目的,本发明另一方面实施例提出了一种基于指数概率模型的文档结构学习与生成装置,包括:
处理模块,用于获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;
训练模块,用于构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;
生成模块,用于通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。
本发明实施例的基于指数概率模型的文档结构学习与生成装置,通过获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
另外,根据本发明上述实施例的基于指数概率模型的文档结构学习与生成装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述带有标注语料的数据库为由多个话题的序列组成。
进一步地,在本发明的一个实施例中,所述与结构相关的特征信息包括:
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征f1用于捕获当前话题和前一个话题的相关信息,特征f2用于捕获当前话题和前两个话题之间的相关信息,特征f3用于描述当前话题与之前的出现过的话题类型之间的关系。
进一步地,在本发明的一个实施例中,所述与节点及其取值相关的特征信息包括:
其中,特征f4用于描述话题本身的重要程度,特征f5用于描述话题本身类型的重要程度,特征f6用于描述话题所包含的属性和关系的类型,特征f7用于描述话题所包含的属性和关系的取值。
进一步地,在本发明的一个实施例中,所述文档结构的指数概率概率模型为:
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成方法流程图;
图2为根据本发明一个实施例的基于概率模型的文档结构学习算法框架图;
图3为根据本发明一个实施例的基于次序的输出的文档结构的实例示意图;
图4为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于指数概率模型的文档结构学习与生成方法及装置。
首先将参照附图描述根据本发明实施例提出的基于指数概率模型的文档结构学习与生成方法。
图1为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成方法流程图。
如图1所示,该基于指数概率模型的文档结构学习与生成方法包括以下步骤:
步骤s1,获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息。
结合图2所示,本发明的方法主要思想为:首先根据数据集进行知识图谱结构的映射,得到基于知识图谱描述的场景描述,在场景描述上计算知识图谱上的结构特征,并训练相应的分类器。最后,对于特定场景,可通过分类器得到最终结果。
对语料库进行分析,选择的特征分为如下两类:与结构相关的特征信息和与节点及其取值相关的特征信息。
首先,与结构相关的特征信息与语言模型类似,定义如下:
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征f1实际上就是二元模型指数概率模型下的表现形式,捕获当前话题和前一个话题的相关信息;特征f2为三元模型指数概率模型下的表现形式,捕获当前话题和前两个话题之间的相关信息。特征f3描述了当前话题与之前的出现过的话题类型之间的关系。
其次,与节点及其取值的特征,定义如下:
其中,特征f4描述了话题本身的重要程度,可以认为是一元模型在指数模型下的表现形式;特征f5描述了话题本身类型的重要程度;特征f6描述了话题所包含的属性和关系的类型;特征f7描述了话题所包含的属性和关系的取值。
步骤s2,构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练。
如图3所示,展示了一个基于次序的输出的文档结构的实例。其中,图3(a)是场景描述中被选择出的topic集合,出现的概念实体包括温度、风速、风向、天空遮蔽情况和阵风;图3(b)即为基于次序的文档结构的输出内容,表明对于概念实体的生成次序应为天空遮蔽情况、温度、风速、风向、风速、阵风。图3(c)是最终自然语言生成系统根据文档结构所生成的文本,在本发明的方法中暂时不对从文档结构到最终文本的过程进行研究。
具体地,在本文发明的实施例中,假设有标注语料库c,语料库由一系列话题的序列组成,如图3(b)。其语言模型定义如下。
定义t为某领域内本体中的所有话题,假设t为有限集,则文档结构的顺序描述可表示为:
t0t1t2...tn
n是整数,对于n≥1,有ti∈t,{1...(n-1)},并假定t0和tn是特殊符号。t0代表符号start,表示文档的开始。tn代表符号stop,表示文档的结束。
则图3(b)可表示为:start,4,1,2,3,5,stop。
定义t*是由t中的元素组合而成的序列集。
则文档结构模型可定义为包括一个有限集v和一个函数p(t1,t2,...tn),有:
对于任意的<t1,t2...tn>∈v*,p(t1,t2,...tn)≥0
p(t1,t2,...tn)是文档在v*上的概率分布。
那么,生成文档结构的顺序可看作是求t1,t2,…tn的顺序使得:
argmaxp(t1,t2,...tn)
为进一步求解p(t1,t2,...tn),进行以下假设:假设文档结构服从m阶的马尔可夫过程,有:
其中,m是指当前话题受前m-1个话题的影响。
并定义:t为所有话题的集合;
x为ti-1,ti-2,...ti-m+1所有可能出现的话题序列的集合,tj∈t,j∈{i-1,i-2,...,i-m+1};
y为ti中所有可能出现的话题的集合,y与t等价;
定义
则对于x∈x,y∈y,有
其中,
则文档结构的指数概率模型定义如下:
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数
相较lapata的模型,本发明的模型可以通过定义特征矢量f(x,y),进一步将多种特征整合到模型中,采用的特征集合在上述已经进行了详细介绍,此处不进行赘述。
步骤s3,通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。
通过训练好的模型,可以实现通过语料库自动学习特定领域文档结构。在理想的数据集上进行文档结构生成的学习,训练集对某一场景中出现的话题顺序n进行了标记,n∈{1,2,...n}为有限集,标记定义了话题在最终文本中出现的顺序。
根据本发明实施例提出的基于指数概率模型的文档结构学习与生成方法,通过获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
其次参照附图描述根据本发明实施例提出的基于指数概率模型的文档结构学习与生成装置。
图4为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成装置结构示意图。
如图4所示,该基于指数概率模型的文档结构学习与生成装置包括:处理模块401、训练模块402和生成模块403。
处理模块401,用于获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息。训练模块402,用于构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练。生成模块403,用于通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。该装置文档结构看作本体中话题的次序结构,使用场景描述中的话题顺序来捕获文章的局部连贯信息,提供一种自动学习文档结构的方法。
进一步地,在本发明的一个实施例中,带有标注语料的数据库为由多个话题的序列组成。
进一步地,在本发明的一个实施例中,与结构相关的特征信息包括:
其中,特征f1用于捕获当前话题和前一个话题的相关信息,特征f2用于捕获当前话题和前两个话题之间的相关信息,特征f3用于描述当前话题与之前的出现过的话题类型之间的关系。
进一步地,在本发明的一个实施例中,与节点及其取值相关的特征信息包括:
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征f4用于描述话题本身的重要程度,特征f5用于描述话题本身类型的重要程度,特征f6用于描述话题所包含的属性和关系的类型,特征f7用于描述话题所包含的属性和关系的取值。
进一步地,在本发明的一个实施例中,文档结构的指数概率概率模型为:
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于指数概率模型的文档结构学习与生成装置,通过获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。