一种基于句子情感属性的文本属性生成观点摘要方法与系统与流程

文档序号:20205375发布日期:2020-03-31 10:02阅读:173来源:国知局
一种基于句子情感属性的文本属性生成观点摘要方法与系统与流程

本发明涉及互联网大数据分析技术领域,特别是一种基于句子情感属性的文本属性生成观点摘要方法与系统。



背景技术:

随着互联网的发展,人们从互联网上获取的消息越来越多,微博、网站新闻与商品评论等领域的数据在人们的网络生活中所占比例越来越大。为了带给人们更加高效的阅读与筛选体验,网络文本往往会提取出摘要部分供用户预览,早期这个工作由人工完成,随着数据日益庞大,人们开始采用机器自动提取的方法来生成摘要。

当前,有很多技术方法可用于自动从互联网文本中生成摘要。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有textrank、pagerank、lexrank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用kl散度、mmr方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,通过文本中所有单词的多样性考虑文本主旨的多样性,没有考虑文本主旨关键词对观点摘要的影响,在一定程度上限制了模型的后续研究。

当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质,利用贪心算法保证得到的局部解可以不低于最优解的63%,其贪心算法考虑了多种要素的情况挑选句子,虽然实验效果相对较好,但手动构建语料本体树的方式并不适用于更为广泛的应用场景。

一般而言,观点摘要的两个基础性质是:1)保证得到的摘要囊括话题文本主旨;2)得到的摘要应该覆盖富有情感色彩的话题主旨。不足的是,现有的多数模型考虑利用文本句子所有单词的多样性来保证观点摘要涵盖文本主旨,通过单词的多样性来保证摘要的多样性,但单词的多样性并不能保证观点摘要囊括了源文本的主旨,与主旨不相关的单词会影响最终生成的观点摘要,而且现有研究方法通过整个文本句子的情感信息从而刻画摘要情感信息,许多不相关文本主旨的情感也被考虑进来,这两者因素导致最终得到的摘要包含许多与文本主旨不相关的内容和情感信息。



技术实现要素:

有鉴于此,本发明的目的是提出一种基于句子情感属性的文本属性生成观点摘要方法与系统,通过实体抽取方法从源文本中提取情感属性相关单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以情感属性为评价对象的情感信息,并通过融合句子重要性的情感属性多样性方法来挑选句子组合成观点摘要,使得整个观点摘要情感最为鲜明,文本主旨最贴切。

本发明采用以下方案实现:一种基于句子情感属性的文本属性生成观点摘要方法,包括以下步骤:

提取网站上的待处理数据集,并对其进行预处理;

构建话题语料集和背景语料集;

提取话题语料集的情感属性;

将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重;

利用情感属性作为评价对象,将句子进行特征向量化,得到文本句子特征向量;

根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要。

进一步地,所述待处理数据集包括但不限于微博语料集。

进一步地,所述进行预处理具体包括以下步骤:

去除评论句子中的网页链接;

去除字符长度小于3的评论句子;

去除评论句子中的常用不相关词;

将所有英文统一成小写字母。

进一步地,所述构建话题语料集和背景语料集具体为:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。

进一步地,所述提取话题语料集的情感属性具体包括以下步骤:

步骤s11:借助对数似然比方法,计算话题语料集中的单词的对数似然比值,将对数似然比低于预设阈值的单词过滤,得到情感属性与其他单词;其中,得到的对数似然比值越小,说明这个单词越没有用处;

步骤s12:基于情感词典,提取话题语料集中的情感属性,得到包括正面的情感属性集合与负面的情感属性集合在内的情感属性集合。

进一步地,所述将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重具体为:

将提取的情感属性作为特征输入,采用归一化的方式处理所有特征后将特征输入xgboost模型进行特征选择,得到每个特征的重要性得分及排名,选择排名位于前三的特征作为向量化的依据,并根据得分为特征分配权重值。

进一步地,所述利用情感属性作为评价对象,将句子进行特征向量化具体为:

首先利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;然后利用情感词典匹配每个评价对象的词序列情感词,根据句子中的情感属性和情感属性权重得到句子特征向量。

进一步地,所述根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要具体为:首先构建融合句子相似性的观点句子评分函数,每次选择使得观点摘要集合情感属性得分最大的句子加入到观点摘要中,得到观点摘要集合。

进一步地,所述观点摘要集合中包含的句子数量在20个以内。

本发明还提供了一种基于句子情感属性的文本属性生成观点摘要系统,包括存储器、处理器以及存储于存储器上并能够被所述处理器运行的计算机程序,其特征在于,所述处理器在运行该计算机程序时,实现如上文所述的方法步骤。

与现有技术相比,本发明有以下有益效果:本发明通过实体抽取方法从源文本中提取情感属性相关单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以情感属性为评价对象的情感信息,并通过融合句子重要性的情感属性多样性方法来挑选句子组合成观点摘要,使得整个观点摘要情感最为鲜明,文本主旨最贴切。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本实施例提供了一种基于句子情感属性的文本属性生成观点摘要方法,包括以下步骤:

提取网站上的待处理数据集,并对其进行预处理;

构建话题语料集和背景语料集;

利用情感词典提取话题语料集的情感属性;

将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重;

利用情感属性作为评价对象,将句子进行特征向量化,得到文本句子特征向量;

根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要。

在本实施例中,所述待处理数据集包括但不限于微博语料集。

在本实施例中,所述进行预处理具体包括以下步骤:

去除评论句子中的网页链接,例如“http://t.cn/rcwwyqz”;

去除字符长度小于3的评论句子,这类评论句子包含的信息过少,大多数都是表情符,并无其他有用信息;

去除评论句子中的常用不相关词,如“组图”、“原文转发”等;

将所有英文统一成小写字母。

为了使应用更加广泛,本实施例在原始数据的基础上,将数据进行清理操作,过滤不相关文本,使得采用提取话题属性方法提取的话题属性更为精准,同样使其不仅仅应用与中文微博领域,更可以用于网站新闻、商品评论领域。

在本实施例中,所述构建话题语料集和背景语料集具体为:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。

在本实施例中,所述提取话题语料集的情感属性具体包括以下步骤:

步骤s11:借助对数似然比方法,计算话题语料集中的单词的对数似然比值,将对数似然比低于预设阈值的单词过滤,得到情感属性与其他单词;其中,得到的对数似然比值越小,说明这个单词越没有用处;

步骤s12:基于情感词典,提取话题语料集中的情感属性,得到包括正面的情感属性集合与负面的情感属性集合在内的情感属性集合。

在本实施例中,所述将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重具体为:

将提取的情感属性作为特征输入,采用归一化的方式处理所有特征后将特征输入xgboost模型进行特征选择,得到每个特征的重要性得分及排名,选择排名位于前三的特征作为向量化的依据,并根据得分为特征分配权重值。其中,在本实施例中,分配给一个特征的权重值为该特征的得分占所有特征总得分的比重。

在本实施例中,所述利用情感属性作为评价对象,将句子进行特征向量化具体为:

首先利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;然后利用情感词典匹配每个评价对象的词序列情感词,根据句子中的情感属性和情感属性权重得到句子特征向量。其中,句子中若不包含情感属性特征,则对应的特征值为0,若包含,则相应的特征值为n*特征权重,其中,n为包含的特征归一化后的值。如此通过情感属性和情感分析方法将一个句子进行特征向量化。

较佳的,所述利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列具体流程简述如下:

(1)确定评价对象在句子中的位置。针对每一个句子,以话题属性集合a中的话题属性为评价对象,按照句子从前到后的方向确定各个评价对象在句子中的位置,位置从小到大。

(2)以句子中评价对象的位置wdc为中心向左右两个方向扩展,直到遇到标点符号(句号、问号、感叹号、分号等)或其他评价对象。

(3)若向左(向右)遇到标点符号,则截取标点符号到评价对象内的左词序列(右词序列)。

(4)若向左(向右)遇到其他评价对象,则取两个评价对象的位置坐标的中间坐标,截取中间坐标到评价对象位置的词序列作为左词序列(右词序列)。

(5)经过上述步骤后得到某一评价对象的左词序列lword={wdc-e,wdc-e+1,...,wdc-1}和右词序列rword={wdc+1,wdc+2,...,wdc+r},左词序列和右词序列合并得到该评价对象完整的词序列wd={wdc-e,wdc-e+1,...,wdc-1,wdc+1...,wdc+r},其中wdc是评价对象,做情感分析时去掉,参数范围e≤20,r≤20,两者具体的值是动态变化的,没有固定值,对于两个不同词序列存在两者的参数值不一样。

(6)同时,对于任意两个动态词序列wdi和wdj,满足条件即两个词序列没有重合的单词序列。

在本实施例中,所述根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要具体为:首先构建融合句子相似性的观点句子评分函数,每次选择使得观点摘要集合情感属性得分最大的句子加入到观点摘要中,得到观点摘要集合。

具体的,采取基于情感属性得分的观点句子选择方法选择句子组成观点摘要,首先定义添加句子vi到摘要句子集合sv中多样性增加函数fd(vi,sv),该函数是计算添加一个句子到摘要中,摘要中新增加的情感属性的数目,也即所述的句子评分函数,其定义为如公式(1)所示:

式中,第一项是自定义的运算符,目的是计算存在vi中但不存在集合sv中的情感话题属性的数目,利用情感属性增加的数目刻画添加句子vi到句子集合sv中多样性增加数值,e表示单位矩阵,其中vand定义如下式所示:

公式(1)中第二项是句子重要性计算公式,添加句子重要性是因为公式(2)在计算观点摘要的多样性增加数值时,存在多个句子同时使得句子集合的多样性增加相同,当这个情况发生时将会选择句子排序靠前的加入到摘要集合sv中,本实施例针对此情况,利用句子中包含的情感属性和相应权重计算句子的重要性,来对句子进行二次筛选。其中定义为公式(3)所示:

w2a=wa∪wa;

式中,wa表示情感属性权重,norm(*)表示句子的重要性。

按照公式(1)每次选择使得观点摘要集合情感属性得分增加最大的句子加入到观点摘要中,其句子数量限制在20个以内或者以一定的压缩比来限制句子的个数。输出观点摘要句子集合sum。

本实施例还提供了一种基于句子情感属性的文本属性生成观点摘要系统,包括存储器、处理器以及存储于存储器上并能够被所述处理器运行的计算机程序,其特征在于,所述处理器在运行该计算机程序时,实现如上文所述的方法步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1