一种摘要抽取方法、装置、存储介质以及计算机设备与流程

文档序号:33188451发布日期:2023-02-04 07:28阅读:30来源:国知局
一种摘要抽取方法、装置、存储介质以及计算机设备与流程

1.本发明涉及摘要提取技术领域,尤其涉及一种摘要提取方法、装置、存储介质以及计算机设备。


背景技术:

2.目前文本摘要自动提取方法主要基于启发式规则或基于机器学习来对文档中的语句进行评估和抽取,该方法在对文本中的每条语句赋予反映其重要性的权值,然后选取权重最大的若干条语句形成摘要。在另一类方法(比如:lead方法)直接提取文档的前几条语句作为文档的摘要,该类方法将句子的位置信息作为唯一的考虑因素,尽管在大多数文档尤其是新闻类文档中,文档内容的重要信息的概要将集中在文档的开头部分,但若仅将位置信息作为摘要提取的唯一考虑因素也势必导致生成的摘要对文档关键内容的覆盖度过低,导致提取的摘要的准确性低。


技术实现要素:

3.本发明的主要目的在于提供一种摘要提取方法、装置、存储介质以及计算机设备,可以解决现有技术中摘要提取准确性较低的问题。
4.为实现上述目的,本发明第一方面提供一种摘要提取方法,所述方法包括:
5.遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘要的文本,所述目标段落为目标文本中的任意段落;
6.对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与目标段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述目标段落除第一语句外其他任一语句;
7.根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句;
8.根据所述目标段落的关键句组成目标文本的摘要。
9.结合第一方面,在一种可能的实现方式中,上述根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句,包括:将所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度进行加权求和,得到所述目标段落的每个语句对应的加权求和值;将所述加权求和值最高值对应的语句确定为所述目标段落的关键句。
10.结合第一方面,在一种可能的实现方式中,将所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度进行加权求和,得到所述目标段落的每个语句对应的加权求和值,包括:将所述目标段落的每个语句对应的所述第一语义相似度作为语句语义相似度表示向量的前n维、所述第二语义相似度作为语句语义相似度表示向量的第n+1维以及所述第三语义相似度作为语句语义相似度表示向量的第n+2维,构成所述目标段落的每个语句对应的语句语义相似度表示向量;其中,n为所述目标
段落的语句总数减一;将所述目标段落的每个语句对应的所述语句语义相似度表示向量的维数对应的元素进行加权求和,得到所述目标段落的每个语句对应的加权求和值。
11.结合第一方面,在一种可能的实现方式中,上述计算所述第一语句与所述第一语句所在的段落之间的第二语义相似度,包括:计算所述第一语句与所述第一语句所在的段落之间的语义相似度,采用惩罚函数对所述语义相似度进行惩罚,得到所述第一语句与所述第一语句所在的段落之间的第二语义相似度;
12.其中,所述惩罚函数为:
[0013][0014]
其中,y表示第二语义相似度,表示第一语句包含的字符数,表示所述目标段落包含的字符总数,α表示惩罚因子,f(sp)表示语义相似度。
[0015]
结合第一方面,在一种可能的实现方式中,上述根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句,包括:计算所述目标段落的每个语句与给定主题之间的第四语义相似度;根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度、所述第三语义相似度以及所述第四语义相似度,确定所述目标段落的关键句。
[0016]
结合第一方面,在一种可能的实现方式中,上述计算所述目标段落的每个语句与给定主题之间的第四语义相似度,包括:给定组成主题的关键词,计算关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述目标语句中包含的所述关键词字符数;其中,所述目标语句为所述目标段落的任意语句;计算关键词与所述目标语句之间的语义相似度,根据关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述目标语句中包含的所述关键词字符数计算关键词影响程度,其中,所述关键词影响程度计算公式为:
[0017][0018]
其中,beta表示关键词影响程度,ki表示所述目标语句中包含的所述关键词个数,kj表示关键词的总个数,si表示所述目标语句中包含的所述关键词字符数,sj表示所有关键词包含的字符总数;根据所述关键词与所述目标语句之间的语义相似度以及所述关键词影响程度,得到第四语义相似度。
[0019]
结合第一方面,在一种可能的实现方式中,上述根据所述关键词与所述目标语句之间的语义相似度以及所述关键词影响程度,得到第四语义相似度,包括:将关键词影响程度加入到所述关键词与所述目标语句之间的语义相似度,得到第四语义相似度,计算式为:
[0020]
m=top*sentences+beta
[0021]
其中,m表示第四语义相似度,top*sentences表示所述关键词与所述目标语句之间的语义相似度,beta表示关键词影响程度。
[0022]
为实现上述目的,本发明第二方面提供一种摘要抽取装置,所述装置包括:
[0023]
遍历模块:用于遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘
要的文本,所述目标段落为目标文本中的任意段落;
[0024]
计算模块:用于对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与所述第一语句所在的段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述第一语句所在的段落除第一语句外其他任一语句;
[0025]
确定模块:用于根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句;
[0026]
组成模块:用于根据所述目标段落的关键句组成目标文本的摘要。
[0027]
为实现上述目的,本发明第三方面提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
[0028]
遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘要的文本,所述目标段落为目标文本中的任意段落;
[0029]
对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与目标段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述目标段落除第一语句外其他任一语句;
[0030]
根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句;
[0031]
根据所述目标段落的关键句组成目标文本的摘要。
[0032]
为实现上述目的,本发明第四方面提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
[0033]
遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘要的文本,所述目标段落为目标文本中的任意段落;
[0034]
对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与目标段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述目标段落除第一语句外其他任一语句;
[0035]
根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句;
[0036]
根据所述目标段落的关键句组成目标文本的摘要。
[0037]
采用本发明实施例,具有如下有益效果:
[0038]
本发明提供一种摘要提取方法,通过遍历目标文本中目标段落的语句,对于遍历到的第一语句,计算第一语句与第二语句之间的第一语义相似度、第一语句与目标段落之间的第二语义相似度以及第一语句与目标文本之间的第三语义相似度,根据目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度,确定目标段落的关键句,将目标段落的关键句组成目标文本的摘要。本发明通过第一语义相似度结合第二语义相似度以及第三语义相似度,能够使得关键句的选取考虑到了目标文本中句子、段落、篇章等维度的语义信息,进而提高了关键句提取的精确度。
附图说明
[0039]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
其中:
[0041]
图1为本发明实施例中一种摘要提取方法的流程示意图;
[0042]
图2为本发明实施例中一种摘要提取装置的结构框图;
[0043]
图3为本发明实施例中计算机设备的结构框图。
具体实施方式
[0044]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0045]
目前摘要提取技术分为摘要生成和摘要抽取两个方向,本发明提出一种基于语义相似度的文本摘要抽取方法,属于抽取方向的摘要提取技术。参照图1,图1为本发明实施例提供的一种摘要提取方法,该方法可适用于文本摘要抽取的各种应用场景,如图1所示,该方法具体步骤如下:
[0046]
步骤s101、遍历目标文本中目标段落的语句。
[0047]
其中,目标文本为待抽取摘要的文本,目标段落为目标文本中的任意段落。
[0048]
在本实施例中,将待抽取摘要的文本作为目标文本,该方法是从目标文本的每一段落中抽取一句关键句,将每一段落中抽取的关键句组成目标文本摘要,由于每一段落抽取关键句的方法相同,因此,本实施例针对其中一个段落为目标对象,展开说明如何从段落中抽取关键句,为了便于描述,将该段落记为目标段落。
[0049]
步骤s102、对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与所述第一语句所在的段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度。
[0050]
其中,第二语句是指所述目标段落除第一语句外其他任一语句。
[0051]
如果一个段落由若干语句组成,则认为语句的重要程度和语句之间的相似度相关,如果一个语句和组成段落的其他语句相似程度越高,则该语句越有可能是关键句。例如在一个段落p中由a、b、c、d四个语句,其中a语句同b、c、d语句都相似,b语句同a、c语句相似,c语句仅和a语句相似,d语句仅和a语句相似,可以看出在组成p段落的四个语句中,和a语句相似的语句最多,则认为a最有可能是关键语句。一个更容易理解的例子,比如在论文引用中,认为被引用次数越多的论文其重要程度越高。因此,在本实施例,遍历目标段落中的的语句,将遍历到的语句记为第一语句,对于第一语句,计算第一语句与第二语句之间的语义相似度,得到第一语义相似度,也就是计算第一语句与目标段落除第一语句外其他每个语句之间的语义相似度,由于目标段落除第一语句外可能不止一句语句,因此,对于第一语句可能对应得到多个第一语义相似度,
[0052]
其次,还要计算第一语句与目标段落之间的语义相似度,得到第二语义相似度,以及第一语句与目标文本之间的语义相似度,得到第三语义相似度。
[0053]
进一步地,由于在一个目标段落中如果第一语句越长,则计算出来的语义相似度就会越高,则该第一语句被提取为关键句的可能性越大,因此,在本实施例中,采用惩罚函数对第一语句与目标段落之间的语义相似度进行惩罚,将惩罚后的语义相似度,作为最终的第二语义相似度,其中,惩罚函数可以主要采用tanh和sigmoid函数,具体地,sigmoid函数可以设计为:
[0054][0055]
其中,y表示第二语义相似度,表示第一语句包含的字符数,表示目标段落包含的字符总数,α表示惩罚因子,f(sp)表示语义相似度。其中,惩罚因子的具体数值根据需求以及经验确定。
[0056]
在本实施例中,也可以使用其他的惩罚函数,比如relu函数、softmax函数等。需要说明的是,不仅可以对第一语句与目标段落之间的语义相似度进行惩罚,也可以采用上述惩罚函数对第一语句与目标文本之间的语义相似度等进行惩罚。
[0057]
由于对目标段落中的的语句进行了遍历,因此,由上述步骤可以得到目标段落中的每一语句对应的第一语义相似度、第二语义相似度以及第三语义相似度。
[0058]
步骤s103、根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句。
[0059]
根据目标段落的每个语句对应的所述第一语义相似度、第二语义相似度以及第三语义相似度,确定目标段落的关键句,具体为:
[0060]
步骤s201、将目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度进行加权求和,得到目标段落的每个语句对应的加权求和值。
[0061]
将目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度进行加权求和,得到目标段落的每个语句对应的加权求和值,其中,第一语义相似度的权重、第二语义相似度的权重以及第三语义相似度的权重,可以根据实际进行调整,其权重值也可根据经验值得到。
[0062]
步骤s202、将所述加权求和值最高值对应的语句确定为所述目标段落的关键句。
[0063]
加权求和值可以体现语句重要程度,其加权求和值越高,则说明第一语义相似度、第二语义相似度以及第三语义相似度的综合值越大,进而对应的语句在目标段落的重要程度就越高,因此,最有可能是目标段落的关键句,故,在本实施例中,比较每一语句的加权求和值,将加权求和值最高值对应的语句确定为目标段落的关键句。
[0064]
在一种可能的实现方式中,将目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度进行加权求和,得到目标段落的每个语句对应的加权求和值,具体方法如步骤s301-步骤s302所示:
[0065]
步骤s301、将所述目标段落的每个语句对应的所述第一语义相似度作为语句语义相似度表示向量的前n维、所述第二语义相似度作为语句语义相似度表示向量的第n+1维以
及所述第三语义相似度作为语句语义相似度表示向量的第n+2维,构成所述目标段落的每个语句对应的语句语义相似度表示向量。
[0066]
其中,n为所述目标段落的语句总数减一。
[0067]
根据目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度,构成目标段落的每个语句对应的语句语义相似度表示向量,具体地,为了方便描述,以目标语句为例,其中,目标语句可以为目标段落的所有语句中的任意一句,由于目标语句对应的第一语义相似度具有多个,其个数由目标段落的语句总数决定,假设目标段落的语句总数为6句,则目标语句具有5个第一语义相似度,在本实施例中,将目标语句对应的第一语义相似度作为语句语义相似度表示向量的前n维,其中,n为目标段落的语句总数减一,比如说,目标段落的语句总数为6句,则目标语句具有5个第一语义相似度,则依据第二语句的前后顺序,将5个第一语义相似度进行排列,以排列序号作为语句语义相似度表示向量的维数,比如,将目标语句与第一个第二语句之间的第一语义相似度作为第一个第一语义相似度,将目标语句与第二个第二语句之间的第一语义相似度作为第二个第一语义相似度,将目标语句与第三个第二语句之间的第一语义相似度作为第三个第一语义相似度,将目标语句与第四个第二语句之间的第一语义相似度作为第四个第一语义相似度,将目标语句与第五个第二语句之间的第一语义相似度作为第五个第一语义相似度,以及将目标语句与第六个第二语句之间的第一语义相似度作为第六个第一语义相似度,依次将第一个第一语义相似度、第二个第一语义相似度、第三个第一语义相似度、第四个第一语义相似度、第五个第一语义相似度以及第六个相似度分别作为语句语义相似度表示向量的一维、二维、三维、四维、五维以及六维。
[0068]
其次,将第二语义相似度作为语句语义相似度表示向量的第n+1维以及将第三语义相似度作为语句语义相似度表示向量的第n+2维,构成目标语句对应的语句语义相似度表示向量。
[0069]
步骤s302、将所述目标段落的每个语句对应的所述语句语义相似度表示向量的维数对应的元素进行加权求和,得到所述目标段落的每个语句对应的加权求和值。
[0070]
最后,将语句语义相似度表示向量的各个维数对应的值进行加权求和,得到目标语句对应的加权求和值。
[0071]
进一步地,为了提高关键句的抽取准确性,本实施例,还可以除了根据目标语句的第一语义相似度、第二语义相似度以及第三语义相似度,确定目标语句对应的加权求和值,还可以计算目标语句与给定主题之间的语义相似度,得到第四语义相似度,根据目标语句的第一语义相似度、第二语义相似度、第三语义相似度以及第四语义相似度进行加权求和,得到目标语句对应的加权求和值。其中,计算目标语句与给定主题之间的第四语义相似度,具体步骤可如步骤s401-步骤s403所示:
[0072]
步骤s401、给定组成主题的关键词,计算关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述第一语句中包含的所述关键词字符数。
[0073]
认为一句话的重要程度还与目标文本主题的切合程度有关,同时,认为关键词本质上是目标文本主题的一种体现形式,多个关键词组合在一起就是一个主题的体现形式,一个关键词也是一个特殊的主题。因此,在本实施例中,通过增加关键词来计算第四语义相
似度。具体地,给定组成主题的关键词,计算关键词的总个数、所有关键词包含的字符总数、目标语句中包含的所述关键词个数以及目标语句中包含的所述关键词字符数。
[0074]
步骤s402、计算关键词与所述目标语句之间的语义相似度,根据关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述目标语句中包含的所述关键词字符数计算关键词影响程度,其中,所述关键词影响程度计算公式为:
[0075][0076]
其中,beta表示关键词影响程度,ki表示所述目标语句中包含的所述关键词个数,kj表示关键词的总个数,si表示所述目标语句中包含的所述关键词字符数,sj表示所有关键词包含的字符总数。
[0077]
步骤s403、根据所述关键词与所述目标语句之间的语义相似度以及所述关键词影响程度,得到第四语义相似度。
[0078]
具体地,将关键词影响程度加入到关键词与目标语句之间的语义相似度,得到第四语义相似度,计算式为:
[0079]
m=top*sentences+beta
[0080]
其中,m表示第四语义相似度,top*sentences表示关键词与目标语句之间的语义相似度,beta表示关键词影响程度。
[0081]
此外,由于越多维度的语义相似度可以更全面的描述一个句子的语义信息,本发明实施例方法不限于仅计算句句、句段、句章、句篇、句题维度,可以叠加更多维度。比如,在另外一种可能的实现方式中,还可以计算目标段落与目标文本中除目标段落外其他段落之间的语义相似度,得到多个第五语义相似度,根据目标语句的第一语义相似度、第二语义相似度、第三语义相似度、第四语义相似度以及第五语义相似度进行加权求和,得到目标语句对应的加权求和值。即通过语义计算的方式获得更多维度的信息才能更好的表征一个句子,如对一个人的描述如果包含姓名、身高、体重、国籍、肤色、籍贯、性别......等越多维度的描述越能更精准的表达一个人。
[0082]
步骤s104、根据所述目标段落的关键句组成目标文本的摘要。
[0083]
最后,将从目标文本各个段落确定的关键句,组成目标文本的摘要,实现对目标文本的摘要的抽取。
[0084]
实施例:
[0085]
例如目标文本有四个段落,第一个段落有6个句子,第二个段落有5个句子,第三个段落有6个句子,第四个段落有4个句子的文章p,《句,句》相似度表示如下,即第一语义相似度表示如下:
[0086]
[array([[0.63429576,0.61585033,0.76166731,0.35134025,0.68984354],
[0087]
[1.00000012,0.57606202,0.54683125,0.4571199,0.79562318],
[0088]
[0.57606202,0.99999988,0.65452492,0.5415184,0.88002169],
[0089]
[0.54683125,0.65452492,0.99999988,0.33134307,0.66984636],
[0090]
[0.79562318,0.88002169,0.66984636,0.66149659,0.99999988],
[0091]
[0.79562318,0.88002169,0.66984636,0.66149659,0.99999988]]),
[0092]
array([[0.46263361,0.63806438,0.25287207,0.58205068],
[0093]
[0.46263361,0.54567909,0.58737226,0.52379549],
[0094]
[0.63806438,0.99999994,0.38215299,0.6340909],
[0095]
[0.5922454,0.72152632,0.66062667,0.6834259],
[0096]
[0.58205068,0.634090,0.34405257,0.99999988]]),
[0097]
array([[0.39742225,0.44578558,0.53134453,0.26218626,0.48551816],
[0098]
[0.39742225,0.66801786,0.48790193,0.52233592,0.64409459],
[0099]
[0.66801786,1.00000012,0.67265213,0.440750390.5381729],
[0100]
[0.53134453,0.48790193,0.67265213,0.38478783,0.58103931],
[0101]
[0.85385633,0.7722708,0.71630824,0.66847953,0.75539571],
[0102]
[0.64409459,0.5381729,0.58103931,0.4238753,0.99999988]]),
[0103]
array([[0.80248302,0.60181844,0.64892894],
[0104]
[0.99999988,0.54904544,0.65243256],
[0105]
[0.88885355,0.66019183,0.7119078],
[0106]
[0.65243256,0.3720997,0.99999988]])]
[0107]
如果利用simbert计算获得目标文本p的第一个段落中的第一个句子p1的《句,段》语义相似度为0.66801786,即第二语义相似度为0.66801786,《句,篇》相似度为0.48790193,即第三语义相似度为0.48790193,《句,题》相似度为0.38478783,第四语义相似度为0.38478783,《段,段》语义相似度为0.7722708,即第五语义相似度为0.7722708,那么p1的语句语义相似度表示向量则表示为:[0.63429576,0.61585033,0.76166731,0.35134025,0.68984354,0.66801786,0.48790193,0.38478783,0.7722708]。
[0108]
由此可知,语句p1的关键值(加权求和值)=
[0109]
1+0.63429576+0.615850330+76166731+0.35134025+0.68984354+0.66801786*a+0.48790193*b+0.38478783*c+0.7722708*d,其中a,b,c,d为权重,可根据句子所在段落的重要程度进行赋值。最后比较每个段落中每个句子的关键值(加权求和值),提取出每个段落中关键值(加权求和值)最大的一个句子作为关键句,用于组合成文章摘要。
[0110]
需要说明的是,以上例子只是“一种摘要抽取方法”其中的一个例子,比如也可以拓展算法步骤1中《句,句》的表示能力,除了计算句子所在段落句子之间的语义相似度,也可以计算语句同其他段落语句之间的相似度,赋于不同权值即可。
[0111]
通过遍历目标文本中目标段落的语句,对于遍历到的第一语句,计算第一语句与第二语句之间的第一语义相似度、第一语句与目标段落之间的第二语义相似度以及第一语句与目标文本之间的第三语义相似度,根据目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度,确定目标段落的关键句,将目标段落的关键句组成目标文本的摘要。本发明通过第一语义相似度结合第二语义相似度以及第三语义相似度,能够使得关键句的选取考虑到了目标文本中句子、段落、篇章等维度的语义信息,进而提高了关键句提取的精确度。此外,还可以结合第四语义相似度以及第五语义相似度等,来确定目标段落的关键句,使得关键句的抽取考虑范围更加全面,从而进一步提高了关键句提取的精确度。
[0112]
为了更好地实现上述方法,本发明实施例提供了一种摘要抽取装置,参照吐2,图2为本发明实施例提供的一种摘要抽取装置的结构框图,如图2所示,该装置20具体包括:
[0113]
遍历模块201:用于遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘要的文本,所述目标段落为目标文本中的任意段落。
[0114]
计算模块202:用于对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与所述第一语句所在的段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述第一语句所在的段落除第一语句外其他任一语句。
[0115]
确定模块203:用于根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句。
[0116]
组成模块204:用于根据所述目标段落的关键句组成目标文本的摘要。
[0117]
在一种可能的设计中,计算模块202具体用于:计算所述第一语句与所述第一语句所在的段落之间的语义相似度,采用惩罚函数对所述语义相似度进行惩罚,得到所述第一语句与所述第一语句所在的段落之间的第二语义相似度;
[0118]
其中,所述惩罚函数为:
[0119][0120]
其中,y表示第二语义相似度,表示第一语句包含的字符数,表示所述目标段落包含的字符总数,α表示惩罚因子,f(sp)表示语义相似度。
[0121]
在一种可能的设计中,确定模块203具体用于:将所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度进行加权求和,得到所述目标段落的每个语句对应的加权求和值;将所述加权求和值最高值对应的语句确定为所述目标段落的关键句。
[0122]
在一种可能的设计中,确定模块203具体用于:将所述目标段落的每个语句对应的所述第一语义相似度作为语句语义相似度表示向量的前n维、所述第二语义相似度作为语句语义相似度表示向量的第n+1维以及所述第三语义相似度作为语句语义相似度表示向量的第n+2维,构成所述目标段落的每个语句对应的语句语义相似度表示向量;其中,n为所述目标段落的语句总数减一;将所述目标段落的每个语句对应的所述语句语义相似度表示向量的维数对应的元素进行加权求和,得到所述目标段落的每个语句对应的加权求和值。
[0123]
在一种可能的设计中,确定模块203具体用于:计算所述目标段落的每个语句与给定主题之间的第四语义相似度;根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度、所述第三语义相似度以及所述第四语义相似度,确定所述目标段落的关键句。
[0124]
在一种可能的设计中,确定模块203具体用于:给定组成主题的关键词,计算关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述目标语句中包含的所述关键词字符数;其中,所述目标语句为所述目标段落的任意语句;计算关键词与所述目标语句之间的语义相似度,根据关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述目标语句中包含的所述关键词字符数计算关键词影响程度,其中,所述关键词影响程度计算公式为:
[0125][0126]
其中,beta表示关键词影响程度,ki表示所述目标语句中包含的所述关键词个数,kj表示关键词的总个数,si表示所述目标语句中包含的所述关键词字符数,sj表示所有关键词包含的字符总数;根据所述关键词与所述目标语句之间的语义相似度以及所述关键词影响程度,得到第四语义相似度。
[0127]
在一种可能的设计中,确定模块203具体用于:将关键词影响程度加入到所述关键词与所述目标语句之间的语义相似度,得到第四语义相似度,计算式为:
[0128]
m=top*sentences+beta
[0129]
其中,m表示第四语义相似度,top*sentences表示所述关键词与所述目标语句之间的语义相似度,beta表示关键词影响程度。
[0130]
基于上述装置,通过遍历目标文本中目标段落的语句,对于遍历到的第一语句,计算第一语句与第二语句之间的第一语义相似度、第一语句与目标段落之间的第二语义相似度以及第一语句与目标文本之间的第三语义相似度,根据目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度,确定目标段落的关键句,将目标段落的关键句组成目标文本的摘要。本发明通过第一语义相似度结合第二语义相似度以及第三语义相似度,能够使得关键句的选取考虑到了目标文本中句子、段落、篇章等维度的语义信息,进而提高了关键句提取的精确度。此外,还可以结合第四语义相似度以及第五语义相似度等,来确定目标段落的关键句,使得关键句的抽取考虑范围更加全面,从而进一步提高了关键句提取的精确度。
[0131]
图3示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图3所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法的各个步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法的各个步骤。本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0132]
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的全部步骤。
[0133]
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的全部步骤。
[0134]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编
程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0135]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0136]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1