一种摘要抽取方法、装置、存储介质以及计算机设备与流程

文档序号:33188451发布日期:2023-02-04 07:28阅读:来源:国知局

技术特征:
1.一种摘要抽取方法,其特征在于,所述方法包括:遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘要的文本,所述目标段落为目标文本中的任意段落;对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与目标段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述目标段落除第一语句外其他任一语句;根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句;根据所述目标段落的关键句组成目标文本的摘要。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句,包括:将所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度进行加权求和,得到所述目标段落的每个语句对应的加权求和值;将所述加权求和值最高值对应的语句确定为所述目标段落的关键句。3.根据权利要求2所述的方法,其特征在于,将所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度进行加权求和,得到所述目标段落的每个语句对应的加权求和值,包括:将所述目标段落的每个语句对应的所述第一语义相似度作为语句语义相似度表示向量的前n维、所述第二语义相似度作为语句语义相似度表示向量的第n+1维以及所述第三语义相似度作为语句语义相似度表示向量的第n+2维,构成所述目标段落的每个语句对应的语句语义相似度表示向量;其中,n为所述目标段落的语句总数减一;将所述目标段落的每个语句对应的所述语句语义相似度表示向量的维数对应的元素进行加权求和,得到所述目标段落的每个语句对应的加权求和值。4.根据权利要求1所述的方法,其特征在于,所述计算所述第一语句与所述第一语句所在的段落之间的第二语义相似度,包括:计算所述第一语句与所述第一语句所在的段落之间的语义相似度,采用惩罚函数对所述语义相似度进行惩罚,得到所述第一语句与所述第一语句所在的段落之间的第二语义相似度;其中,所述惩罚函数为:其中,y表示第二语义相似度,表示第一语句包含的字符数,表示所述目标段落包含的字符总数,α表示惩罚因子,f(sp)表示语义相似度。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句,包括:
计算所述目标段落的每个语句与给定主题之间的第四语义相似度;根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度、所述第三语义相似度以及所述第四语义相似度,确定所述目标段落的关键句。6.根据权利要求5所述的方法,其特征在于,所述计算所述目标段落的每个语句与给定主题之间的第四语义相似度,包括:给定组成主题的关键词,计算关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述目标语句中包含的所述关键词字符数;其中,所述目标语句为所述目标段落的任意语句;计算关键词与所述目标语句之间的语义相似度,根据关键词的总个数、所有关键词包含的字符总数、所述目标语句中包含的所述关键词个数以及所述目标语句中包含的所述关键词字符数计算关键词影响程度,其中,所述关键词影响程度计算公式为:其中,beta表示关键词影响程度,ki表示所述目标语句中包含的所述关键词个数,kj表示关键词的总个数,si表示所述目标语句中包含的所述关键词字符数,sj表示所有关键词包含的字符总数;根据所述关键词与所述目标语句之间的语义相似度以及所述关键词影响程度,得到第四语义相似度。7.根据权利要求6所述的方法,其特征在于,所述根据所述关键词与所述目标语句之间的语义相似度以及所述关键词影响程度,得到第四语义相似度,包括:将关键词影响程度加入到所述关键词与所述目标语句之间的语义相似度,得到第四语义相似度,计算式为:m=top*sentences+beta其中,m表示第四语义相似度,top*sentences表示所述关键词与所述目标语句之间的语义相似度,beta表示关键词影响程度。8.一种摘要抽取装置,其特征在于,所述装置包括:遍历模块:用于遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘要的文本,所述目标段落为目标文本中的任意段落;计算模块:用于对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与所述第一语句所在的段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述第一语句所在的段落除第一语句外其他任一语句;确定模块:用于根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句;组成模块:用于根据所述目标段落的关键句组成目标文本的摘要。9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项
所述方法的步骤。

技术总结
本发明实施例公开了一种摘要提取方法、装置、存储介质以及计算机设备,其中,该方法包括:遍历目标文本中目标段落的语句,对于遍历到的第一语句,计算第一语句与第二语句之间的第一语义相似度、第一语句与目标段落之间的第二语义相似度以及第一语句与目标文本之间的第三语义相似度,根据目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度,确定目标段落的关键句,将目标段落的关键句组成目标文本的摘要。本发明通过第一语义相似度结合第二语义相似度以及第三语义相似度,能够使得关键句的选取考虑到了目标文本中句子、段落、篇章等维度的语义信息,进而提高了关键句提取的精确度。高了关键句提取的精确度。高了关键句提取的精确度。


技术研发人员:尹春林 于虹 李怡 周年荣 杨莉 张洪程 唐立军 张林山
受保护的技术使用者:云南电网有限责任公司电力科学研究院
技术研发日:2022.11.15
技术公布日:2023/2/3
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1