摘要生成方法、装置、计算机可读存储介质及电子设备与流程

文档序号:24873505发布日期:2021-04-30 12:47阅读:107来源:国知局
摘要生成方法、装置、计算机可读存储介质及电子设备与流程

本发明涉及自然语言处理技术领域,尤其涉及一种摘要生成方法、装置、计算机可读存储介质及电子设备。



背景技术:

摘要的生成能够使得用户快速的了解文章的核心,大大节省时间成本,目前生成摘要的算法主要以抽取式算法和生成式算法为主。抽取式算法主要为以句子得分top进行排序,得到文章摘要。生成式算法是在理解原文章的基础上,针对文章全文进行总结性描述,得到文章摘要。单独采用抽取式或单独采用生成式生成文章摘要均具有一定的弊端。



技术实现要素:

本发明实施例提供一种摘要生成方法、装置、计算机可读存储介质及电子设备。

根据本发明第一方面,提供了一种摘要生成方法,所述方法包括:获取待处理文档的文档数据;对所述文档数据的每一原始句子进行分词,得到至少一个分词结果;根据所述至少一个分词结果,确定所述原始句子中每一分词的重要属性;根据所述原始句子中每一分词的重要属性,判断所述每一原始句子的概括属性,所述概括属性用于示出所述原始句子的概括性强弱;根据所述每一原始句子的概括属性,对所述待处理文档进行摘要生成。

根据本发明一实施方式,所述根据所述至少一个分词结果,确定所述原始句子中每一分词的重要属性,包括:根据所述至少一个分词结果,确定所述原始句子的每一分词的词频逆文本频率指数tfidf值,所述词频逆文本频率指数tfidf值用于示出所述分词的重要属性。

根据本发明一实施方式,所述根据所述原始句子中每一分词的重要属性,判断所述每一原始句子的概括属性,包括:根据所述原始句子中每一分词的tfidf值,确定所述原始句子的概括属性的第一参数;在所述第一参数小于所述第一设定阈值时,判定所述原始句子的概括属性示出所述原始句子的概括性弱。

根据本发明一实施方式,所述根据所述原始句子中每一分词的重要属性,判断所述每一原始句子的概括属性,还包括:在所述第一参数大于或等于所述第一设定阈值且小于所述第二设定阈值时,获取所述原始句子的句长;在所述句长大于设定句长时,判定所述原始句子的概括属性示出所述原始句子的概括性弱;其中,所述第二设定阈值大于所述第一设定阈值。

根据本发明一实施方式,所述根据所述每一原始句子的概括属性,对所述待处理文档进行摘要生成,包括:根据所述每一原始句子的概括属性,确定所述待处理文档的候选句子集合;从所述候选句子集合中确定摘要目标句子;根据所述摘要目标句子,生成所述待处理文档的摘要。

根据本发明一实施方式,所述根据所述每一原始句子的概括属性,确定所述待处理文档的候选句子集合,包括:在所述概括属性示出相应的所述原始句子的概括性弱的情况下,对相应的所述原始句子进行概括生成,得到替换句子,替换相应的原始句子;在所述概括属性示出相应的所述原始句子的概括性强的情况下,则保留相应的原始句子;将所述替换句子和保留的原始句子组成候选句子集合。

根据本发明一实施方式,在所述对所述文档数据的每一原始句子进行分词之前,所述方法还包括:去除所述文档数据中的非法字符;根据设定的分隔符,对所述文档数据进行分句,得到多个所述原始句子。

根据本发明第二方面,又提供了一种摘要生成装置,所述装置包括:获取模块,用于获取待处理文档的文档数据;分词模块,用于对所述文档数据的每一原始句子进行分词,得到至少一个分词结果;分词属性确定模块,用于根据所述至少一个分词结果,确定所述原始句子中每一分词的重要属性;句子属性确定模块,用于根据所述原始句子中每一分词的重要属性,判断所述每一原始句子的概括属性,所述概括属性用于示出所述原始句子的概括性强弱;摘要生成模块,用于根据所述每一原始句子的概括属性,对所述待处理文档进行摘要生成。

根据本发明第三方面,又提供了一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任意所述的摘要生成方法。

根据本发明第四方面,又提供了一种电子设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任意所述的摘要生成方法。

本发明实施例摘要生成方法、装置、计算机可读存储介质及电子设备,首先对待处理文档的文档数据中每一原始句子进行分词,得到至少一个分词结果,并根据至少一个分词结果,确定原始句子中每一分词的重要属性。进一步的,根据原始句子中每一分词的重要属性,判断每一原始句子的概括属性,概括属性能够示出原始句子的概括性强弱。由此,可以根据每一原始句子的概括属性,对待处理文档进行摘要生成。在原始句子概括性强时,可以保留原始句子,在原始句子概括性弱时,可以首先对原始句子进行概括生成,以替换相应的原始句子。采用这种半生成式的摘要生成方法,首先得到包括多个概括性较强的候选句子的候选句子集合,并从中确定摘要目标句子,进一步根据目标摘要句子生成文档摘要。既对原始句子中的冗余表达进行了概括,又保留了原有文档数据中总结性较强的原始句子,有效提高文档摘要总结性的同时,显著提升了摘要的优雅性。

需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1示出了本发明一实施例摘要生成方法的实现流程示意图;

图2示出了本发明另一实施例摘要生成方法的实现流程示意图;

图3示出了本发明实施例摘要生成装置的组成结构示意图;

图4示出了本发明实施例电子设备的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明一实施例摘要生成方法的实现流程示意图。

参考图1,本发明实施例摘要生成方法,至少包括如下操作流程:操作101,获取待处理文档的文档数据;操作102,对文档数据的每一原始句子进行分词,得到至少一个分词结果;操作103,根据至少一个分词结果,确定原始句子中每一分词的重要属性;操作104,根据原始句子中每一分词的重要属性,判断每一原始句子的概括属性,概括属性用于示出原始句子的概括性强弱;操作105,根据每一原始句子的概括属性,对待处理文档进行摘要生成。

在操作101,获取待处理文档的文档数据。

在本发明这一实施例中,待处理文档可以是论文、文学作品等,其文档数据可以是任意格式的文档,例如:pdf、txt、word等。获取待处理文档的文档数据后,可以首先对文档进行预处理。例如,可以首先将文档数据转换为文本格式txt设定格式,然后,去除文档数据中的非法字符。

在操作102,对文档数据的每一原始句子进行分词,得到至少一个分词结果。

在本发明这一实施例中,对文档数据的每一原始句子进行分词,是在不去停用词的情况下进行的。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(stopwords)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。本发明这一实施例中,不去停用词,最大限度地利用文档原有表达方式,显著提升了生成的摘要文本的语言表达的优雅性。

在操作103,根据至少一个分词结果,确定原始句子中每一分词的重要属性。

在本发明这一实施例中,可以采用以下操作步骤实现根据至少一个分词结果,确定原始句子中每一分词的重要属性:根据至少一个分词结果,确定原始句子的每一分词的词频逆文本频率指数tfidf值,词频逆文本频率指数tfidf值用于示出分词的重要属性。

在本发明这一实施例中,待处理文档包括n个句子:句子1、句子2、句子3……句子n,句子1包括m个分词:分词a、分词b、分词c和分词d,其中,句子1中分词a的个数为a,分词b的个数为b、分词c的个数为c和分词d的个数为d,a+b+c+d=m,待处理文档的n个句子中包括词a的句子的个数为x。

分词a在句子1中的词频tfa1=a/m。

分词a在待处理文档中的逆文本频率指数idfa=lg[n/(x+1)]。

相应的,句子1中词a的tfidf值为tfidfa1=tfa1×idfa。

操作104,根据原始句子中每一分词的重要属性,判断每一原始句子的概括属性,概括属性用于示出原始句子的概括性强弱。

在本发明这一实施例中,可以采用以下操作步骤实现根据原始句子中每一分词的重要属性,判断每一原始句子的概括属性:根据原始句子中每一分词的tfidf值,确定原始句子的概括属性的第一参数;在第一参数小于第一设定阈值时,判定原始句子的概括属性示出原始句子的概括性弱。

进一步的,在第一参数大于或等于第一设定阈值且小于第二设定阈值时,获取原始句子的句长;在句长大于设定句长时,判定原始句子的概括属性示出原始句子的概括性弱;其中,第二设定阈值大于第一设定阈值。

在本发明这一实施例中,第一参数可以是原始句子中每一分词的tfidf值的平均值。第一设定阈值可以是待处理文档中所有句子的第一参数的平均值的1/4,第二设定阈值可以是待处理文档中所有句子的第一参数的平均值的1/2,句子的句长可以用原始句子中所包括的字数。设定句长可以是固定值,例如:100,也可以是待处理文档中所有句子的句长的平均值的2倍或3倍。当然第一设定阈值、第二设定阈值和设定句长均可以根据实际情况进行设定,本发明对此不作具体限定。

需要说明的是,这里设置第一设定阈值和第二设定阈值仅为本发明该实施例的一种实施方式示例。还可以采用其他的实施方式来判断原始句子的概括属性,例如:仅设定一个概括阈值,在原始句子的概括属性的第一参数小于概括阈值时,即获取原始句子的句长,并在句长大于设定句长时,判定原始句子的概括属性示出原始句子的概括性弱。其中,概括阈值可以根据实际情况进行设定,例如:可以将概括阈值设定为固定值、待处理文档中所有句子的第一参数的平均值或是待处理文档中所有句子的第一参数的平均值的1/2等值。

当然,还可以采用其他适用的判断方法判断每一原始句子的概括属性,本发明对此不作具体限定。

在操作105,根据每一原始句子的概括属性,对待处理文档进行摘要生成。

在本发明这一实施例中,采用以下操作步骤实现根据每一原始句子的概括属性,对待处理文档进行摘要生成:根据每一原始句子的概括属性,确定待处理文档的候选句子集合;从候选句子集合中确定摘要目标句子;根据摘要目标句子,生成待处理文档的摘要。

具体的,可以在概括属性示出相应的原始句子的概括性弱的情况下,对相应的原始句子进行概括生成,得到替换句子,替换相应的原始句子;在概括属性示出相应的原始句子的概括性强的情况下,保留相应的原始句子;将替换句子和保留的原始句子组成候选句子集合。

在本发明这一实施例中,待处理文档包括n各句子:句子1、句子2、句子3……句子n,经过上述操作101~104的判断,判定句子2、句子3和句子8的概括性弱,其他句子概括性强,句子2、句子3和句子8的替换具体分别为句子2t、句子3t和句子8t,则最终得到的候选句子集合为:句子1、句子2t、句子3t、句子4、句子5、句子6、句子7、句子8t、句子9、……句子n。

在本发明这一实施例中,可以采用textrank(关键词提取算法)和mmr(maximal-marginal-relevance,最大边界相关算法),对候选句子集合中的句子进行打分及排序,按照排序结果,取设定数量的句子,作为摘要目标句子,例如:设定数量可以是候选句子总数量的百分之二,这里最大设定数量为5句。对于确定的摘要目标句子,可以直接按照摘要目标句子在待处理文档中的顺序,进行简单排序,直接生成待处理文档的摘要。还可以对摘要目标句子进行再次概括生成,例如:对于其中最长的句子进行概括生成等。

图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到摘要生成方法的其他优选实例施。

图2示出了本发明另一实施例摘要生成方法的实现流程示意图。

参考图2,本发明这一实施例中摘要生成方法,至少包括如下操作流程:

操作201,获取待处理文档的文档数据。

操作202,去除文档数据中的非法字符,对文档数据进行分句,得到原始句子。

在本发明这一实施例中,待处理文档可以是任意格式的文档,为了方便对文档进行处理,这里先将文档转换为文本格式txt,转换之后,文本文档中可能出现#、¥、%、$、&和*等各种非法字符,在本发明这一实施例中,首先去除文档数据中的非法字符,例如:可以采用re正则表达式函数去除非法字符。然后根据设定的分隔符,例如:根据“,”、“。”和“;”等符号中的至少一个,对文档数据进行分句,得到多个原始句子。

操作203,对文档数据的每一原始句子进行分词。

在本发明这一实施方式中,对于原始句子进行分词,采用nlp(naturallanguageprocessing,自然语言处理)技术中通用的分词方法即可实现。

例如:通过查词表做出词语切分决策的方式,对原始句子“上海计划到本世纪末实现人均国内生产总值五千美元。”进行自动分词,得到分词结果:“/上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。/”。。

操作204,确定原始句子的每一分词的词频逆文本频率指数tfidf值。

操作205,根据原始句子中每一分词的tfidf值,确定原始句子的概括属性的第一参数。

操作206,判断第一参数与第一设定阈值、第二设定阈值的关系。若第一参数<第一设定阈值,则执行操作207;若第一设定阈值≤第一参数<第二设定阈值,则执行操作208。

在本发明这一实施方式中,同样可以仅设定一个针对原始句子概括属性的第一参数的概括阈值,概括阈值可以为待处理文档的所有原始句子的tfidf值的平均值。

操作207,判定概括属性示出相应的原始句子概括性弱,对相应的原始句子进行概括生成,得到替换句子,替换相应的原始句子。

这里对原始句子进行概括生成的过程中可以利用生成模型。生成模型可以适用本领域通用的自然语言生成模型即可实现。

操作208,获取原始句子的句长。

操作209,判断原始句子的句长是否大于设定句长。若是,则执行操作207,若否,则执行操作210。

在本发明这一实施例中,设定句长可以设置为100个字符。也可以根据需要设定为其他固定值,或者设定为待处理文档中所有原始句子的句长的平均值的倍数,例如:待处理文档中所有原始句子的句长平均值的3倍。

操作210,判定概括属性示出相应的原始句子概括性强,保留相应的原始句子。

操作211,将替换句子和保留的原始句子组成候选句子集合。

操作212,从候选句子集合中确定摘要目标句子。

操作213,根据摘要目标句子,生成待处理文档的摘要。

其中,操作204~操作213的其他具体实现过程与图1所示实施例中操作103、104和105的具体实现过程相类似,这里不再赘述。

本发明实施例摘要生成方法、装置、计算机可读存储介质及电子设备,首先对待处理文档的文档数据中每一原始句子进行分词,得到至少一个分词结果,并根据至少一个分词结果,确定原始句子中每一分词的重要属性。进一步的,根据原始句子中每一分词的重要属性,判断每一原始句子的概括属性,概括属性能够示出原始句子的概括性强弱。由此,可以根据每一原始句子的概括属性,对待处理文档进行摘要生成。在原始句子概括性强时,可以保留原始句子,在原始句子概括性弱时,可以首先对原始句子进行概括生成,以替换相应的原始句子。采用这种半生成式的摘要生成方法,首先得到包括多个概括性较强的候选句子的候选句子集合中,并从中确定摘要目标句子,进一步根据目标摘要句子生成文档摘要。既对原始句子中的冗余表达进行了概括,又保留了原有文档数据中总结性较强的原始句子,有效提高文档摘要总结性的同时,显著提升了摘要的优雅性。

同理,基于上文摘要生成方法,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被处理器执行时,使得处理器至少执行如下的操作步骤:操作101,获取待处理文档的文档数据;操作102,对文档数据的每一原始句子进行分词,得到至少一个分词结果;操作103,根据至少一个分词结果,确定原始句子中每一分词的重要属性;操作104,根据原始句子中每一分词的重要属性,判断每一原始句子的概括属性,概括属性用于示出原始句子的概括性强弱;操作105,根据每一原始句子的概括属性,对待处理文档进行摘要生成。

进一步,基于如上文摘要生成方法,本发明实施例还提供一种摘要生成装置,如图3,该装置30包括:获取模块301,用于获取待处理文档的文档数据;分词模块302,用于对文档数据的每一原始句子进行分词,得到至少一个分词结果;分词属性确定模块303,用于根据至少一个分词结果,确定原始句子中每一分词的重要属性;句子属性确定模块304,用于根据原始句子中每一分词的重要属性,判断每一原始句子的概括属性,概括属性用于示出原始句子的概括性强弱;摘要生成模块305,用于根据每一原始句子的概括属性,对待处理文档进行摘要生成。

根据本发明一实施方式,分词属性确定模块303包括:分词参数确定子模块,用于根据至少一个分词结果,确定原始句子的每一分词的词频逆文本频率指数tfidf值,词频逆文本频率指数tfidf值用于示出分词的重要属性。

根据本发明一实施方式,句子属性确定模块304包括:概括参数确定子模块,用于根据原始句子中每一分词的tfidf值,确定原始句子的概括属性的第一参数;第一判定子模块,用于在第一参数小于第一设定阈值时,判定原始句子的概括属性示出原始句子的概括性弱。

根据本发明一实施方式,句子属性确定模块304还包括:句长获取子模块,用于在第一参数大于或等于第一设定阈值且小于第二设定阈值时,获取原始句子的句长;第二判定子模块,用于在句长大于设定句长时,判定原始句子的概括属性示出原始句子的概括性弱;其中,第二设定阈值大于第一设定阈值。

根据本发明一实施方式,摘要生成模块305包括:集合确定子模块,用于根据每一原始句子的概括属性,确定待处理文档的候选句子集合;从候选句子集合中确定摘要目标句子;生成子模块,用于根据摘要目标句子,生成待处理文档的摘要。

根据本发明一实施方式,集合确定子模块采用以下操作实现根据每一原始句子的概括属性,确定待处理文档的候选句子集合:在概括属性示出相应的原始句子的概括性弱的情况下,对相应的原始句子进行概括生成,得到替换句子,替换相应的原始句子;在概括属性示出相应的原始句子的概括性强的情况下,则保留相应的原始句子;将替换句子和保留的原始句子组成候选句子集合。

根据本发明一实施方式,装置30还包括:预处理模块,用于在对文档数据的每一原始句子进行分词之前,去除文档数据中的非法字符;分句模块,用于根据设定的分隔符,对文档数据进行分句,得到多个原始句子。

更进一步,基于如上文摘要生成方法,本发明实施例还提供一种电子设备,如图4所示,电子设备40包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403;其中,处理器401、存储器302通过总线403完成相互间的通信;处理器401用于调用存储器402中的程序指令,以执行上述任意的摘要生成方法。

这里需要指出的是:以上对针对摘要生成装置及电子设备实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明摘要生成装置及电子设备实施例中未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1