摘要生成方法、装置、终端设备及存储介质与流程

文档序号:20017204发布日期:2020-02-25 10:47阅读:92来源:国知局
摘要生成方法、装置、终端设备及存储介质与流程

本申请属于文本处理技术领域,特别是涉及一种摘要生成方法、装置、终端设备及存储介质。



背景技术:

信息化的飞速发展使得互联网成为了人们获取信息的主要来源。然而,随着冗余信息的增加,读者难以从众多文档中准确并快速地获取到感兴趣的信息,因此文本自动摘要技术逐渐受到了学术界和工业界的广泛关注。目前,流行的摘要自动提取技术可以大致分为抽取式和生成式两种。

抽取式就是按照一定权重计算规则,从原文中抽取出最符合文章主旨的一个或多个句子,组合成文章摘要。这是一种较为成熟的技术,主要可以分为tf-idf、textrank、mmr、lda和lsi等几类。这些方法主要计算词在句子中的共现频率、句子之间的相似度等统计学指标,作为句子的累计权重。虽然这种方法生成的句子可阅读性较强,但是无法保证摘要中句子之间的连贯性,同时也难以根据用户的喜好个性化生成摘要。

生成式方法以一种更接近于人类提取的方式生成摘要,通过对全文的阅读和理解,总结并概括出文本的摘要。近几年,借助于深度学习的发展,生成式摘要法也取得了不错的效果,主流的方法包括神经网络、seq2seq和seq2seq+attention等几类。虽然这类方法具有更好的总结概括能力,然而摘要的语言流畅性和语法正确性难以保证,对于样本数据的质量和数量也要求较高,目前难以满足实际应用的需求。



技术实现要素:

有鉴于此,本申请实施例提供了一种摘要生成方法、装置、终端设备及存储介质,以解决现有技术中的文本摘要生成方法只关注句子之间的相似度,而忽略了文本中标题、段落和关键词等结构特征,同时也不能灵活地进行定制化生成摘要,难以满足实际应用的问题。

本申请实施例的第一方面提供了一种摘要生成方法,包括:

获取待处理的目标文档,所述目标文档包括标题文本;

根据预设的特征词词典,识别所述目标文档各个句子中的特征词,根据所述特征词,计算所述各个句子的句子权重;

分别计算所述各个句子与对应的标题文本之间的标题相似度;以及,采用预设算法计算所述各个句子的特征权重;

根据所述句子权重、所述标题相似度和所述特征权重,分别计算所述各个句子的累积权重;

根据所述各个句子及其累积权重,生成所述目标文档的摘要。

本申请实施例的第二方面提供了一种摘要生成装置,包括:

获取模块,用于获取待处理的目标文档,所述目标文档包括标题文本;

句子权重计算模块,用于根据预设的特征词词典,识别所述目标文档各个句子中的特征词,根据所述特征词,计算所述各个句子的句子权重;

标题相似度计算模块,用于分别计算所述各个句子与对应的标题文本之间的标题相似度;以及,

特征权重计算模块,用于采用预设算法计算所述各个句子的特征权重;

累积权重计算模块,用于根据所述句子权重、所述标题相似度和所述特征权重,分别计算所述各个句子的累积权重;

摘要生成模块,用于根据所述各个句子及其累积权重,生成所述目标文档的摘要。

本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述摘要生成方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述摘要生成方法的步骤。

与现有技术相比,本申请实施例包括以下优点:

本申请实施例,在获取待处理的目标文档后,可以根据预设的特征词词典,识别目标文档各个句子中的特征词,然后根据识别出的特征词计算各个句子的句子权重,并在分别计算各个句子与对应的标题文本之间的标题相似度,以及各个句子的特征权重后,通过对上述句子权重、标题相似度和特征权重进行融合,可以获得各个句子的累积权重,按照累积权重对各个句子进行排序即可得到摘要的候选句子列表。本实施例通过结合文档的结构特征以及文档标题计算每一个句子的权重,作为摘要提取的排序标准,相较于传统的抽取式方法,本实施例能够更精确地提取到文档中的有效信息。其次,本实施例可以通过自定义的用户特征词词典计算特征权重,用于对不同用户进行个性化定制,所提取出的摘要也更能匹配用户的实际需求。第三,本实施例基于抽取式的自动摘要生成技术的思想,采用无监督的生成方式提取摘要,无需标记数据也无需预训练词向量,结构简洁,运行速度快,便于实际部署。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的一种摘要生成方法的步骤流程示意图;

图2是本申请一个实施例的另一种摘要生成方法的步骤流程示意图;

图3是本申请一个实施例的一种图结构的示意图;

图4是本申请一个实施例的一种摘要生成装置的示意图;

图5是本申请一个实施例的一种终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

下面通过具体实施例来说明本申请的技术方案。

参照图1,示出了本申请一个实施例的一种摘要生成方法的步骤流程示意图,具体可以包括如下步骤:

s101、获取待处理的目标文档,所述目标文档包括标题文本;

需要说明的是,本方法可以适用于终端设备。即,通过终端设备对目标文档进行处理,提取出匹配该文档实际内容的摘要。上述终端设备可以是笔记本电脑、台式计算机或其他类型的文档处理设备,本实施例对终端设备的具体类型不作限定。

在本实施例中,待处理的目标文档可以是已经经过预处理的文档,通过预处理,可以将原始文档中携带的无关数据进行清洗。预处理的具体过程可以根据实际需要确定,例如,对原始文档进行格式转换、筛选出没有具体含义的字符或字符串并删除,等等,本实施例对此亦不作限定。

s102、根据预设的特征词词典,识别所述目标文档各个句子中的特征词,根据所述特征词,计算所述各个句子的句子权重;

通常,不同用户所感兴趣的领域可能不同。针对不同用户,可以根据词频统计出匹配该用户的兴趣点的特征词词典,通过特征词词典识别出目标文档各个句子中的特征词。

需要说明的是,特征词词典可以允许自定义,根据用户的行为进行实时的增加或删除。例如,若用户对于上市公司比较感兴趣,希望更多地了解新闻文档中与上市公司相关的内容,那么就可以把上市公司的名称加入特征词词典中用于个性化推送。

在具体实现中,可以采用分词工具对目标文档进行分词,然后将命中特征词词典的词语识别为特征词。

在识别出每个句子中的特征词后,可以根据这些特征词,计算各个句子的句子权重。

通常,包含特征词较多的句子,其句子权重也较大。因此,可以根据上述原则,通过统计各个句子中包含的特征词的多少,计算每个句子的句子权重。

当然,上述仅仅是一种简单的句子权重计算的示例,本领域技术人员可以根据实际需要采用其他方式,例如可以采用特定的权重计算算法,来计算各个句子的句子权重,本实施例对此不作限定。

s103、分别计算所述各个句子与对应的标题文本之间的标题相似度;

标题是对整个文档的高度概括和总结,标题中出现的关键词在摘要中存在的可能性很大。因此,提取出的摘要中的句子应该和标题具有较高的相似度。一般来说,文档的第一句就是文档的标题,在使用网络爬虫技术爬取数据时,也可以很容易地根据标签区分出标题和正文。

在本实施例中,可以通过识别每个句子与标题中具有多少个相同的词语来计算各个句子与标题之间的标题相似度。

一般地,某个句子与标题文本中包含有更多的相同词语时,该句子与标题之间的相似度也越高。

s104、采用预设算法计算所述各个句子的特征权重;

在本实施例中,各个句子的特征权重可以看作是每个句子与其他之间的关联性。通常,一个句子与较多的句子均具有较高的关联性,则该句子更有可能成为摘要中的句子。

因此,可以通过比较各个句子相互之间的关联性,计算得到各个句子的特征权重。

在具体实现中,可以在对各个句子进行分词的基础上,通过识别两两句子间各个词语的余弦相似度,然后按照一定的权重将计算出的余弦相似度相加,以最终得到的结果作为句子的特征权重。本实施例对于如何计算句子的特征权重不作限定。

s105、根据所述句子权重、所述标题相似度和所述特征权重,分别计算所述各个句子的累积权重;

在本实施例中,可以采用线性加权融合的方式,在对前述计算得到的各个权重分别乘以一定的比率后相加,得到各个句子最终的累积权重。各个权重对应的比率可以根据实际需要预先设定。

s106、根据所述各个句子及其累积权重,生成所述目标文档的摘要。

在本实施例中,按照累积权重对各个句子进行排序即可得到摘要的候选句子列表,通过提取一定数量的候选句子,可以组成目标文档的摘要。

通常,累积权重越大的句子,其在整个文档中的重要性越高,越可能成为文档的摘要。因此,在具体实现中,可以直接提取累积权重最大的几个候选句子组成文档的摘要。例如,提取累积权重最大的3-5个候选句子。

在本申请实施例中,在获取待处理的目标文档后,可以根据预设的特征词词典,识别目标文档各个句子中的特征词,然后根据识别出的特征词计算各个句子的句子权重,并在分别计算各个句子与对应的标题文本之间的标题相似度,以及各个句子的特征权重后,通过对上述句子权重、标题相似度和特征权重进行融合,可以获得各个句子的累积权重,按照累积权重对各个句子进行排序即可得到摘要的候选句子列表。本实施例通过结合文档的结构特征以及文档标题计算每一个句子的权重,作为摘要提取的排序标准,相较于传统的抽取式方法,本实施例能够更精确地提取到文档中的有效信息。其次,本实施例可以通过自定义的用户特征词词典计算特征权重,用于对不同用户进行个性化定制,所提取出的摘要也更能匹配用户的实际需求。第三,本实施例基于抽取式的自动摘要生成技术的思想,采用无监督的生成方式提取摘要,无需标记数据也无需预训练词向量,结构简洁,运行速度快,便于实际部署。

参照图2,示出了本申请一个实施例的一种摘要生成方法的步骤流程示意图,具体可以包括如下步骤:

s201、获取待处理的目标文档,所述目标文档包括标题文本;

需要说明的是,本方法可以适用于终端设备。即,通过终端设备对目标文档进行处理,提取出匹配该文档实际内容的摘要。上述待处理的目标文档可以是已经经过预处理的文档。

通常,在机器学习中,原始数据大部分是从网上爬取而来。海量的数据中存在着不完整、不一致、数据异常及携带无关数据等数据质量问题。在这些问题中,文档数据中携带无关数据的问题较为严重,针对这一问题,本实施例可以首先对文档进行预处理清洗。

文档预处理最常用和最有效的方式就是正则表达式。它是一种能使用一个字符串匹配多种模式字符串的文本表达语言。

因此,在本实施例中,在获取到待处理的文档后,可以采用预设的正则表达式,识别文档中的冗余信息,这些冗余信息可以包括文档代码信息、注释信息、广告信息、来源信息中的至少一种。

然后可以根据预设的停用词表,识别文档的各个句子中的目标转折词,并删除上述冗余信息和目标转折词,获得目标文档。其中,目标转折词可以是各个句子的预设字符区间内的转折词。例如,在每个句子开头位置的转折词。

在具体实现中,可以首先进行正则标签匹配,对于爬取的网页文档,去除其中的html、css等代码和注释信息,然后,通过人工归纳总结多种模式,用于识别作者、广告、发布网站等无关信息并进行清洗。

在按照以上两步正则表达式对文档进行清洗后,可以接着筛选出段落标记和句子开头的转折词进行删除替换。

通常,句子开头的转折词用于连接邻接的两个句子,但是抽取式方法提取出的句子本身不一定是邻接的,转折词会使提取出的摘要难以理解,语法不通。另外,删除转折词对于句子本身的语义影响并不大。因此,可以根据常用中文停用词表,筛选提取出转折词,其中包括“万一”、“不光”、“不单”、“不只”、“不外乎”、“不如”、“不妨”、“不尽然”等一百余个常用中文转折词。

通过对文档进行预处理,可以将文本数据清洗成不包含冗余信息的文字内容,只包含文字本身的语义信息而不包含其余干扰信息。

例如:“<p>然而,目前我市与全世界200多个国家和地区发生进出口贸易往来,对东盟、南非、印度等新兴市场出口持续上升</p><pclass="res-edit">(责任编辑:df395)”,这一冗余文本数据在预处理后,可以被清洗为:“目前我市与全世界200多个国家和地区发生进出口贸易往来,对东盟、南非、印度等新兴市场出口持续上升”。

s202、根据预设的特征词词典,识别所述目标文档各个句子中的特征词,采用所述预设算法,计算所述各个句子中每个特征词的词权重;

通常,不同用户所感兴趣的领域可能不同。针对不同用户,可以根据词频统计出匹配该用户的兴趣点的特征词词典。上述特征词词典可以被添加至分词工具中,各个特征词可以以特有的tag标记(例如“/nfp”、“/ntco”等)作为词性标注。这样,首先保证了分词阶段能准确将特征词分离出来,其次,特有的tag标记也使特征词和其余的名词、动词等其他词性具有较好的区分度,便于在分词结果中进行提取。

在本实施例中,特征词词典可以允许自定义,根据用户的行为进行实时的增加或删除。例如,若用户对于上市公司比较感兴趣,希望更多地了解新闻文档中与上市公司相关的内容,那么就可以把上市公司的名称加入特征词词典中用于个性化推送。

在本实施例中,可以采用textrank算法计算各个特征词的词权重。textrank算法既可以提取摘要又可以提取关键词并计算权重。

在定义完特征词后,可以利用配置于分词工具中的textrank算法计算特征词的词权重。

textrank算法可以首先对文档进行整体分词,然后再根据中文常用停用词表过滤掉标点符号和出现频率较高的无意义停用词,例如“的”、“是”、“和”等几百个停用词。

紧接着,通过构建词语间的图结构,词语被映射为图中的各个节点,词间的联系被映射为节点间的链接,节点和链接都具有相应的权重。形式化地,可以利用g(v,e)表示文档中词语构成的有向有权图。其中,v表示由词语构成的节点,e表示节点之间的边。算法需要确定一个以固定步长滑动的窗口,如果两个词语在大小为k的窗口内共同出现,则可以称它们为共现,词语间边的初始化权重是由它们的共现次数决定的。对于任意词语节点vi,其分数计算方式为:

其中,in(vi)表示指向vi所有节点的集合,同理out(vi)表示vi指向所有节点的集合。wi,j表示vi和vj之间的边ei,j的权重。d为调节系数,一般设定为0.85。由上述公式可以看出,textrank算法是一个迭代计算的过程,最终图结构中的节点权重会趋于稳定,收敛至一个相对固定值。

s203、根据所述词权重,分别计算所述各个句子的句子权重;

在本实施例中,针对目标文档中的目标句,可以统计在目标句中每个特征词的出现次数。其中,目标句可以是目标文档中的任一句子。然后,通过分别计算每个特征词的词权重与该特征词的出现次数之间的乘积,并将目标句中各个特征词对应的乘积相加,可以作为目标句的句子权重。

如图3所示,是本实施例的一种图结构的示意图。图中的线条越粗代表节点之间的边的值越大,共现次数越多,节点的值越大,说明textrank值越大,节点的重要程度越高。之后对于每一个文档中的句子a计算其句子包含的特征词权重worda:

从公式(2)中可以看出,对于每一个通过特有tag标记筛选出的特征词vi,判断其如果包含在句子a中,将其权重乘以特征词在该句子中的出现次数nv,并加和至总权重worda中即可。

需要说明的是,对于每一个文档都需要重新构建图结构,清空之前的特征词权重,重新进行计算,不会造成文档间的干扰。如果有新的特征词加入,对于新加入的文档也不会造成影响,而对于之前已经提取过的文档摘要,需要重新构建图结构进行计算,相应特征词权重和句子权重也会发生相应变化。

例如,对于文档内容为“交银施罗德活期通货币市场基金(以下简称“本基金”)经2016年7月12日中国证券监督管理委员会(以下简称“中国证监会”)证监许可。本基金合同于2016年7月27日正式生效。”。假设用户比较关心上市公司金融市场,则关键词可以为“交银施罗德”、“中国证监会”和“基金”,计算出的特征词权重分别为:“('基金',1.0),('中国证监会',0.3431182394162194),('交银施罗德',0.3246203077750099)”,第一个句子的worda1=2*1.0+1*0.3431182394162194+1*0.3246203077750099,第二个句子的worda2=1*1.0。以此方式,可以计算出每个文档中每一个句子包含的特征词权重,作为句子在文档中重要程度的标准之一。

s204、分别计算所述各个句子与对应的标题文本之间的编辑距离,根据所述编辑距离,计算所述各个句子与对应的所述标题文本之间的标题相似度;

标题是对整个文档的高度概括和总结,标题中出现的关键词在摘要中存在的可能性很大。因此,提取出的摘要中的句子应该和标题具有较高的相似度。基于这一理论,本实施例可以计算文档中每个句子和标题的相似度。

在本实施例中,句子的划分以结束标点作为分隔符,可以包括‘。’‘!’‘!’‘?’‘?’等中英文标点,‘,’和‘;’等句中分隔符不作为句子结束的标志。在此之后,划分出的每一个句子需要分别与标题计算字符串之间的相似度。

在本实施例中,可以采用levenshtein比率作为相似度权重特征,该算法具有计算简单高效的特点。levenshtein距离又被称为编辑距离,是一种常用的度量两个字符串之间相似度的算法,由苏联科学家levenshtein于1965年发明。levenshtein距离是指两个字符串之间,从一个完全变换成另一个所需要的最少单字符编辑次数,编辑的操作包括插入、删除和替换。一般来说,levenshtein距离越小,两个字符串的相似度越大。levenshtein距离可以采用如下公式进行计算:

其中,i和j分别代表字符串a和b的位数。首先判断,如果字符串间的公共子串长度为0,leva,b(|a|,|b|)等于|a|和|b|中的最大值。否则进入otherwise分支,公式中min中的三个公式分别对应字符串的插入、删除和替换操作,每个操作都会导致levenshtein距离增加1。

由于字符串的长度不同,长的字符串一般比短的字符串之间的levenshtein距离大,所以需要将levenshtein比率作为统一的相似度度量标准,计算公式为:

其中,leva,b(|a|,|b|)为类编辑距离,这里的类编辑距离和之前的编辑距离不同,删除和插入依然算作距离1,但是替换算作距离2。

例如,若文档的标题为“拨开益丰药房的商誉迷雾”,文章中的一个句子为“益丰药房的商誉已经大幅超过长期待摊费用”。如果要将标题替换为句子,首先删除“拨开”(共两个字符),此时leva,b(|a|,|b|)=2,接着将“迷雾”替换为“已经”(共两个字符),此时,最后插入“大幅超过长期待摊费用”(共八个字符),此时leva,b(|a|,|b|)=14,两个字符串的总长度为30,根据公式可以算出sima,b≈0.466667。

s205、采用预设算法计算所述各个句子的特征权重;

textrank算法的思想来源于谷歌提出的pagerank算法,可用于生成文档的关键词和摘要。该算法将文档中的每个句子看作一个节点,如果两个句子有相似性,则认为两个句子对应的节点之间存在一条无向有权边。进一步地,将节点和边构建出有向有权图。随机初始化权重,根据节点的入度和出度多次迭代直至收敛,最终可以得到每个句子的特征权重:

上述公式(5)和公式(1)的图构建和textrank计算方式很类似,不同之处在于节点变成了句子而不是单词,句子间边的权重采用窗口共现的方式进行评估,而句子之间的相似度通过重叠单词的数量计算,对于句子a=w1,w2,...,wn(w为句子中的单词),两个句子之间的相似度为:

s206、确定所述句子权重、所述标题相似度和所述特征权重对应的权重比率;

s207、针对任一句子,根据所述权重比率,对所述句子的句子权重、标题相似度和特征权重进行线性加权,获得所述句子的累积权重;

在计算得到textrank特征权重后,可以将其与之前计算得到的句子权重worda及标题相似度权重sima,b进行融合。

本实施例可以采用线性加权的融合方式,对其余特征权重乘以一定的比率并相加,得到每个句子的最终累积权重ta:

ta=ws(a)×(1+rl×sima,b+rw×worda)……(7)

上述公司(7)中,a为文档中的任意句子,b为文档标题,rl和rw分别为相似度权重比率和特征词权重比率超参数,可以根据用户个性化设定相关比率。通过实验分析,对于两个阈值分别设定为1.35和0.30较为合理,提取出的摘要较为符合人工识别的标准。

对累积权重排序即可得到摘要的候选句子列表。

s208、按照所述累积权重,对所述各个句子进行排序,提取预设排序区间内的至少一个句子,作为所述目标文档的摘要。

在对于文档a中的所有句子a都计算完加权累积权重ta后,对ta根据数值大小排序,可以选取ta值最高的n个句子作为候选摘要。在生成摘要的过程中,为了保证句子的因果关系和语句通顺性,对于这n个句子,可以仍然按照它们在源文档出现的顺序排列,最终生成文档摘要。

为了便于理解,下面提供了本实施例的摘要生成方法对应的算法伪代码。

input:文档正文a、文档标题b、自定义特征词z、特征词权重比率rw、标题比率rl、摘要长度n

output:文档摘要s

1.根据结束标志(例如。?!等标点符号)对a进行分句得到a

2.foraina:

3.利用正则表达式对a中的冗余信息进行清洗

4.endfor

5.将z加入分词词典中,并对a进行jieba分词并去除停用词

6.根据公式1得到z的特征词权重ws(vi)

7.foraina:

8.根据公式(2)和ws(vi)计算worda

9.计算a和b的levenshtein比率距离sima,b作为标题相似度权重

10.构建图模型,将a作为节点,并利用公式(5)对每一个a生成ws(a)

11.ta=ws(a)×(1+rl×sima,b+rw×worda)

12.endfor

13.根据ta重新对a进行排序

14.根据排序结果选择ta最大的n个句子按原顺序组合生成文档a的摘要

如算法所示,步骤1对文档正文进行分句处理;步骤2到4用于清洗冗余的无关信息;步骤5和6将特征词加入分词词典中并计算特征词权重;步骤7到12用于计算标题相似度权重sima,b和句子在文档图结构中的权重ws(a),并计算最终的累积权重加权。最后,步骤13和14对摘要进行排序,并根据原文出现的顺序生成最终的文档摘要。

本实施例通过采用抽取式方法自动生成文档摘要。首先,引入了自定义特征词用于定制化地刻画每一个句子对于读者感兴趣领域的重要程度特征,同时将标题和句子的相似度作为文档的标题相似特征。接下来,基于textrank算法对文档进行句子在整个文档图结构中重要程度排序。最后,将以上多个特征进行加权融合至textrank算法的输出中,计算文档中每个句子的累计贡献率,用于精细定制化自动提取文档摘要。实验结果证明,相较于其他的传统摘要提取算法,本实施例提供的摘要生成方法能更精准地提取出用户感兴趣的摘要信息,在rouge1和rouge2等国际公认的自动摘要评价标准中也有较好的表现,能够满足实际系统的应用需求。

需要说明的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

参照图4,示出了本申请一个实施例的一种摘要生成装置的示意图,具体可以包括如下模块:

目标文档获取模块401,用于获取待处理的目标文档,所述目标文档包括标题文本;

句子权重计算模块402,用于根据预设的特征词词典,识别所述目标文档各个句子中的特征词,根据所述特征词,计算所述各个句子的句子权重;

标题相似度计算模块403,用于分别计算所述各个句子与对应的标题文本之间的标题相似度;以及,

特征权重计算模块404,用于采用预设算法计算所述各个句子的特征权重;

累积权重计算模块405,用于根据所述句子权重、所述标题相似度和所述特征权重,分别计算所述各个句子的累积权重;

摘要生成模块406,用于根据所述各个句子及其累积权重,生成所述目标文档的摘要。

在本申请实施例中,所述目标文档获取模块401具体可以包括如下子模块:

冗余信息识别子模块,用于获取待处理的文档,采用预设的正则表达式,识别所述文档中的冗余信息,所述冗余信息包括文档代码信息、注释信息、广告信息、来源信息中的至少一种;

目标转折词识别子模块,用于根据预设的停用词表,识别所述文档的各个句子中的目标转折词,其中,所述目标转折词为所述各个句子的预设字符区间内的转折词;

冗余信息和目标转折词删除子模块,用于删除所述冗余信息和所述目标转折词,获得目标文档。

在本申请实施例中,所述句子权重计算模块402具体可以包括如下子模块:

词权重计算子模块,用于采用所述预设算法,计算所述各个句子中每个特征词的词权重;

句子权重计算子模块,用于根据所述词权重,分别计算所述各个句子的句子权重。

在本申请实施例中,所述句子权重计算子模块具体可以包括如下单元:

特征词统计单元,用于针对所述目标文档中的目标句,统计在所述目标句中每个特征词的出现次数,其中,所述目标句为所述目标文档中的任一句子;

句子权重计算单元,用于分别计算每个特征词的词权重与所述特征词的出现次数之间的乘积,将所述目标句中各个特征词对应的所述乘积相加,作为所述目标句的句子权重。

在本申请实施例中,所述标题相似度计算模块403具体可以包括如下子模块:

编辑距离计算子模块,用于分别计算所述各个句子与对应的标题文本之间的编辑距离;

标题相似度计算子模块,用于根据所述编辑距离,计算所述各个句子与对应的所述标题文本之间的标题相似度。

在本申请实施例中,所述累积权重计算模块405具体可以包括如下子模块:

权重比率确定子模块,用于确定所述句子权重、所述标题相似度和所述特征权重对应的权重比率;

累积权重计算子模块,用于针对任一句子,根据所述权重比率,对所述句子的句子权重、标题相似度和特征权重进行线性加权,获得所述句子的累积权重。

在本申请实施例中,所述摘要生成模块406具体可以包括如下子模块:

句子排序子模块,用于按照所述累积权重,对所述各个句子进行排序;

摘要生成子模块,用于提取预设排序区间内的至少一个句子,作为所述目标文档的摘要。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例部分的说明即可。

参照图5,示出了本申请一个实施例的一种终端设备的示意图。如图5所示,本实施例的终端设备500包括:处理器510、存储器520以及存储在所述存储器520中并可在所述处理器510上运行的计算机程序521。所述处理器510执行所述计算机程序521时实现上述摘要生成方法各个实施例中的步骤,例如图1所示的步骤s101至s106。或者,所述处理器510执行所述计算机程序521时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至406的功能。

示例性的,所述计算机程序521可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器520中,并由所述处理器510执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段可以用于描述所述计算机程序521在所述终端设备500中的执行过程。例如,所述计算机程序521可以被分割成目标文档获取模块、句子权重计算模块、标题相似度计算模块、特征权重计算模块、累积权重计算模块和摘要生成模块,各模块具体功能如下:

目标文档获取模块,用于获取待处理的目标文档,所述目标文档包括标题文本;

句子权重计算模块,用于根据预设的特征词词典,识别所述目标文档各个句子中的特征词,根据所述特征词,计算所述各个句子的句子权重;

标题相似度计算模块,用于分别计算所述各个句子与对应的标题文本之间的标题相似度;以及,

特征权重计算模块,用于采用预设算法计算所述各个句子的特征权重;

累积权重计算模块,用于根据所述句子权重、所述标题相似度和所述特征权重,分别计算所述各个句子的累积权重;

摘要生成模块,用于根据所述各个句子及其累积权重,生成所述目标文档的摘要。

所述终端设备500可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备500可包括,但不仅限于,处理器510、存储器520。本领域技术人员可以理解,图5仅仅是终端设备500的一种示例,并不构成对终端设备500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备500还可以包括输入输出设备、网络接入设备、总线等。

所述处理器510可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器520可以是所述终端设备500的内部存储单元,例如终端设备500的硬盘或内存。所述存储器520也可以是所述终端设备500的外部存储设备,例如所述终端设备500上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等等。进一步地,所述存储器520还可以既包括所述终端设备500的内部存储单元也包括外部存储设备。所述存储器520用于存储所述计算机程序521以及所述终端设备500所需的其他程序和数据。所述存储器520还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1