一种根据关键词抽取文本摘要的算法的制作方法

文档序号:13519370阅读:1126来源:国知局

本发明涉及文本内容的抽取技术领域,具体涉及一种根据关键词抽取文本摘要的算法。



背景技术:

随着信息时代的发展,电子文档的数量正急剧增长。面对越来越多的文本资料,人们对文本进行选择性阅读的需求越来越高。根据关键词自动准确地抽取文本中的摘要内容是提高获取关键信息或选择性阅读的一种重要手段。

文本关键词自动提取算法已经有几十年的发展历史,目前大多数算法只关注待提取关键词的文本本身,但由于文本其本身的信息量有限,文本关键词的提取准确率受到了极大的限制。



技术实现要素:

本发明的目的是为了解决现有技术中的上述缺陷,提供一种根据关键词抽取文本摘要的算法。

本发明的目的可以通过采取如下技术方案达到:

一种根据关键词抽取文本摘要的算法,所述的算法包括下列步骤:

s1、对文本进行段落拆分,将文本拆分成不同的段落,保存到一个集合中;

s2、针对不同的段落,依次确定关键词在段落中的起始位置;

s3、用关键词将段落拆分为不含关键词的段落集合;

s4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;

s5、将抽取的摘要放入集合中;

s6、判断每个段落是否完成摘要抽取,若否,则转至步骤s2,若是,则结束算法。

进一步地,所述的步骤s4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体包括下列子步骤:

s401、获取关键词前的所有文字字符;

s402、判断关键词前的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词前的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;

s403、获取关键词后的所有文字字符;

s404、判断关键字后的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词后的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;

s405、将关键词前抽取的摘要内容、关键词及关键词后抽取的摘要内容进行组合。

进一步地,所述的关键词可根据需要选定。

进一步地,所述的关键词前后待抽取文字长度可设置,用于调整到最合适的抽取效果。

进一步地,所述的步骤s4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体如下:

在段落中,截取关键词后指定个数的文字,当关键词后指定个数文字中又出现了新的关键词,则再往后抽取指定个数个文字,以此类推,直到该段落没有关键词为止;而如果同一段落中关键字之间相差超过指定个数个文字,超过的部分用省略号代替。

本发明相对于现有技术具有如下的优点及效果:

根据本发明提出的一种根据关键词抽取文本摘要的算法,对大量文本,在没有必要或没有时间进行仔细阅读的情况下,可以根据关键词抽取出部分摘要信息进行概要阅读,如果发现本文有仔细阅读价值,再进行详细阅读。该根据关键词抽取文本摘要的算法特别适合在大量文本中提取自己关注的内容。

附图说明

图1是本发明公开的一种根据关键词抽取文本摘要的算法的总体流程图;

图2是本发明中根据关键词对段落进行摘要抽取的子步骤流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

本实施例公开了一种根据关键词抽取文本摘要的算法,本算法的目的是解决如何快速从文本中获取所关注的内容。

如图1所示,图1公开了一种根据关键词抽取文本摘要的算法的总体流程图,具体包括下列步骤:

s1、对文本进行段落拆分,用回车换行符将文本拆分成不同的段落,保存到一个集合中;

s2、针对不同的段落,依次确定关键词在段落中的起始位置;

s3、用关键词将段落拆分为不含关键词的段落集合;

s4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;

s5、将抽取的摘要放入集合中;

s6、判断每个段落是否完成摘要抽取,若否,则转至步骤s2,若是,则结束算法。

执行结束后即获得了指定关键词前后指定长度的文本摘要。

其中,附图2中给出了步骤s4、根据关键词对段落进行摘要抽取的子步骤流程图,如图2所示,步骤s4具体包括下列子步骤:

s401、获取关键词前的所有文字字符;

s402、获取关键词后的所有文字字符;

s403、判断关键词前的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词前的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;

s404、判断关键字后的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词后的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;

s405、将关键词前抽取的摘要内容、关键词及关键词后抽取的摘要内容进行组合。

其中,关键词可根据需要选定,关键词前后待抽取文字长度可设置,用于调整到最合适的抽取效果。

在段落中,截取关键词后指定个数的文字,当关键词后指定个数文字中又出现了新的关键词,则再往后抽取指定个数个文字,以此类推,直到该段落没有关键词为止。而如果同一段落中关键字之间相差超过指定个数个文字,超过的部分用省略号代替。

综上所述,上述根据关键词抽取文本摘要的算法,对大量文本,在没有必要或没有时间进行仔细阅读的情况下,可以根据关键词抽取出部分摘要信息进行概要阅读,如果发现本文有仔细阅读价值,再进行详细阅读。该根据关键词抽取文本摘要的算法特别适合在大量文本中提取自己关注的内容。同时,上述算法支持多种语言文本的文字抽取,比如,常用的中文、英文、法文等等,同样是由选定关键词,比如中文是几个字符,然后指定关键词前后待抽取文字长度是文字的若干个数;比如英文可以是一个单词或者几个单词,指定关键词前后待抽取文字长度是单词的若干个数或者拉丁字母的若干个数。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了一种根据关键词抽取文本摘要的算法,包括下列步骤:S1、将文本拆分成不同的段落,保存到一个集合中;S2、针对不同的段落,依次确定关键词在段落中的起始位置;S3、用关键词将段落拆分为不含关键词的段落集合;S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;S5、将抽取的摘要放入集合中;S6、判断每个段落是否完成摘要抽取,若否,则转至步骤S2,若是,则结束算法。该算法对大量文本在没有必要或没有时间进行仔细阅读的情况下,可以根据关键词抽取出部分摘要信息进行概要阅读,如果发现本文有仔细阅读价值,再进行详细阅读。该根据关键词抽取文本摘要的算法特别适合在大量文本中提取自己关注的内容。

技术研发人员:王辉
受保护的技术使用者:广州慧睿思通信息科技有限公司
技术研发日:2017.09.01
技术公布日:2018.01.23
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1