一种文本模式学习方法及电子设备与流程

文档序号:11829837阅读:157来源:国知局
一种文本模式学习方法及电子设备与流程

本发明涉及文本识别领域,特别是涉及一种文本模式学习方法及电子设备。



背景技术:

随着信息技术的不断发展,电子设备接收到的信息也越来越多。电子设备接收到的信息增多,使得电子设备的用户需要处理的信息量也增加。

但是,并非所有的信息都是需要用户进行处理的。一部分信息可以从某种程度上归类为垃圾信息。例如,内容为“还在为发票犯愁吗?我司办理国税、地税和增值税等各种发票,李经理13566666666”的短信,通常被归类为垃圾短信。

为了节省用户的时间,提高用户的使用感受,现有技术中,在将信息显示给用户之前,采用文本识别方法对信息内容进行筛选、过滤。该文本识别方法主要是预先设置一些被确定为垃圾短信的语言模式,将接收到的信息与预先设置的语言模式进行比对,如果比对成功,则将该信息确定为垃圾短信。

但是,现有技术中对于垃圾短信的语言模式的确定方法,主要是人工总结。人工总结,需要人工浏览文本,并进行模式整理,因此时间成本和人力成本较高,且难以将各种模式总结完全。



技术实现要素:

本发明的目的是提供一种文本模式学习方法及电子设备,可以利用已有的语言模式从语料库中学习得到更多的语言模式,从而降低时间成本和人力成本,并且可以总结出较为完全的语言模式。

为实现上述目的,本发明提供了如下方案:

一种文本模式学习方法,包括:

获取初始文本模式;

将所述初始文本模式拆分为多个第一子模式;

基于所述第一子模式,从语料库中确定第一文本集合;

学习所述第一文本集合,得到第一扩展模式。

可选的,所述从语料库中确定第一文本集合,具体包括:

从语料库中确定与该第一子模式相匹配的第一文本集合。

可选的,所述学习所述第一文本集合,得到第一扩展模式之后,还包括:

评价各个所述第一扩展模式;

从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。

可选的,所述确定评分大于预设阈值的第二扩展模式之后,还包括:

合并所述初始文本模式和所述第二扩展模式,得到更新后的初始文本模式;

将所述更新后的初始文本模式拆分为多个第二子模式;

对于任意一个第二子模式,从语料库中确定与该第二子模式相匹配的第二文本集合;

学习所述第二文本集合,得到第三扩展模式。

可选的,所述将所述初始文本模式拆分为多个第一子模式,具体包括:

从所述初始文本模式拆分出前缀模式;所述前缀模式至少包含所述初始文本模式的首字符;

从所述初始文本模式拆分出后缀模式;所述后缀模式至少包含所述初始文本模式的末字符。

可选的,所述从语料库中确定第一文本集合,具体包括:

确定同时与任意一个所述第一子模式及任意一个所述初始文本模式相匹 配的第一文本集合。

一种电子设备,包括:

初始文本模式获取单元,用于获取初始文本模式;

第一拆分单元,用于将所述初始文本模式拆分为多个第一子模式;

第一文本集合确定单元,用于基于所述第一子模式,从语料库中确定第一文本集合;

第一学习单元,用于学习所述第一文本集合,得到第一扩展模式。

可选的,所述第一文本集合确定单元,具体包括:

第一文本集合确定子单元,用于从语料库中确定与该第一子模式相匹配的第一文本集合。

可选的,还包括:

评价单元,用于在学习所述第一文本集合,得到第一扩展模式之后,评价各个所述第一扩展模式;

第二扩展模式确定单元,用于从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。

可选的,还包括:

合并单元,用于在确定评分大于预设阈值的第二扩展模式之后,合并所述初始文本模式和所述第二扩展模式,得到更新后的初始文本模式;

第二拆分单元,用于将所述更新后的初始文本模式拆分为多个第二子模式;

第二文本集合确定单元,用于对于任意一个第二子模式,从语料库中确定与该第二子模式相匹配的第二文本集合;

第二学习单元,用于学习所述第二文本集合,得到第三扩展模式。

可选的,所述第一拆分单元,具体包括:

前缀模式拆分子单元,用于从所述初始文本模式拆分出前缀模式;所述前缀模式至少包含所述初始文本模式的首字符;

后缀模式拆分子单元,用于从所述初始文本模式拆分出后缀模式;所述后缀模式至少包含所述初始文本模式的末字符。

可选的,所述第一文本集合确定单元,具体包括:

第二文本集合确定子单元,用于确定同时与任意一个所述第一子模式及任意一个所述初始文本模式相匹配的第一文本集合。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明实施例中的文本模式学习方法及电子设备,通过将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式;可以利用已有的语言模式从语料库中学习得到更多的语言模式,从而降低时间成本和人力成本,并且可以总结出较为完全的语言模式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的文本模式学习方法实施例1的流程图;

图2为本发明的文本模式学习方法实施例2的流程图;

图3为本发明的文本模式学习方法实施例3的流程图;

图4为本发明的电子设备实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的文本模式学习方法,可以应用于具有数据处理功能的电子设备。所述电子设备可以是手机、平板电脑、台式机、服务器等等。

图1为本发明的文本模式学习方法实施例1的流程图。如图1所示,该方法可以包括:

步骤101:获取初始文本模式;

所述初始文本模式,也可以称为种子模式。所述初始文本模式,是预先总结得到的可以用于识别某种特定类型的文本的模式。

例如,一个初始文本模式为“我司提供发票”。根据该文本模式可以对垃圾短信进行识别。假设一条短信中存在“我司提供发票”的短语,则可以将该短信识别为垃圾短信。

步骤102:将所述初始文本模式拆分为多个第一子模式;

可以对所述初始文本模式进行拆分。例如,可以将所述初始文本模式拆分为前缀模式和后缀模式。假设对“我司提供发票”这一初始文本模式进行拆分,至少可以拆分出“我司提供”这一前缀模式,和“提供发票”这一后缀模式。

步骤103:基于所述第一子模式,从语料库中确定第一文本集合;

所述语料库,是一些语句的集合,是进行文本模式学习的素材。假设需要学习垃圾短信的文本模式,则所述语料库中的语句可以是来自于垃圾短信的语句。

所述第一子模式可以有多个。对于每一个第一子模式,可以从语料库中确 定出第一文本集合。所述第一文本集合可以是与所述第一子模式相匹配的文本集合,也可以是与某一个第一子模式和某一个初始文本模式同时匹配的文本集合。

步骤104:学习所述第一文本集合,得到第一扩展模式。

由于所述第一子模式有多个,所以所述第一文本集合也可以有多个。对于任意一个第一文本集合,可以从所述第一文本集合中学习得到新的模式。

对于所述第一文本集合的学习过程,主要是分析所述第一文本集合中的语句之间所存在的相同特征,将该相同特征确定为新的文本模式。

为便于理解本发明,下面举一个更加具体的例子来说明上述方法的优点。

仍然以“我司提供发票”这一初始文本模式为例,将其拆分出“我司提供”这一前缀模式,和“提供发票”这一后缀模式。语料库中,与“我司提供”这一前缀模式相匹配的文本(即所述第一文本集合),包括:“我司提供各种贷款业务”、“我司提供多种金融业务”、“我司提供房屋租赁业务”。则从与前缀模式相匹配的第一文本集合中,可以学习得到“我司提供……业务”这一模式。语料库中,与“提供发票”这一后缀模式相匹配的文本(即所述第一文本集合),包括:“我司办理国税、地税和增值税等各种业务,提供发票”、“我司代办增值税,提供发票”、“还在为增值税发愁吗?我司提供增值税发票”。则从与后缀模式相匹配的第一文本集合中,可以学习得到“……增值税……”这一模式。

综上所述,本实施例中,通过将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式;可以利用已有的语言模式从语料库中学习得到更多的语言模式,从而降低时间成本和人力成本,并且可以总结出较为完全的语言模式。

实际应用中,为了确保学习到的扩展模式对于特定类型的文本具有较高的识别精度,所述学习所述第一文本集合,得到第一扩展模式之后,还可以包括下述步骤:

评价各个所述第一扩展模式;

从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。

上述步骤中,评分越高,表示该第一扩展模式对于文本的识别率越高,识别结果越准确。评分越低,表示该第一扩展模式对于文本的识别率越低,识别结果越不准确。

所述预设阈值可以根据实际需求进行设置。当评分大于预设阈值时,则可以判定对应的扩展模式对于文本的识别率较高。因此,上述步骤可以对第一扩展模式进行筛选,从中筛选出识别率较高的扩展模式。

图2为本发明的文本模式学习方法实施例2的流程图。如图2所示,该方法可以包括:

步骤201:获取初始文本模式;

步骤202:将所述初始文本模式拆分为多个第一子模式;

步骤203:基于所述第一子模式,从语料库中确定第一文本集合;

步骤204:学习所述第一文本集合,得到第一扩展模式。

步骤205:评价各个所述第一扩展模式;

步骤206:从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。

步骤207:合并所述初始文本模式和所述第二扩展模式,得到更新后的初始文本模式;

所述合并,可以理解为数学中的集合的合并。合并所述初始文本模式和所述第二扩展模式之后,得到的更新后的初始文本模式中,包含有所述初始文本模式和所述第二扩展模式中的全部模式。

步骤208:将所述更新后的初始文本模式拆分为多个第二子模式;

步骤209:对于任意一个第二子模式,从语料库中确定与该第二子模式相匹配的第二文本集合;

步骤210:学习所述第二文本集合,得到第三扩展模式。

步骤207至210,相当于是步骤201至步骤204的循环。实际应用中,可以重复执行该循环,直至更新后的初始文本模式不再发生变化。这样,可以确保得到最完全的文本模式。

此外,对于每个循环中得到的扩展模式,均可以评价各个所述扩展模式;从所述扩展模式中,确定评分大于预设阈值的扩展模式的步骤,来筛选出识别率较高的扩展模式。

需要说明的是,本发明实施例中的所述前缀模式至少包含所述初始文本模式的首字符;所述后缀模式至少包含所述初始文本模式的末字符。

此外,本发明实施例中,从所述从语料库中确定第一文本集合,具体可以包括:

确定同时与任意一个所述第一子模式及任意一个所述初始文本模式相匹配的第一文本集合。

本发明实施例中的各个步骤可以相互组合使用,得到各种不同的实现方式。例如下面的实施例。

图3为本发明的文本模式学习方法实施例3的流程图。如图3所示,该方法可以包括:

步骤301:将初始文本模式拆分成多个前缀模式和后缀模式;

步骤302:对于任意一个前缀模式,确定与该前缀模式匹配的第一文本集合;

由于每个前缀模式具有一个对应的第一文本集合,而前缀模式可以有多个。因此可以得到多个第一文本集合。

步骤303:对于任意一个后缀模式,确定与该后缀模式匹配的第二文本集合。

与步骤302同理,可以得到多个第二文本集合。

步骤304:从第一文本集合中学习到第一扩展模式;

步骤305:从第二文本集合中学习到第二扩展模式;

步骤306:确定同时与前后缀模式中的任意一个模式及初始文本模式中 的任意一个模式相匹配的第三文本集合;

步骤307:从第三文本集合中学习到第三扩展模式;

步骤308:合并所述第一扩展模式、第二扩展模式和第三扩展模式,得到扩展模式集合;

步骤309:评价扩展模式集合中的各个模式,得到评分较高的扩展模式;

步骤310:将当前的初始文本模式与评分较高的扩展模式合并,得到更新后的初始文本模式。

重复上述步骤,直至更新后的初始文本模式不再变化。

本实施例相对于上述两个实施例,由于合并的扩展模式的数量增多,所以可以学习得到更多的扩展模式。

本发明还公开了一种电子设备。所述电子设备可以是具有数据处理功能的电子设备。例如,所述电子设备可以是手机、平板电脑、台式机、服务器等等。

图4为本发明的电子设备实施例的结构图。如图4所示,该电子设备可以包括:

初始文本模式获取单元401,用于获取初始文本模式;

第一拆分单元402,用于将所述初始文本模式拆分为多个第一子模式;

第一文本集合确定单元403,用于基于所述第一子模式,从语料库中确定第一文本集合;

第一学习单元404,用于学习所述第一文本集合,得到第一扩展模式。

本实施例中,通过将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式;可以利用已有的语言模式从语料库中学习得到更多的语言模式,从而降低时间成本和人力成本,并且可以总结出较为完全的语言模式。

实际应用中,所述第一文本集合确定单元403,具体可以包括:

第一文本集合确定子单元,用于从语料库中确定与该第一子模式相匹配的第一文本集合。

实际应用中,该电子设备还可以包括:

评价单元,用于在学习所述第一文本集合,得到第一扩展模式之后,评价各个所述第一扩展模式;

第二扩展模式确定单元,用于从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。

实际应用中,该电子设备还可以包括:

合并单元,用于在确定评分大于预设阈值的第二扩展模式之后,合并所述初始文本模式和所述第二扩展模式,得到更新后的初始文本模式;

第二拆分单元,用于将所述更新后的初始文本模式拆分为多个第二子模式;

第二文本集合确定单元,用于对于任意一个第二子模式,从语料库中确定与该第二子模式相匹配的第二文本集合;

第二学习单元,用于学习所述第二文本集合,得到第三扩展模式。

实际应用中,所述第一拆分单元402,具体可以包括:

前缀模式拆分子单元,用于从所述初始文本模式拆分出前缀模式;所述前缀模式至少包含所述初始文本模式的首字符;

后缀模式拆分子单元,用于从所述初始文本模式拆分出后缀模式;所述后缀模式至少包含所述初始文本模式的末字符。

实际应用中,所述第一文本集合确定单元403,具体可以包括:

第二文本集合确定子单元,用于确定同时与任意一个所述第一子模式及任意一个所述初始文本模式相匹配的第一文本集合。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1