模板构建方法和装置、信息识别方法和装置的制造方法

文档序号:9727302阅读:199来源:国知局
模板构建方法和装置、信息识别方法和装置的制造方法
【技术领域】
[0001]本公开涉及数据处理技术,特别涉及一种模板构建方法和装置、信息识别方法和
目.ο
【背景技术】
[0002]日常生活中,用户可能会接收到各种各样的运营商短信或其他类信息。以运营商短信为例,运营商发送的话费余额提醒短信、或者剩余流量通知短信,或者,银行发送的账户信息短信,或者信用卡还款短信。这些短信都是用于通知用户一些数字信息,比如,话费余额、账户余额、剩余流量等,以使得用户及时了解这些信息。

【发明内容】

[0003]本公开提供一种模板构建方法和装置、信息识别方法和装置,以提高信息识别的准确性。
[0004]根据本公开实施例的第一方面,提供一种模板构建方法,包括:
[0005]获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
[0006]在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
[0007]对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
[0008]从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0009]根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
[0010]根据所述样本训练集中的标注结果对所述模板进行训练。
[0011]在一个例子中,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或根据信息增益从所述若干个词语中提取出所述指定特征集合。
[0012]在一个例子中,根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板,包括:将所述指定特征集合中的所述特征词和预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
[0013]在一个例子中,所述根据所述样本训练集中的标注结果对所述模板进行训练,包括:对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
[0014]在一个例子中,所述在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集,包括:在所述原始信息中包括数字信息时,根据预设关键词集合对所述数字信息进行标注,得到样本训练集,其中,所述预设关键词集合包括指示数字信息的属性的信息。
[0015]根据本公开实施例的第二方面,提供一种信息识别方法,包括:
[0016]获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
[0017]对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0018]根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0019]在一个例子中,所述方法还包括:若识别的标注结果是预设标注结果的分句的数量为多个,则将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
[0020]在一个例子中,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或根据信息增益从所述若干个词语中提取出所述指定特征集合。
[0021]在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
[0022]根据本公开实施例的第三方面,提供一种模板构建装置,包括:
[0023]样本获取模块,用于获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
[0024]样本处理模块,用于在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
[0025]分词处理模块,用于对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
[0026]特征提取模块,用于从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0027]模板构建模块,用于根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
[0028]模板训练模块,用于根据所述样本训练集中的标注结果对所述模板进行训练。
[0029]在一个例子中,所述特征提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者,根据信息增益从所述若干个词语中提取出指定特征集合。
[0030]在一个例子中,所述模板构建模块,用于将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
[0031]在一个例子中,所述模板训练模块,用于对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
[0032]在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
[0033]根据本公开实施例的第四方面,提供一种信息识别装置,包括:
[0034]分句获取模块,用于获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
[0035]词语提取模块,用于对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0036]识别处理模块,用于根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0037]在一个例子中,所述识别处理模块,用于若识别的标注结果是预设标注结果的分句的数量为多个,将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
[0038]在一个例子中,所述词语提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者根据信息增益从所述若干个词语中提取出所述指定特征集合。
[0039]在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
[0040]根据本公开实施例的第五方面,提供一种模板构建装置,包括:
[0041]处理器;
[0042]用于存储处理器可执行指令的存储器;
[0043]其中,所述处理器被配置为:获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;根据所述样本训练集中的标注结果对所述模板进行训练。
[0044]根据本公开实施例的第六方面,提供一种信息识别装置,包括:
[0045]处理器;
[0046]用于存储处理器可执行指令的存储器;
[0047]其中,所述处理器被配置为:获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0048]本公开的实施例提供的技术方案可以包括以下有益效果:通过根据包含预设关键词的样本进行训练,构建识别所用的模板,并根据该模板识别信息中的关键词标注结果,使得信息识别更加准确。
[0049]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0050]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0051 ]图1是根据一示例性实施例示出的一种模板构建方法的流程图;
[0052]图2是根据一示例性实施例示出的另一种模板构建方法的流程图;
[0053]图3是根据一示例性实施例示出的应用本公开的方法识别短信中数字信息的系统;
[0054]图4是根据一示例性实施例示出的又一种模板构建方法的流程图;
[0055]图5是根据一示例性实施例示出的又一种模板构建方法的流程图;
[0056]图6是根据一示例性实施例示出的一种快捷接口的显示方式;
[0057]图
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1