进行语句识别的方法及装置的制造方法

文档序号:8528152阅读:237来源:国知局
进行语句识别的方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术,尤其涉及进行语句识别的方法及装置。
【背景技术】
[0002]目前的信息处理应用中,常涉及对语句进行识别以确定其分类结果的场景。
[0003]例如,在网络问答系统中,用户输入自然语言文本语句,网络侧对其进行识别,得到分类结果,根据分类结果提取出对应的应答数据,反馈给用户。该实例通过对用户输入的语句进行处理分析,最终执行用户请求,返回用户所需的信息。
[0004]问答系统中,回答的准确性是比较重要的核定指标。要想回答精准,须尽可能精准的识别出语句的分类结果。
[0005]现有进行语句识别的方案一般基于普通分类模型(如支持向量机,随机森林、贝叶斯、Adaboost等)实现,具体包括:
[0006]采用实例语料对普通分类器进行训练,得到训练后的分类模型。后续在需要时,向训练后的分类模型输入语句,将返回一个分类结果。有了分类结果后,就可以调用相应的任务处理逻辑组装回答用户的问题了。
[0007]现有通过普通分类器进行语句识别的方案存在以下缺陷:由于普通分类模型基于对实例语料进行统计的方式训练得到,它识别的正确率到了一定程度后就不容易提升,并且对于一些相差非常小的语句很难识别准确。
[0008]综上,现有进行语句识别的方案具有局限性,且识别准确率低。

【发明内容】

[0009]本发明提供了一种进行语句识别的方法,该方法能够提高对语句识别的准确率。
[0010]本发明提供了一种进行语句识别的装置,该装置能够提高对语句识别的准确率。[0011 ] 一种进行语句识别的方法,该方法包括:
[0012]对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;
[0013]定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;
[0014]将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;
[0015]将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;
[0016]该方法还包括:
[0017]将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;
[0018]对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;
[0019]将几率值最大的分类结果作为待分类语句的最终识别结果。
[0020]一种进行语句识别的装置,该装置包括语料标注单元、语料训练单元和识别单元;
[0021]所述语料标注单元,对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;
[0022]所述语料训练单元,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量,当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;
[0023]所述识别单元,将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。
[0024]从上述方案可以看出,本发明中,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系,将普通分类器和映射分类器组合成弱分类器;然后采用语料样本对组合成的弱分类器进行训练,得到各弱分类器的权重。而后,基于带权重的弱分类器对待分类语句进行识别,对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。本发明采用普通分类器和映射分类器结合对待分类语句进行识别,且映射分类器中的映射关系可自行设置,这样,相比于仅采用普通分类器进行数据识别的方式,提高了识别的准确性。
【附图说明】
[0025]图1为本发明进行语句识别的方法示意性流程图;
[0026]图2为本发明进行语料训练的方法流程图实例;
[0027]图3为本发明基于带权重的弱分类器进行语句识别的方法流程图实例;
[0028]图4为本发明进行语句识别的装置结构示意图。
【具体实施方式】
[0029]为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
[0030]本发明中,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;采用普通分类器和映射分类器结合对待分类语句进行识别,且映射分类器中的映射关系可自行设置,这样,相比于仅采用普通分类器进行数据识别的方式,提高了识别的准确性。
[0031]参见图1,为本发明进行语句识别的方法示意性流程图,其包括以下步骤:
[0032]步骤101,对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取。
[0033]实例语料用于训练分类器。
[0034]对实例语料进行分类标注,给予准确的分类结果,即标准分类结果。例如,实例语料为“这个手机有什么配件”,其标准分类结果为“配件查询”。对实例语料进行特征向量提取为已有技术,同样以前述的实例语料进行说明,其特征向量包括“手机、有、什么、配件”。
[0035]步骤102,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器。
[0036]具体实现时,针对实例语料,本步骤设置出特征向量与分类结果之间的映射关系,定制出映射分类器。映射关系尤其可针对相差非常小的语句,以及一些需要特别进行分类结果设置的语句;当然,映射关系也可针对一般语句进行分类结果的映射。
[0037]映射关系可根据需要自行设置。
[0038]步骤103,将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别。
[0039]弱分类器包含映射分类器和普通分类器,当为映射分类器时,输入语料样本,便可根据特征向量在映射关系中查找出相应的分类结果,作为输出。若为弱分类器,则需要对普通分类器进行训练,采用实例语料训练普通分类器为已有技术,这里不多赘述;训练得到的分类模型可对语料样本进行分类识别,输出分类结果。
[0040]步骤104,将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重。
[0041]为了进一步提高分类准确性,还可为语料样本设置权重,并对权重进行调整;具体地,所有语料样本的初始权重可设置为相同数值,在对语料样本进行分类识别后,再进行权重调整,具体地:
[0042
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1