一种基于用户使用场景的输入识别结果校正方法和系统的制作方法

文档序号：9687480阅读：301来源：国知局

一种基于用户使用场景的输入识别结果校正方法和系统的制作方法
【技术领域】
[0001]本发明涉及输入结果校正领域，尤其涉及一种基于用户使用场景的输入识别结果校正方法和系统。
【背景技术】
[0002]现有的输入校正领域，通常采用统计或机器学习的方法，来获取输入校正过程中各个步骤所需的模型，基于模型逐步过滤和得到校正集合。但是这种处理方案由于缺乏针对性，对每个用户的输入进行校正的过程基本是相同的，因而导致校正的准确性不高，例如，接收到不同用户的语音“wuyi ”，通过初始识别得到对应的文本为“武义”，可能通通校正成“五一”或“武夷”，即不能根据不同用户提供更具针对性的校正结果。

【发明内容】

[0003]本发明解决的技术问题之一是提升输入识别结果校正的准确率。
[0004]根据本发明的一个方面的一个实施例，提供了一种基于用户使用场景的输入识别结果校正方法，其中所述输入识别结果是通过识别用户输入所产生的，所述校正方法包括:
[0005]针对输入识别结果的词，产生对应的候选校正词集合；
[0006]基于获取的场景信息，计算该词和对应的候选校正词集合中的各词的特征向量；
[0007]基于该词和对应的候选校正词集合中的各词的特征向量，计算该词和对应的候选校正词集合中的各词的分数，根据计算出的分数校正输入识别结果。
[0008]根据本发明的一个实施例，针对输入识别结果的词产生对应的候选校正词集合的步骤包括:
[0009]针对输入识别结果的每个字，在字表中查找邻近字；
[0010]根据在字表中查找到的邻近字的组合可能性，产生候选校正词。
[0011]根据本发明的一个实施例，针对输入识别结果的每个字在字表中查找邻近字的步骤包括:
[0012]如果用户输入是基于语音或拼音的输入，在字表中查找语音上的距离近的字作为邻近字；
[0013]如果用户输入是基于字形的输入，在字表中查找字形上的距离近的字作为邻近字。
[0014]根据本发明的一个实施例，根据在字表中查找到的邻近字的组合可能性产生候选校正词的步骤包括:使用n-gram语言模型产生候选校正词。
[0015]根据本发明的一个实施例，获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。
[0016]根据本发明的一个实施例，该词和对应的候选校正词集合中的各词的特征向量中的至少一部分特征基于用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项计算。
[0017]根据本发明的一个实施例，计算该词和对应的候选校正词集合中的各词的分数的步骤包括:使用评分函数计算该词和对应的候选校正词集合中的各词的分数。
[0018]根据本发明的一个实施例，评分函数的系数是通过语料库的训练获得的。
[0019]根据本发明另一个方面的一个实施例，提供了一种基于用户使用场景的输入识别结果校正系统，其中所述输入识别结果是通过识别用户输入所产生的，所述校正系统包括:
[0020]候选校正词产生装置，被配置为针对输入识别结果的词，产生对应的候选校正词集合;
[0021]计算装置，被配置为基于获取的场景信息，计算该词和对应的候选校正词集合中的各词的特征向量；
[0022]识别装置，被配置为基于该词和对应的候选校正词集合中的各词的特征向量，计算该词和对应的候选校正词集合中的各词的分数，根据计算出的分数校正输入识别结果。
[0023]根据本发明的一个实施例，候选校正词产生装置被配置为:
[0024]针对输入识别结果的每个字，在字表中查找邻近字；
[0025]根据在字表中查找到的邻近字的组合可能性，产生候选校正词。
[0026]根据本发明的一个实施例，候选校正词产生装置被配置为:
[0027]如果用户输入是基于语音或拼音的输入，在字表中查找语音上的距离近的字作为邻近字；
[0028]如果用户输入是基于字形的输入，在字表中查找字形上的距离近的字作为邻近字。
[0029]根据本发明的一个实施例，候选校正词产生装置被配置为:
[0030]使用n-gram语言模型产生候选校正词。
[0031]根据本发明的一个实施例，获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。
[0032]根据本发明的一个实施例，该词和对应的候选校正词集合中的各词的特征向量中的至少一部分特征基于用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项计算。
[0033]根据本发明的一个实施例，识别装置被配置为:
[0034]使用评分函数计算该词和对应的候选校正词集合中的各词的分数。
[0035]根据本发明的一个实施例，评分函数的系数是通过语料库的训练获得的。
[0036]与现有技术中针对不同用户基于相同的模型来校正相比，本实施例通过结合获取的场景信息，可以有效地针对不同的用户的输入识别结果进行个性化校正，以提升校正的准确性。
[0037]本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。
【附图说明】
[0038]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显:
[0039]图1示出根据本发明一个实施例的基于用户使用场景的输入识别结果校正方法的流程图；
[0040]图2示出了根据本发明一个实施例的基于用户使用场景的输入识别结果校正系统的示意性框图；
[0041 ] 附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0042]下面结合附图对本发明作进一步详细描述。
[0043]图1示出根据本发明一个实施例的基于用户使用场景的输入识别结果校正方法的流程图，其中所述输入识别结果是通过识别用户输入所产生的。用户输入的方式可以包括各种输入方式，诸如手写输入和语音输入，在此不作限制。对于其中的手写输入，可以分为字形输入和拼音输入。
[0044]对于手写输入的文字，所述输入识别结果即为该输入的文字，例如，用户手写输入的文字为“武艺山上人多吗”，则输入识别结果为“武艺山上人多吗”;对于语音输入的内容，所述输入识别结果即为基于任一前端识别系统识别出的与语音对应的初始文本，例如，用户语音输入的内容为“wuyishanshangrenduoma”,则基于某一前端识别系统识别出的对应初始文本为“武艺山上人多吗”。
[0045]根据图1，所述校正方法包括:
[0046]步骤S101，针对输入识别结果的词，产生对应的候选校正词集合。在本实施例中，为便于描述，将输入识别结果中的字或词都作为输入识别结果的一个子串来看待，这些子串通过任一已知切词技术得到，在此不作限定。例如，将“武艺山上人多吗”切分为“武艺/山/上/人/多/吗”。针对输入识别结果中的子串，产生对应的候选校正字/词集合，例如对于子串“武艺”，产生对应的候选校正词“五一”。
[0047]可选地，针对输入识别结果的词产生对应的候选校正词集合的步骤包括:
[0048]针对输入识别结果的每个字/词，在字表中查找邻近字/词；
[0049]根据在字/词表中查找到的邻近字/词的组合可能性，产生候选校正字/词。
[0050]在本实施例中，对于不同的输入方式，邻近字/词的定义方式是不同的。例如，如果用户输入是基于语音或拼音的输入，在字/词表中查找语音上的距离近的字作为邻近字/词。以拼音的输入内容“yi”为例，在子/词表中查找到语音上距离近的字“以”或/和“已”作为该拼音输入内容的邻近字；
[0051]如果用户输入是基于字形的输入，在字表中查找字形上的距离近的字/词作为邻近字/词。以字形输入的内容“已”为例，在子/词表中查找到字形上距离近的字“己”作为该字形输入内容的邻近字。
[0052]当然，除通过查找字/词表的方式来生成候选校正字/词集合以外，也可以直接根据用户的查询记录生成可能的候选校正集，举例而言，用户的历史查询记录中出现过“武夷山上人多吗”、“五一山上人多吗”，则当用户输入“

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈李斌;雷欣;
技术所有人：北京羽扇智信息科技有限公司;
我是此专利的发明人

上一篇：一种确定业务对象关键词的方法及装置的制造方法
上一篇：验证网页分类模型的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。