1.一种自适应的识别方法,其特征在于,包括:
根据用户历史语料构建用户个性化词典;
对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号;
根据所述个性化词所属类编号构建语言模型;
在对用户输入的信息进行识别时,如果所述信息中的词存在于所述用户个性化词典中,则根据该词对应的个性化词所属类编号对解码路径进行扩展,得到扩展后的解码路径;
根据扩展后的解码路径对所述信息进行解码,得到多个候选解码结果;
根据所述语言模型计算各候选解码结果的语言模型得分;
选取语言模型得分最高的候选解码结果作为所述信息的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据用户历史语料构建用户个性化词典包括:
获取用户历史语料,所述用户历史语料包括以下任意一种或多种:用户语音输入日志、用户文本输入日志、用户浏览文本信息;
根据所述用户历史语料进行个性化词发现,得到个性化词;
将所述个性化词添加到用户个性化词典中。
3.根据权利要求1所述的方法,其特征在于,所述个性化词包括:易错个性化词和天然个性化词;所述易错个性化词是指对用户输入信息进行识别时,经常出错的词;所述天然个性化词是指对用户输入信息进行识别时,可以通过用户的本地存储信息直接找到的词或根据该词扩展的词。
4.根据权利要求1所述的方法,其特征在于,所述对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号包括:
确定所述个性化词的词向量及其左右邻接词的词向量;
根据所述个性化词的词向量及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号。
5.根据权利要求4所述的方法,其特征在于,所述确定所述个性化词 及其左右邻接词的词向量包括:
对所述用户历史语料进行分词;
对分词得到的各词进行向量初始化,得到各词的初始词向量;
利用神经网络对各词的初始词向量进行训练,得到各词的词向量;
根据所有用户个性化词典得到所有个性化词,并根据所述个性化词所在用户历史语料,得到所述个性化词的左右邻接词;
提取所述个性化词的词向量及其左右邻接词的词向量。
6.根据权利要求4所述的方法,其特征在于,所述根据所述个性化词及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号包括:
根据各个性化词的词向量、左右邻接词的词向量、以及词向量的TF_IDF值计算个性化词向量之间的距离;
根据所述距离进行聚类,得到每个个性化词所属类编号。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述个性化词所属类编号构建语言模型包括:
采集训练语料;
将所述训练语料中的个性化词替换为所述个性化词所属类编号,得到替换后的语料;
将采集的训练语料及替换后的语料作为训练数据,训练得到语言模型。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述识别结果中包含个性化词的类编号,则将该类编号替换为其对应的个性化词。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述用户输入的信息进行个性化词发现,如果有新的个性化词,则将新的个性化词添加到所述用户的个性化词典中,以更新所述用户的个性化词典;如果有用户的个性化词典做了更新,则根据更新后的个性化词典,更新所述语言模型;或者
定时根据用户历史语料对各用户个性化词典及所述语言模型进行更新。
10.一种自适应的识别系统,其特征在于,包括:
个性化词典构建模块,用于根据用户历史语料构建用户个性化词典;
聚类模块,用于对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号;
语言模型构建模块,用于根据所述个性化词所属类编号构建语言模型;
解码路径扩展模块,用于在对用户输入的信息进行识别时,如果所述信息中的词存在于所述用户个性化词典中,则根据该词对应的个性化词所属类编号对解码路径进行扩展,得到扩展后的解码路径;
解码模块,用于根据扩展后的解码路径对所述信息进行解码,得到多个候选解码结果;
语言模型得分计算模块,用于根据所述语言模型计算各候选解码结果的语言模型得分;
识别结果获取模块,用于选取语言模型得分最高的候选解码结果作为所述信息的识别结果。
11.根据权利要求10所述的系统,其特征在于,所述个性化词典构建模块包括:
历史语料获取单元,用于获取用户历史语料,所述用户历史语料包括以下任意一种或多种:用户语音输入日志、用户文本输入日志、用户浏览文本信息;
个性化词发现单元,用于根据所述用户历史语料进行个性化词发现,得到个性化词;
个性化词典生成单元,用于将所述个性化词添加到用户个性化词典中。
12.根据权利要求10所述的系统,其特征在于,所述聚类模块包括:
词向量训练单元,用于确定所述个性化词的词向量及其左右邻接词的词向量;
词向量聚类单元,用于根据所述个性化词的词向量及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号。
13.根据权利要求12所述的系统,其特征在于,所述词向量训练单元 包括:
分词子单元,对所述用户历史语料进行分词;
初始化子单元,用于对分词得到的各词进行向量初始化,得到各词的初始词向量;
训练子单元,用于利用神经网络对各词的初始词向量进行训练,得到各词的词向量;
查找子单元,用于根据所有用户个性化词典得到所有个性化词,并根据所述个性化词所在用户历史语料,得到所述个性化词的左右邻接词;
提取子单元,用于提取所述个性化词的词向量及其左右邻接词的词向量。
14.根据权利要求12所述的系统,其特征在于,所述词向量聚类单元包括:
距离计算子单元,用于根据各个性化词的词向量、左右邻接词的词向量、以及词向量的TF_IDF值计算个性化词向量之间的距离;
距离聚类子单元,用于根据所述距离进行聚类,得到每个个性化词所属类编号。
15.根据权利要求10至14任一项所述的系统,其特征在于,所述语言模型构建模块包括:
语料采集单元,用于采集训练语料;
语料处理单元,用于将所述训练语料中的个性化词替换为所述个性化词所属类编号,得到替换后的语料;语言模型训练单元,用于将采集的训练语料及替换后的语料作为训练数据,训练得到语言模型。
16.根据权利要求10所述的系统,其特征在于,
所述识别结果获取模块,还用于在所述识别结果中包含个性化词的类编号时,将该类编号替换为其对应的个性化词。