1.一种语音纠错方法,其特征在于,包括:
接收用户语音数据;
确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;
根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;
将纠错后的内容反馈给用户。
2.根据权利要求1所述的方法,其特征在于,如果当前纠错模式为语义纠错模式,所述根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错,包括:
对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据;
根据所述识别文本数据确定纠错信息,并根据所述纠错信息对待纠错内容进行纠错,得到纠错后的内容。
3.根据权利要求2所述的方法,其特征在于,所述根据所述识别文本数据确定纠错信息,包括:
根据所述识别文本数据和预设的纠错规则,确定纠错信息;
和/或,
提取所述识别文本数据和待纠错内容的纠错特征,根据所述纠错特征和预先构建的语音纠错模型,确定纠错信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述识别文本数据和预设的纠错规则,确定纠错信息,包括:
根据所述识别文本数据确定当前适用的纠错规则,以及,对所述识别文本数据与所述当前适用的纠错规则进行匹配,确定纠错信息;或者,
对所述识别文本数据与每种纠错规则进行匹配,确定纠错信息。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述纠错信息包括:
错误词和纠错词;纠错词和纠错位置;错误词和纠错位置;或者,错误词、纠错词和纠错位置。
6.根据权利要求1所述的方法,其特征在于,如果当前纠错模式为索引纠错模式,所述根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错,包括:
为待纠错内容建立候选内容及候选索引;
对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据,所述识别文本数据包括:纠错索引;
在待纠错内容中,用所述纠错索引对应的候选内容替换对应的错误内容,得到纠错后的内容。
7.根据权利要求6所述的方法,其特征在于,如果待纠错内容为待纠错文本数据,则所述候选内容为候选词,所述为待纠错内容建立候选内容及候选索引,包括:
对待纠错文本数据进行分词;
为分词得到的词构建索引;
确定所述词对应的词对词,并确定所述词对词的候选得分;
根据所述词对应的词对词的候选得分,确定所述词的候选词,以及根据所述词的索引和所述候选词的候选得分,为所述候选词构建候选索引。
8.根据权利要求1所述的方法,其特征在于,所述待纠错内容包括:
文本数据和非文本数据。
9.一种语音纠错装置,其特征在于,包括:
接收模块,用于接收用户语音数据;
确定模块,用于确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;
纠错模块,用于根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;
反馈模块,用于将纠错后的内容反馈给用户。
10.根据权利要求9所述的装置,其特征在于,如果当前纠错模式为语义纠错模式,所述纠错模块包括:
语音识别子模块,用于对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据;
纠错子模块,用于根据所述识别文本数据确定纠错信息,并根据所述纠错信息对待纠错内容进行纠错,得到纠错后的内容。
11.根据权利要求10所述的装置,其特征在于,所述纠错子模块用于根据所述识别文本数据确定纠错信息,包括:
根据所述识别文本数据和预设的纠错规则,确定纠错信息;
和/或,
提取所述识别文本数据和待纠错内容的纠错特征,根据所述纠错特征和预先构建的语音纠错模型,确定纠错信息。
12.根据权利要求10所述的装置,其特征在于,所述纠错子模块用于根据所述识别文本数据和预设的纠错规则,确定纠错信息,包括:
根据所述识别文本数据确定当前适用的纠错规则,以及,对所述识别文本数据与所述当前适用的纠错规则进行匹配,确定纠错信息;或者,
对所述识别文本数据与每种纠错规则进行匹配,确定纠错信息。
13.根据权利要求10-12任一项所述的方法,其特征在于,所述纠错信息包括:
错误词和纠错词;纠错词和纠错位置;错误词和纠错位置;或者,错误词、纠错词和纠错位置。
14.根据权利要求9所述的方法,其特征在于,如果当前纠错模式为索引纠错模式,所述纠错模块包括:
建立子模块,用于为待纠错内容建立候选内容及候选索引;
语音识别子模块,用于对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据,所述识别文本数据包括:纠错索引;
纠错子模块,用于在待纠错内容中,用所述纠错索引对应的候选内容替换对应的错误内容,得到纠错后的内容。
15.根据权利要求14所述的装置,其特征在于,如果待纠错内容为待纠错文本数据,则所述候选内容为候选词,所述建立子模块具体用于:
对待纠错文本数据进行分词;
为分词得到的词构建索引;
确定所述词对应的词对词,并确定所述词对词的候选得分;
根据所述词对应的词对词的候选得分,确定所述词的候选词,以及根据所述词的索引和所述候选词的候选得分,为所述候选词构建候选索引。
16.根据权利要求9所述的装置,其特征在于,所述待纠错内容包括:
文本数据和非文本数据。