语音识别装置及其控制方法_2

文档序号：9867721阅读：来源：国知局

识别装置100中处理(service)的内容的列表的内容列表、作为事先收集用户很可能说出的句子的列表的语言资料库、以及针对用户之前实际说过的句子的识别结果的话语日志。例如，响应于语音识别装置100是显示装置(例如电视(TV))，各种广播节目的标题可以在存储单元140中存储为内容列表。例如“搜索XXX”、“提高音量”、“频道增加”、或“当播放《绝命毒师》时提醒我(remind me when breaking bad ison)”之类的句子可以在存储单元140中存储为语言资料库。用户的实际话语的识别结果可在存储单元140中存储为话语日志。
[0052]存储器120可以通过按预定的令牌单位划分存储在存储单元140中的内容列表、语言资料库和话语日志来生成多个令牌，并且可以在存储单元140中存储该多个生成的令牌。令牌可以指代包括在组单位(group unit)中具有意义的一个或多个字符的字符串。也就是说，令牌可以指代由预定的单位(例如音节单位、词素单位或词单位)划分用户可能说出的各种词或句子。例如，在英语中，令牌可以基于空格来划分。在该示例中，一个令牌可以是一个词。
[0053]响应于通过语音识别器110识别用户话语，处理器120可以生成针对用户话语的文本数据。处理器120可以向令牌网络生成器130提供生成的文本数据。令牌网络生成器130可以通过解析文本数据来按预定的令牌单位划分针对用户话语的文本数据。
[0054]处理器120可以计算指示事先生成并存储的多个令牌之间的相似程度的相似度，并且在存储单元140中存储相似度。计算相似度的详细方法可以使用现有技术，并且因此省略其详细描述。处理器120可以存储对哪些令牌存在于来自内容列表、语言资料库和话语日志的具体令牌的外围进行指示的信息。也就是说，处理器120可以在存储单元140中存储指示与令牌一起使用的历史的信息，该信息是对在具体令牌被划分为令牌之前，哪些令牌存在于对应的令牌之前和之后进行指示的信息。
[0055]也就是说，根据内容列表、语言资料库和话语日志生成的多个令牌、多个令牌之间的相似度、以及具有与多个令牌一起使用的历史的令牌的信息可以预先存储在存储单元140 中。
[0056]存储单元140可以存储针对内容、语言资料库和话语日志的语言模型。例如，处理器120可以根据存储在存储单元140中的内容列表、语言资料库和话语日志来生成针对内容列表、语言资料库和话语日志的语言模型，并且在存储单元140中存储生成的语言模型。语言模型可以是通过对人们使用的词进行建模来计算词字符串与实际使用的语言之间的匹配程度的模型。也就是说，语言模型可以是计算任意句子存在的概率的模型，并且处理器120可以使用语言模型来计算令牌网络上的每个令牌转移到下一个令牌的概率。能够计算令牌之间的转移概率的任何语言模型可被用作该语言模型，并且因此将省略其详细描述。
[0057]令牌网络生成器130可以根据处理器120的控制来生成令牌网络。例如，令牌网络生成器130可以根据通过语音识别器110识别出的用户话语来生成多个识别令牌，在存储单元140中存储的多个令牌中搜索与生成的识别令牌相似的相似令牌以及具有与生成的识别令牌一起使用的历史的外围令牌，并使用生成的识别令牌以及搜索到的相似令牌和外围令牌来生成令牌网络。
[0058]更具体地，令牌网络生成器130可以通过按预定的单位划分通过语音识别器110识别出的用户话语来生成多个识别令牌。例如，响应于通过语音识别器110识别用户话语，处理器120可以生成针对用户话语的文本数据并且向令牌网络生成器130提供生成的文本数据，并且令牌网络生成器130可以通过按预定的单位划分针对用户话语的文本数据来生成多个识别令牌。
[0059]令牌网络生成器130可以搜索生成的识别令牌的相似令牌和外围令牌。例如，响应于在存储在存储单元140中的多个令牌中出现对应的识别令牌，令牌网络生成器130可以使用存储在存储单元中的对应的识别令牌与其它令牌之间的相似度来搜索相似令牌。在该示例中，令牌网络生成器130可以搜索具有大于或等于预定值的相似度的令牌来作为识别令牌的相似令牌。令牌网络生成器130可以使用与存储在存储单元140中的多个令牌一起使用的历史来搜索对应识别令牌的外围令牌。
[0060]根据示例性实施例，响应于在存储在存储单元140中的多个令牌中不存在识别令牌，也就是说，响应于在存储在存储单元140中的多个令牌中不存在与对应的识别令牌相同的令牌并因此使用相似度没有搜索到相似令牌，令牌网络生成器130可以使用字符串搜索算法来搜索相似令牌。可以使用探测法、q-gram等作为字符串搜索算法，并且字符串搜索算法并不限于此。
[0061]响应于在存储在存储单元140中的多个令牌中不存在识别令牌，令牌网络生成器130可以搜索外围令牌。将参照图3和图5来描述搜索外围令牌的方法。
[0062]令牌网络生成器130可以使用多个识别令牌、以及上述搜索到的针对多个识别令牌的相似令牌和外围令牌来生成令牌网络。例如，令牌网络生成器130可以通过将相似令牌和外围令牌布置为与多个识别令牌中的每一个相对应来生成令牌网络。在该示例中，令牌网络可以具有例如以识别出的用户话语的顺序布置有多个识别令牌的格子，以及与识别令牌相对应的相似令牌和外围令牌被布置在识别令牌的下方以对应于识别令牌，但是令牌网络的结构并不限于此。图6示出了具有格子的令牌网络的示例。
[0063]处理器120可以控制语音识别器110和令牌网络生成器130。例如，处理器120可以计算构成令牌网络的令牌之间的转移概率，并且使用计算出的转移概率来生成针对已校正的用户话语的文本数据。令牌网络生成器130可以在处理器120中实现。
[0064]例如，处理器120可以使用针对存储在存储单元140中的内容列表、语言资料库和话语日志的语言模型来计算转移概率。例如，响应于计算在如图6所示的令牌网络中令牌“jugeulrae”转移到令牌“daewang”的概率，处理器120可以通过以下方式来计算在如图6所示的令牌网络上令牌“jugeulrae”转移到令牌“daewang”的概率:计算在内容列表语言模型中令牌“jugeulrae”转移到令牌“daewang”的概率，计算在语言资料库语言模型中令牌“jugeulrae”转移到令牌“daewang”的概率，计算在话语日志语言模型中令牌“jugeulrae”转移到令牌“daewang”的概率，并且通过向计算出的转移概率指派权重来将计算出的概率相加。通过上述方法，处理器120可以计算关于构成图6的令牌网络的所有令牌，每个令牌转移到下一个令牌的转移概率。
[0065]在示例中，响应于在如图11所示的令牌网络中令牌“remind”转移到令牌“me”的概率，处理器120可以通过以下方式来计算在如图11所示的令牌网络上令牌“remind”转移到令牌“me”的概率:计算在内容列表语言模型中令牌“remind”转移到令牌“me”的概率，计算在语言资料库语言模型中令牌“remind”转移到令牌“me”的概率，以及计算在话语日志语言模型中令牌“remind”转移到令牌“me”的概率，并且通过向计算出的转移概率指派权重来将计算出的概率相加。通过上述方法，处理器120可以计算关于构成图11的令牌网络的所有令牌，每个令牌转移到下一个令牌的转移概率。
[0066]处理器120可以通过基于计算出的转移概率搜索令牌网络上的最佳路径来生成针对已校正的用户话语的文本数据。处理器120可以通过使用Viterbi和A星算法中的至少一个搜索最佳路径以减小搜索最佳路径的计算量。
[0067]因此，响应于搜索最佳路径，处理器120可以通过将位于该路径中的用于连接最佳路径的令牌连接起来，来生成已校正的用户话语的文本数据。
[0068]图2是示出根据示例实施例的语音识别装置的配置的框图。除了图1的语音识别装置100的配置组件以外，图2中示出的语音识别装置还可以包括显示器150和音频输出单元160。图2的语音识别装置100的剩余组件与图1的语音识别装置100中的相同，并且因此省略重复配置的描述。
[0069]显示器150可以显示图像。例如，显示器150可以根据处理器120的控制来显示向用户请求再次讲话的消息。显示器150可以包括能够显示用户再次讲话请求消息的任何显示器，并且显示器150可以使用液晶显示器(IXD)、阴极射线管(CRT)、等离子显示板(PDP)、发光二极管(LED)、有机发光二极管(OLED)等等来实现。
[0070]音频输出单元160可以输出语音信号。例如，音频输出单元160可以根据处理器120的控制来以语音输出用户再次讲话请求消息。音频输出单元160可以包括能够以语音输出用户再次讲话请求消息的任何设备，并且可以使用扬声器、耳机等来实现。
[0071]处理器120可以计算出现已校正的用户话语的概率。例如，响应于生成针对已校正的用户话语的文本数据，处理器120可以计算出现该用户话语的总概率。在该示例中，处理器120可以例如使用存储在存储单元140中的各种语言模型来计算出现已校正的用户话语的概率。
[0072]响应于计算出的概率小于或等于预定值，处理器120可以控制显示器150和音频输出单元160中的任意一个生成再次讲话请求消息，并且输出生成的消息。例如，响应于已校正的用户话语出现的概率小于或等于预定值，处理器120可以控制显示器150和音频输出单元160生成例如“请再说一遍”之类的再次讲话请求消息，并输出生成的消息。
[0073]根据示例性实施例，处理器120可以控制显示器150显示针对已校正的用户话语的文本数据，并且控制音频输出单元160以语音输出针对已校正的话语的文本数据。因此，用户可以确定是否正确地识别出他/她的话语。
[0074]如上所述，响应于即使通过语音识别装置100对用户话语的识别误差进行校正也还存在识别误差，语音识别装置100可以确定剩余的识别误差，并且通过向用户请求再次讲话来校正识别误差。
[0075]图1和图2的示例性实

完整全部详细技术资料下载

当前第2页1 2 3 4 5