语音处理器及语音处理方法

文档序号：2827355阅读：184来源：国知局

语音处理器及语音处理方法
【专利摘要】一种语音处理器包括呈现单元、语音获取单元、识别单元、确定单元、频率获取单元、和得分计算器。该呈现单元被配置成给操作员呈现文本。语音获取单元被配置为获取朗读文本的操作员的语音。识别单元被配置为识别包含在操作员的语音中的音素的输出间隔。确定单元被配置为确定每个输出间隔的时间长度是否正常。频率获取单元被配置为获取分别表示分别对应于音素的上下文的出现频率的频率值。该上下文包括音素以及与音素的至少一侧相邻的另一个音素。得分计算器被配置基于输出间隔的时间长度的确定结果以及分别对应于音素的所获取的上下文的频率值，来计算代表操作员的语音的正确性的得分。
【专利说明】语音处理器及语音处理方法
[0001] 相关申请的交叉引用
[0002] 本申请是基于并要求于2013年6月3日提交的日本专利申请N0. 2013-117261的优先权；该日本专利申请的全部内容通过引用并入本文。

【技术领域】
[0003] 本文所描述的实施例大体涉及语音处理器，和语音处理方法。

【背景技术】
[0004] 语音处理，例如语音识别或语音合成需要获取大量的用于例如学习或评估的语音。作为获取语音的方式之一，可以构建一个通过互联网从大量操作员获取语音并作为他们的工作的报酬给操作员奖励的系统。例如，JP-A2003-186489公开了一种语音获取系统，它使发声者能够通过显示将被说出的字符串及对发声者的指导信息来自己执行记录。这样的系统可以以在时间和经济方面的较低成本来获取大量语音。
[0005] 在这样的系统中，操作员酌情朗读（read aloud)所呈现的文本并同时进行录制工作。因此，当操作员无法朗读文本时，操作员可以在不再次朗读文本的情况下发送语音，不与文本一致的低质量语音可以被获取到系统中。由于朗读中的错误导致使用包括大量的如此低质量语音的语音引起了语音处理精度恶化。

【发明内容】

[0006] 实施例的目的是提供一种能够以高精确度计算出代表操作员朗读文本的语音的正确性的得分的语音处理器。
[0007] 根据一种语音处理器，包括呈现单元、语音获取单元、识别单元、确定单元、频率获取单元，和得分计算器。呈现单元被配置为将文本呈现给操作员。语音获取单元用于获取朗读文本的操作员的语音。识别单元被配置为识别包含在操作员的语音中的音素的输出间隔。确定单元被配置为确定每个输出间隔的时间长度是否是正常的。频率获取单元被配置为获取分别表示分别对应于音素的上下文（context)的出现频率的频率值。上下文包括音素以及与该音素的至少一侧相邻的另一音素。得分计算器被配置为基于输出间隔的时间长度的确定结果和分别对应于音素的所获取的上下文的频率值，计算出代表操作员的语音正确性的得分。
[0008] 根据上文描述的语音处理器，可以以高精度计算出代表朗读文本操作员的语音的正确性的得分。

【专利附图】

【附图说明】
[0009] 图1是语音处理系统的示例性结构图；
[0010] 图2是语音处理器和终端设备的示例性结构图；
[0011] 图3是由语音处理器执行的处理的示例性流程图；
[0012] 图4是示出当选择了日语文本时的音素串的示例图；
[0013] 图5是示出当选择了日语文本时的上下文的示例图；
[0014] 图6是示出了文本呈现屏幕的示例性示意图；
[0015] 图7是示出了当选择了日语文本时音素的输出间隔的示例图；
[0016] 图8是示出了当选择了日语文本时各音素的时间长度的确定结果的示例图；
[0017] 图9是示出了当选择了日语文本时上下文的频率值的示例图；
[0018] 图10是示出了当选择了日语文本时各音素的权重的示例图；
[0019] 图11是示出了其上显示得分的文本呈现屏幕的示例性示意图；
[0020] 图12是用于计算相应音素的权重的处理的示例性流程图；
[0021] 图13是用于计算得分的处理的示例性流程图；
[0022] 图14是用来选择文本的处理的示例性流程图；
[0023] 图15是示出了上下文的出现位置的示例图；
[0024] 图16是示出了当选择英文文本时的音素串和上下文的示例图；
[0025] 图17是示出了当选择英语文本时的音素的输出间隔的示例图；
[0026] 图18是示出了当选择英语文本时的各音素的时间长度的确定结果的示例图；
[0027] 图19是示出了当选择英语文本时的上下文的频率值的示例图；
[0028] 图20是示出了当选择英语文本时的各音素的权重的示例图；以及
[0029] 图21是语音处理器的示例性硬件结构图。

【具体实施方式】
[0030] 下面参照附图来描述实施例。
[0031] 图1说明了根据实施例的语音处理系统10的结构。语音处理系统10向多个操作员呈现文本，并要求操作员朗读文本。该文本是字符串，如任何语言的词或句子。语音处理系统10把由操作员朗读的语音转换成信号并获取该信号。在下文中，从语音转换的所获取的信号也被称为所获取的语音。语音处理系统10使得所获取的语音能够以如此方式被用于语音处理(例如语音识别或语音合成）中的学习或评估。
[0032] 语音处理系统10包括语音处理器20和多个终端设备30。语音处理器20是连接到网络(如因特网）的计算机。每个终端设备30的是由操作员操作的计算机。语音处理器 20和各个终端设备30通过网络彼此耦合。
[0033] 语音处理器20通过其相应的终端设备30向操作员呈现文本，并指示相应操作员朗读所呈现的文本。语音处理器20将由相应操作员朗读的语音获取为信号并且存储所获取的语音。
[0034] 语音处理器20计算代表所获取的语音的正确性的得分。例如，语音处理器20通过终端设备30向每个操作员通知得分。语音处理器20互相关联地存储得分和所获取的语音。例如，得分的较大值表明该操作员更正确地朗读文本，而在朗读文本时具有更少错误。换句话说，例如，得分的较小值表明由于朗读中的错误而导致操作员的语音是不正确的。
[0035] 因此构成的语音处理系统10可以通过通知操作员得分来使操作员意识到朗读中的正确性。因此构成的互相关联地存储获取的语音和得分的语音处理系统10还能够通过使具有高得分的语音被用于例如语音处理中的学习或评估来提高语音处理中的准确性。
[0036] 图2示出根据本实施例的语音处理器20和终端设备30的结构。
[0037] 终端设备30包括显示器41，输入单元42,麦克风43,和信息处理器44。显示器41 显示从语音处理器20获取的文本。显示器41显示从语音处理器20获取的得分。
[0038] 为键盘或鼠标的输入单元42例如接收操作员的操作。麦克风43将朗读文本的操作员的语音转换为信号。
[0039] 信息处理器44包括中央处理单元（CPU)，并且完全控制终端设备30。信息处理器 44通过网络接收来自语音处理器20的文本和得分，并使显示器41显示接收到的文本和得分。信息处理器44通过网络将由麦克风43从语音转换的信号传输到语音处理器20。
[0040] 语音处理器20包括文本选择器51，音素串转换器52,上下文生成器53,呈现单元 54,语音获取单元55,识别单元56,确定单元57,频率存储单元58,频率获取单元59,权重计算器60,得分计算器61，通知器62,点加法器63,更新单元64和记录器65。
[0041] 文本选择器51选择将要呈现给操作员的文本。文本选择器51可以读出由系统管理员预先选定的文本，例如，或从多个候选文本中选择出将要呈现给操作员的文本。
[0042] 音素串转换器52把文本选择器51选择的文本转换为音素串。音素是声音的最小单位以识别由人说出的话语的含义。音素串转换器52将文本转换为符号序列，该符号序列基于文本和音素串的对应表来表现各音素。音素系统根据语言和理论的解释而变化。只要音素系统对应于所选文本的语言，音素串转换器52可以根据任何解释将文本转换成音素字符串。
[0043] 上下文生成器53生成与包含于通过利用音素串转换器52的转换而得的音素字符串中的各音素对应的上下文。上下文代表某一音素和与该某一音素的至少一侧相邻的相邻音素（即紧接在某一音素之前的相邻音素以及紧接在某一音素之后的相邻音素)的组合。被称为双音素和三音素的上下文是已知的。双音素是表示某一音素与紧接在该某一因素之前的音素的组合的上下文。三音素是表示某一音素与紧接在该某一因素之前及之后的音素的组合的上下文。上下文生成器53可以生成双音素或三音素。
[0044] 呈现单元54向操作员呈现由文本选择器51选择的文本。例如，呈现单元54通过网络将该文本发送到终端设备30,并使终端设备30的显示器41显示该文本。
[0045] 语音获取单元55获取朗读所呈现的文本的操作员的语音。例如，语音获取单元55 接收由终端设备30的麦克风43从语音转换的信号，并将该信号存储到存储器中。
[0046] 识别单元56识别包含在操作员的语音中的各个音素的输出间隔。具体来说，识别单元56检测包括在操作员的语音内的音素的分离，并识别每个音素的开始时间和结束时间。
[0047] 识别单元56使用强制对准技术（forced alignment technique)基于通过利用音素串转换器52的转换而获得的音素字符串，来分析由语音获取单元55获取的语音并识别每个音素的输出间隔。强制对准技术例如使用过去获取的音素的波形或类似物，来识别音素的输出间隔。在强制对准技术中，极可能的是，与过去获取更少的音素的输出间隔相比，过去获取更多的音素的输出间隔能被更正确地识别。
[0048] 确定单元57确定每个音素的由识别单元56识别的输出间隔的时间长度是否正常。确定单元57然后将确定结果与包含在语音中的相应音素关联起来。具体来说，确定单元57将标记与相应的音素关联起来，该标记表明该时间长度是正常还是异常（S卩，该时间长度是不正常的)。
[0049] 包含在由人发出的语音中的每个音素的时间长度通常是在一定的范围内的。因此，当音素的输出间隔的由识别单元56识别出的时间长度在一定范围之外时，所识别的音素的输出间隔的时间长度被估计为异常。确定单元57因此针对每个音素确定音素的输出间隔的时间长度是否在预定范围内，并且如果音素的输出间隔的时间长度是在预定范围内，则确定该音素为正常，并且如果该时间长度在预定范围之外时，确定该音素为异常。换句话说，如果音素的输出间隔的时间长度等于或大于预定下限时间长度，且等于或小于预定上限时间长度时，则确定单元57确定该音素为正常，而如果该时间长度是小于该下限时间长度或大于该上限时间长度时，则确定单元57确定该音素为异常。
[0050] 被确定为正常的每个音素的时间长度所在的范围可以是相同的，而不管音素的种类如何；或者被确定为正常的每个音素的时间长度所在的范围也可能根据音素的类型而变化。被确定为正常的每个音素的时间长度所在的范围可能根据语言而变化。
[0051] 频率存储单元58针对每个上下文，在其中储存了表示包含在过去获取的语音中的上下文的出现频率的值作为频率值。当上下文被包括在过去获取的语音中的次数为大时，频率值是大的，而当上下文被包括在过去获取的语音中的次数为小时，则频率值是小的。
[0052] 过去获取的语音可能是由语音处理系统10获取的语音或是由另一系统获取的语音。过去取得的语音可能既包括由语音处理系统10获取的语音，也包括由另一系统获取的语音。
[0053] 频率值并不必须是直接代表出现频率的值，只要其代表出现频率。频率值的实例包括将出现频率分成约10个级别而获得的级别的代表值，以及出现频率的归一化值。
[0054] 频率获取单元59从频率存储单元58获取与通过音素串转换器52的转换而得到的各音素相对应的上下文的频率值。具体来说，频率获取单元59从频率存储单元58中读出与由上下文生成器53产生的相应文本相对应的频率值。
[0055] 权重计算器60根据频率获取单元59获取的文本的频率值计算出与通过音素串转换器52的转换而得的音素相对应的权重。权重是由例如数值表示的系数。例如，频率值越大，权重计算器60计算出的权重值就越大，而频率值越小，权重计算器60计算出的权重值就越小。
[0056] 得分计算器61基于确定单元57关于音素输出间隔的时间长度的确定结果和权重计算器60计算的分别对应于音素的权重来计算代表朗读文本的操作员的语音的正确性的得分结果。
[0057] 具体来说，得分计算器61利用对应的相应权重来对音素的确定结果进行加权。然后得分计算器61在加权之后计算被确定为正常的音素的确定结果的数量与确定结果的总数量的比率，来作为得分。得分计算器61能在得分上反映出具有大权重的音素（即具有大出现频率的音素）的确定结果以及具有小加权音素（即具有小的出现频率的音素）的确定结果。
[0058] 通知器62根据由评分计算器61计算的得分通知操作员其内容。例如，通知器62 通过网络发送得分到终端设备30,并使终端设备30的显示器41显示得分。通知器62可以将得分转换为分类成两级或三级(例如，评估等级A，评估等级B，和评估等级C)的评估值，并例如使显示器41显示出评估值。作为结果，通知器62可以使操作员意识到朗读文本的操作员的语音的正确性。
[0059] 分数加法器63例如，访问外部分数管理服务器，并且向操作员增加了分数以作为对朗读工作的报酬。例如，该分数可以是现金或电子货币。可替代地，例如，分数加法器63 可以将对应量的货币转移到操作员的银行账户。
[0060] 分数加法器63可以按照得分来改变分数。例如当操作员的语音的计算得分等于或大于预先设定的阈值时，分数加法器63可以在常规分数之前将奖励分数加给朗读文本的操作员。作为结果，分数加法器63可以激励操作员更正确地朗读文本。
[0061] 更新单元64更新存储在频率存储单元58中的与朗读文本的操作员的语音中包括的相应音素对应的上下文的频率值。在这种情况下，更新单元64在得分等于或大于某一阈值时，可更新上下文的频率值。作为结果，更新单元64可以在文本被不正确地朗读时，防止频率值被反映在频率存储单元58上。
[0062] 记录器65在内部或外部存储设备中存储由语音获取单元55获取的语音和识别单元56所识别的相应音素的输出间隔。作为结果，记录器65可以使获取的语音被用于语音处理。
[0063] 在这种情况下，记录器65还可以进一步与语音相关联地存储得分。作为结果，记录器65可使具有高得分的语音（S卩，正确的语音）被用于语音处理。记录器65可以通过分析具有低得分的语音来使其朗读中的错误的原因被分析。
[0064] 图3示出根据本实施例的语音处理器20执行的处理流程。下面参照图3描述了由语音处理器20执行的处理过程。
[0065] 在步骤S11，文本选择器51选择将要呈现给操作员的文本。举个例子，文本选择器 51选择日语词语的"mottsuarera (英文中的mozzarella)"的文本。
[0066] 在步骤S12,音素串转换器52将选定的文本转换成音素串。在本例中，音素串转换器52将文本"mottsuarera"转换成〃m-〇-Q-cw-a-r-e-r-a〃的词素串，其是由如图4所示的9个音素构成。
[0067] 在步骤S13,上下文生成器53产生与音素串中包含的相应音素对应的上下文作为转换结果。在该示例中，上下文生成器53产生被称为双音素的上下文。
[0068] 具体而言，如图5所示，上下文生成器53产生与"m"的音素对应的"sil-m"的上下文。符号"sil"表示silence (沉默)。
[0069] 上下文生成器53产生对应于音素"〇"的上下文"m-o"。上下文生成器53产生对应于音素"Q"的上下文"〇-Q"。上下文生成器53产生对应于音素"cw"的上下文"Q-cw"。上下文生成器53产生对应于音素"a"的上下文"cw-a"。上下文生成器53产生对应于音素 "r"的上下文"a-r"。上下文生成器53产生对应于音素"e"的上下文"r-e"。上下文生成器53产生对应于音素"r"的上下文"e-r"。上下文生成器53产生对应于音素"a"的上下文 "r-a"。
[0070] 在步骤S14,呈现单元54使终端设备30的显示器41显示所选择的文本。在该示例中，如图6所示，呈现单元54使显示器41显示包括文本"mottsuarera"的呈现屏幕70。
[0071] 指示对朗读文本的奖励的分数(例如，"5分数"）可与文本一起显示在呈现屏幕70 上。例如，在呈现屏幕70上，显示了启动语音记录的记录按钮71。一旦记录按钮71被操作员按压，终端设备30通过麦克风43开始记录操作员的语音。
[0072] 在步骤S15,语音获取单元55通过网络获取由终端设备30记录的语音。随后例如，语音获取单位55将获取的语音存储在存储器中。
[0073] 在步骤S16,识别单元56识别包括在所获取的语音内的相应音素的输出间隔。在本例中，识别单元56使用强制对准技术来识别相应音素的输出间隔。识别单元56使用过去获取的相应音素的波形或类似物来识别与从呈现的文本转换成的相应音素相对应的输出间隔。
[0074] 在本例中，如图7所示，识别单元56识别相应音素"m"，"〇"，"Q"，"cw"，"a"，"r"， "e"，"r"和"a"的开始时间和结束时间。例如，识别单元56关于第一个音素"m"识别开始时间是1. 20秒并且结束时间为1. 29秒。作为另一示例，识别单元56关于第四音素"cw" 识别了开始时间为1. 43秒并且结束时间为1. 47秒。
[0075] 开始时间和结束时间的参照可被设定为任何时间。在该示例中，开始时间和结束时间的参考是开始记录的时间。
[0076] 在步骤S17,确定单元57确定每个相应的音素的识别的输出间隔的时间长度是否正常。如图8所示，在本例中，当音素的从开始时间到结束时间的时间长度等于或大于0.05 秒且等于或小于〇. 15秒时，确定单元57确定该音素为正常。换句话说，当音素的开始时间到结束时间的时间长度是小于〇. 05秒或者比0. 15秒更大时，则确定单元57确定该音素为异常。例如，确定单元57确定为第一个音素"m"是正常的，因为时间长度为0.09秒。作为另一示例，确定单元57确定第四个音素"cw"为异常，因为时间长度为0. 04秒。
[0077] 如图8所示，确定单元57将每一个指示正常或异常的标记与相应的音素关联起来。
[0078] 在步骤S18,频率获取单元59从频率存储单元58获取与从呈现的文本转换而成的相应音素相对应的上下文的频率值。在该示例中，频率获取单元59获取与图9所示的相应上下文 " si 1 -m"、"m-o "、" o-Q"、" Q-cw"、" cw-a"、" a-r "、"r-e "、" e-r " 和 "r-a" 相对应的频率值。例如，频率获取单元59获取" 1000000"作为与第一个音素"m"所对应的上下文 "sil-m"的频率值。作为另一示例，频率获取单元59获取"1000"作为与第四个音素"cw" 相对应的上下文"Q-cw"的频率值。
[0079] 在步骤S19,权重计算器60根据所获取的上下文的频率值，计算与从所呈现的文本转换的相应音素相对应的权重。如图10所示，权重计算器60将与其上下文具有比预定参考值小的频率的音素所对应的权重计算为第一值(例如，〇. 1)，同时权重计算器60将与其上下文具有大于或等于预定参考值的频率值的音素相对应的权重，计算为第二值(例如， 1. 0)，在本示例中，第二值大于第一值。例如，权重计算器60将对应于第一个音素"m"的权重计算为第二值（1.0)。作为另一示例，权重计算器60将与第四个音素"cw"相应的权重计算为第一值（〇. 1)。
[0080] 权重计算器60在该例中，设置第一值与第二个值之间的比率为10倍。这个比率可以是大于或小于10倍。在步骤S19的具体处理将在后面参照图12中来描述。
[0081] 在步骤S20,得分计算器61基于相应音素的输出间隔的时间长度的确定结果和与各音素相对应的计算而得的权重，来计算得分。在例子中，得分计算器61计算由0到100 的任何数字值表示的得分。步骤S20的具体处理将在后面参照图13进行描述。
[0082] 在步骤S21，通知器62使终端设备30的显示器41显示得分，从而将得分通知操作员。如该图11所示，在该示例中，通知器62使显示器41显示得分窗72,将得分显示在呈现屏幕70的一部分上。分数加法器63访问分数管理服务器，例如，并将该分数加给操作员。 [0083] 当得分等于或大于预先设定的阈值时，通知器62除了常规分数之外将奖励分数加给操作员。在这种情况下，如图11所示，通知器62使显示器41将奖励分数的值显示在得分窗72上，从而通知操作员该奖励分数被添加。
[0084] 在步骤S22,更新单元64在得分等于或大于某一阈值的条件下，将存储在频率存储单元58的频率值进行更新。记录器65将所获取的语音及相应音素的输出间隔存储在内部或外部存储设备中。在这种情况下，记录器65与语音相关联地存储得分。
[0085] 在步骤S22的处理完成后，语音处理器20结束该流程的处理。
[0086] 图12是用来计算音素的权重的处理流程。权重计算器60在图3的步骤S19处执行图12中所示的处理。
[0087] 在步骤S191中，权重计算器60从频率存储单元58获取由频率获取单元50获取的上下文的频率值中的最大值。如图9所示，在该示例中，权重计算器60获得"2000000"，其是与第七音素"e"对应的上下文"r-e"的最大的频率值。
[0088] 在步骤S192,权重计算器60确定在从所呈现的文本转换成的音素中是否剩余待选择的任何音素。如果没有待选择的音素剩余(步骤S192的否)，则权重计算器60结束该流程，并且该处理返回到主流程。如果剩余待选择的任何音素(步骤S192的是)，则权重计算器60前进到步骤S193。
[0089] 在步骤S193,权重计算器60从剩余待选的音素中选出任何一个音素作为处理对象。
[0090] 在步骤S194,权重计算器60将与待选的音素相对应的上下文的频率值进行归一化。具体来说，权重计算器60在归一化处理中，与被选的音素相对应的上下文的频率值除以在步骤S191中获取的最大值。在图9所示的该示例中，当第一个音素"m"被选择时，归一化的频率值被如下计算：1000000/2000000=0. 5。在图9所示的该示例中，当第四音素"cw" 被选择时，则归一化的频率值被如下计算：1000/2000000=0. 0005。
[0091] 在步骤S195中，权重计算器60将归一化的频率值与预先设定的参考值进行比较，并计算与所选择的音素相对应的权重。具体地，当归一化的频率值比参考值小时，权重计算器60将对应于所选择的音素计算为第一值（0. 1)。当归一化的频率值等于或大于参考值时，权重计算器60将与所选音素相对应的权重计算为第二值（1.0)，该第二值比第一值大。
[0092] 在该示例中，参考值被设置为"0. 1"。如图10所示，当第一个音素"m"被选择时，由于归一化的频率值是比参考值大的"0. 5"，故权重计算器60将权重计算为第二值（1. 0)。当选择第四个音素"cw"时，权重计算器60将权重计算为第一值（0. 1 )，因为归一化的频率值是比参考值小的"〇. 0005"。
[0093] 权重计算器60可使用不仅仅两个值，而是三个或更多的值来计算权重。权重计算器60可以计算归一化的频率值的对数值作为权重。
[0094] 在步骤S196,权重计算器60将计算出的权重与选择的音素关联地存储。然后权重计算器60返回到步骤S192,并继续从步骤S192到步骤S196的处理，直到没有待选择的音素剩余。
[0095] 图13示出用于计算得分的处理流程。得分计算器61在图3所示的步骤S20处执行图13所示的处理。
[0096] 在步骤S201，得分计算器61代入"0"用于变量W和T。
[0097] 在步骤S202,得分计算器61确定从文本转换而来的音素中是否剩余任何待选择的音素。如果没有剩余音素待选择(步骤S202的否)，则得分计算器61前进到步骤S208。如果剩余任何音素待选择(步骤S202的是)，则得分计算器61前进到步骤S203。
[0098] 在步骤S203,得分计算器61从剩余待选择的音素中选择任一个音素作为处理目标。
[0099] 在步骤S204,得分计算器61获取对应于所选择的音素的权重Wi。例如，当选择了第一个音素"m"时，得分计算器61获得如图10所示的"权重Wl=l. 0"。作为另一示例，当第四音素"cw"被选择时，得分计算器61获取如图10所示的"权重w4=0. 1"。
[0100] 在步骤S205,得分计算器61执行W=w+Wi的算术运算。换句话说，该得分计算器61 将所选音素的权重wi加到变量W。
[0101] 在步骤S206,得分计算器61获取与所选的音素相对应的标记li。例如，当选择第一个音素"m"时，得分计器部61获得如图8所示的"标记1 1=正常"。再如，当选择第四个音素"cw"时，得分计算器61获得如图8所示的"标记14=异常"。
[0102] 在步骤S207,得分计算器61执行算术运算"T=T+I (If正常）XWi"。I (X)是函数。当X为真时，I (x)=l，而当X为假时，I (x)=〇。当标记li是正常时，得分计算器61 将&加到T，而当标记^是异常时，得分计算61不将值加到T。
[0103] 在完成步骤S207处的处理之后，得分计算器61返回到步骤S202,并且重复从步骤 S202至步骤S207的处理，直到没有音素剩余待选择为止。如果没有音素剩余待选择，则得分计算器61前进到步骤S208。
[0104] 在步骤S208,得分计算器61执行算术运算"S= (T/W) X 100"来计算得分S。W表示与各个音素相对应的权重之和。τ代表与被确定为正常的音素对应的权重之和。
[0105] 得分计算器61因此在算术运算"S=(T/W) X 100"中，通过将对应于被确定为正常的各音素的权重之和与对应于各个音素的权重之和的比率乘以1〇〇,来计算得分S。
[0106] 从步骤S201到步骤S208的处理由下面的表达式（1)表示。
[0107]

【权利要求】
1. 一种语音处理器，包括：被配置成将文本呈现给操作员的呈现单元；被配置成获取朗读所述文本的操作员的语音的语音获取单元；被配置成识别包含在所述操作员的所述语音中的音素的输出间隔的识别单元；被配置成确定所述输出间隔的时间长度中的每一个是否正常的确定单元；被配置为获取分别代表分别与所述音素相对应的上下文的出现频率的频率值的频率获取单元，所述上下文包括所述音素以及与所述音素的至少一侧相邻的另一个音素；以及得分计算器，其被配置为基于所述输出间隔的所述时间长度的确定结果以及分别对应于所述音素的所获取的上下文的频率值，来计算代表所述操作员的所述语音的正确性的得分。
2. 根据权利要求1所述的语音处理器，还包括：被配置为根据所述上下文的所述频率值来计算对应于每个所述音素的权重的权重计算器，其中所述得分计算器计算与对应于被确定为正常的正常音素的所述权重之和与对应于多个音素的所述权重之和的比率相对应的值，作为所述得分。
3. 根据权利要求2所述的语音处理器，其中，所述权重计算器计算所述权重，使得与上下文的频率值等于或大于参考值的音素相对应的权重，比与上下文的频率值小于所述参考值的音素相对应的权重更大。
4. 根据权利要求1所述的语音处理器，还包括被配置为向所述操作员通知根据所述得分的内容的通知器。
5. 根据权利要求1所述的语音处理器，还包括：频率存储单元，其被配置为在其中存储包括在过去获取的语音中的多个上下文的出现频率作为所述频率值；更新单元，其被配置来根据所述得分来更新与朗读所述文本的所述操作员的所述语音中包括的所述音素相对应的所述上下文的存储在所述频率存储单元中的所述频率值；以及文本选择器，其被配置为从多个候选文本中选择一个文本作为所述文本，其中所述文本选择器基于当所述候选文本被朗读时与包括在所述候选文本中的多个音素相对应的上下文的频率值来选择所述文本。
6. 根据权利要求5所述的语音处理器，其中，所述文本选择器选择优先于其他候选文本的候选文本，优选的候选文本在文本的开头和结尾处包括上下文的频率值大于阈值的音素，并且在文本中除了文本的开头和结尾之外的部分处包括上下文的频率值小于所述阈值的音素。
7. -种语音处理方法，包括：将文本呈现给操作员；获取朗读所述文本的所述操作员的语音；识别包括在所述操作员的所述语音内的音素的输出间隔；确定所述输出间隔的时间长度中的每一个是否正常；获取分别代表分别对应于所述音素的上下文的出现频率的频率值，所述上下文包括对应的音素和与所述音素的至少一侧相邻的另一个音素；以及基于所述输出间隔的所述时间长度的确定结果和分别对应于所述音素获得的所述上下文的所述频率值，来计算代表所述操作员的所述语音的正确性的得分。
【文档编号】G10L15/32GK104217716SQ201410093682
【公开日】2014年12月17日申请日期:2014年3月13日优先权日:2013年6月3日
【发明者】中田康太申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：中田康太
技术所有人：株式会社东芝
我是此专利的发明人

上一篇：一种低频蜂鸣器的制造方法
上一篇：一种基于语音分析的智能电话客服系统的制作方法