声音识别装置制造方法

文档序号：2825798阅读：188来源：国知局

声音识别装置制造方法
【专利摘要】按照每个用户的字母输入方式信息，对于由字母列构成的单词，针对每个字母在字母前附加“ドット”(dotto)，在是“M与N”、“B与P”等不容易识别的字母的情况下，将一方以重复两次的状态登记到单词字典。例如将单词“PAM”以及与“ドットピーピードットエードットエム”(dottoPP?dottoA?dottoM)对应的时间序列的特征量对应地进行登记。在用户声音输入“PAM”的情况下，按照自己的字母输入方式信息发声为“ドットピーピードットエードットエム”(dottoPP?dottoA?dottoM)。使用与该用户的字母输入方式信息相应的单词字典对该声音数据进行声音识别。
【专利说明】声音识别装置
【技术领域】
[0001]本发明涉及一种声音识别装置。
【背景技术】
[0002]对于从事物流、医疗等工作的人员来说，存在想通过声音识别来实现工作的效率化、工作的免提化这种希望。
[0003]特别是，在物流、医疗等工作中，在很多情况下需要输入产品的型号、ID等字母与数字混合存在的文字列，字母、数字的声音识别精度良好且误识别少对基于声音识别的工作的效率化有很大贡献。
[0004]然而，特别是字母，发声时非常短，并且发音相互接近的文字也多，从而难以正确地进行识别。
[0005]例如，“C”、“E”、“T”等的发音能量强的部分的大部分为延长为尾音“ 4 一” ([1:])的部分，人难以听到。
[0006]特别是，在仓库、工厂等存在噪音的环境中，辅音与噪音混淆而变得不清楚，因此更难识别。
[0007]因此，以往，采取了以下方法:如 A:alpha( 7 7 r 一)、B:bravo ( 7" 7 术一)、C:Charlie( 等那样，针对每个字母分配以该文字为开始的英文单词，将其读音登记到声音识别装置，用户通过发出这些分配的英文单词来获取与英文单词对应的字母。
[0008]另外，还考虑以下方法:连续地发出某个字母的一个文字以及字母顺序为接着该字母的一个字母的文字(例如，参照专利文献I)。
[0009]在该方式中，例如“ADC”的情况下的读音成为“工一匕一于'I 一 4 一 '> 一 r ^—” (AB DE CD)。
[0010]其目的在于，利用通过设为两个字母的文字的组合而发出的声音的特征量变大，而与一个字母的文字的情况相比提高识别率。
[0011]专利文献1:日本特开平11-167393号公报

【发明内容】

[0012]发明要解决的问题
[0013]然而，在针对每个字母来分配以该文字开始的英文单词的方式中，发声者需要学习与26个字母的文字对应的英文单词。也就是说，为了进行更快速的声音输入，需要记住与每个字母对应的英文单词，记忆费时因此导致培训成本增加。
[0014]另外，在针对每个字母分配以该文字开始的英文单词的方式的情况下，存在以下问题:在发声者发声时必须一边始终连想下一个字母并想出与此对应的英文单词一边发声。
[0015]另外，在依照连续地发出一个字母的文字以及字母顺序接着该字母的一个字母的文字的方式的情况下，将“ADC”读为“工一 ?' 一 fM — 4 一-> 一 fM —” (AB DE CD)，但是
容易发生接着“工一” (A)之后直接发出“〒^ 一” (D)、或者没有瞬间说出要接在某一字母之后的字母而变得吞吞吐吐等错误发声。
[0016]因此，为了始终正确地进行输入，发声者需要保持集中力以避免这些错误发声，负担大。
[0017]因此，本发明的目的在于提供一种能够提高声音识别精度并且适于减小发声者的负担的声音识别装置。
[0018]用于解决问题的方案
[0019]本发明的一个方式是一种声音识别装置，其特征在于，具有:识别字典；以及声音识别处理部，其使用该识别字典来进行声音识别处理，其中，在上述识别字典中登记有将识别对象文字和与声音数据有关的信息相对应而得到的识别数据，该声音数据表示由规定文字列和接着该规定文字列的上述识别对象文字构成的连续文字列的读音，上述规定文字列是在发出上述连续文字列的读音时用于提高上述识别对象文字的开头音素的声能的文字列。
[0020]可以是，上述规定文字列是日文的文字列，是其读音为三个音拍(mora)以上且其末端的两个音拍为(tto)”的文字列。
[0021 ] 可以是，上述规定文字列是英文的文字列，是其读音以辅音、元音、辅音的顺序构成的文字列。
[0022]可以是，上述规定文字列是中文的文字列，是其读音以中文声调被分类为第三声且为一个音节的文字列。
[0023]可以是，在上述识别字典中登记有将识别对象文字和与声音数据有关的信息相对应而得到的识别数据，该声音数据`表示由上述规定文字列和接着该规定文字列的连续了规定次数的上述识别对象文字构成的连续文字列的读音。
[0024]可以是，上述识别对象文字为字母。
[0025]发明的效果
[0026]根据本发明的一个方式，识别字典中登记有将识别对象文字和与声音数据有关的信息相对应而得到的识别数据，该声音数据表示由规定文字列和接着该规定文字列的识别对象文字构成的连续文字列的读音，作为规定文字列，被设定为用于提高识别对象文字的开头音素的声能的文字列。用户在识别对象文字之前附加规定文字列而发声，由此能够容易提取识别对象文字的声音的特征量，其结果，能够提高识别对象文字的识别率。
[0027]另外，通过附加日文并且是“ F' ^卜”(dotto)、“7 ^卜”(atto)等日文读音为三个音拍以上的单词且其末端的两个音拍为“ c △ (tto)”(日文促音)的文字列作为规定文字列，在发声时能够容易地提高识别对象文字的开头音素的声能。
[0028]另外，通过附加英文并且是“(1於”、、1*”、、於”、“(11*”这种其文字列的英文读音以辅音、元音、辅音的顺序构成的文字列作为规定文字列，在发声时能够容易地提高识别对象文字的开头音素的声能。
[0029]另外，附加中文并且是“点(Π 二 > ) ”、“简(夕二 > ) ”、“党(夕' > )”这种其文字列的中文读音以中文声调被分类为第三声且为一个音节的文字列作为规定文字列，在发声时能够容易地提高识别对象文字的开头音素的声能。[0030]另外,通过使用与不仅附加规定文字列还使识别对象文字连续而成的连续文字列对应的识别字典，即使在不容易识别的识别对象文字之间，对于一方，使识别对象文字连续而容易提取出声音的特征量，由此在不容易识别的文字之间也能够容易地识别，即能够进一步提闻识别率。
[0031]另外，根据本发明的其它方式，对字母附加规定文字列。关于字母，发声时的长度短并且发音相互接近的文字也多，但是通过对字母附加规定文字列，能够更容易地提取出字母的声首的特征量，进一步提闻识别率。
【专利附图】

【附图说明】
[0032]图1是表示本发明中的声音识别装置的一例的概要结构图。
[0033]图2是表示中文的各声调的图案的图。
[0034]图3是母语为日文的日本人发出字母“ B ”时的频谱图的一例。
[0035]图4是母语为日文的日本人在字母“B”前附加“ F'，卜”(dotto)而发声时的频谱图的一例。
[0036]图5是图3的字母“B”的开头要素部分的放大图。
[0037]图6是图4的字母“B”的开头要素部分的放大图。
[0038]图7是母语为英文的北美出生者发出字母“K”时的频谱图的一例。
[0039]图8是母语为英文的北美出生者在字母“K”前附加“pub” ( 〃 7' )而发声时的频谱图的一例。
[0040]图9是图7的字母“K”的开头要素部分的放大图。
[0041]图10是图8的字母“K”的开头要素部分的放大图。
[0042]图11是母语为中文普通话的中国出生者发出字母“D”时的频谱图的一例。
[0043]图12是母语为中文普通话的中国出生者在字母“D”前附加“点(二 > )”而发声时的频谱图的一例。
[0044]图13是图11的字母“D”的开头要素部分的放大图。
[0045]图14是图12的字母“D”的开头要素部分的放大图。
[0046]图15是发出一个字母的文字的情况下的识别率的一例。
[0047]图16是在一个字母的文字前附加“ K 卜”(dotto)而发声的情况下的识别率的一例。
[0048]图17是连续发出两个字母的文字的情况下的识别率的一例。
[0049]图18是在各字母前附加“卜'' 卜”(dotto)而连续发出两个字母的文字的情况下的识别率的一例。
[0050]图19是表示母语为英文的北美出生者一人在字母前不进行任何附加而发出一个字母的文字的情况下以及在字母前附加“pub” ( 〃 7' )而发声的情况下的第一至第五候选的识别率的图。
[0051]图20是表示母语为英文的北美出生者一人在字母前不进行任何附加而发出两个字母的文字的情况下以及在字母前附加“pub” ( 〃 7' )而发声的情况下的第一至第五候选的识别率的图。
[0052]图21是表示母语为中文普通话的中国出生者一人在字母前不进行任何附加而发出一个字母的文字的情况下以及在字母前附加“点(- >)”而发声的情况下的第一至第五候选的识别率的图。
[0053]图22是表示母语为中文普通话的中国出生者一人在字母前不进行任何附加而发出两个字母的文字的情况下以及在字母前附加“点(工 >)”而发声的情况下的第一至第五候选的识别率的图。
[0054]图23是表示声音识别时的声音识别装置的处理过程的一例的流程图。
【具体实施方式】
[0055]下面，参照【专利附图】

【附图说明】本发明的实施方式。
[0056]图1是表不本发明的一个实施方式的、表不声音识别装置100的一例的概要结构图。
[0057]该声音识别装置100例如由个人计算机构成，具备用户信息处理部1、声音识别器
2、声音输入装置3以及识别结果输出装置4。
[0058]用户信息处理部I具备用户信息输入装置11、用户信息处理执行部12以及字母发声方式数据库13。
[0059]用户信息输入装置11是向声音识别装置100的登录操作、并且用于输入用户信息等的装置，例如由键盘等构成。上述用户信息是用于确定进行声音识别的用户的信息，例如包含用户ID。
[0060]用户信息处理执行部12被从用户信息输入装置11输入用户信息，从字母发声方式数据库13读出与用户信息对应的各种信息。在此，在字母发声方式数据库13中针对每个用户ID存储有表示由该用户ID确定的用户以哪种输入方式输入字母的字母输入方式信息。在后文中说明该字母输入方式信息。
[0061]用户信息处理执行部12从字母发声方式数据库13读出与从用户信息输入装置11输入的用户信息对应的字母输入方式信息，将该字母输入方式信息输出到声音识别器2的后述的声音对照处理执行部21。
[0062]声音识别器2具备声音对照处理执行部21、声音模式数据库22、单词字典数据库23以及语言模式数据库24。
[0063]声音对照处理执行部21被从声音输入装置3输入声音数据，根据声音模式数据库22、单词字典数据库23以及语言模式数据库24所存储的声音模式、单词字典和语言模式，对所输入的声音数据进行声音识别，将其结果输出到识别结果输出装置4。
[0064]在此，在单词字典数据库23中，作为单词字典，对应地存储有表示任意的单词的文字列与对应于文字列的声音模式的时间序列的特征量。并且，对于由字母列构成的单词或者包含字母的单词，针对每个字母对应地存储有表示在其之前附加预先设定的单词例如“ K 卜”(dotto)而得到的单词的声音模式的时间序列的特征量。
[0065]例如，在单词“ADC”的情况下，对应地存储有与“卜'' 卜工一 K 'y卜— K 'y卜一” (dottoA dottoD dottoC)对应的声音模式的时间序列的特征量以及单词“ADC”。此
外，在此所指的字母列并非是英文单词，是指按字母发声而表示一个单词的字母的排列。
[0066]并且，例如对于“N”，对应地存储有与“ F' ^卜二 3 二 3 ” (dottoNN)对应的声音模式的特征量，对于“P”，对应地存储有与“卜'' y卜一” (dottoPP)对应的声音模式的特征量。例如，在单词“PM”的情况下，对应地存储有与“卜'' 卜C一 !^一 K ^卜工A”(dottoPPdottoM)对应的声音模式的时间序列的特征量以及单词“PM”。此外，与利用声音识别装置100的各用户的字母输入方式信息对应地设定附加到这些字母前的单词的种类、与字母“N”和“P”有关的特征量的设定方法。
[0067]声音输入装置3由麦克风等声音收集装置构成。该声音输入装置3将发声声音变换为与该声音对应的模拟的电信号，用未图示的A/D变换器将该电信号变换为数字信号，将该数字信号作为声音数据输出到声音识别器2。
[0068]识别结果输出装置4例如由显示装置构成，显示由声音识别器2进行声音识别得到的结果，即与所输入的声音数据对应的文字列。
[0069]接着，说明本声音识别装置100中的字母输入方法和识别方法的原理。
[0070]在本声音识别装置100中，在输入字母时，在各字母前附加预先设定的单词来输入。作为所附加的该单词，设定能够促使提高字母的开头音素的声能的单词。
[0071 ] 作为这种单词，设定日文并且日文读音为三个音拍以上且其末端两个音拍具有促音“。i (tto)” (日语促音)的单词。
[0072]除此以外，设定英文并且英文读音由辅音、元音、辅音的顺序构成的单词、中文并且其读音以中文声调被分类为第三声且为一个音节的单词。
[0073](关于音拍的说明)
[0074]音拍(mora) 是声音的文节(日文语法)单位，表示以几个拍读出该词。例如以日文读音，“々t ”为两个音拍，“如ff b ^ ”为三个音拍。“ 6 O分姑P ”为五个音拍。
[0075](关于中文声调的说明)
[0076]中文等的所谓声调语言使用声调(Tone)来区分词的意思。例如图2所示，中文基本上存在四个声调(第一声~第四声:声调I~声调4)。此外，图2的横轴是归一化时间，纵轴是从所输入的声音提取出的基频(f0)。关于中文的数字“O~9”，将“1、3、7、8”分类为第一声(声调I)，将“O”分类为第二声(声调2)，将“5、9”分类为第三声(声调3)，将“0、2、4、6”分类为第四声(声调4)。
[0077]第三声的特征在于，与其它声调相比基频(f0)低，并且在紧接着发声之后基频(f0)下降，之后上升。
[0078]如上所述，作为能够促使提高字母的开头音素的声能的对各字母共通附加的单词，具体地说，能够应用“ F' 卜”(dotto)、“7 'y卜”(atto)、“7 A 7 τ ^
卜 ’，(arufuxabetto)、“pub” (八 7' )、“pot” ( 卜)以及中文读音“点(于、工 > )”、
“简(夕工 >)，，、“党(夕' > )，，等。
[0079]例如在采用“ F' 卜”(dotto)作为对各字母共通附加的单词的情况下，将“ADC”读为“卜' '7 卜工一 K 'y 卜于.' "? 一 K 'y 卜一” (dottoA dottoD dottoC)。
[0080]通常，在将“ F' 卜”(dotto)等能够促使提高字母的开头音素的声能的单词附加到字母前的情况下，首先附加到字母前的卜”(tto)的部分强发声，容易保持其气势不变而对接着“ y卜”(tto)的字母的开头音素也进行强发声。
[0081]在将“pub” (八7' )、“pot” ( 卜)、中文读音的“点(Π工 > )”等单词附加
到字母前的情况下，也同样地，所附加的单词的尾音强发声，容易保持其气势不变而对接着该单词的尾音的字母的开头音素也进行强发声。[0082]该字母的开头音素是以声音的方式区分各字母时有效的部分，该部分强而清楚地发声能够容易提取出声音的特征量。因此，将这种单词附加到字母前而发声能够提高字母的识别率。
[0083]在此，在字母的发声连续的情况下，有时从字母向下一个字母转移的部分的发声容易变形或者不容易清楚地发声。
[0084]例如“NHK(注册商标)”、“SI”原来的读法分别为“工^工^千夕一” (enueitike-)、“工7 7* ^ ” (esuai),但是在实际发声中容易接近“工才、一千’一” (ene-tike-) “工寸 4 ” (esai)等这种发音。
[0085]另外，例如“AM”原来读法为“ 二一二 A ” (e-emu)，但是实际上“Μ”的开头的“二” (e)不容易发声，发音容易接近将“工一” (e-)的部分延长的“工一 (e-mu)。
[0086]发出这些所谓变形的字母发声与声音识别器2所使用的由声音模式学习的、通常的字母的发音不同，因此成为产生识别错误的主要原因。
[0087]在本实施方式中，在各字母前附加共通的单词而发声，由此字母的发声不会连续。因此，容易按字母进行发声。
[0088]即，接近由声音模式学习的字母的发音，因此能够提高字母的识别率。
[0089]图3是母语为日文的日本人在字母“B”前不进行任何附加而将其发声为“ H一”⑶的情况下的频谱图。另外，图4是与图3相同的人在字母“B”前附加“ F 卜”(dotto)而发声为“ K y卜e—” (dottoB)的情况下的频谱图。图3和图4的横轴均表示时间，纵轴均表示频率。另外，明亮度表示强度。
[0090]在图3和图4中，被虚线包围的区域表示“B”的辅音部分。图5和图6是放大被该虚线包围的区域的图，图5是放大图3的被虚线包围的部分的图，图6是放大图4的被虚线包围的区域的图。`
[0091]当将图3和图4的被虚线包围的部分、即“B”的辅音部分进行比较时，根据图5和图6可知，与图5相比，图6的黑色部分与白色部分的对比度清楚，辅音部分的频谱清楚。即，可知被强发音。
[0092]由此，可知通过在字母前附加是日文的文字列并且其读音为三个音拍以上且末端以结束的单词，能够进行字母的开头音素的发音清楚的发声。
[0093]图7是母语为英文的北美出生者在字母“K”前不进行任何附加而将其发声为 — )的情况下的频谱图。另外，图8是与图7相同的人在字母“K”前附加“pub( 〃
7')”而发声为“pubK”( —)的情况下的频谱图。在图7和图8中，横轴均表示时间，纵轴均表示频率。另外，明亮度表示强度。
[0094]在图7和图8中，被虚线包围的区域表示“K”的辅音部分。图9和图10是放大被该虚线包围的区域的图，图9是放大图7的被虚线包围的部分的图，图10是放大图8的被虚线包围的区域的图。
[0095]当将图7和图8的被虚线包围的部分、即“K”的辅音部分进行比较时，根据图9和图10可知，与图9相比，图10的黑色部分与白色部分的对比度清楚，辅音部分的频谱清楚。即，可知被强发音。
[0096]由此，可知通过在字母前附加其读音以辅音、元音、辅音的顺序构成的单词，能够进行字母的开头音素的发音清楚的发声。[0097]图11是母语为中文普通话的中国出生者在字母“D”前不进行任何附加而发声为
—)的情况下的频谱图。另外，图12是与图11相同的人在字母“D”前附加“点(工 > )”而发声为“点D”( 工—)的情况下的频谱图。在图11和图12中，横轴均表示时间，纵轴均表示频率。另外，明亮度表示强度。
[0098]在图11和图12中，被虚线包围的区域表示“D”的辅音部分。图13和图14是放大被该虚线包围的区域的图，图13是放大图11的被虚线包围的部分的图，图14是放大图12的被虚线包围的区域的图。
[0099]当将图11和图12的被虚线包围的部分、即“D”的辅音部分进行比较时，根据图13和图14可知，与图13相比，图14的黑色部分与白色部分的对比度清楚，辅音部分的频谱清楚。即，可知被强发音。
[0100]由此，可知通过在字母前附加其读音以中文声调被分类为第三声且为一个音节的单词，能够进行字母的开头音素的发音清楚的发声。
[0101]另外，图15至图18是母语为日文的说话者在字母前不进行任何附加而发声的情况下以及在字母前附加“卜'' y卜”(dotto)而发声的情况下比较声音识别率的图。
[0102]图15和图16是针对将母语为日文的五位成年男性、五位成年女性共计十位设为受验者、在字母前不进行任何附加而发出一个字母的文字的情况以及在字母前附加“ K
卜”(dotto)而发声的情况示出每个人的平均识别率与整体平均识别率的图，是表示第一候选的识别率和第二候选的识别率的图。在此，第N候选的识别率是表示直到声音识别结果的第N候选为止包含正确的字母的概率。
[0103]可知即使在仅一个字母的文字的情况下，与在字母前不进行任何附加而发声的情况相比，在字母前附加“ K 卜”(dotto)而发声也提高了识别率。
[0104]同样地，图17和图18是针对将母语为日文的三位成年男性设为受验者、在字母前不进行任何附加而发出两个字母的文字的情况以及在每个字母前附加“卜'' y卜”(dotto)而发声的情况示出每个人的平均识别率和整体的平均识别率的图，是表示第一候选的识别率和第二候选的识别率的图。
[0105]如图15和图16所示，在一个字母的文字的情况下，在字母前不附加“ F' 'y卜”(dotto)的情况下的平均识别率在第一候选的情况下为91.15%、在第二候选的情况下为96.54%，与此相对，在字母前附加“ F' 卜”(dotto)的情况下的平均识别率在第一候选的情况下为93.85%、在第二候选的情况下为99.62%，识别率改进大约2%~3%。
[0106]与此相对，如图17和图18所示，在两个字母的文字的情况下，在字母前不附加“ Fy卜”(dotto)的情况下的平均识别率在第一候选的情况下为77.33%、在第二候选的情况下为90.33%，与此相对，在各字母前附加“ F' 卜”(dotto)的情况下的平均识别率在第一候选的情况下为88.67%、在第二候选的情况下为97.67%，识别率改进大约7%~11%。
[0107]也就是说，在识别两个字母的文字的情况下，针对每个字母在字母前附加“ F，卜”(dotto)而发声所得到的声音识别率的改进大于识别一个字母的文字的情况下的声音识别率的改进。
[0108]即，可知在字母连续那样的发声的情况下，通过针对每个字母在字母前附加“ F'
卜”(dotto)而发声，对识别率的提高更有效。
[0109]其理由举例如下:针对每个字母在字母前附加“卜'' 〃卜”(dotto)而发声与在字母前不进行任何附加而发声的情况相比，除了容易清楚地发出各字母的开头音素以外，字母之间被“卜'' y卜”(dotto)这种单词隔开，由此字母的发声不会连续，因此不容易形成字母部分变形的发声。
[0110]而且，在该方式的情况下，仅在全部英文字母前附加共通的单词(例如“ F'
卜”(dotto))而发声，因此对于发声者来说容易理解并记住输入方式。
[0111]特别是，在设为共通地附加“ K 〃卜”(dotto)、“ 7 〃卜”(att0)这种单词的情况下，是短单词并且分别容易连想到”、“O”这种日常经常看到的符号，因此，特别容易记住和实施对单词的附加。
[0112]图19、图20是将母语为英文的一位北美出生者设为受验者、在字母前不进行任何附加而发声的情况下以及在字母前附加“pub” ( 〃 7' )而发声的情况下比较声音识别率的图。
[0113]图19是表示在字母前不进行任何附加而发声一个字母的文字的情况下以及在字母前附加“pub”( 〃 7' )而发出一个字母的文字的情况下的第一至第五候选的识别率的图。
[0114]图20是表示由与图19相同的受验者在字母前不进行任何附加而发出两个字母的文字的情况下以及在字母前附加“pub” ( 〃 7' )而发出两个字母的文字的情况下的第一至第五候选的识别率的图。
[0115]图21和图22是将母语为中文普通话的一位中国出生者设为受验者、在字母前不进行任何附加而发声的情况下以及在字母前附加中文读音“点(于]工 > )”而发声的情况下比较声音识别率的图。
[0116]图21是表示在字母前不进行任何附加而发出一个字母的文字的情况下以及在字母前附加“点(r]工 >)”而发出一个`字母的文字的情况下的第一至第五候选的识别率的图。
[0117]图22是表示由与图21相同的受验者在字母前不进行任何附加而发出两个字母的文字的情况下以及在字母前附加“点(于]工 >)”而发出两个字母的文字的情况下的第一至第五候选的识别率的图。
[0118]根据图19~图22可知，当在字母前附加“pub” (八7' )、“点(于]工 > )”等读音由辅音、兀音、辅音的顺序构成的文字列、读音以中文声调被分类为第三声且为一个音节的文字列时，识别率提闻。
[0119]其理由举例如下:与针对每个字母在字母前附加“ K 〃卜”(dotto)而发声时同样地，与在字母前不进行任何附加而发声的情况相比，附加“pub” (广7' )、“点(二 > ) ”等文字列除了容易清楚地发出各字母的开头音素以外，字母之间被上述文字列隔开，由此字母的发声不会连续，因此不容易形成字母部分变形的发声。
[0120]并且，在本实施方式中，将共通的单词附加到各字母，并且能够对各字母分别设定将字母部分发声一次还是发声两次。
[0121]例如，字母的“M”(二 A )和“N”(二 3 )的发音不同的部分并非是开头而是第二个音拍，并且“二 (emu)的“A” (mu)和“二 5 ” (enu)的“s” (nu)均为鼻音，因此难以识别。
[0122]对于这种难以识别的字母的组，如果设定为对一方将字母部分读一次而对另一方将字母读两次(例如将“M”设为“ F' ^卜工A” (dottoM)而将“N”设为“卜1卜工5工^ ” (dottoNN)等)，则发声时间长产生明确的差异，因此容易识别双方的字母。
[0123]另外，在本实施方式中，关于各字母，能够针对每个人设定接着共通附加的单词之后将字母仅发声一次还是将字母发声两次。
[0124]也就是说，预想为接着共通附加的单词之后将字母仅发声一次还是将字母发声两次、哪一个容易识别针对每个人或者每个字母而不同。此外，如果通过接着共通附加的单词之后将字母仅发声一次的方式能够得到充分的识别精度，则在实际应用中期望使用该方式。
[0125]因此，在字母发声方式数据库13中针对每个用户保持与接着共通附加的单词之后将字母仅发声一次还是发声两次有关的信息(以下称为字母输入方式信息)。
[0126]例如，特别是关于容易引起相互误识别的字母，预先针对每个人来测试在将字母读一次的情况下以及连续读两次的情况下哪一个读法在声音识别装置100中容易识别。而且，根据测试得到的结果，关于各字母，将与接着共通附加的单词之后将字母仅发声一次还是将字母发声两次有关的信息登记到字母发声方式数据库13。
[0127]例如在用户A的情况下，关于难以识别的字母的组“M与N”，作为接着附加的单词“ K 卜”(dotto)之后读出字母的次数，例如将“Μ”设定为一次，将“N”设定为两次。另外，关于难以识别的字母的组“B与P”，作为接着附加的单词“ F 卜”(dotto)之后读出字母的次数，例如将“B”设定为一次，将“P”设定为两次。
[0128]同样地，例如在用户B的情况下，关于字母的组“M与N”，例如将“M”设定为两次，将“N”设定为一次，关于字母的组“B与P”，例如将“B”设定为两次，将“P”设定为一次。而且，将这些信息作为字母输入方式信息与用户ID对应地存储到字母发声方式数据库13。
`[0129]而且，在登录声音识别装置100时等在用户信息输入装置11中输入了用户信息的时间点，根据该用户信息所包含的用户ID，从字母发声方式数据库13获得与该用户ID对应的字母输入方式信息，将获得到的字母输入方式信息输出到声音识别器2的声音对照处理执行部21。
[0130]而且，在声音对照处理执行部21中，根据从用户信息处理执行部12输入的字母输入方式信息来进行声音识别。
[0131]由此，针对声音识别装置100的每个用户，能够以最佳的设定进行声音识别。
[0132]接着，按照图23的流程图说明上述实施方式的动作。
[0133]图23是表示进行声音识别的情况下的声音识别装置100的一系列动作的一例的图。
[0134]用户A首先操作用户信息输入装置11而输入用户信息，进行登录操作。
[0135]当被输入用户信息时，用户信息输入装置11读入用户信息，将该用户信息输出到用户信息处理执行部12 (步骤SI)。
[0136]用户信息处理执行部12从字母发声方式数据库13读出与用户信息所包含的用户ID对应的字母输入方式信息，输出到声音对照处理执行部21 (步骤S2)。
[0137]用户A对声音输入装置3发出识别对象的字母列。
[0138]此时，用户A通过作为用户A的字母输入方式信息而预先设定的输入方式来发声。例如，如上所述，确定为如下:关于难以识别的字母的组“M与N”，在用户A的情况下，作为字母输入方式信息的接着附加的单词“卜'' y卜”(dotto)之后读出字母的次数，例如将“M”决定为一次，将“N”决定为两次，并且，关于字母的组“B与P”，作为接着附加的单词“ F' ”
卜”(dotto)之后读出字母的次数，作为设定，例如将“B”决定为一次，将“P”决定为两次。
[0139]当前，设为用户A例如输入“PAM”作为字母列。用户A按照作为该用户A的字母输入方式信息而设定的输入方式，发声为“卜'' '7卜匕。一 ^一卜'' '7卜工一卜'' 卜工Λ” (dottoPPdottoA dottoM)ο
[0140]用户A的发声声音被声音输入装置3收集并进行规定的处理之后，被变换为由数字信号构成的声音数据，输入到声音对照处理执行部21 (步骤S3、S4)。
[0141]然后，在声音对照处理执行部21中，根据声音模式、单词字典、语言模式对所输入的声音数据执行声音识别处理(步骤S5)。
[0142]在此，在单词字典数据库23中，关于由字母列构成的单词或者包含字母列的单词，登记有与使用声音识别装置100的用户的字母输入方式信息对应的单词字典。
[0143]在声音对照处理执行部21中，使用与从用户信息处理执行部12输入的字母输入方式信息对应的单词字典来执行声音识别处理。
[0144]也就是说，在单词字典数据库23中设定有与各用户的字母输入方式信息对应的单词字典。此外，对于该单词字典的设定，使用生成使要识别的单词与表示该单词的读音的声音数据的特征量对应的单词字典的公知的单词字典生成装置来进行即可。
[0145]例如，在上述用户A和用户B为使用者的情况下，如上所述，对于“M”、“N”、“P”、“B”，用户A与用户B反复进行发声的次数不同。因此，针对每个字母对应地存储有表示在该字母前附加预先设定的单词例如“卜'' y卜”(dotto)而得到的登记对象单词的声音模式的时间序列的特征量。
[0146]此时，作为关于“M”的声音数据的表示“卜''7卜工Λ工Λ” (dottoMM)的声音数据、作为关于“N”的声音数据的表示“ F 〃卜工3工3 ” (dottoNN)的声音数据、作为关于“B”的声音数据的表示“卜'' y卜ti — ii 一” (dottoBB)的声音数据、作为关于“P”的声音数据的表示“ K 卜一一” (dottoPP)的声音数据，对应地存储有与此对应的声音模式的特征量。
[0147]也就是说，例如对于单词“PAM”，对应地存储有与用户A的字母输入方式对应的“ F 'y卜if 一 if 一 K 'y卜工一卜…7卜工Λ ”(dottoPP dottoA dottoM)以及与用户B的字母输入方式对应的“卜' y卜一卜' y卜工一 K '7卜工Λ工Λ” (dottoP dottoA dottoMM)。
[0148]另外，对于单词“NB”，对应地存储有“ F' 卜工3工3 K 7卜匕'一” (dottoNNdottoB)和 “ F' 7 卜工 5 K 7 卜匕' 一匕' 一” (dottoN dottoBB)。
[0149]而且，在用户A的情况下，如上所述，作为字母输入方式信息，将“M”设定为一次，将“N”设定为两次，将“B”设定为一次，将“P”设定为两次。因此，参照与用户A的字母输入方式对应的、单词“PAM”与“ F'卜！^一 !^一 K卜工一卜'' 7卜工Λ” (dottoPP dottoAdottoM)对应的单词字典来进行声音识别。
[0150]因而，通过参照与用户A的字母输入方式信息对应的单词字典，将表现为“ K 卜匕。一 if 一 F 'y卜工一卜…7卜工λ” (dottoPP dottoA dottoM)的声音数据识别为“P A M”，该“P A M”作为识别结果，被输出到识别结果输出装置4而显示(步骤S6)。
[0151]另一方面，在用户B的情况下，作为字母输入方式信息，将“M”设定为两次，将“N”设定为一次，将“B”设定为两次，将“P”设定为一次，因此在声音输入单词“PAM”的情况下，用户B发声为“卜'' 7卜C一 K 7卜工一卜'' 7卜工Λ工Λ” (dottoP dottoA dottoMM)。
[0152]在声音对照处理执行部21中，使用与用户B的字母输入方式信息对应的单词字典来进行声音识别，因此参照单词“PAM”与“ F' ^卜一 K 'V卜工一 F' ^卜工Λ Λ "(dottoPdottoA dottoMM)对应的单词字典来进行声音识别。
[0153]因而，通过参照与用户B的字母输入方式信息对应的单词字典，将表示“ K 卜C一卜…7卜工一卜…7卜工Λ工Λ” (dottoP dottoA dottoMM)的声音数据识别为“P A M”。
[0154]在此，如上所述，在声音输入字母列的情况下，“PAM”中的“AM”的部分容易被发声为“二一 Λ ” (e-mu)。另外，“P”与“B”也难以识别。
[0155]然而，用户A在发声为“PAM”时，针对每个字母在该字母前附加“ F 卜”(dotto)，并且关于“P”反复两次“ e—”⑵而发声为“卜'' y卜if—” (dottoP)。
[0156]因此，字母“P”、“A”、“M”之间被“ K ^卜” (dotto)这种单词隔开，其结果，“AM”的部分不容易发声为“工一 (e-mu)，并且容易清楚地发出各字母的开头要素。因此，在声音数据中容易出现“M”的声音的特征量。因而，能够提高识别率。
[0157]另外，用户需要在字母前附加“ F' 卜”(dotto)，对各字母附加作为共通的单词的“ K 卜”(dotto)而比较容易发声，因此能够抑制弄错要附加的单词或者说得吞吞吐吐。
[0158]另外，针对每个用户设定字母输入方式信息，用户A在根据该用户A发出的声音数据来进行声音识别时，使用能够确保某种程度的识别率的输入方式来发声。因此，通过考虑用户A的发声特性来进行声音识别，能够进一步提高识别率。
[0159]此外，在上述实施方式中，说明了使用“ F 卜”(dotto)作为附加到字母前的单词的情况，但是并不限定于此。
[0160]如上所述，也可以是附加“ 7 '7卜” (atto)、“ 7 7 r《7卜” (arufuxabetto)的结构。另外，考虑附加到字母前的单词引起的识别率的差，也可以是作为要附加的单词，预先针对每个用户检测识别率良好的单词，针对每个用户附加不同的单词。
[0161]也就是说，根据用户不同而存在发声习惯等，认为还存在除了“ F' 卜”(dotto)、 'y卜”(atto)等以外的提高字母的开头音素的声能那样的单词。因而，也可以针对每个
用户附加适合于自己的发声特性的、提高字母的开头音素的声能那样的单词。
[0162]在该情况下，构成为在每个用户的字母输入方式信息中还包含作为附加到字母前的单词附加什么单词的信息即可。
[0163]另外，发声声音具有个体差异，根据用户不同，有可能即使在字母前不附加单词也得到充分的识别率。
[0164]因而，还能够设为以下结构:作为字母输入方式信息，还包含是否在字母前附加单词，由此在不需要在字母前附加单词的用户的情况下，即使不附加单词也能够进行声音识别。
[0165]另外，在上述实施方式中，说明了在全部字母前附加单词的情况，但是并不需要在全部字母前附加单词，也可以构成为仅在“M”、“N”、“P”、“B”等难以识别的字母前附加单词。
[0166]另外，在上述实施方式中，说明了在将字母列登记到单词字典时将表示在各字母前附加“卜'' 7卜”(dotto)而得到的单词的声音模式的特征量与字母列对应地登记到单词字典的情况，但是并不限定于此。
[0167]例如，也可以以附加了“ F 〃卜”(dotto)的字母为单位登记到单词字典。也就是说，也可以以“ K 卜工A”(dottoM)、“ K 7卜?'一” (dottoB)为单位登记到单词字典。
[0168]另外，在上述实施方式中，以将与声音数据有关的信息对应地登记到识别字典的情况为中心进行了说明，该声音数据表示由字母、用于提高字母的开头音素的声能的文字列以及接着该文字列之后的字母构成的连续文字列的读音。然而，识别对象文字并不限定于字母，也可以是平假名、片假名，没有特别限定，并且对于识别对象的文字数没有限定。
[0169]即，在上述实施方式中，说明了在仅由字母构成的字母列中对各字母附加单词的情况，但是，即使是例如字母与数字、字母与平假名/片假名等字母与其它文字混合的文字列也能够应用。在该情况下，可以设为仅对字母附加单词的结构，并且也可以设为对文字列全部附加单词的结构。
[0170]另外，即使是不包含字母的文字列也能够应用，在该情况下，能够得到与对由字母列构成的文字列进行声音识别时同等的作用效果。
[0171]另外，如图1所示，在上述实施方式中，说明了将用户信息处理部I和声音识别器2安装到一个装置而构成声音识别装置100的情况，但是并不限定于此。例如，也可以将用户信息处理部I和声音识别器2安装于不同的装置，在该情况下，通过通信线路等连接用户信息处理部I与声音识别器2即可。
[0172]另外，在上述实施方式中，说明了对于“M与N”、“B与P”等难以识别的字母将其中一方重复两次的情况，但是并不限定于此。例如，也可以代替重复两次而将容易发声的文字或者单词附加到字母之后。另外，也可以代替附加“ F' 卜”(dotto)作为附加到字母前的单词而对其中一方附加其它单词、例如卜”(atto)。总之，在难以识别的字母之间附加能够充分得到声音的特征量的单词或者文字即可。
[0173]此外，在上述实施方式中，单词字典数据库23所存储的单词字典与识别字典对应，声音对照处理执行部21与声音识别处理部对应，“ K 〃卜” (dotto)与规定文字列对应。
[0174]附图标记说明`
[0175]1:用户信息处理部；2:声音识别器；3:声音输入装置；4:识别结果输出装置；11:用户信息输入装置；12:用户信息处理执行部；13:字母发声方式数据库；21:声音对照处理执行部；22:声音模式数据库；23:单词字典数据库；24:语言模式数据库；100:声音识别
>j-U ρ?α装直。
【权利要求】
1.一种声音识别装置，其特征在于，具有: 识别字典；以及声音识别处理部，其使用该识别字典来进行声音识别处理，其中，在上述识别字典中登记有将识别对象文字和与声音数据有关的信息相对应而得到的识别数据，该声音数据表示由规定文字列和接着该规定文字列的上述识别对象文字构成的连续文字列的读音，上述规定文字列是在发出上述连续文字列的读音时用于提高上述识别对象文字的开头音素的声能的文字列。
2.根据权利要求1所述的声音识别装置，其特征在于，上述规定文字列是日文的文字列，是其读音为三个音拍以上且其末端的两个音拍为“I i (tto) ”的文字列。
3.根据权利要求1所述的声音识别装置，其特征在于，上述规定文字列是英文的文字列，是其读音以辅音、元音、辅音的顺序构成的文字列。
4.根据权利要求1所述的声音识别装置，其特征在于，上述规定文字列是中文的文字列，是其读音以中文声调被分类为第三声且为一个音节的文字列。
5.根据权利要求1?4中的任一项所述的声音识别装置，其特征在于，在上述识别字典中登记有将识别对象文字和与声音数据有关的信息相对应而得到的识别数据，该声音数据表示由上述规定文字列和接着该规定文字列的连续了规定次数的上述识别对象文字构成的连续文字列的读音。
6.根据权利要求1?5中的任一项所述的声音识别装置，其特征在于，上述识别对象文字为字母。
【文档编号】G10L15/187GK103827962SQ201280040807
【公开日】2014年5月28日申请日期:2012年8月31日优先权日:2011年9月9日
【发明者】熊井朋之, 宫崎敏幸申请人:旭化成株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊井朋之;宫崎敏幸
技术所有人：旭化成株式会社
我是此专利的发明人

上一篇：用于对数字声音信号进行减速的方法和设备的制作方法
上一篇：减少语音辨识系统中的漏报的制作方法