声音检索装置的制作方法

文档序号：2830845阅读：150来源：国知局

专利名称：声音检索装置的制作方法
技术领域：
本发明涉及利用声音识别来检索文书等各种文本(text)的装置。
技术背景对于利用声音来检索文书等各种文本的技术，一般有以下的方法利用听写(dictation)型声音识别而将声音变换为文本，在文本上进行全文检索。但是，在该方法中，能够识别的短语数限于数千数万，因此，在对包含这以外的短语的文书等进行检索的情况下，需要考虑未知词的处理。作为对策，在特开2003 - 271629号公报中，揭示了以下的技术以单词为单位在检索对象的文书中只识别出现频度高的高位K个单词，而以音节为单位识别除此以外的单词。然后，利用作为识别结果被抽出的单词，通过全文检索而预先选择文书，然后，推测作为音节序列而识别出的部分的单词，得到最终的检索结果。专利文献l:特开2003 - 271629号y〉净艮在上述现有技术中，针对输入声音中的被识别为单词的位置，将单词作为索引语而进行全文检索。因此，有以下的问题，即如果在识别为单词的位置有错误识别，则检索精度低下。例如有以下的问题即使假设发言为"和歌山O那智大滝"，识别结果的全部单词得到"冈山 <0町大田区，，，也无法检索到包含"和歌山県O那智大滝，，的文书。发明内容本发明就是为了解决上述问题而提出的，其目的在于即使在发言的文字标记和声音识别结果的文字标记不一致的情况下，如果音响上类似，也能够进行检索。另外，其目的在于提供一种即使在包含未知词的文书中也能够抑制识别率低下的技术。另外，其目的在于即使在发言短而检索线索少的情况下，也减少检索遗漏的技术。本发明的声音检索装置具备将检索对象的文书等文本数据分割为规定的语言单位并输出的学习数据分割单元；根据上述分割结果，作成声音识别用的语言模型的语言模型作成单元；按照比上述学习数据分割单元中的分割单位小的单位，对上述检索对象的文书等文本数据进行分割，作成文本检索辞典的文本辞典作成单元；使用上述语言模型识别输入声音，并作为文本输出声音识别结果的声音识别单元；将上述声音识别结果分割为与上述文本辞典作成单元一样的分割单位并输出的对照单位变换单元；将上述对照单位变换单元的输出作为输入，使用上述文本检索辞典，进行文本检索的文本检索单元。根据本发明，构成为参照被分割为语言单位的语言模型和声音特征被模型化了的音响模型，进行输入声音的声音识别，输出音素标记，按照与以比上述语言模型小的单位分割的文本检索辞典的分割单位相同的单位，由对照单位变换单元分割上述音素标记，使用该分割结果，由文本检索单元进行文本检索辞典的检索，因此，具有以下的效果即使在识别结果的单词序列中包含错误识别的情况下，也能够检索希望的设施。

图l是表示本发明的声音检索装置的实施例1的结构的框图。图2是语言模型学习数据存储器的内容例子的说明图。7图3是文本检索辞典的内容例子的说明图。图4是实施例2的加权系数表的内容例子的说明图。图5是实施例2的语言模型的作成流程图。图6是表示实施例3的结构的框图。图7是实施例3的语言模型的作成流程图。图8是表示实施例4的结构的框图。图9是实施例4的声音识别候选数表的内容例子的说明图。图10是实施例4的文本检索单元的文本检索流程图。
具体实施方式
实施例1图l是表示本发明的声音检索装置的实施例1的结构的框图。在该图中，l是声音输入端，2是输入声音，3是声音识别单元， 4是对声音识别结果的对照单位进行变换的对照单位变换单元，5是文本检索单元，6是语言模型存储器，7是音响模型存储器，8是语言模型学习数据存储器，9是学习数据分割单元，IO是语言模型作成单元， 11是文本检索辞典作成单元，12是文本检索辞典存储器，13是检索结果。在音响模型存储器7中存储有对声音的特征进行了模型化后的音响模型。在本实施例中，音响模型例如是HMM (Hidden Markov Model)。在本实施例中，以以下的情况为例子进行说明，即将日本全国的设施、观光点的名称(以后为了简化，将设施和观光点总称为设施) 看作是由若千个单词组成的文本文书，通过声音识别来检索设施或观光点的名称。进而，不只是通常的单词声音识别，还通过文本检索的构架来实施设施名称检索，其优点是即使用户无法正确地知道检索对象的设施名，只要一部分匹配，则也能够进行检索。说明本实施例的声音检索装置的动作。在进行声音识别/检索之前，预先作成语言模型以及文本检索辞典，并分别保存在语言模型存储器6和文本检索辞典存储器12中。首先，说明语言模型的作成方法。在语言模型学习数据存储器8 中，预先存储检索对象的各设施的ID编号、片假名汉字标记、音素标记。图2表示语言模型学习数据存储器8的内容例子。学习数据分割单元9输入存储在语言模型学习数据存储器8中的各设施的文字标记和音素标记，进行语素分析，将文字串例如分割为单词单位。例如在文字标记为"和歌山O那智大滝"，音素标记为 "wakayamanonaciootaki，，的情况下，分割结果是"和歌山(wakayama ) O (no)/那智(naci)/大泷(ootaki)，，。在此，()内表示音素标记。另夕卜，"/"是表示分割位置的记号，并不包含在语言模型的学习数据中。学习数据分割单元9对存储在语言模型学习数据存储器8中的全部设施名称进行上述处理，并将分割结果输出到语言模型作成单元IO。语言模型作成单元10输入全部设施的上述分割结果，作成语言模型，并保存在语言模型存储器6中。作为语言模型，在本实施例中，例如假i殳为三线形(trigram );漠型。接着，说明文本检索辞典的作成方法。文本检索辞典作成单元ll 输入存储在语言模型学习数据存储器8中的各设施的音素标记和ID编号，对上述音素标记进行分割。文本检索辞典作成单元ll中的分割单位是比作为学习数据分割单元9的分割单位的单词短的单位。例如在本实施例中为音节。在存储在语言模型学习数据存储器8中的ID编号第l号的情况下，音素标记是"wakayamanonaciootaki，，，分割结果是 "wa/ka/y a/ma/no/na/ci/o/o/ta/ki，，。文本检索辞典作成单元11对存储在语言模型学习数据存储器8中的全部设施名称进行上述处理，将音节作为索引词，例如作成转存文件，并作为文本检索辞典存储在文本检索辞典存储器12中。图3表示根据ID编号第1号和第2号的设施作成的文本检索辞典的例子。接着，说明声音识别和检索的动作。如果从声音输入端1输入了声音2，则声音识别单元3使用保存在语言模型存储器6中的语言模型和保存在音响模型存储器7中的音响模型，进行声音识别，作为识别结果输出单词序列的音素标记。例如在输入声音的发言内容是"和歌山(O那智大滝"，识别结果是"冈山/0/町/大田区"的情况下，声音识别单元3输出上述识别结果的音素标记,即"okayama/no/maci/ootaku，，。对照单位变换单元4如果输入了上述音素标记，则将其分割为比单词短的单位并输出。假设该分割单位与在文本检索辞典作成单元11 中使用的分割单位一样。即，如上所述，在本实施例中，文本检索辞典作成单元11中的分割单位是音节，因此对照单位变换单元4中的分割单位也是音节。因此，在本实施例中，对照单位变换单元4的输出是"o/ka/ya/ma/no/ma/ci/o/o/ta/ku"。接着，文本检索单元5将上述分割结果作为输入，从先头的音节开始顺序地参照存储在文本检索辞典存储器12中的上述转存文件，对包含该音节的设施的得分加1。直到上述分割结果的最终音节为止进行上述处理。然后，将得分为规定阈值S以上的设施作为检索结果输出。另外，例如假设上述阈值S为识别结果的音节数的0.8倍。即，在本实施例的情况下，是输入音节数ll的0.8倍，即11x0.8 = 8.8。其结果，上述输入音节序列"o/ka/ya/ma/no/ma/ci/o/o/ta/ku，，除了最终音节"ku，，以外，与作为正确解发言的"和歌山O那智大滝"的音节序列"wa/ka/ya/ma/no/na/ci/o/o/ta/ki，，匹配，因此得分为10，将"和歌山O那智大滝"作为检索结果输出。如上所述，根据本发明，由对照单位变换单元4分割为比声音识别时的单位还小的单位，使用该分割结果，由文本检索单元5进行文本检索，因此有以下的效果即使在识别结果的单词序列中包含错误识别的情况下，也能够检索希望的设施。实施例2本实施例如下这样对学习数据分割单元9和语言模型作成单元10 的动作进行变更。学习数据分割单元9将存储在语言模型学习数据存储器8中的各设旒的文字标记和音素标记作为输入，对词素进行分析，将文字串分割为单词单位，但例如作为单词只剩下出现频度高的高位K个，将其他分解为音节序列。进而，对于作为单词剩下的，在本实施例中以出现频度为基准进行选择，但也可以使用其他任意的基准进行选择。另外，向语言模型作成单元IO的输出对音素标记附加了用于表示分割单位是单词还是音节的区别的标志。进而，上述出现频度K是预定的常数，例如K-500。例如，在存储在图2所示的语言模型学习数据存储器8中的设施的文字标记在"和歌山CO那智大滝"中出现频度K位以内的单词是"和歌山"、"CD "、"滝"这3个的情况下，分割结果为 "wakayamaw/no[w/na[s/ci[s/o[s/o[s/taki[wI"，将其输出。在此， [是表示分割结果是单词还是音节的区别的标志，[wl表示单词，[sl表示音节。另一方面，在文字标记"东京O千代田区役所，，中，在全部是出现频度K位以内的单词的情况下，分割结果是 "tookjoo[wl/no[w/ciyoda[w/kuyakusjo[w"。学习数据分割单元9对存储在语言模型学习数据存储器8中的全部设施名称进行上述处理，将分割结果输出到语言模型作成单元10。语言模型作成单元10输入上述分割结果，作成语言模型。其中，按照下述的方法，对各^:施的学习数据附加加权而进行学习。图5表示语言模型作成单元10的语言模型的作成步骤。语言模型作成单元10如果输入了上述学习数据分割单元9的分割结果，则根据公式(1)计算上述分割结果的音节含有率Rs (ST101)。公式(1)Rs - Ns/N ...... (1)在此，Ns是在上述分割结果中分割结果是音节的个数，N是全部分割数。例如在"wakayamawI/no[w/nas/ci[s/o[s/o[s/taki[w"中， Ns = 4， N = 7，因此Rs-4/7 = 0.57，在"tookjoo[w/now/ciyodaw
/kuyakusjo[w，，中，Ns = 0, N = 4,因此Rs-0/4 = 0。接着，参照记迷有保存在语言模型作成单元10的内部的上迷音节含有率Rs和加权系数的对应关系的加权系数表，决定对各设施的加权系数w(STl-O)。图4表示加权系数表的例子。在"wakayama[w/no[w/na[s/ci[s/o[s/os/takiw"中，Rs = 4/7 -0.57,因此加权系数w为4。这样，语言模型作成单元IO看作是该设施出现了4次，具体地说，将根据该设施得到的单词或音节之间的连锁频度乘以4 ( ST103 )。另一方面，在"tookjoo[w]/no[wl/ciyodaw/kuyakusjo[w，，中，Rs =0，因此加权系数为l，根据该设施得到的单词或音节之间的连锁频度原样为1倍。对保存在语言模型学习数据存储器8中的全部设施进行以上的处理，对单词或音节之间的连锁频度进行累积，作成语言模型(ST105)。作为语言模型，例如为三线形模型。对于其他动作，与实施例l一样，因此省略it明。通过如上那样作成语言模型，在现有技术中对于用音节表示的部分多的设施，根据语言模型计算的语言似然度低，有识别率低下的倾向，但根据本实施例，对于用音节表示的部分多的设施，通过增大语言模型作成时的出现频度，能够提高语言似然度，具有抑制识别率低下的效果。实施例3本实施例向上述实施例2新添加了中间语言模型存储器14和学习数据分割结果存储器15，图6表示结构例子。进而，如下这样变更语言模型作成单元10的动作。图7表示语言模型作成单元10的动作步骤。语言模型作成单元 10从学习数据分割单元9接收与实施例2的发明一样的输入。然后，为I,作成语言模型，将其作为中间语言模型，保存在中间语言i型存储器14中。上述中间语言模型在本实施例中为三线形模型。另外，将输入的全部设施数据的分割结果保存在学习数据分割结果存储器15 中(ST201)。接着，对每个设施i取得保存在学习数据分割结果存储器15中的各设施的分割结果，使用保存在中间语言模型存储器14中的中间语言模型，根据公式(2 )计算语言似然度P ( O ( ST202 )。P(i) = jP(WjIWj-2，Wh)….(2)在公式(2)中，p (Wj I Wj-2， Wj-J是与分割单位序列Wj-2，Wj对应的三线形概率，J是设施i的分割数。然后，根据公式(3)求出与设施i对应的加权w (i) (ST204)。w (0 -f ( (D-uP (i) ) /P (i) ) (3)在此，N是检索对象的全部设施的个数，f (x)是使x的变动变慢的函数。例如，使用以下的公式等。 f ( x ) = x1/4……(4 )如根据上述公式(3)可知的那样，越是与中间语言模型对应的似然度P (i)小的设施，加权系数w (i)越取大的值。对保存在学习数据分割结果存储器15中的各设施的全部分割结果进行以上的处理，判断是否还有各设施的分割结果(ST205),对单词、音节之间的连锁频度进行累积，作成语言模型，将语言模型保存在语言模型存储器6中(ST206)。作为语言模型，例如是三线形模型。对于其他动作，与实施例2—样，因此省略说明。在现有技术中对于用音节表示的部分多的设施等，根据语言模型计算出的语言似然度低，有识别率低下的倾向，但根据本实施例，对于在中间语言模型中语言似然度低的设施，通过增大语言模型作成时的出现频度，能够提高语言似然度，具有抑制识别率低下的效果。实施例4本实施例向上述实施例1~3的任意一个的发明新附加了声音识别候选数控制单元16，进而如后述那样对声音识别单元3、对照单位变换单元4、文本检索单元5的动作进行变更。图8表示结构例子。在本实施例中，说明向实施例1的发明附加了声音识别候选数控制单元16的情况。在进行声音识别的基础上，用与实施例l一样的方法，事先作成语言模型和文本检索辞典。说明声音识别和检索的动作。如果从声音的输入端1输入了声音2，则声音识别单元3使用保存在语言模型存储器6中的语言模型和保存在音响模型存储器7中的音响模型，进行声音识别，作为识别结果输出单词序列的音素标记。其中，作为本实施例的上述声音识别的结果，按照识别得分高的顺序输出L个候选的音素标记。在此，L是2 以上的常数，在本实施例中为3。例如如果发言是"尾瀬"，识别结果的第1位是"利根"，第2位是"尾瀬"，第3位是"戸部(七")，，，则从识别结果的第1位开始顺序地输出对应的音素标记"tone"、 "oze"、 "tobe"。对照单位变换单元4将上述L个声音识别结果，即音素标记作为输入，对各个音素标记，与实施例1同样地将识别结果的音素标记分割为比单词短的单位并输出。在本实施例中，与实施例l一样，分割单位是音节。对照单位变换单元4的动作与实施例1的不同点在于按照识别得分高的顺序接受L个输入，按照相同的顺序进行对应的L个输出。在本实施例中，顺序地输出"to/ne"、 "o/ze"、 "to/be"。声音识别候选数控制单元16将上述L个分割结果作为输入，参照 1位候选的音节分割结果即"to/ne"的音节数、保存在声音识别候选数控制单元16内部的声音识别候选数表，控制向文本检索单元发送的候选数。图9表示声音识别候选数表的内容。事先进行设定，使得l位候选的音节分割结果的音节数越少，则输出候选数越多。在本实施例中，上述1位的音节数是2，因此参照上述声音识别候选数表，将输出候选数决定为3。接着，文本检索单元5将上述3个分割结果作为输入，对3个音节分割结果的各个，从先头的音节开始顺序地参照保存在上述文本检索辞典存储器12中的作为文本检索辞典的转存文件，直到上述分割结果的最终音节为止进行以下的动作，即向包含该音节的设施的得分加 1。然后，作为检索结杲输出得分为规定的阈值S以上的设施。另夕卜，上述阈值S为识别结果的第1位的音节数的0.8倍。即，在本实施例中，输入音节数是2，因此2x0.8 = 1.6。通过这样进行检索，在本实施例中，识别结果的第2位包含"o/ze",因此作为正确解的"尾瀬"的检索得分是2，可以作为检索候选输出。使用作为上述文本检索单元5的动作步骤的流程图的图10，说明具体处理内容。首先，作为初始化处理，将与全部设施对应的得分设为0(ST301)。接着，对上述3个分割结果的第1个，从先头的音节开始顺序地参照上述转存文件，直到上述分割结果的最终音节为止，进行以下的动作，即向包含该音节的设施的得分加1 (ST302 )。接着，判断是否还有输入的分割结果(ST303)，在还有的情况下，将下一个分割结果作为输入进行同样的处理，累积各设施的得分 (ST302)。另一方面，在不存在剩余的分割结果的情况下，结束得分累积处理，作为检索结果输出得分为阈值以上的候选(ST304)。以上，如所说明的那样，声音识别候选数控制单元16在声音识别结果的音节数越少的情况下，越是增加输入到文本检索单元的候选数，因此在识别结果的音节数少，产生了错误识别的情况下，在包含正确解音节的可能性低时，直到识别结果的下位的候选为止作为检索对象，由此具有降低希望的设施的检索遗漏的效果。可以在根据声音检索大语素的文本数据的系统中利用本发明，具体地说，例如可以在车载导航系统中适用。
权利要求
1. 一种声音检索装置，其特征在于包括将检索对象的文书等文本数据分割为规定的语言单位并输出的学习数据分割单元；根据上述分割结果，作成声音识别用的语言模型的语言模型作成单元；按照比上述学习数据分割单元中的分割单位小的单位，对上述检索对象的文书等文本数据进行分割，作成文本检索辞典的文本辞典作成单元；使用上述语言模型识别输入声音，并作为文本输出声音识别结果的声音识别单元；将上述声音识别结果分割为与上述文本辞典作成单元一样的分割单位并输出的对照单位变换单元；将上述对照单位变换单元的输出作为输入，使用上述文本检索辞典，进行文本检索的文本检索单元。
2. 根据权利要求l所述的声音检索装置，其特征在于上述语言模型作成单元构成为对各文书的统计量的累积频度附加加权，作成语言模型，使得根据上述语言模型计算的各文书之间的语言似然度的差变小。
3. 根据权利要求2所述的声音检索装置，其特征在于上述学习数据分割单元的文本数据的分割单位使用长单位和短单位，上述语言模型作成单元构成为对于上述各文书的统计量的累积频度的加权，针对在分割结果中短单位所占的比例越多的文书，越是附加大的值。
4. 根据权利要求2所述的声音检索装置，其特征在于上述语言模型作成单元使用上述学习数据分割单元的输出，作成中间语言模型，使用上述中间语言模型，计算出与上述检索对象的各文书对应的语言似然度，对于上述各文书的统计量的累积频度的加权，针对前后语言似然度越低的文书，越是附加大的值。
5.根据权利要求1或2所述的声音检索装置，其特征在于上述声音识别单元具备直到高位L (>1)个为止输出识别结果,与识别结果的第l位的音节数对应地，控制输出到文本检索单元的声音识别结果候选的声音识别候选数控制单元。
全文摘要
现有的基于声音的文本数据检索在输入声音中的被识别为单词的位置，将单词作为索引词进行全文检索，因此如果在被识别为单词的位置有错误识别，则检索精度低下。在本发明的声音检索装置中，参照根据由学习数据分割单元分割为语言单位的检索对象文本数据而由语言模型作成单元作成的语言模型、对声音特征进行了模型化后的音响模型，由声音识别单元进行输入声音的声音识别，输出音素标记，由对照单位变换单元按照与用比语言模型小的单位分割了的文本检索辞典相同的单位对检索对象文本数据进行分割，使用分割结果，由文本检索单元进行文本检索辞典的检索。
文档编号G10L15/08GK101286170SQ200810091710
公开日2008年10月15日申请日期2008年4月9日优先权日2007年4月10日
发明者冈登洋平, 花沢利行申请人:三菱电机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：花沢利行;冈登洋平
技术所有人：三菱电机株式会社
我是此专利的发明人