语音认证系统的制作方法

文档序号:2829274阅读:325来源:国知局
专利名称:语音认证系统的制作方法
技术领域
本发明涉及一种使用语音来进行身份确认的语音认证系统,尤其涉及一 种文本依存型的语音认证系统。
背景技术
到目前为止,作为系统使用者的身份确认的一个方法,应用着语音认证。 近年来,在移动环境中的电子商务交易等时的个人认证中,使用作为生物测 定学认证之一的指纹认证的情况很多。但是,指纹认证另外需要特别的传感 器,而在利用语音来进行个人认证时,例如,由于便携电话中已经安装有作 为传感器的麦克风,所以希望将便携终端适用于移动环境下的语音认证。语音认证大致分为文本依存型和文本独立型两种。文本依存型是这样一 种方式,即,预先让使用者朗读关键词(密码)或句子,来登录该语音,在 认证时,使使用者说出与登录时相同的关键词或句子,来进行认证。文本独 立型是与说话内容无关而仅通过音质来进行认证的方式。因此,在文本独立 型的情况下,不需要决定关键词等,使用者可通过任意的发声内容来进行登 录及认证。本发明涉及前一种的文本依存型的语音认证。在文本依存型语音认证中,由于根据音质和发声内容(关键词等)的秘 密性信息两者来进行认证处理,所以可得到较高的认证精度。但是,在认证 时旁边有其他人的环境中,有可能会被听到秘密的关键词。因此,在不能保 持私秘性的环境中进行认证的用途中(例如,店铺的收银机或在自动售货机 中使用内置付帐功能的便携电话来进行支付时的身份确认等中),由于使用 者有抗拒情绪,所以很难采用文本依存型语音认证。另外,在暴露了关键词的情况下,由于发声内容的秘密性不能用于认证,所以认证精度降低了。进而,还有他人用磁带录音机或IC录音机来不正当地录制了使用者本人发出的秘密的关键词,并在认证时通过将其进行再现, 从而成功诈骗(录音再现诈骗)的危险。对于这些问题,为了防止录音再现诈骗,提出了根据语音的相位差信息
来检测出是来自扬声器的再现的方法(参考专利文献1)和通过比较传送特性,或通过在语音上覆盖DTMF信号来输入声音空隙,从而检测出录音再现 的方法(参考专利文献2)等。另外,还存在使使用者每次认证对不同的内 容的文本进行发声,来防止录音再现诈骗的系统(参考专利文献3)。另外,提出了如下方法,即,使多种密码与索引相对应来进行登录,在 认证时,与密码一起,输入与该密码对应的索引,从而即使密码被暴露,也 可防止诈骗(专利文献4)。另外,提出了这样一种方法,即作为在附近不 暴露用于语音认证的密码的方法,显示分别对号码指定了颜色的画面,通过 在认证时发出颜色的名字,从而防止密码的泄漏(专利文献5)。另外,在通过数字多位的语音输入来进行操作者的认证的系统中,还有 预先准备多种数字位的输入顺序,在认证时指示其中的一种来加以输入的方 法(专利文献6)。另外,还有通过指定为使秘密的记号串变形而发声,而 防止密码的泄漏的系统(专利文献7)。进一步,还已知通过指示将虚拟号 码随机插入到语音输入的密码中,从而防止密码的泄漏的语音响应识别装置(专利文献8)。专利文献l-JP特开2001--10949号公报专利文献2:JP特表2002-一514318号公报专利文献3:JP特开2000-_ 148187号公报专利文献4:JP特开2000--181490号公报专利文献5:JP特开2002.-311992号公报专利文献6:JP特开昭59-_ 191645号公报专利文献7:JP特开昭63-—231496号公报专利文献8:JP特开昭63--207262号公报但是,即使执行如上述专利文献1 3记载的录音再现诈骗对策,由于在录音的时刻暴露了密码,所以认证精度也降低了。另外,为了防止密码的泄漏或进行隐藏,如上述专利文献4 8所记载的方法那样,需要发声内容 的改变或特别的操作,有对使用者来说难以使用的问题。另外,在每次认证 时指定发声内容的情况下,由于说话内容(说什么)的秘密信息不能用于认 证,所以有不能得到高精度的问题
发明内容
鉴于上述问题,本发明的目的是提供一种在文本依存型语音认证系统 中,通过防止关键词的泄漏和录音诈骗,可以使用关键词的秘密性来维持高 认证精度的语音认证系统。为了实现上述目的,本发明的语音认证系统,对关键词进行语音输入而 进行认证的文本依存型语音认证系统,其特征在于,具有输入部,其将以 可发声的单位为最小单位而分割为多个部分的关键词的语音输入,对每个所 述部分隔开时间间隔经多次来接收;说话人模型(SpeakerModel)存储部, 其预先存储使用者的登录关键词,并将该登录关键词作为以所述可发声的单 位所作成的说话人模型;特征量转换部,从在所述输入部中通过一次语音输 入所接收的关键词的部分中求出该部分中所包含的语音的特征量;类似度计 算部,其求出所述特征量转换部所求出的特征量和所述说话人模型之间的类 似度;发声内容判断部,其根据所述类似度计算部所求出的类似度,通过所 述多次语音输入来判断与发声内容有关信息;关键词确认部,其根据所述发 声内容判断部所判断的与发声内容有关的信息,判断利用所述多次语音输入 的发声内容能否构成登录关键词;认证判断部,其根据所述关键词确认部的 判断结果和由所述类似度计算部所求出的类似度,判断接受还是拒绝认证。根据该结构,将关键词通过以可发声的单位作为最小单位而分割为多个 部分来进行语音输入,在周围有他人的环境中进行认证时,可以防止整个关 键词的泄漏。另外,由于不一次连续发出整个关键词,所以可以防止整个关 键词被录音,故还可抑制录音诈骗。并且,在关键词确认部中,判断通过多 次的语音输入,构成登录关键词的所有的音韵的语音输入是否完成,并根据 该判断结果和类似度计算部所求出的类似度,来判断接受还是拒绝认证,从 而可以提供高精度的文本依存型语音认证系统。本发明的语音认证系统中,所述可发声的单位的一个例子是音节。这时, 在所述说话人模型存储部中,最好对构成登录关键词的各音节的说话人模型 添加有分别独立的索引,所述特征量转换部从通过所述语音输入所接受的关 键词的部分中求出每个音节的特征量,所述类似度计算部求出所述每个音节 的特征量和所述说话人模型之间的类似度,语音认证系统还具有音节判断 部,该音节判断部根据所述类似度计算部所求出的类似度,判断通过所述语
音输入所接受的关键词的部分与登录关键词的哪个音节最类似,所述关键词确认部根据所述音节判断部的判断结果,判断利用通过所述多次语音输入所判断的音节能否构成登录关键词。由此,即使不进行语音识别,在认证时也可判断语音输入的关键词的说话内容是否与登录关键词的说话内容一致,所 以不需要具有语音识别用的语法字典等,就可以简化系统结构。本发明的语音认证系统中,可发声的单位的另一例子是数字的读出或字 母的读出。由此,可以适用于由数字或者字母、或这些的组合构成的关键词。本发明的语音认证系统中,优选地,还具有语音识别部,该语音识别部 根据所述特征量转换部所求出的特征量中,通过不特定说话人的语音识别来 识别所述关键词的部分的音韵,所述关键词确认部根据所述语音识别部的识 别结果,判断利用通过所述多次的语音输入被语音识别的结果能否构成登录 关键词。通过利用语音识别来判断认证时的关键词的说话内容是否与登录关 键词的说话内容一致,可以进行高精度的语音认证。本发明的语音认证系统中,优选地,在对所述关键词的某个部分的语音 输入结束之后再经过规定时间也没有对下一部分的语音输入,而且利用此次 为止的语音输入的发声内容信息无法构成登录关键词的情况下,所述认证判 断部拒绝认证。这是因为可以强化安全性。本发明的语音认证系统中优选地,还具有位置信息取得部,其每当有 所述关键词的部分的语音输入时,取得使用者的所在位置信息;位置确认部,其比较前次有语音输入时所述位置信息取得部所取得的所在位置信息和这 次有语音输入时所述位置信息所取得部取得的所在位置信息,确认在从前次 有语音输入时到这次有语音输入时为止的期间使用者是否移动了规定距离 以上。这是因为在分割关键词而进行语音输入时,每次语音输入时移动位置, 从而进一步降低了周围的其他人知道整个关键词的可能性,由此可以强化安 全性。另外,在本发明的语音认证系统中,优选地,还具有类似度综合部,该 类似度综合部对通过所述多次语音输入所接收的关键词的所有部分,综合所 述类似度计算部所求出的类似度来求出综合类似度,所述认证判断部根据所 述类似度综合部所求出的综合类似度,判断接受还是拒绝认证。这是因为由 于对整个关键词综合判断类似度使发声长度变长,所以可以通过稳定的类似
度来进行判断。还有,本发明的语音认证系统中,优选地,所述输入部利用使用者的便 携终端来接收语音输入。这是因为,由此,可以在离开最先输入语音的位置 的位置上进行第二次之后的语音输入,所以可以降低整个关键词暴露给他人 的可能性。为了实现上述目的,本发明的计算机程序,是实现对关键词进行语音辅r 入而进行认证的文本依存型语音认证系统,其特征在于,使计算机执行如下处理输入处理,将以可发声的单位为最小单位而分割为多个部分的关键词 的语音输入,对每个所述部分隔开时间间隔经多次来接收;特征量转换处理, 从通过一次语音输入所接收的关键词的部分中求出该部分中所包含的语音 的特征量;类似度计算处理,参考作为以所述可发声的单位所作成的说话者 模型而预先登录有使用者的关键词的说话人模型存储部,求出所述特征量转 换处理索求出的特征量和所述说话人模型之间的类似度;发声内容判断处 理,根据所述类似度计算处理所求出的类似度,通过所述多次语音输入来判 断与发声内容有关的信息;关键词确认处理,根据所述发声内容判断处理所 判断的与发声内容有关的信息,判断利用所述多次语音输入的发声内容能否 构成登录关键词;认证判断处理,根据所述关键词确认处理的判断结果和所 述类似度计算处理所求出的类似度,判断接受还是拒绝认证。 记录了上述计算机程序的记录媒体也是本发明的一个方面。


图1是表示本发明的第一实施方式的语音认证系统的概略结构的框图。 图2是说明在所述语音认证系统中,根据认证时从输入关键词的音节和 登录关键词的音节的类似度来判断关键词的正确性的方法的图。图3是表示本发明的第一实施方式的语音认证系统的动作的流程图。 图4是表示本发明的第二实施方式的语音认证系统的概略结构的框图。 图5是表示本发明的第二实施方式的语音认证系统的动作的流程图。 图6是表示本发明的第三实施方式的语音认证系统的概略结构的框图。 图7是表示本发明的第三实施方式的语音认证系统的动作的流程图。 图8是表示本发明的第四实施方式的语音认证系统的概略结构的框图。
图9是表示本发明的第四实施方式的语音认证系统的动作的流程图。
具体实施例方式
(第一实施方式) 下面说明本发明的语音认证系统的一个实施方式。
在本实施方式的语音认证系统中,要接受认证的使用者通过从便携电话 或便携终端中语音输入预先所登录的秘密的关键词(密码),来接受认证。 在该语音认证系统中,使用者在认证时将构成关键词的所有音节分割为由一 个音节或多个音节构成的部分,从而隔开时间间隔,并且最好移动位置,分 多次来语音输入分割后的关键词。分割后的关键词的输入顺序可以是关键词 的顺序,也可以是随机的顺序。此外,在认证时,需要通过所述多次语音输 入,来发出构成关键词的所有音节。例如,在关键词是"卡拉OK"的情况下,使用者将该关键词例如分割 为"卡拉"和"OK",在语音输入第一个分割关键词(例如"卡拉")后, 经过几秒到几分钟后,语音输入第二个分割关键词(例如"OK")。为了 避免处于附近的其他人听到关键词,在第一次语音输入和第二次语音输入间 使用者最好移动位置。
关键词的分割也能够以"卡O"和"拉K"、 "K卡"和"O拉"、"拉 卡"和"KO"的方式使音节的顺序随机。另夕卜,也可以以"卡"和"KO拉" 的方式具有由单音节构成的分割关键词。并且,分割数并不限于两个。而且,本实施方式的语音认证系统根据这样被分割发声的关键词,来进 行语音认证。由此,即使在附近有其他人的环境中说出关键词,由于在一次 发声中仅能听到关键词的一部分,所以可以防止其他人知道全部关键词。本实施方式的语音认证系统中,由于将关键词分割为由一个音节或多个 音节构成的分割关键词来进行语音认证,所以适用于容易通过音节单位来划 分单词的语言(例如日语)的语音认证。本实施方式的语音认证系统如图1所示,具有输入部11、特征量转换部 12、类似度计算部13、音节判断部14、类似度保存部15、待机时间管理部 16、关键词确认部17、类似度综合部18、认证判断部19、登录说话人别音 节模型数据库20和关键词登录部21 。
输入部11从使用者的便携电话或便携终端中输入要接受认证的使用者的使用者ID和声音。此外,在如便携电话那样使用者被限定为一人的情况 下,不需要使用者ID的输入步骤。特征量转换部12将所输入的声音转换为 用于与说话人别音节模型进行比较的特征量。音节判断部14比较在特征量转换部12得到的特征量,和使用者预先登 录在登录说话人别音节模型数据库20中的说话人音节模型,来求出类似度, 并根据所求出的类似度,来判断输入语音的各音节与说话人音节模型的何处 最类似。类似度保存部15针对输入语音的各音节,保存通过所述音节判断 部14所求出的相对于说话人音节模型的类似度。待机时间管理部16监视关键词被分多次发声时的发声的时间间隔。关 键词确认部17根据由音节判断部14得到的音节的识别结果,来确认是否通 过多次发声发出了关键词的所有音节。类似度综合部18根据类似度保存部 15所保存的每个音节的类似度,来求出综合类似度,该综合类似度表示在认 证时发声的关键词语音与所登录的关键词语音作为整体有多大程度类似。认 证判断部19根据通过类似度综合部18求出的综合类似度,来判断接受或拒 绝是否受理使用者的认证。关键词登录部21在语音认证系统的使用者登录关键词时,从该使用者 向输入部11语音输入的关键词中作成音节模型,并登录到登录说话人别音 节模型数据库20中。此外,上述语音认证系统可通过计算机及其周边设备来实现。这时,类 似度保存部15和登录说话人别音节模型数据库20可以通过计算机内部或可 从该计算机访问的存储装置来实现。输入部11、特征量转换部12、类似度 计算部13、音节判断部14、待机时间管理部16、关键词确认部17、类似度 综合部18、认证判断部19、关键词登录部21可以通过使上述计算机的处理 器执行实现各部分的功能的程序来加以实现。因此,这种程序或记录有该程 序的计算机可读取的记录介质也是本发明的一个实施方式。这里,说明以上结构的本实施方式的语音认证系统中的语音认证的步骤。首先,说明使用者将关键词登录到语音认证系统的登录说话人别音节模 型数据库20时的步骤。使用者决定所希望的关键词,并对与输入部11相连
的便携电话等的麦克风发声。这时,使用者通过每一个音节以无音区间来划分关键词后进行发声。例如,在关键词是"卡拉OK"的情况下,由于该关 键词中包含"卡""拉""0" "K"四个音节,所以使用者通过无音区间 来划分这4个音节来进行发声。输入部11将所输入的音节发声送到特征量 转换部12。在特征量转换部12中,将所输入的声波转换为MFCC (Mel Frequency Cepstral Coefficients:梅尔频率倒谱系数)或LPC倒频谱等提取了 语音的特征后的特征向量序列。之后,依次送到关键词登录部21。
关键词登录部21分别对所输入的音节,按输入的顺序来分配索引。艮P, 在上述的例子中,分别将索引II分配给"卡(第一个音节)",将索引12 分配给"拉(第二个音节)"、将索引13分配给"O (第三个音节)"并将 索引14分配给"K (第四个音节)"。另外,关键词登录部21只要以输入 音节的顺序来分配索引就足够了,即不需要识别各音节的发声(音韵)是哪 个。但是如后所述,有时在该时刻还进行同一内容的音节是否包含在关键词 中的检査。
关键词登录部21从这样分配了索引后的各音节中作成说话人音节模型, 并如上所述,该使用者的使用者ID等与分配后的索引一起,建立联系并登 录到登录说话人别音节模型数据库20中。说话人别音节模型例如是通过 MAP (MaximumAPosteriori:最大后验)估计,来将不特定说话人的GMM (GuassianMixture Model:高斯混合模型)与特定说话人自适应,并按音节 来实施该适应来作成的。但是,说话人音节模型并不限于GMM,若是HMM (Hidden Markov Model:隐马尔科夫模型)等可以按索引来作成说话人模型, 则可以适用任意的方法。还可不用自适应,通过将所登录的特征向量序列直 接作为模板来保存,从而作成以说话人别音节模型。此外,为了使认证精度提高,最好让使用者尽可能多(例如三次以上) 地重复发出关键词。这时,对于一个音节,使用重复的次数(例如在重复三 次发声的情况下是三次)的特征向量序列来对应说话人别音节模型,并登录 到登录说话人别音节模型数据库20中。在说话人别音节模型的作为前述的 模板保存的形态的情况下,将具有重复多次次数的模板的说话人别音节模型 登记到登录说话人别音节模型数据库20中。接着,参考图3的流程图来说明在通过上述的步骤使用者登录了 "卡拉OK"这样的关键词后,该使用者接受认证时的步骤。此外,这里,表示了 使用者从便携电话进行语音输入,且将关键词分割为两次来进行发声的例 子,但是关键词的分割数并不限于2。还有,关键词的输入装置并不限于便 携电话。在便携电话上有认证开始按钮的情况下通过按下按钮,或在启动认证所 需的应用程序时、或在其他应用程序的执行中间有认证请求时,开始认证处 理。首先,输入部11接受使用者利用便携电话的键区输入的使用者ID等 (Opll)。此外,在如便携电话那样,使用者被限定为一人的情况下,不需 要使用者ID的输入步骤。接着,使用者若向便携电话的麦克风发出第一个 分割关键词,则输入部11接受该语音(Opl2)。而且,在这里,所述使用 者将关键词分割为"卡拉"和"OK",来输入语音。作为第一个分割关键 词,使用者通过按每一个音节以无音区间来划分"卡""拉"而进行语音输 入。然后,这样,根据进行输入的顺序,将这样被语音输入的"卡""拉" 的各音节表示为S1、 S2。此外,第一个分割关键词的输入是否结束可以通过无音区间是否持续规 定时间以上来加以判断。或者,也可在分割关键词的输入结束时,让使用者 进行规定的键操作。将所输入的音节Sl、 S2分别在特征量转换部12中通过与登录时相同的 分析方法,转换为MFCC或LPC倒频谱等的用于与说话人音节模型进行比 较的特征向量序列(特征量)(Opl3)。将由特征量转换部12得到的特征 量送到类似度计算部13。接着,类似度计算部13从登录说话人别音节模型数据库20中提取与该 使用者的使用者ID相关联存储的该使用者的说话人音节模型(即,上述的 索引I1 I4的说话人音节模型),并计算对所提取的说话人音节模型的所述 特征量的类似度(Opl4)。这里,音节Sl相对索引Il的说话人模型的类似 度以CS1: 的方式来表示。g卩,在Opl4中,对于例如音节Sl,将CS1: 、 CS1:I2、 CS1:I3、 CsH4四个值作为类似度求出,对于音节S2,将Cs2:n、 CS2: I2、 CS2:I3、 CS2:I4四个值作为类似度求出。并将所求出的类似度送到音节判 断部14中。 而且,在将音节模型作为模板登录时,在如使关键词重复发声的情况那 样,对同一音节登录有多次说话人别音节模板的情况下,对所有这些说话人 别音节模板,分别进行类似度的计算。因此,在关键词登录时,在重复三次发出"卡""拉""O" "K"而将模板作为说话人音节模型进行登录的情况下,若以II (1) 、 II (2) 、 II 。〉...的方式来分配这些说话人音节模型的索引,则在Op4中,例如,对于音节S1,将G詞(D、 CS1:I1(2)、 CS1:I1(3)、 CS1: 12 (1)、 csl: 12 (2)、 csl: 12 (3)12个值作为类似度得到。接着,音节判断部14根据通过类似度计算部13求出的类似度,对Sl、 S2的各音节,选择在各个登录的说话人的音节模型数据库20中所存储的说 话人音节模型中类似度最高的模型的索引(Opl5)。例如,由于作为音节S1,使用者发出的是"卡",所以在针对音节S1 的类似度CS1: 、 CS1:12、 CS1: I3、 Csl: 14中,对于索引II (登录时的音节"卡") 的说话人音节模型的类似度Cshu为最大值。因此,如图2所示,音节判断 部14判断为发声的音节S1相当于索引II的说话人音节模型,并作为已发声 音节的索引数据将"I1"保存在类似度保存部15中。而且,与此同时,将针 对音节Sl的类似度最大值、即Csl: 作为音节Sl的类似度(音节类似度) 保存在类似度保存部15中。另外,与上述相同,对于音节S2,也选择说话人音节模型中类似度最高 的模型的索引。这里,由于作为音节S2使用者发出的是"拉",所以针对 音节S2的类似度(:82:11、 CS2:I2、 CS2:I3、 CS2:I4t,对于索引12 (登录时的音节"拉")的说话人音节模型的类似度Cs2d2为最大值。因此,如图2所示,音节判断部14判断为音节S2相当于索引I2,并作为已发声音节的索引 数据将"12"保存在类似度保存部15中。而且,与此同时,将针对音节S2 的类似度的最大值、即<^2:12也作为音节S2的音节类似度而保存在类似度保 存部15中。这里,由于第二个分割关键词的输入还没有结束(Opl6的结果是NO), 所以进入到Op17。此外,待机时间管理部16通过计时器(未图示)来测量将第一个分割 关键词("卡拉")输入到输入部11后的经过时间。并且,在规定时间(例 如10分钟)内没有开始第二个分割关键词的输入的情况下,作为超时而进
入到Opl8,并从类似度保存部15等中清除第一个分割关键词的处理结果 (Opl8)。这时,使用者为了接受认证,而必须从第一个分割关键词输入起 重新进行。
此外,为了可靠防止对第三者暴露关键词,若从第一个分割关键词的语 音输入起没有经过了预定时间(例如2分钟),也可不接受第二个分割关键 词的语音输入。这时,在第一个分割关键词的输入结束时,为了相隔一定时 间直到第二个分割关键词的语音输入为止优先将指示的消息显示在使用者 的便携电话等的显示器上,或将同样内容的语音消息发送到该便携电话上。
另一方面,在Opl7中,在上述规定时间内开始了第二个分割关键词输 入的情况下,待机时间管理部16停止及清除计时器的同时,进入到Opl9, 而接受第二个分割关键词输入(0pl9),然后,进入Opl3。
在该例子中,作为第二个分割关键词,使用者按每一个音节来划分"O" "K"并进行发声。之后,根据所输入的顺序,将这样语音输入的"O" "K" 的各音节显示为S3、 S4。
将所输入的音节S3、S4分别在特征量转换部12中转换为特征量(Op13)。 接着,类似度计算部13从登录说话人别音节模型数据库20中提取与该使用 者的使用者ID相关联存储的说话人音节模型(即,索引I1 I4的说话人音 节模型),并计算所述特征量相对所提取的说话人音节模型的类似度(Op 14 )。
由此,分别相对于索引11 14的说话人音节模型,计算出音节S3、 S4 在特征量转换部12得到的特征量与其的类似度Cs3:u、 CS3:I2、 CS3:I3、 CS3:14、 Cs4: II、 Cs4: 12、 Cs4: 13、 Cs4: 14。
此外,在关键词的登录时,通过使关键词重复发声,从而在对同一音节 登录有多次的说话人音节模型的情况下,对所有这些说话人音节模型,分别进行类似度的计算。因此,在关键词登录时,重复三次发声"卡""拉""0""K",而登录了说话人音节模型的情况下,若以II (1) 、 II (2) 、 II (3)...的方式来分配这些说话人音节模型的索引,则例如针对于音节S3,将(^3:11(1)、Gs3: II (2) 、 Cs3: II (3) 、 Cs3: 12 (1) 、 Gs3: 12 (2) 、 Cs3: 12 (3)…12个值作为类似度来得到。
接着,音节判断部14基于在类似度计算部13求出的类似度,针对S3、 S4的各音节,选择出在登录说话人别音节模型数据库20中所存储的说话人
音节模型中类似度最高的模型的索引(Opl5)。该例子中,由于作为音节S3,使用者发出的是"O",所以针对音节S3的类似度CS3:I1、 CS3:I2、 CS3:I3、 Cs3:m中,CsH3为最大值。因此,音节判断部14判断为音节S3相当于索引I3,并作为已发声音节的索引数据,将"I3" 保存在类似度保存部15中。而且,与此同时,将对于音节S3的类似度的最 大值、即CS3: 13也作为音节S3的音节类似度,而保存在类似度保存部15中。 与上述同样,对于音节S4,也选择出说话人音节模型中类似度最高的模 型的索引。这里,由于作为音节S4,使用者发出的是"K",所以在针对音节S4的类似度Cs4:u、 CS4:I2、 CS4:I3、 Cs4:m中,Csn4为最大值。因此,音节判断部14判断为音节S4相当于索引14,并作为已发声音节的索引数据, 将"14"保存在类似度保存部15中。与此同时,将对于音节S4的类似度的 最大值、即CS4:14也作为音节S3的音节类似度,保存在类似度保存部15中。如上所述,若第二个分割关键词的处理结束(Opl6中Yes),则关键词 确认部17根据类似度保存部15中所保存的已发声音节的索引的数据,确认 是否通过第一次和第二次的发声,发出了关键词的所有音节(Op20)。在上 述例子的情况下,类似度保存部15中保存有"II" "12" "13" "14"来作 为已发声音节的索引数据。SP,由于所登录的关键词的所有索引(11 14) 一致,所以关键词确认部17可以确认关键词的所有音节己发声。在Op20的 判断结果是是的情况下,将该内容通知给认证判断部19,认证判断部19拒 绝该使用者的认证(Op21)。例如,在上述例子中,在作为第一个分割关键词发声为"卡""拉", 作为第二个分割关键词,发声为"卡""K"的情况下,没有发出"0", 所以在已发声完毕的音节的索引数据中不存在"O"的索引13。因此,拒绝 认证。另一方面,在Op20的判断结果是"是"的情况下,类似度综合部18基 于类似度保存部15中所保存的各个音节S1 S4的音节类似度(CS1: 、 CS2: I2、 CS3:I3、 CS4:I4),来算出表示进行发声的整个关键词与登录关键词有多大 程度类似的综合类似度(Op22)。作为综合类似度,可以使用各音节的音节 类似度的总和(例如,该例子中,CS1:I1 + CS2:I2+CS3:I3+CS4:I4),也可使 用各音节的音节类似度的平均值。或者,也可将以帧数等的时间长度来平均 各音节的音节类似度的总和后的值作为综合类似度来使用。将这样由类似度综合部18求出的综合类似度送到认证判断部19,认证 判断部19比较规定的阈值和综合类似度。如果综合类似度超过规定的阈值, 认证判断部19接受该使用者的认证,若小于则拒绝(Op23)。本实施方式的语音认证系统中,通过以上的步骤,可以进行基于语音进 行的使用者的认证。此外,在上述实施方式中,识别是否通过分割为多次的关键词发声正好 发出了构成所登录的关键词的所有音节。因此,虽然在上述的具体例中,将 "卡拉OK"这个关键词分割为"卡拉"和"OK"两个,但是例如,即使采 用以"卡O"和"拉K"、 "K卡"和"O拉"、"拉卡"和"KO"的方式 将音节的顺序设定为随机的关键词的分割方法,也可进行正确的语音认证。而且,在本实施方式中,由于在登录关键词时和认证时都不识别音韵, 所以在关键词包含两个相同音的音节的情况下,不能区别这些音节。因此, 在认证时语音输入的多个音节相对多个所登录的说话人音节模型相互表示 高类似度的情况下,优先将这些看作同一音节来进行处理。例如,在关键词是"^ * ^々"的情况下,在登录该关键词时,关键词 登录部21分别将索引II分配给"》(第一个音节)",将索引12分配给"却 (第二个音节)",将索引13分配给"^ (第三个音节)",将索引14分 配给(第四个音节)",并在登录说话人别音节模型数据库20中存储 说话人音节模型。并且,在认证时,例如使用者发出(音节S1) " 、 (音节S2)"作为第一个分割关键词,发出(音节S3)"和"々(音节S4)"作为 第二个分割关键词。这时,音节S2和音节S4两者相对索引I2、 14的说话人 音节模型,同时表示高类似度,但是由于音节S2和索引I2的说话人音节模 型的类似度、音节S4和索引12的说话人音节模型的类似度、音节S2和索 引14的说话人音节模型的类似度、音节S4和索引14的说话人音节模型的类 似度彼此没有大的差别,所以与音节S2的类似度最高的索引有可能和与音 节S4的类似度最高的索引一致。例如,在判断为音节S2和S4两者与索引 12最类似的情况下,看作没有发出索引14的音节,而拒绝了认证。因此,这样一来,在表示多个音节相对多个说话人音节模型彼此有高的
类似度,且该类似度显著高于相对其他说话人音节模型的类似度的情况下,可以在Opl5中,不选择类似度最高的索引,而将这多个音节看作相同音, 并将与这多个音节的类似度高的说话人音节模型的索引全部保存在类似度 保存部15中。或者,若在登录时,通过调查多个音节发声是否相对多个说 话人别音节模型彼此具有高的类似度等,来检查这多个音节是否是同一音, 并存储表示这些的信息,而将相同索引作为与这些音节类似的说话人音节模 型的索引保存在类似度保存部15中,则即使所有的索引不一致,也不会拒 绝认证。由此,在上述例子中,即使将例如"II" 、 "12" 、 "13"和"12"作为 对"^" "V "考"的输入音节的类似说话人音节模型的索引,而保存在类似度保存部15中,也可正确判断为发出了关键词的所有音节。以上,说明了本发明的一个实施方式的语音认证系统,但是上述说明不 过是用于实施本发明的一个具体例,可以在发明的范围内进行各种改变。例如,在上述实施方式中,说明了在认证时将关键词分割为2次来进行 发声的例子,但是关键词的分割数并不限于两个,可以任意。在关键词的分 割数是三个以上的情况下,也可使分割关键词的语音输入和对所输入的分割 关键词的图3的Opl3 Op15的处理重复分割数。因此,通过如"卡"和"拉 OK" 、 "OK拉"禾n "卡"、"拉"禾Q "K"禾Q "O卡"或"O"禾n "拉" 和"卡"和"K"这样的分割,也可进行正确的语音识别。进而,要接受认证的使用者也可任意决定分割数。这时,也可在通过多 次发出分割关键词结束整个关键词的发声时,通过让使用者按下例如便携电 话的特定按钮,从而语音认证系统检测出输入部11中按下了该按钮时,而 进入到图3的Op20之后的处理。或,也可在每次分割关键词的发声结束时, 比较到此为止发出的音节的集合和构成登录关键词的音节,并在判断为已经 全部发出了构成关键词的音节时,移动到图3的Op20之后的处理。还有,本实施方式中为这样的结构,即在输入第二个分割关键词后,通 过关键词确认部17来进行关键词确认,进一步,通过类似度综合部18算出 作为整个关键词的综合类似度,并通过认证判断部19来判断接受或拒绝认 证。但是,也可在第一个分割关键词的语音输入结束的时刻,类似度综合部 18仅从第一个分割关键词中包含的音节中算出综合类似度。
这时,也可在从第一个分割关键词算出的综合类似度小于预定的阈值的 情况下,使第一个分割关键词的语音输入重新进行。由此,例如,在第二个 分割关键词的类似度高,但是第一个分割关键词的类似度低的情况下,有可 以减少从最开始重新进行语音输入的手续的优点。另外,从严格安全性的观点来看,也可在第一个分割关键词的类似度低的情况下,不输入第二个分割关键词,认证判断部19就拒绝认证。还有,也可在第二个分割关键词的输入结束后,在第二个分割关键词的 类似度低的情况下,以通过关键词确认部17确认所有音节已经发声完成的 情况作为条件,来重新进行第二个分割关键词的语音输入。添加上述条件是 因为若在没有确认所有音节已发声完成的情况下承认重新进行第二个分割 关键词的语音输入,则变为允许进行关键词的尝试,有可能成为诈骗者的认 证突破点。此外,为了得到稳定的认证结果,与对每个分割关键词求出类似度的方 法相比,在分割关键词的语音输入完成结束后,算出作为整个关键词的综合 类似度的方法更有利。这是因为分割关键词的发声长度短故有时难得到稳定 的类似度,相对于此,作为整个关键词的综合类似度的发声长度长,所以可 得到较为稳定的类似度。因此,通过第一个分割关键词的类似度进行判断时 的阈值会设定为比整体稍宽。 (第二实施方式)下面说明本发明的语音认证系统的另一个实施方式。对于与第一实施方 式中说明的结构具有相同功能的结构,标注与第一实施方式中所用的附图标 记相同的符号,并省略该详细说明。本实施方式的语音认证系统还适用于使用如英语等那样,利用不容易以 音节单位分割关键词的语言进行的语音认证。因此,本实施方式的语音认证系统如图4所示,具有输入部11、特征量 转换部12、类似度计算部13、类似度保存部15、待机时间管理部16、关键 词确认部17、类似度综合部18、认证判断部19、说话人模型数据库22、关 键词登录部21、语法生成部23、识别语法存储部24和语音识别部25。这里,参考图5来说明本实施方式的语音认证系统中的语音认证的步骤。首先,说明使用者将关键词登录到语音认证系统的说话人模型数据库22 中时的步骤。使用者决定所希望的关键词,对与输入部11相连的便携电话等的麦克风来进行发声。在本实施方式中,语法生成部23语音识别语音输 入的关键词(不特定说话人的语音识别),并将作为识别结果的识别语法登 录到识别语法存储部24中。此外,在登录前,最好在画面等上显示识别结 果,来确认使用者登录的关键词的内容。还有,最好提供修改识别结果的装 置(按钮等)。由于通过不特定说话人的语音识别来进行单音节识别精度上很困难,所:以使用者在登录关键词时,最好使用例如便携电话的键等,对输入部11文 本输入关键词的发声内容。并将输入文本(关键词的发声内容)和发出的关键词语音从输入部11传到语法生成部23。语法生成部23从文本输入的发声内容中生成用于识别使用者可输入的 关键词分割的模式的语法。该语法并不限于音节单位,能够以网罗基于音素 单位的分割的所有模式的方式生成。在如日语那样,是容易用音节单位来划 分的语言的情况下,以网罗通过音节单位可分割的所有模式的方式来生成, 但是在如英语那样,是很难用音节单位来划分的语言的情况下,以网罗基于 音素单位的分割的所有模式的方式生成。例如,对于"vertification"这样的 关键词,生成接受"ve, veri, verifi, tion, cation, fication, verifica"等模 式的语法。将所生成的语法传到关键词登录部21中,同时存储到识别语法 存储部24中。关键词登录部21使用所登录的关键词的语音,来作成相适应的说话人 模型(即音素或音节单位的说话人模型),并与该使用者的使用者ID建立 联系,登录到说话人模型数据库22中。作为音素单位的说话人模型的作成 方法,有通过不特定说话人的语音识别来进行关键词的语音和音素的时间对 应(称作排列alignment),按构成关键词的音素来进行自适应,并将说话人 别音素模型作为说话人模型来作成的方法。另外,作为自适应方法若是MLLR (Maximum Likelihood Linear Regression:最大似然线性回归)法、MAP法 等通过模型自适应来实现说话人自适应的方法,则可以是任何一个。在以音 节为单位来作成说话人模型的情况下,在通过音节单位来进行了与关键词的 时间对应后,进行说话人自适应来作成。下面说明在通过上述步骤关键词登录完成后,使用者通过语音输入接受 认证时的步骤。此外,在下面的例子中,也对2次分割关键词来进行语音车俞 入的例子进行说明,但是关键词的分割数并不限于2。首先,输入部11接受使用者使用便携电话的键区输入的使用者ID等 (Op31)。此外,在如便携电话那样将使用者被限定为一人的情况下,不需 要使用者ID的输入步骤。接着,在使用者向便携电话的麦克风发出第一个 分割关键词时,输入部11接受该语音(Op32)。本实施方式中,使用者也 可不按每个音节划分来进行语音输入。例如,在关键词是"卡拉OK"的情 况下,在第一个分割关键词是"卡拉"的情况下,也可不如第一实施方式那 样在"卡"和"拉"之间输入无音区间,而一起发声"卡拉"。由于对于英语等,说话人不会严格意识到音节的倾向很强,所以在分割 关键词时,有可能错误地使音节丢失或重复。音节的重复在关键词认证时不 怎么成为问题,所以在本实施方式中,例如,在关键词是"verfication"的情 况下,允许以"verifi"和"ficatkm"的方式在分割关键词中音节重复。所输入的分割关键词在特征量转换部12中,转换为MFCC或LPC倒频 谱等的用于语音识别的特征量(Op33)。将由特征量转换部12得到的特征 量送到语音识别部25。接着,语音识别部25参考在识别语法存储部24中所存储的识别语法, 通过不特定说话人的语音识别来识别作为分割关键词发出的语音的音韵 (Op34)。并将识别结果送到类似度计算部13。也可在进行了与关键词不 同的发声时等,在识别评价非常差的情况下,最好判断为"不能识别",这 时,将"不能识别"这样的结果送到类似度计算部13。在该例子中,虽然通过不特定说话人的语音识别来进行识别,但是也可 利用在登录时对应的说话人模型来加以识别。这时,由于语音识别时计算出 的类似度仍为对说话人模型的类似度,所以不需要类似度计算部13中的类 似度计算。接着,类似度计算部13根据所述识别结果,从说话人模型数据库22中 提取该使用者的说话人模型中,与在所述Op34识别出的音韵对应的说话人 模型,并计算所述特征量对于所提取的说话人模型的类似度(Op35)。根据Op35的结果,将表示从已发声的分割关键词识别出的音韵是否网 罗了登录关键词的哪个音素的信息(己发声音素数据)保存在类似度保存部 15中(Op36)。与此同时,将所识别出的音韵相对说话人模型的类似度也 保存在类似度保存部15中。这里,由于第二个分割关键词的输入还没有完成(Op37的结果为"否"), 所以进入到Op38。此外,待机时间管理部16通过计时器来测量对输入部11输入了第一个 分割关键词后的经过时间。并且,在规定时间内没有开始第二个分割关键词 输入的情况下,作为超时进入到Op39,并从类似度保存部15等中清除第一 个分割关键词的处理结果(Op39)。这时,使用者为了接受认证,必须从第 一个分割关键词输入起重新进行。另一方面,Op38中,在上述规定时间内开始了第二个分割关键词输入 的情况下,待机时间管理部16停止及清除计时器的同时,进入到Op40,接 受第二个分割关键词输入(Op40),之后,进入到Op33。并且,在对第二个分割关键词进行了Op33 Op36的处理后,关键词确 认部17根据在类似度保存部15中所保存的已发声音素数据,来确认是否通 过第一次和第二次的发声,发出了关键词的所有音素(Op41)。在Op41的 判断结果是"否"的情况下,将该内容通知给认证判断部19,从而认证判断 部19拒绝该使用者的认证(Op42)。另一方面,在Op41的判断结果是"是"的情况下,类似度综合部18根 据在类似度保存部15中所保存的每个分割关键词的类似度,来算出表示所 发出的整个关键词与登录关键词有多大程度的类似的综合类似度(Op43)。 作为综合类似度可以使用分割关键词的类似度的总和,也可使用分割关键词 的类似度的平均值。将这样由类似度综合部18求出的综合类似度送到认证判断部19,认证 判断部19比较规定的阈值和综合类似度。如果综合类似度超过规定阈值, 认证判断部19接受该使用者的认证,若低于则加以拒绝(Op44)。本实施方式的语音认证系统中,可通过以上的步骤,来进行基于语音进 行的使用者认证。本实施方式中,如上所述,也可将多个音节作为关键词 分割的最小单位,若是语素或单词等可以作为发声的单位,则也可在音节之 外作为关键词分割的最小单位。还有,也可以在关键词是数字列(例如"1234")的情况下,若是日语,则以"< ",、"二 ""寸 > "、"'〉"的方式,或若是英语,则以"one"、 "two" 、 "three" 、 "four"的方式,以数字作为单位来进行关键词确认和 语音认证。但是,这时,需要使用数字识别用的语法。同样,在关键词是数字和字母等的混合(例如"la2b")的情况下,需 要使用数字和字母的识别用语法。 (第三实施方式)下面说明本发明的语音认证系统的又一个实施方式。此外,对于与第一 或第二实施方式中说明的结构具有相同功能的结构,标注与这些实施方式中 使用的附图标记相同的记号,来省略该详细的说明。本实施方式的语音认证系统在每次语音输入第二次之后的分割关键词 时,确认距前次的分割关键词的语音输入时,使用者是否移动了位置,在没 有移动位置的情况下不接受语音输入。因此,本实施方式的语音认证系统如图6所示,具有输入部12、特征量 转换部12、类似度计算部13、音节判断部14、类似度保存部15、待机时间 管理部16、关键词确认部17、类似度综合部18、认证判断部19、登录说话 人别音节模型数据库20、关键词登录部21、位置信息取得部31和位置确认 部32。 S卩,本实施方式的语音认证系统是在第一实施方式的语音认证系统上 进一步具有位置信息取得部31和位置确认部32的结构。位置信息取得部31通过使用者的便携电话等所嵌入的GPS (Global Positioning System:全球定位系统),在每次使用者语音输入分割关键词时, 取得表示使用者的当前位置的信息。位置确认部根据通过位置信息取得部31 取得的信息,来确认距前次的分割关键词的语音输入时,使用者是否移动了 位置。参考图7来说明以上结构的本实施方式的语音认证系统的动作。 首先,输入部11接受使用者利用便携电话的键区输入的使用者ID等 (Op51)。在如便携电话那样,使用者被限定为一人的情况下,不需要使用 者ID的输入步骤。接着,使用者向便携电话的麦克风发出第一个分割关键 词后,输入部ll接受该语音(Op52)。与此同时,位置信息取得部31通过 在使用者的便携电话所嵌入的GPS,取得表示使用者的当前位置的信息,并 将所取得的信息送到位置确认部32 (Op53)。
所输入的第一个分割关键词的各音节在特征量转换部12中转换为特征 量(Op54)。将由特征量转换部12得到的特征量送到类似度计算部13。接着,类似度计算部13从登录说话人别音节模型数据库20中提取与该 使用者的使用者ID相关联存储的该使用者的说话人音节模型,并计算出戶万 述特征量对所提取的说话人音节模型的类似度(Op55)。将所求出的类4以度 送到音节判断部14。接着,音节判断部14根据由类似度计算部13求出的类似度,对第一个 分割关键词的各音节,选择登录说话人别音节模型数据库20的说话人音节 模型中类似度最高的模型的索引,并与该类似度一起,保存在类似度保存部 15中(Op56)。这里,由于第二个分割关键词的输入还没有完成(Op57的 结果是"否"),所以进入到Op58。为了更可靠防止对第三者暴露关键词,最好在第一个分割关键词的$俞入 结束时,在第二个分割关键词的语音输入之前,将指示为移动位置的消息显 示在使用者的便携电话等的显示器上,或将同样内容的语音消息送到该便携 电话中。因此,Op58中,在第一个分割关键词的语音输入后,经过适当的时间 (例如1分钟)后,位置信息取得部31通过使用者的便携电话上所嵌入的 GPS,取得表示使用者的当前位置的信息,并将所取得的信息传送到位置确 认部32。位置确认部32通过比较在Op53中取得的第一个分割关键词输入时的位 置信息和在Op58中取得的位置信息,从而确认在输入了第一个分割关键词 后,使用者是否移动到离开规定距离(例如50m)以上的位置上(Op59)。 此外,所述规定的距离并不限于50m,也可任意。若Op59的确认结果是"否",则语音认证系统向使用者的便携电话发 送指示为移动位置的语音消息。或者,显示指示为使其移动位置的警告消息 (Op60)。另一方面,如果Op59的确认结果是"是",则继续进行Op61之后的 处理。由于Op61 Op67的处理与第一实施方式中说明的Opl7 Op23相同, 所以省略说明。如上所述,本实施方式的语音认证系统利用GPS等来确认使用者的当前
位置,在从分割关键词的前次输入时起使用者没有移动规定的距离以上的'瞎 况下,指示为使其移动位置。由此,可以更可靠防止对第三者暴露关键词。 此外,在本实施方式中,示例了第一实施方式的语音认证系统中进一步具有位置信息取得部31和位置确认部32的结构,但是在第二实施方式的i吾 音认证系统中进一步具有位置信息取得部31和位置确认部32的结构也是本 发明的一实施方式。 (第四实施方式)下面说明本发明的语音认证系统的又一实施方式。此外,对于与第一 第三实施方式中说明的结构具有相同功能的结构,标注与这些实施方式中4吏 用的附图标记相同的符号,而省略该详细说明。本实施方式的语音认证系统是这样的结构,即系统对使用者指示关键词 的分割方法等,在使用者没有按指示进行语音输入的情况下,拒绝认证。因此,本实施方式的语音认证系统如图8所示,具有输入部ll、特征量 转换部12、类似度计算部13、音节判断部14、类似度保存部15、待机时间 管理部16、关键词确认部17、类似度综合部18、认证判断部19、按登录的 说话人的音节模型数据库20、关键词登录部21和指示输出部41。即,本实 施方式的语音认证系统是在第一实施方式的语音认证系统上进一步具有指 示输出部41的结构。指示输出部41的根据从预定的多种模式中随机选出的模式,来输出指 示,使得使用者分割输入关键词。作为这种指示,考虑例如"作为第一个分割关键词请输入最先的三个音 节,作为第二个分割关键词请输入其余的所有音节。"、"请将奇数音节作 为第一个分割关键词,将偶数音节作为第二个分割关键词。"、"请从反方 向起一个音节一个音节地输入关键词。"这样的指示。另外,这些指示始终 是一个例子,指示内容任意。这里,参考图9来说明本实施方式的语音认证系统的动作。此外,由于 使用者进行的关键词的登录步骤与第一实施方式相同,所以省略说明。首先,输入部11接受使用者利用便携电话的键区输入的使用者ID等 (Op71)。此外,在如便携电话那样,使用者被限定为一人的情况下,不需 要使用者ID的输入步骤。接着,指示输出部41根据从预定的多种模式中随
机选择出的模式,对使用者的便携电话作为显示或语音消息来输出用于使第一个分割关键词输入的指示(Op72)。为了进行后述的Op76的音节判断部 14的处理,也将由指示输出部41得到的指示内容送到音节判断部14。例如,这里,在进行了 "请将奇数音节作为第一个分割关键词"这样的 指示的情况下,若关键词是"卡拉OK",则使用者必须输入"卡"、"O" 作为第一个分割关键词,输入"拉"、"K"作为第二个分割关键词。使用者在根据该指示,当向便携电话的麦克风发出第一个分割关键词 时,输入部ll接受该语音(Op73)。所输入的音节S1、S2分别在特征量转换部12中,转换为特征量(Op74)。 将由特征量转换部12得到的特征量送到类似度计算部13中。接着,类似度计算部13从登录说话人别音节模型数据库20中提取与该 使用者的使用者ID相关联存储的该使用者的说话人音节模型,并计算戶万述 特征量对于所提取的说话人音节模型的类似度(Op75)。将所求出的类似度 送到音节判断部14。接着,音节判断部14根据通过类似度计算部13求出的类似度,来对第 一个分割关键词的各音节,选择登录说话人别音节模型数据库20中所存储 的说话人音节模型中类似度最高的模型的索引,并与该类似度一起保存在类 似度保存部15中(Op76)。而且,Op76中,音节判断部14判断第一个分割关键词的各音节是否如 基于指示输出部41进行的指示那样来发声。S卩,在上述例子中,作为第一 个分割关键词,发出输入奇数音节的指示,即,发出输入作为关键词的第一 音节(索引II)的"卡"和作为第三音节(第三索引)的"O"的内容的指 示。因此,第一个分割关键词的第一个音节必须与索引II的说话人音节模型 的类似度最大,第二个音节必须与索引13的说话人音节模型的类似度最大。 在不这样作的情况下,音节判断部14将该判断结果通知给认证判断部19, 从而认证判断部19拒绝认证。此外,在图9中,Op77之后与第一实施方式中说明的Opl6 Op23相 同,所以省略该重复的说明。本实施方式的语音认证系统中,如上所述,通过指示输出部41向使用 者指示分割方法,使得关键词的分割方法在每次认证随机,从而可以更可靠
防止关键词的暴露。此外,上述的说明中,指示输出部41选择一个关键词的分割方法来向 使用者进行指示,但是指示输出部41也可向使用者提示多种模式的分割方 法,使用者从中选择其中一种模式。还有,本实施方式中,示例了在第一实施方式的语音认证系统上进一步具有指示输出部41的结构,但是在第二或第三实施方式的语音认证系统上 进一步具有指示输出部41的结构也是本发明的一个实施方式。例如,是在第二实施方式的语音认证系统中加了指示输出部41的结构 的情况下,在关键词是数字列的情况下,例如,可以进行"作为第一个分割 关键词,请输入第2位和第4位的数字,作为第二个分割关键词,请输入第 l位和第3位的数字。"、"请从反方向依次输入密码。"这样的指示。在 关键词是数字和字母的混合的情况下,可以进行"作为第一个分割关键词i青 输入奇数位的数字或字母,第二次请输入偶数位的数字或字母"这样的指示。上面,如各实施方式中所说明的,根据本发明,通过分割关键词并进行 输入,从而他人不会听到整个关键词。因此,他人很难知道关键词内容,由 于不能持续录音整体关键词,所以可以防止录音诈骗。另外,文本依存型的语音认证大多暴露了关键词内容,现有技术中,为 了维持高性能,必须频繁变换关键词,有使用成本高的问题。但是,根据本 发明,很难暴露关键词内容,从而不需要频繁改变关键词,有可以减少关键 词变更用的成本的效果。而且,若例如在人很少的位置语音输入第一个分割关键词,在收银机前 等公众面前仅语音输入第二个分割关键词,由于可以縮短在公众面前的认证 时间,所以有可以快速进行支付的效果。此外,在上述各实施方式的语音认证系统中,例如,使用者也可选择是 否分割输入关键词,以便在周围没有他人的情况等中,可不用分割关键词就 进行语音认证。 产业上的可用性本发明通过防止关键词的泄漏和录音诈骗,作为可使用关键词的秘密性 来维持高的认证精度的文本依存型的语音认证系统有用。
权利要求
1. 一种语音认证系统,对关键词进行语音输入而进行认证的文本依存 型语音认证系统,其特征在于,具有输入部,其将以可发声的单位为最小单位而分割为多个部分的关键词的语音输入,对每个所述部分隔开时间间隔经多次接收;说话人模型存储部,其预先存储使用者的登录关键词,并将该登录关键 词作为以所述可发声的单位所作成的说话人模型;特征量转换部,其从在所述输入部中通过一次语音输入所接收的关键词 的部分中求出该部分中所包含的语音的特征量;类似度计算部,其求出所述特征量转换部所求出的特征量和所述说话人 模型之间的类似度;发声内容判断部,其根据所述类似度计算部所求出的类似度,通过所述 多次语音输入来判断与发声内容有关的信息;关键词确认部,其根据所述发声内容判断部所判断的与发声内容有关的 信息,判断利用所述多次语音输入的发声内容能否构成登录关键词;认证判断部,其根据所述关键词确认部的判断结果和所述类似度计算部 所求出的类似度,判断接受还是拒绝认证。
2. 根据权利要求1所述的语音认证系统,其特征在于, 所述可发声的单位是音节。
3. 根据权利要求2所述的语音认证系统,其特征在于, 在所述说话人模型存储部中,对构成登录关键词的各音节的说话人模型添加有分别独立的索引,所述特征量转换部从通过所述语音输入所接收的关键词的部分中求出 每个音节的特征量,所述类似度计算部求出所述每个音节的特征量和所述说话人模型之间 的类似度,语音认证系统还具有音节判断部,该音节判断部根据所述类似度计算部 所求出的类似度,判断通过所述语音输入所接受的关键词的部分与登录关键 词的哪个音节最类似,所述关键词确认部根据所述音节判断部的判断结果,判断利用通过所述 多次语音输入所判断的音节能否构成登录关键词。
4. 根据权利要求1 3中任意一项所述的语音认证系统,其特征在于, 所述可发声的单位是数字的读出或字母的读出。
5. 根据权利要求1所述的语音认证系统,其特征在于, 还具有语音识别部,该语音识别部根据所述特征量转换部所求出的特征量,通过不特定说话人的语音识别来识别所述关键词的部分的音韵,所述关键词确认部根据所述语音识别部的识别结果,判断利用通过所述 多次语音输入被语音识别的结果能否构成登录关键词。
6. 根据权利要求1所述的语音认证系统,其特征在于, 在对所述关键词的某部分的语音输入结束之后再经过规定时间也没有对下一部分的语音输入,而且利用此次为止的语音输入的发声内容信息无法 构成登录关键词的情况下,所述认证判断部拒绝认证。
7. 根据权利要求1所述的语音认证系统,其特征在于,还具有 位置信息取得部,其每当有所述关键词的部分的语音输入时,取得使用者的所在位置信息;位置确认部,其比较前次有语音输入时所述位置信息取得部所取得的所 在位置信息和这次有语音输入时所述位置信息取得部所取得的所在位置信 息,确认在从前次有语音输入时到这次有语音输入时为止的期间使用者是否 移动了规定距离以上。
8. 根据权利要求1所述的语音认证系统,其特征在于, 还具有类似度综合部,该类似度综合部对通过所述多次语音输入所接收的关键词的所有部分,综合所述类似度计算部所求出的类似度来求出综合类 似度,所述认证判断部根据所述类似度综合部所求出的综合类似度,判断接受 还是拒绝认证。
9. 根据权利要求1所述的语音认证系统,其特征在于, 所述输入部利用使用者的便携终端来接收语音输入。
10. —种计算机程序,实现对关键词进行语音输入而进行认证的文本依 存型语音认证系统,其特征在于,使计算机执行如下处理输入处理,将以可发声的单位为最小单位而分割为多个部分的关键词的 语音输入,对每个所述部分隔开时间间隔经多次接收;特征量转换处理,从通过一次语音输入所接收的关键词的部分中求出该 部分中所包含的语音的特征量;类似度计算处理,参考作为以所述可发声的单位所作成的说话者模型而 预先登录有使用者的关键词的说话人模型存储部,求出所述特征量转换处理 所求出的特征量和所述说话人模型之间的类似度;发声内容判断处理,根据所述类似度计算处理所求出的类似度,通过所 述多次语音输入来判断与发声内容有关的信息;关键词确认处理,根据所述发声内容判断处理所判断的与发声内容有关 的信息,判断利用所述多次语音输入的发声内容能否构成登录关键词;认证判断处理,根据所述关键词确认处理的判断结果和所述类似度计算 处理所求出的类似度,判断接受还是拒绝认证。
全文摘要
一种语音认证系统,是语音输入关键词来进行认证的文本依存性的语音认证系统,具有输入部(11),其将以可发声的单位为最小单位而分割为多个部分的关键词的语音输入,对每个所述部分隔开时间间隔经多次接收;语音模型存储部(20),预先存储使用者的登录关键词,并将该登录关键词作为以所述发声的单位所作成的说话人模型;特征量转换部(12),从在输入部(11)中通过一次语音输入所接收的关键词部分中求出该部分中所包含的语音的特征量;类似度计算部(13),求出特征量和说话人模型之间的类似度;关键词确认部(17),根据在类似度计算部求出的类似度,判断利用所述多次语音输入,构成登录关键词的所有音韵的语音输入是否完成;认证判断部(19),基于关键词确认部的判断结果和类似度计算部所求出的类似度,判断接受还是拒绝认证。
文档编号G10L17/00GK101124623SQ20058004849
公开日2008年2月13日 申请日期2005年2月18日 优先权日2005年2月18日
发明者早川昭二 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1