语音引导装置以及具有该语音引导装置的导航装置的制作方法

文档序号：6630585阅读：134来源：国知局

专利名称：语音引导装置以及具有该语音引导装置的导航装置的制作方法
技术领域：
本发明涉及语音引导装置、语音引导方法以及导航装置，它们均输出合成语音。
背景技术：
通过语音(音频)的自动引导实际应用于导航装置、电梯、车辆、自动柜员机等。语音引导被设置为某预定音量，所以，弱听的老年人或听力障碍人群无法容易地听到该语音引导。专利文献1、2描述了解决该问题的技术—专利文献1JP-H6-1549A—专利文献2JP-2002-229581A在专利文献1中，一种语音引导装置运作如下在电梯的轿箱或平台中安装一个用于识别乘客的个体识别装置；通过广播命令，从广播数据存储装置中读取与听力障碍人群相对应的广播数据；以及，从扬声器输出与该广播命令相对应的语音。
在专利文献2中，一种语音输出系统包括以下部分语音输出装置，用于输出语音；语音转换装置，用于转换所输出语音的频率、节奏、重音、音量、方言等；以及语音识别度分析装置，用于分析关于所输出的语音及其内容的用户识别度。
当目标人群的数量明显增加时，专利文献1中的上述个体识别装置需要很大的存储器容量和智能搜索系统。专利文献2中的上述语音识别度分析装置是非常复杂的系统，它需要获取诸如用户信息、车辆状态、环境信息等数据以及将当前数据与相对于所获取数据的标准状态数据进行比较，从而计算用户的识别度。

发明内容
本发明的一个目的是提供一种语音引导装置、一种语音引导方法以及一种导航装置，它们均可以执行使弱听的老年人或听力障碍人群能够听到的语音引导。
为实现上述目的，提供了一种语音引导装置，包括存储单元，用于存储至少一个语音引导语句的多个语音数据项，其中，所述多个语音数据项各具有不同的频率；语音混合单元，用于将所存储的多个语音数据项中的至少两个语音数据项进行混合，从而产生一个混合语音数据项；以及语音输出单元，用于根据所产生的混合语音数据项，输出一个混合语音。
作为本发明的另一个方面，提供了一种语音引导装置，包括存储单元，用于存储至少一个语音引导语句的至少一个语音数据项；语音产生单元，用于通过语音合成，根据所存储的至少一个语音数据项，产生用于该语音引导语句的至少一个语音数据项，其中，所存储的至少一个语音数据项和所产生的至少一个语音数据项中的每一个语音数据项具有不同的频率；语音混合单元，用于将所存储的至少一个语音数据项和所产生的至少一个语音数据项中的至少两个语音数据项进行混合，从而产生一个混合语音数据项；语音输出单元，用于根据所产生的混合语音数据项，输出一个用于该语音引导语句的混合语音。
在上述结构下，对于一个语音引导语句，通过产生或从存储单元中获取的方式，预先获得各自具有不同频率的语音数据项。语音混合单元从所获得的语音数据项中选择一个以上语音数据项进行混合，从而产生用于该语音引导语句的一个混合语音数据。然后，语音输出单元根据该混合语音数据项，输出一个混合语音。
所获得的语音数据项各自具有不同的频率或音域(voice range)，如高音域、低音域和中音域。可以通过实际录制诸如儿童、成年人、男性或女性语音之类的不同音域或使用语音合成技术，获得这些语音数据项。在这里，语音包括用于确定声音质量的各种频率分量。在这种情况下，可以将注意力集中在一个主要频率分量或几个主要频率分量上。
即使听力弱或差的老年人或听力障碍人群也并不总是在所有频率中都弱听，而是经常有选择性地在某特定频率中弱听。例如，对于高龄的弱听，弱听发生在高频率或高音域中，但在低频率或低音域中可以观测到较好的听力。在本发明中，在相同时间使用多个频率，执行语音引导，从而使得弱听的老年人或听力障碍人群也可以听到听力受损较小的频率的语音引导。

通过参考以下结合附图的详细说明，本发明的上述和其他目的、特征以及优点将变得更加显而易见，在这些附图中图1是根据本发明一个实施例的汽车导航装置的电结构框图；以及图2是语音合成过程的流程图。
具体实施例方式
本发明适用于车辆导航装置，下面描述汽车导航装置1的一个实施例。
如图1所示，一部对象车辆中安装的汽车导航装置1包括导航单元2和语音引导单元3。语音引导单元3包括语音混合单元4、存储器5、麦克风6、语音测量单元7和语音输出单元8。
导航单元2包括控制电路，其主要包括CPU、ROM和RAM；位置检测器，用于检测车辆的位置；地图数据输入单元、操作开关组、外部存储器、诸如液晶显示器之类的显示单元；以及遥控探测器，用于检测来自遥控的信号(未显示)。
当用户(或司机)使导航单元2执行路线引导时，用户通过操作该操作开关组或遥控，指示导航单元2执行路线引导功能并设置目的地。当该对象车辆接近引导点的十字路口或分支点(例如向左转或向右转)时，导航单元2如下工作将显示单元上的窗口显示切换为十字路口或分支点的放大图。指示语音混合单元4产生用于一个语音引导语句(如“前方100米向左转”)的语音数据。
用于存储语音数据的存储器5是诸如闪速存储器或ROM之类的非挥发性存储器，其存储语音合成程序和多个语音引导语句(如“前方100米向左转”或“你使用高速公路吗？”)的语音数据(语音数据项)。用女高音、女低音、女中音、男高音、男低音、男中音、儿童高音、儿童低音和儿童中音录制一个特定的语音引导语句，并将其存储为数字数据。人的语音包括很多频率分量。即使一些语音的主要频率分量相同，有时这些语音听起来也不同。所以，最好录制关于男性、女性或儿童的多个人的语音，并将其存储为语音数据。
语音测量单元7接受经由麦克风6的响应语音，并测量该响应语音的存在或不存在、频率(音域)、音量和发音速度。
语音混合单元4包括输入电路9、CPU 10和输出电路11。CPU 10经由输入电路9接受来自导航单元2的用于产生引导语音数据的指示信号，并进一步经由输入单元9接受来自语音测量单元7的响应语音的特征数据。CPU 10从存储器5中读取多个语音数据项，将其进行混合，然后将混合的语音数据(称为混合语音数据)经由输出电路11输出给语音输出单元8。
语音输出单元8包括语音发出单元12，其根据该混合语音数据，产生或发出一个混合语音；扬声器13，其设置在车辆的驾驶室内，用于输出该混合语音。
下面结合图2，描述该实施例的操作。当车辆导航装置1启动其操作时，CPU 10读取语音合成程序，以启动语音合成过程。图2示出了当收到来自导航单元2的用于产生引导语音数据的指示信号时语音合成过程的流程图。
例如，假设这样一种情况接受用于产生“哪个是目的地？”的引导语音数据的指示信号。在步骤S1中，CPU 10从存储器5中获取三个各具有不同频率(或音域)的语音数据项。这三个语音数据项对应于关于“哪个是目的地？”的女中音(高音域)、男中音(低音域)和儿童中音(中音域)。在这里，女音是最高的，而男音是最低的。人的语音包括各种频率分量。当某特定语音的主要分量的频率比接近1∶2∶4(和谐陪音，harmonic overtone)时，产生和谐音序列。其产生的效果是，该语音听起来是很舒适的和谐音。
CPU 10以1∶1∶1的音量比，混合这三个语音数据项，将混合语音数据的总音量设置为中等音量，并将发音速度设置为中等速度。语音发出单元12将该混合语音数据转换为语音，然后从扬声器13输出相应的语音引导语句。
语音测量单元7收到来自麦克风6的信号，并测量响应语音的存在或不存在。在这种情况下，为了防止检测到从扬声器13输出的语音引导语句，在从扬声器13输出语音引导语句的同时，禁止检测语音。在步骤S2中，CPU 10判断是否检测到所输出语音引导语句的响应语音。如果确定在给定时段内没有检测到响应语音，则在后续步骤S3中增加混合语音的总音量，然后再在步骤S1中输出“哪个是目的地？”的引导语音数据。
换言之，在给定间隔内，汽车导航装置1反复输出音量递增的语音引导语句，直到检测到响应语音为止。在这里，可以如下设计音量和重复次数具有各自的上限；在音量或重复次数达到上限之后，反复输出发音速度递减的语音引导语句。此外，也可以设计为在步骤S3中，随着总音量的增加，发音速度降低。
在步骤S2中，当确定检测到响应语音时，执行步骤S4。在这里，指示语音测量单元7测量该响应语音的频率、音量和发音速度特征，然后将测量结果输出给CPU 10。在步骤S5中，CPU 10判断该响应语音的音域是高还是低。当判定音域为低时，执行步骤S6。在这里，识别出该响应语音的内容(如“NAGOYA站”)后，产生关于后面输出的语音引导语句(如“你使用高速公路吗？”)的低音域语音数据。详细地讲，在增加男中音的混合比的同时，降低女中音和儿童中音的混合比(或音量比)。
类似地，在步骤S5中，当确定音域为中等时，执行步骤S7。在这里，将后面输出的语音引导语句的三种语音数据项以1∶1∶1的相等比进行混合。在步骤S5中，当确定音域为高时，执行步骤S8。在这里，产生关于后面输出的语音引导语句的具有高音域的引导语音数据。详细地讲，在增加女中音混合比的同时，降低男中音和儿童中音的混合比(或音量比)。这样，响应语音和语音引导短语的音域(或频率)近似或收敛基于这样的经验规律听力障碍人群会用他们自己较容易听到(或他们的听力损失较小)的音域说话。
接着，在步骤S9中，CPU 10确定响应语音的音量。如果确定响应语音的音量为小，则执行步骤S10。在这里，产生关于后面输出的语音引导语句的语音数据，使得混合语音的总音量变得与响应语音的总音量一样小。
类似地，在步骤S9中，如果确定音量为中等，则执行步骤S11。在这里，产生关于后面输出的语音引导语句的语音数据，使得混合语音的总音量变成与响应语音的总音量一样中等。此外，在步骤S9中，当确定音量为大时，则执行步骤S12。在这里，产生关于后面输出的语音引导语句的语音数据，使得混合语音的总音量变得与响应语音的总音量一样大。因此，响应语音和语音引导语句的音量近似或收敛基于这样的经验规律听力障碍人群会用他们自己相对容易听到的音量说话。
然后，在步骤S13中，CPU 10确定响应语音的发音速度。当确定响应语音的发音速度为慢时，执行步骤S14。在这里，产生关于后面输出的语音引导语句的语音数据，使得混合语音的发音速度变得与响应语音的发音速度一样慢。
类似地，在步骤S13中，当确定发音速度为中等时，执行步骤S15。在这里，产生关于后面输出的语音引导语句的语音数据，使得混合语音的发音速度变得与响应语音的发音速度一样中等。此外，在步骤S13中，当确定发音速度为快时，执行步骤S16。在这里，产生关于后面输出的语音引导语句的语音数据，使得混合语音的发音速度与响应语音的发音速度一样快。因此，响应语音和语音引导语句的发音速度近似或收敛基于这样的经验规律听力障碍人群会用他们自己相对容易听到的发音速度说话。
在步骤S17中，CPU 10输出在步骤S4至S16中产生的混合语音数据，然后完成语音合成过程。如果在步骤S17中输出的语音引导语句为需要来自用户的响应的类型(如“你使用高速公路吗？”)时，则可以采用这样一种控制不结束该过程，而将该过程顺序转到步骤S2。当完成后再重新开始语音合成过程时，在步骤S1中，CPU 10可以输出混合语音数据，其具有与在步骤S17中以前输出的混合语音数据相同的音域、音量和发音速度。
如上所述，根据该实施例，执行如下步骤将语音数据预先存储在存储器5中；对于特定语音引导语句的语音数据，存储多个包括各不相同音域的语音数据项；对于该特定的语音引导语句，从所述多个语音数据项中选择三个语音数据项并将其进行混合，从而产生混合语音数据。因此，用于引导用户或占有者的混合语音包括高音域语音(如女音)、低音域语音(如男音)和中音域语音(如童音)。因此，即使对于在特定音域(或频率)内弱听的老年人或听力障碍人群，也可以较容易地听到在听力损失较小的频率中的语音引导语句。
在这种情况下，当三种混合语音的频率比设置为1∶2∶4时，产生和谐的舒适音。此外，对于个体而言，人的听力级(dB)与频率的对数构成特征关系(听力特征)。在听力特征图(听力敏度图)中，可以因此在相同的间隔内安排构成该混合语音的语音频率。
此外，对于初始输出语音引导语句的情况，混合语音的总音量递增，直到检测到响应语音为止。最后，语音引导语句听起来的音量适合用户的听力能力。当后面收到来自用户的响应语音时，测量关于收到的响应语音的频率、音量和发音速度特征，从而产生和输出具有所测量特征的语音引导语句的混合语音数据。因此，从开始步骤到最后步骤，可以通过与用户听力能力的语音匹配，执行语音引导。
(其他)在上述实施例中，在图2的语音合成过程中，在步骤S4到S16中，产生具有与响应语音相同特征(频率、音量和发音速度)的混合语音数据。但是，也可以用其他方式设计。存储与步骤S2中检测到的响应语音相对应的输出语音引导语句的语音音量，然后，可以用与存储音量相同的音量，输出后面的语音引导语句。
在语音合成过程中，检测频率、音量和发音速度三个特征，但是，也可以设计为检测这三个特征中的一个或两个。
根据响应语音的测量音域，确定三个语音数量项的混合比，以产生混合语音。但是，除了混合语音外，也可以通过获取具有与来自存储器5的响应语音相似频率的语音引导语句的语音数据，顺序地输出单语音的语音引导语句。
三种语音的频率比被设置为1∶2∶4，但也可以将其设置为使三种语音和谐的1∶1，5∶2等。
三个语音数据项用于合成混合语音数据，但也可以用两个或三个以上的语音数据项来合成混合语音数据。
作为语音引导或语音界面，该语音引导装置不仅可用于汽车导航装置，而且也可广泛应用于其他装置，如手持导航装置、手持信息终端、家用电器、电梯、车辆和自动柜员机。
也可以通过合成技术来合成语音数据。可以这样设计三个语音数据项中之一为预先存储在存储器中的语音数据项，而用存储的语音数据项合成另两个具有不同频率的语音数据项。在这种情况下，该存储器存储语音产生程序、语音合成程序和语音数据。CPU 10读取前述存储的语音数据和程序，然后执行语音产生程序，从而产生具有不同频率的语音数据项。然后，CPU 10执行语音合成程序。在这种结构下，该存储器中存储的语音数据项的数量增加了，此外，具有不同频率的各个语音数据项可用于产生混合语音数据。
显然，对于本领域技术人员而言，可以对本发明上述实施例做出各种改变。但是，本发明的保护范围应当由所附的权利要求进行界定。
权利要求
1.一种语音引导装置，包括存储单元，其存储用于至少一个语音引导语句的多个语音数据项，其中，所述多个语音数据项各具有不同的频率；语音混合单元，其将所存储的多个语音数据中的至少两个语音数据项进行混合从而产生一个混合语音数据项；以及语音输出单元，其根据所产生的混合语音数据项，输出一个混合语音。
2.根据权利要求1的语音引导装置，其中，所述语音混合单元将所述多个语音数据项中的三个语音数据项进行混合；其中，所述三个语音数据项各自对应于低音域语音、中音域语音和高音域语音；以及其中，所述低音域语音、所述中音域语音和所述高音域语音形成一个和谐音。
3.根据权利要求1的语音引导装置，其中，所述语音混合单元将频率比为1∶2∶4的三个语音数据项进行混合，从而产生所述混合语音数据。
4.根据权利要求1的语音引导装置，其中，所述语音混合单元将频率比为1∶1.5∶2的三个语音数据项进行混合，从而产生所述混合语音数据。
5.根据权利要求1的语音引导装置，其中，所述语音混合单元产生所述混合语音数据，使得所述混合语音的音量随时间的流逝而增加。
6.根据权利要求1至5中任一项的语音引导装置，还包括语音检测单元，其检测对所输出的混合语音做出响应的响应语音；以及语音测量单元，其测量关于所检测到的响应语音的频率、音量和发音速度的特征中的至少一个；其中，在输出所述混合语音之后，所述语音混合单元产生所述混合语音数据项，所述混合语音数据项具有所测量的关于所检测到的响应语音的特征。
7.根据权利要求6的语音引导装置，其中，所述语音混合单元根据所测量的特征，确定所述至少两个语音数据项的混合比，从而产生所述混合语音数据项。
8.根据权利要求6的语音引导装置，其中，所述语音混合单元根据所测量的特征，产生由所述多个语音数据项中的单个语音数据项构成的所述混合语音数据项。
9.一种语音引导装置，包括存储单元，其存储用于至少一个语音引导语句的至少一个语音数据项；语音产生单元，其使用语音合成，根据所存储的至少一个语音数据项，产生用于所述语音引导语句的至少一个语音数据项，其中，所存储的至少一个语音数据项和所产生的至少一个语音数据项中的每一个语音数据项具有不同的频率；语音混合单元，其将所存储的至少一个语音数据项和所产生的至少一个语音数据项中的至少两个语音数据项进行混合，从而产生一个混合语音数据项；以及语音输出单元，其根据所产生的混合语音数据项，输出一个用于所述语音引导语句的混合语音。
10.根据权利要求9的语音引导装置，其中，所述语音混合单元将所存储的至少一个语音数据项和所产生的至少一个语音数据项中的三个语音数据项进行混合；其中，所述三个语音数据项各自对应于低音域语音、中音域语音和高音域语音；以及其中，所述低音域语音、所述中音域语音和所述高音域语音形成一个和谐音。
11.根据权利要求9的语音引导装置，其中，所述语音混合单元将频率比为1∶2∶4的三个语音数据项进行混合，从而产生所述混合语音数据。
12.根据权利要求9的语音引导装置，其中，所述语音混合单元将频率比为1∶1.5∶2的三个语音数据项进行混合，从而产生所述混合语音数据。
13.根据权利要求9的语音引导装置，其中，所述语音混合单元产生所述混合语音数据，使得所述混合语音的音量随着时间的流逝而增加。
14.根据权利要求9至13中任一项的语音引导装置，还包括语音检测单元，其检测对所输出的混合语音做出响应的响应语音；以及语音测量单元，其测量关于所检测到的响应语音的频率、音量和发音速度的特征中的至少一个；其中，在输出所述混合语音之后，所述语音混合单元产生所述混合语音数据项，所述混合语音数据项具有所测量的关于所检测到的响应语音的特征。
15.根据权利要求14的语音引导装置，其中，所述语音混合单元根据所测量的特征，确定所述至少两个语音数据项的混合比，从而产生所述混合语音数据项。
16.根据权利要求14的语音引导装置，其中，所述语音混合单元根据所测量的特征，产生由所存储的至少一个语音数据项和所产生的至少一个语音数据项中的单个语音数据项构成的所述混合语音数据项。
17.一种语音引导方法，包括以下步骤获取用于至少一个语音引导语句的多个语音数据项，其中，所述多个语音数据项各具有不同的频率，并且，从存储器中读取所述多个语音数据项中的至少一个语音数据项，并且，根据从所述存储器读取的所述语音数据项，合成所述多个语音数据项中的其他语音数据项；通过将从所述多个语音数据项中选择的至少两个语音数据项进行混合，产生一个混合语音数据项；以及根据所产生的混合语音数据项，输出一个用于所述语音引导语句的混合语音。
18.根据权利要求17的语音引导方法，还包括以下步骤检测对所输出的混合语音做出响应的响应语音；测量关于所检测到的响应语音的频率、音量和发音速度的特征中的至少一个；产生一个用于所述语音引导语句的语音数据项，其中，所产生的语音数据项具有所测量的特征。
19.一种包括语音引导装置的导航装置，包括存储单元，其存储用于至少一个语音引导语句的多个语音数据项，其中，所述多个语音数据项各具有不同的频率；语音混合单元，其将所存储的多个语音数据中的至少两个语音数据项进行混合，从而产生一个混合语音数据项；以及语音输出单元，其根据所产生的混合语音数据项，输出一个混合语音。
20.一种包括语音引导装置的导航装置，包括存储单元，其存储用于至少一个语音引导语句的至少一个语音数据项；语音产生单元，其使用语音合成，根据所存储的至少一个语音数据项，产生用于所述语音引导语句的至少一个语音数据项，其中，所存储的至少一个语音数据项和所产生的至少一个语音数据项中的每一个语音数据项具有不同的频率；语音混合单元，其将所存储的至少一个语音数据项和所产生的至少一个语音数据项中的至少两个语音数据项进行混合，从而产生一个混合语音数据项；以及语音输出单元，其根据所产生的混合语音数据项，输出一个用于所述语音引导语句的混合语音。
21.一种语音引导装置，包括存储单元，其存储用于至少一个语音引导语句的至少一个语音数据项；获取单元，其获取用于所述语音引导语句的多个语音数据项，其中，所述多个语音数据项各具有不同的频率，其中，从所述存储单元中读取所述多个语音数据项中的至少一个语音数据项，并且，根据从所述存储单元读取的所述至少一个语音数据项，合成所述语音数据项中的其他语音数据项；语音混合单元，其将所述多个语音数据项中的至少两个语音数据项进行混合，从而产生一个混合语音数据项；以及语音输出单元，其根据所产生的混合语音数据项，输出一个用于所述语音引导语句的混合语音。
全文摘要
对于一个语音引导语句，在存储器中预先存储多个各自具有不同音域和频率的语音数据项。语音混合单元从所存储的多个语音数据项中选择三个语音数据项进行混合，从而产生一个混合语音数据项。语音输出单元将该混合语音数据项转换为语音，然后经由扬声器发出一个语音引导语句。语音测量单元测量关于对所输出的语音引导语句做出响应的响应语句的频率、音量或发音速度特征。语音混合单元产生一个混合语音数据，其具有与所测量特征相似的特征，并输出该混合语音数据。
文档编号G06F3/16GK1725294SQ20051008496
公开日2006年1月25日申请日期2005年7月22日优先权日2004年7月22日
发明者三井隆男申请人:株式会社电装

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：三井隆男
技术所有人：株式会社电装
我是此专利的发明人

上一篇：适配器读取和写入系统存储器的方法和系统的制作方法
上一篇：用于提高组织内的生产率的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。