语音合成装置的制作方法

文档序号:2827942阅读:259来源:国知局
专利名称:语音合成装置的制作方法
技术领域
本发明涉及合成与文本对应的语音后输出的语音合成装置,尤其涉及用于还可自然朗读不完整的文章的语音合成装置。
背景技术
现有技术中,提供了生成与所希望的文本对应的合成音后输出的语音合成装置。其中,作为应用领域有朗读电子邮件的用途,代替阅读用文本书写的电子邮件本身,可以将电子邮件的内容作为合成音来听取。
但是,电子邮件的文本中,与小说和新闻纪事等的文本不同,由于例如如引用符号等那样,通常不能朗读的符号包含在引用部分和签名部分等中,所以需要适当处理这些部分而校正为可朗读的状态。作为为此的技术,例如有专利文献1和专利文献2。
根据专利文献1的方式,可以通过去除没有必要朗读的引用符号而仅朗读引用语句的内容,或完全删除引用部分来避免引用部分的朗读困难。
另外,根据专利文献2的方式,可以进行下述更合适的处理,即,将引用语句的内容与已存储的已读邮件中含有的字符串对照,仅在引用语句的内容包含在已读邮件的情况下,来进行引用部分的删除。
专利文献1日本特开平9-179719号公报(说明书第7页~第8页)专利文献2日本特开2003-85099号公报(说明书第22页~第24页)
但是,电子邮件的文本中,常常以行单位来进行引用,因此,有不少情况是引用部分的开头从引用源的电子邮件中的某个语句的中间开始,或者末尾在语句的中间终止。图22表示这种引用的例子。
图22中,邮件语句800~802表示2个人之间的一系列邮件的交换。从最先的邮件语句800中仅引用作为文章的中间内容的一部分的“どのような資料を用意すれば”的部分,来写回信邮件语句801,进而,从回信邮件语句801的开头引用第3行、第7行、第8行、第11行,再次写回信邮件语句802。各个引用部分不是完整的文章,而从引用源的邮件中单纯进行行单位的引用。若进行这种引用,引用语句通常从原先的文章欠缺语句开头和语句末尾的部分。
但是,上述的现有技术中,没有考虑这种不完整的文章的朗读,通过将不完整的文章作为完整的文章来朗读,存在导致用户混乱的问题。
另外,由于因文章不完整而语言分析处理失败,所以还存在添加了不自然的韵律而使合成音的质量降低的问题。
另一方面,由于考虑到这种语句开头或语句末尾的意思不明的不完整的部分本来是朗读的重要性低的部分,所以可以说没有必要必须进行使所有的文字都被听取的朗读。

发明内容
因此,本发明是鉴于这种问题和情况而完成的,其目的是提供一种语音合成装置,该语音合成装置防止由朗读对象的文章不完整引起的用户的混乱及合成音的质量劣化,且可提供对于用户来说容易理解的朗读语音。
为了实现上述目的,本发明所涉及的语音合成装置是生成与所输入的文本信息相对应的合成音的语音合成装置,其特征在于,包括不完整部分检测单元,检测出所述文本信息中由字符串的欠缺引起的语言上不完整的部分即不完整部分;补全单元,补全所述被检测出的不完整部分中欠缺的字符串;语音合成单元,基于所述补全后的文本信息,生成合成音。
由此,即使是由于构成文章的字符串的一部分上产生了欠缺,而在语言上不完整的文章,也由于补全该欠缺后生成合成音,而对所生成的合成音赋予了自然的韵律,从而可以防止用户的混乱和合成音的质量劣化。
这里,所述语音合成装置还包括对与所述不完整部分检测单元中检测出的不完整部分相对应的合成音添加规定的声响效果的声响效果添加单元,所述声响效果添加单元具有使与所述不完整部分检测单元中检测出的不完整部分相对应的合成音的听觉上的清晰度降低的不完整部分模糊化部。
根据该结构,由于使语言上不完整的部分的朗读语音模糊化,所以可以实现使用户容易理解朗读的重要性低的部分的语音合成装置。
另外,本发明不仅可以作为这种语音合成装置实现,也可作为将这种语音合成装置所具有的特征单元步骤化的语音合成方法来实现,也可作为用于使个人计算机等的计算机实现这些步骤的程序实现。另外,当然可以通过CD-ROM等记录介质和以互联网为代表通信媒体来传输这种程序。
发明的效果如上所说明的,根据本发明所涉及的语音合成装置,对于由于构成文章的字符串的一部分上产生了欠缺而语言上不完整的文章,通过消除该欠缺而使语音合成处理不失败,或特意使因该欠缺而语音合成处理失败的部分模糊地再现,由此可以提供对用户来说容易理解的朗读语音。
另外,如果是本来被认为朗读的重要性低的部分,即,位于引用部分的开头的语句的开头或位于末尾的语句的最后不完整,则通过使该部分的听觉上的清晰度降低,来输出朗读语音,所以向用户表示这些部分比较没有含义,可以防止用户的注意放到错误的韵律和不完整的单词的朗读上,并且也可提示在该位置上存在的一些没有含义的语句的信息,而不用删除。


图1是表示实施方式1所涉及的语音合成装置的功能性结构的框图;图2是用于说明引用结构分析部和电子邮件文本整形部的动作的图;图3是用于说明不完整部分检测部所进行的处理的概要的图;图4是用于说明语言分析部的动作例的图;图5是用于说明韵律生成部的动作例的图;图6是用于说明单元选择部、单元结合部和不完整部分模糊化部的动作例的图;图7是合成音记录串的示意图;图8是不完整部分检测部不进行补全的情况下得到的检测结果的一例的示意图;图9是输入到不完整部分模糊化部的合成音记录串的例子的示意图;图10是表示不完整部分模糊化部的淡入处理的例子的概要图;图11是表示实施方式2所涉及的语音合成装置的功能性结构的框图;图12是表示实施方式3所的语音合成装置的功能性结构的框图;图13是用于说明单元选择部、不完整部分模糊化部和单元结合部的动作例的图;图14是表示实施方式4所示的语音合成装置的结构的框图;图15是表示消息文本和消息日志的例子的概要图;图16是表示引用结构分析部和消息文本整形部的动作的概要图;图17是表示不完整部分检测部的动作的概要图;图18是表示实施方式5所涉及的语音合成装置的功能性结构的框图;图19是表示实施方式6所涉及的语音合成装置的功能性结构的框图;图20是用于说明公告板消息文本提取部的动作例的图;图21是用于说明公告板消息文本整形部的动作例的图;图22是本发明所要解决的技术问题所表示的本发明作为对象的文本的例子的示意图。
符号说明10、20、30、40、50、60 语音合成装置100电子邮件文本101引用结构分析部102电子邮件文本整形部103不完整部分检测部104、104a、104b语音合成部105不完整部分模糊化部106扬声器装置107邮件箱200、1100、1600引用结构已分析文本
201、1101、1601已整形文本300不完整部分已提取文本301过去的电子邮件文本400合成音记录串401合成音记录402合成音记录头600a 引用等级0的合成音600b 对600c的补全部分的合成音600c 引用等级1的合成音601减弱部602混合部603输出语音700波形生成部702语音单元参数数据库800邮件语句801回信邮件语句802再次回信邮件语句900聊天消息文本902消息文本整形部903消息日志1200 不完整部分已检测文本1300 新闻文本1301 新闻文本整形部1302 已读新闻日志1303 新闻客户机1304 网络1305 新闻服务器
1306 所有新闻日志1400 公告板消息文本1401 公告板消息日志1402 公告板消息文本提取部1403 公告板消息文本整形部1500 已分割公告板消息文本1700 语言处理部1701 单元选择部1702、1702a、1702b语音单元数据库1703 单元结合部1704 韵律生成部1800 音素记载文本1900 带韵律的音素记载文本具体实施方式
下面,使用附图来详细说明本发明的实施方式。
(实施方式1)图1是表示本发明的实施方式1所涉及的语音合成装置的功能性结构的框图。
本实施方式1所涉及的语音合成装置10是取得作为电子邮件的通信内容的文本并生成与该文本对应的合成音来输出的装置,是自然地朗读电子邮件的文本中包含的引用部分中出现的不完整的语句的装置。该语音合成装置10的最大特征是与所述文本的不完整部分相对应,输出降低了听觉上的清晰度的合成音,由此,与没有降低听觉上的清晰度的情况相比,向使用者提供自然的听感。
如图1所示,语音合成装置10包括引用结构分析部101,分析所输入的电子邮件文本100的引用部分的结构;电子邮件文本整形部102,在考虑到所分析的引用部分的结构的基础上将电子邮件文本整形成语句单位;邮件箱107,具有用于存储过去所发送接收的电子邮件文本的存储区域;不完整部分检测部103,参考过去所发送接收的电子邮件文本,从邮件箱107中检测出电子邮件文本100内的不完整语句,并确定该不完整部分;语音合成部104,将文本作为输入接收后输出合成音;不完整部分模糊化部105,在由语音合成部104输出的合成音中仅对与不完整部分检测部103所对应检测出的不完整部分相对应的部分实施听觉上模糊化的处理;和扬声器装置106,再现并输出所生成的合成音。
这里,语音合成部104可以进一步分割为更细的功能块,包括语言处理部1700,将文本作为输入,来输出其语言分析结果;韵律生成部1704,根据文本的语言分析结果来生成韵律信息;语音单元数据库(DB)1702,存储语音单元;单元选择部1701,使用包含韵律信息的语言分析结果,从语音单元DB1702中选择适当的语音单元;单元结合部1703,使单元选择部1701选择出的语音单元变形,来与预先生成的韵律一致,并且进行使前后的语音单元平滑连接的变形来进行连结,输出与所输入的文本对应的合成语音数据。
引用结构分析部101简单分析电子邮件文本100,并根据引用的深度和段落的断开处等来进行整形。
这里,所谓引用的深度是指各文章被引用的次数,具体来说,引用结构分析部101根据从各行开头起连续的引用符号的数目,识别各文章的引用的深度。
另外,所谓段落的断开处是指中途断开各文章的意思的连接的位置,在相同引用的深度的文章中,引用结构分析部101根据存在空行或与其他行缩进量不同的部分,来识别段落的断开处。另外,引用结构分析部101也可根据“(中略)”和“(略)”那样暗示省略了中间的文章的字符串、和仅有模仿纵方向的“....”的“”的行等除了空行和缩进量不同之外表示段落的断开处的字符串,来识别段落的断开处。
电子邮件文本整形部102以引用结构分析部101的分析结果为基础,将电子邮件文本100分成语句单位来进行整形。该电子邮件文本整形部102进一步还进行邮件标题和签名的概括。
图2是用于说明引用结构分析部101和电子邮件文本整形部102的动作的图。
图2中,引用结构分析部101如下那样,分析电子邮件文本100,并添加表示分析结果的标志来生成引用结构已经分析文本200。
1)首先,将从电子邮件文本100的开头开始,到用两个半角的负号构成的行之前识别为标题,并用<header>的标志来包围该部分。
2)从电子邮件文本100的末端开始,搜索仅由两个以上连续的符号文字构成的行最初出现的位置,若检测出的行不是1)中识别出的标题的末端,进而从该检测出的行到电子邮件文本100的末端的行数为10行以下,则将其识别为签名,并用<signature>的标志来包围。
3)将处于标题部分和签名部分之间的全部文本识别为邮件的文本,而用<body>的标志来包围。
4)从用<body>标志包围的邮件的正文开头开始到处理完末端的行为止,重复下面的5)~10)的处理。
5)数出位于当前的行的开头的引用符号的数目,并用引用符号的数目的标志来进行替换。例如,在引用符号为1个的情况下,代替引用符号,赋予<1>,在为2个的情况下,代替引用符号,赋予<2>,在没有引用符号(不是引用部分)的情况下,代替引用符号,赋予<0>。但是在这个时刻,还不封闭标志。下面,将该引用符号的数目的标志描述为“引用标志”,将引用符号的数目描述为引用等级。
6)若当前的行是电子邮件文本的最后的行,或下一行之后为签名部分,则封闭引用标志来终止。例如,若当前的行不是引用部分,则在行末追加</0>来终止该算法。
7)继续读取下一行。
在前一行和当前的行的引用符号的数目不同,或当前的行是空行,或当前的行是“(中略)”及“”等表示原来语句的省略的字符串,或当前的行和前一行的缩进量的数目不同的情况下,进入到10)。
9)删除行开头的引用符号,进入到6)。
10)用引用标志来封闭前一行,进入到5)。
以上,通过1)~10)的顺序所生成的引用结构已分析文本200如下那样。
·在由<header>标志包围的部分中放入原先的电子邮件文本100的标题部分。
·在由<signature>标志包围的部分中放入原先的电子邮件100的签名部分。
·在由<body>标志包围的部分中放入原先的电子邮件文本100的正文部分。
·正文部分每个段落用引用标志来包围。另外,通过引用标志,可了解引用的深度。
进而,在图2中,电子邮件文本整形部102如下所说明那样,处理引用结构已分析文本200,来生成已整形文本201。
1)概括由<header>标志包围的部分,形成容易朗读的文章。例如,仅取出表示邮件的发件人的From字段和表示主题的Subject字段,而转换为“○○さんより、××というメ一ルです”的文章。但是,在该阶段中,最好保留包含于之后的不完整部分检测部103的处理中的、表示电子邮件的线程结构的In-Relay-To字段和References字段的内容,而不进行删除。
2)概括用<signature>标志包围的部分,形成容易朗读的文章。或也可简单地进行删除。
3)对于用<body>标志包围的部分,从各引用标志内的文章删除换行或空白文字而变为一行的文本后,用句号来划分语句。
不完整部分检测部103接收由电子邮件文本整形部102生成的已整形文本201,并与在邮件箱107中存储的过去发送接收的电子邮件进行对照,搜索引用等级为1以上的各引用标志内的开头和末尾的语句最先出现的电子邮件,通过字符串匹配来判断引用语句是否完整,即各引用语句相对引用源的语句是否没有欠缺字符串。进而,在引用语句不完整的情况下,用原来的完整语句来进行置换后,还可识别引用语句中包含原来的完整语句中的哪个部分。
图3是用于说明不完整部分检测部103所进行的处理的概要的图。在图3中,不完整部分检测部103进行如下说明的处理。
1)参考在标题部分的In-Reply-To字段和References字段上写入的消息ID,从邮件箱107中取得消息ID一致的所有过去的电子邮件文本301。进而,参考这些电子邮件文本301的In-Reply-To字段和References字段,递归地取得同一线程的所有过去的电子邮件文本301。
2)从所取得的过去的电子邮件文本301中去除所有的标题部分、签名部分、引用部分。进而,还从正本部分去除所有的换行及空白部分,来准备字符串的匹配。
3)通过字符串匹配来搜索正文部分的各引用标志内的开头和末尾的语句是以引用等级0出现的最初的电子邮件文本301。
4)若3)中所匹配的字符串是语句的一部分,则用过去的电子邮件文本301中包含的原来的完整语句来替换已整形文本201的不完整的语句。进而,使用<c>标志来包围已整形文本201中不包含的部分,即从过去的电子邮件文本301补全的部分,从而可以进行区分。
5)对于正文部分的所有引用标志,重复3)~4)的处理。
6)从标题部分删除In-Reply-To字段和References字段。
以上,通过1)~5)的顺序所生成的不完整部分已检测文本300如下那样。
·概括原来的电子邮件文本100的标题部分后,放入由<header>标志包围的部分中。
·概括原来的电子邮件文本100的签名部分后,放入<signature>标志包围的部分中。
·在由<body>标志包围的部分中放入原来的电子邮件文本100的正文部分。
·正文部分的每个段落由引用标志来包围,并根据引用标志了解引用的深度。而且,·正文部分的语句是不存在所有由引用引起的字符串的欠缺的完整的语句,在原来的电子邮件文本100中包含的引用语句是不完整的语句的情况下,仅将根据过去所发送接收的邮件补全的部分用<c>标志包围,来进行区分。
语音合成部104从开头一个语句一个语句地处理这样生成的不完整部分已检测文本300,合成合成音后输出。这时,若各语句中存在由<c>标志包围的部分,则以可判别其为哪个部分的形式来进行输出。
在语音合成部104的内部进行如下这样的处理。
首先,如图4所示,通过语言处理部1700对不完整部分检测部所生成的不完整部分已检测文本300进行处理,生成音素记载文本1800。该音素记载文本1800将不完整部分已检测文本300的汉字假名混合语句转换为音素记载,可通过还包含作为语言分析的结果所获得的语调信息和语法信息,来使合成音的质量提高,但是图4中,为了简化,仅表示了音素记载。
接着,如图5所示,韵律生成部1704根据所生成的音素记载文本1800,计算各音素的持续时间、时间的中心位置上的基本频率和功率值,并将带韵律的音素记载文本1900输出到单元选择部1701。与图4相同,图5中也为了简化,而在音素记载文本1800和带韵律的音素记载文本1900的说明图中省略了作为语言分析的结果所获得的语法信息等,但是实际上通过包含这种数据,可以以更高的精度进行单元选择部1701的语音单元选择处理,所以优选。
接着,如图6所示,单元选择部1701根据从韵律生成部1704中取得的带韵律的音素记载文本1900的信息,从语音单元DB1702中取得最佳的语音单元数据。作为典型的结构,语音单元DB1702将以一个音素单位来分割的语音波形数据作为各语音单元来进行存储,并在这些语音单元上添加预先分析出的持续时间、基本频率、功率值和该语音单元的录音时所用的文章中的语法信息等,单元选择部1701以这些信息为基础,选择与语言处理部1700和韵律生成部1704的输出内容最接近的语音单元。
单元结合部1703依次接收从单元选择部1701输出的语音单元,并通过对各语音单元的持续时间、基本频率和功率值进行变形,来进行对预先计算出的韵律的配合,进一步进行变形,使得各语音单元与前后的语音单元平滑地连接,从而作为语音合成部104的处理结果输出到不完整部分模糊化部105中。
图7是用于说明语音合成部104由不完整部分已检测文本300生成的合成音记录串400的例子的图。
语音合成部104在去除所有标志的基础上,对不完整部分已检测文本300的各语句进行语音合成,并用<c>标志的位置来分割所生成的合成音数据,而作为记录401的列表输出。记录401分别为结构体的形式,包括表示引用等级的int值(引用等级)、表示该记录的语音数据是否是与由<c>标志包围的字符串相当的部分的bool值(补全部分)、表示该记录中包含的合成音数据长度的int值(语音数据长度)和该记录中包含的合成音数据主体即int值(语音数据)的排列。在这些记录401的列表的开头存在记录头402,该记录头402具有表示后续语句由几个记录构成的int值(语句内记录数)。
这里,语音合成部104也可对标题部分、正文部分、签名部分分别以不同的音质来进行语音合成处理。
另外,语音合成部104也可根据正文部分的各语句的引用等级来使合成音的音质变化。例如,通过使引用等级为偶数的语句用音质A来进行语音合成,使引用等级为奇数的语句用音质B来进行语音合成,可以容易了解各个语句是谁的发言。另外,在通过不完整部分检测部103来检索作为引用源的过去的电子邮件文本301时,将表示发件人的From字段的内容嵌入到引用标志中,并通过嵌入引用标志的发件人使合成音的音质变化,从而可以进行更加容易了解的朗读。
接着,不完整部分模糊化部105接收如上这样构成的合成音记录串400,来进行如下的处理。
1)读取记录头402,来得到语句内记录数。
2)仅对1)中取得的语句内记录数的部分重复以下的3)~6)。
3)读入一个记录。若该记录不是通过不完整部分检测部103补全的部分,则原样输出该记录的语音数据后再次返回3)。另一方面,若是补全后的部分,则进入到4)。
4)若该记录是语句内的最初的记录,则在语音数据的长度比2秒长的情况下,将语音数据仅缩短为末尾的2秒。进而,对所缩短的语音数据的音量进行变形,使始端为0%的淡入,末端为100%的淡入。另一方面,在该记录为记录内的最后的记录的情况下,将语音数据缩短为开头的2秒,同样,对所缩短的语音数据的音量进行变形,使始端为100%的淡出、末端为0%的淡出。
5)输出变形后的语音数据,而进入到3)。
以上,以1)~5)的顺序由不完整部分模糊化部105输出的语音数据具有如下的特征。
·已整形文本201中包含的文章无不充分地被语音化后包含在其中。
·利用通过不完整部分检测部103向已整形文本201追加的部分,使已整形文本201中的不完整文本的开头的欠缺部分与最大2秒期间的淡入一起开始再现,在末尾的欠缺部分中经过最大2秒期间的淡出来进入到下面的文章的再现。
如上所述,根据本实施方式1的语音合成装置10,由引用结构分析部101来分析电子邮件文本100的结构,并以其结果为基础由电子邮件文本整形部102生成适合于朗读的已整形文本201,进而,由不完整部分检测部103进行不完整部分的检测和不完整部分的补全处理。结果,由于可以通过语音合成部104对补全后的原来的完整语句进行语音合成处理,所以可以避免因不自然的韵律使作为听取者的用户混乱。另外,通过由不完整部分模糊化部105对补全后的部分的语音实施淡入·淡出处理,可以无不充分地进行实际上在电子邮件文本100上被引用的部分的朗读,并且在听觉上向用户提示引用时有删除的部分。
另外,合成音记录串400至少完全包含没有用<c>标志包围的部分的语音,若存在用<c>标志包围的部分的语音,如果包含该合成音记录串400内的位置清楚的不完整部分指针信息,则可进行与其相同的处理。
另外,不完整部分检测部103可以进一步进行高级的语言分析,在可以检测出位于引用语句的开头或末尾的词素和短语不完整的情况下,也可以补全将不完整的词素和短语变为完整的部分的文字来进行语音合成,通过淡入、淡出等手段来使该词素和短语部分的语音模糊化。
另外,为单独发挥本发明的最大的特征,即与文本的不完整部分相对应地输出在听觉上降低了清晰度的合成音,也可不进行不完整的词素和短语的补全,而仅使不完整的词素和短语部分的语音模糊。这时,不完整部分检测部103也可例如在引用部分的开头的语句中进行了right-to-left的词素分析后,将在语句开头出现的未知语作为不完整部分,在引用部分的末尾的语句中进行了left-to-right的词素分析后,将在语句末尾出现的未知语作为不完整部分。
图8表示不完整部分检测部103不进行已整形文本201的补全,而以短语单位仅进行不完整部分的检测的情况下得到的结果的一例。图8所示的不完整部分已检测文本300a与不完整部分已检测文本300(参考图3)对比,具有如下的特征。
·不补全语句的开头和末尾中的不完整部分。
·将在语句的开头和末尾本来存在且判断为没有构成完整短语的部分用<c>标志包围来进行区分。
不进行补全而检测出不完整部分的结构尤其适用于不能容易取得用于补全不完整部分的文本的情况(当然包括在引用源的邮件没有存储在邮件箱107中的情况,还有例如朗读从网页、电子书籍、电子节目信息等邮件之外的各种引用源切取的文本的情况)。
另外,之前的说明中作为一个例子使用了在邮件的引用部分的开头和末尾产生文本的不完整部分的情况,但是可以想到在朗读由使用者指定的文本的一部分的情况下,也产生文本的不完整部分。
为了应对这种情况,优选在语音合成装置10上还设置有接收文本的一部分的指定的部分指定接收部(未图示),所述不完整部分检测部103在所述被指定的部分的开头和末端中的至少一个中检测出不完整部分。该部分指定接收部使用在信息终端装置中最一般来说所具有的光标键和输入笔来实现,所指定的部分也可如以往广泛进行的那样,通过翻转、闪烁等来进行显示。
另外,不完整部分模糊化部105也可代替补全后的部分的语音,而使用暗示后续的语音从原来的文章的中间开始或先前的语音在文章的中间终止的效果音。例如,通过将与语句的开头的与不完整部分对应的语音替换为收音机的调谐音(“吱呦”音),将与语句的末端的不完整部分对应的语音替换为白噪音(“喳”音),来生成“(吱呦)は、10部ずつコピ一を用意して(喳)”这样的音。
另外,不完整部分模糊化部105也可以如在TV和收音机的采访语音等中在从中间引用语音是经常进行的那样,输出使模糊化后的不完整部分与前行语句、后续语句重叠进行再现的语音。以下例举出图9所示的将合成音记录串400提供给不完整模糊化部105的情况,参考图10说明不完整部分模糊化部105中的处理。
1)使用不完整部分模糊化部105所具有的减弱部601,使作为补全部分的“資料”的合成音600b的音量降低为原来的音量的10%。
2)同样使用减弱部601,对后接于补全部分的“は、10部ずつコピ一を用意して”的合成音600c的开头部分施加在1秒内从原来的音量的10%变化到原来的音量的100%的淡入处理。
3)使用不完整部分模糊化部105所具有的混合部602,将作为补全部分的“資料”的合成音600b叠加到作为在先语句的“第三チ一ムの斎藤です”的合成音600a的末端,接着进行使“は、10部ずつコピ一を用意して”的合成音600c流过的混合处理和连结处理,而生成输出语音603。在本图中,表示了合成音600a的处理结果包含在输出语音603的a的区间上,合成音600b的处理结果包含在与a的区间重叠的b的区间上,合成音600c的处理结果包含在后续于a和b的c的区间上的情况。
通过使用如上这种方法,可以实现用户已经在TV和收音机的采访语音等中熟悉的方法下的引用语句的朗读。
另外,不完整部分模糊化部105不仅操作所输入的语音的音量,还可以以适当的比例来混合噪音。例如,在上面所举的处理的例子中,预先准备规定的音量的白噪音数据,将其对合成音600b进行原来的音量的90%的混合,对合成音600c的开头一秒部分进行从原来的音量的90%减小到0%的混合。通过这种处理,可以生成下述语音,即,在合成音600a的末尾合成音600b开始与小音量且大比例的噪音一起混合,在合成音600a部分的再现终止的同时,后续的合成音600c的音渐渐变大,被混合的噪音的比例也渐渐减小。
另外,不完整部分模糊化部105也可删除所检测出的不完整部分的语音。通过删除不完整部分,不向用户传送从引用源的语句进行了不完整的引用的情况,但由于用户只能够听到引用语句中语言上完整的部分,所以容易理解。
另外,也可以在删除不完整部分的情况下,通过不完整部分检测部103来删除不完整部分的文字后,使语音合成部104生成合成音。这样,由于与在生成原来的完整的语句的语音之后删除一部分的情况不同,而是将已预先删除一部分的语句作为完整的语句来生成语音,所以可以想到是不同的韵律。但是,由于将语音合成部104的输出结果在扬声器装置106上原样再现就可以,所以不需要不完整部分模糊化部105,具有可以使语音合成装置的结构简单化的优点。
另外,也可在进行不完整部分的补全而变为完整的语句之后,完全不进行不完整部分的模糊化处理。这时,虽然用户听的语音变冗长,但具有保证用户所听的文章总是为没有欠缺的完整部分的优点。
(实施方式2)接着说明本发明的实施方式2所涉及的语音合成装置。
本实施方式2所涉及的语音合成装置是与所述实施方式1所涉及的语音合成装置10中的语音合成部104和不完整部分模糊化部105有关的变形例。
图11是表示本实施方式2所涉及的语音合成装置的功能性结构的框图。另外,使用同一符号来表示与实施方式1相同的结构,而省略其说明。
语音合成装置20中的语音合成部104a具有不是语音波形数据而是以声响特征参数串的形式存储语音单元的语音单元参数数据库(DB)702、单元选择部1701选择在该语音单元参数DB702中存储的语音单元,单元结合部1703与所述实施方式1的不同点在于不是以语音数据的形式而是以语音特征参数的形式来进行合成音的输出。
另外,为了将该输出转换为语音的形式,本实施方式2所涉及的语音合成装置20具有根据语音特征参数生成语音波形的波形生成部700。波形生成部700的结构根据本装置所采用的语音特征参数设置而不同,例如,可使用基于ARX语音分析模式的方法(参考“大塚、粕谷‘考虑了声源脉冲串的强健的ARX语音分析法’日本声响学会杂志,vol.58,no.7,386-397(2002)”)。这时,语音单元参数DB702内的各语音单元的声响特征参数为ARX语音分析模式的声源·声道参数。
根据该实施方式2所涉及的语音合成装置20,在不完整部分模糊化部105中可以对语音特征参数值而不是对语音波形数据施加变更,所以实现了可以更弹性地进行降低听觉上的清晰度的处理的效果。例如,在语音合成部104a输出的语音特征参数中存在表示语音的共振峰强度的参数的情况下,通过减小共振峰强度可以变形为音韵性不清晰的、含糊的音色。另外,这里,在可以使用更高级的音质转换技术的情况下,也可转换为小声说话音,嘶哑音等。
(实施方式3)接着,说明本发明的实施方式3所涉及的语音合成装置。
本实施方式3所涉及的语音合成装置与所述实施方式1的不同点在于,在本实施方式3中,通过将语音的音质从通常的说话方式变为小声说话音来进行不完整部分的模糊化。
另外,本实施方式3所涉及的语音合成装置与所述实施方式2的不同点在于,在所述实施方式2中,通过对语音合成部104a所输出的声响特征参数串进行变形来进行将语音变为小声说话音等模糊化处理,但是在本实施方式3中,语音合成部具有多个语音单元数据库(DB),通过切换使用这些来区分使用通常说话方式的声音和小声说话音。
图12是表示本实施方式3所涉及的语音合成装置的功能性结构的框图。另外,使用同一符号表示与所述实施方式1和2相同的结构,并省略其说明。
首先,电子邮件文本100、邮件箱107的任务、以及引用结构分析部101、电子邮件文本整形部102、不完整部分检测部103的动作与所述实施方式1相同。
语音合成部104b接收不完整部分检测部103的处理结果,来生成合成音之后,再现输出到扬声器装置106上。在该结构中,不完整部分模糊化部105作用为语音合成部105的一部分进行工作的方面与所述实施方式1不同。
这里,使用图13,来说明本实施方式3的语音合成部104b中的单元选择部1701、不完整部分模糊化部105等的处理。
单元选择部1701以从韵律生成部1704输出的带韵律的音素记载文本1900的信息为基础,从语音单元DB1702a或语音单元DB1702b中取得最佳的语音单元数据。语音单元DB1702a存储通常音质的语音单元,语音单元DB1702b存储小声说话音的语音单元。这样,存储语音单元的数据库至少要准备两种,单元选择部1701通过不完整部分模糊化部105从这多个语音单元DB1702a和1702c中取得最佳的语音单元数据。
如果要选择的音素包含在不完整部分时,不完整部分模糊化部105从小声说话音的语音单元DB1702b中读出与单元选择部1701的请求相当的语音单元数据,在除此之外的情况下,从通常音质的语音单元DB1702a中读出与单元选择部1701的请求相当的语音单元数据,传到单元选择部1701中。
另外,不完整部分模糊化部105也可不仅从某个语音单元DB1702a和1702b中一个一个地选出语音单元,还可以从多个语音单元DB1702a和1702b中一个一个地选出最佳的语音单元数据,来进行混合,由此生成具有所选择出的语音单元的中间音质的新的语音单元数据。
进而,在所述实施方式1中,为了控制音量来进行淡入、淡出处理,也可通过控制混合的比率来使语音的清晰度连续变化。
另外,也可不仅单纯混合语音单元数据,而通过使用称作语音构建(モ一フイング)的方法来进一步得到良好的结果。另外,使用语音构建的方法的语音的音质控制方法例如公开在日本特开平9-50295号公报和“阿部,‘基于基本频率和频谱的渐变的语音构建’,日本声响学会平成7年秋季研究发布会演讲论文集I,213-214(1995)”中。
在通过以上的方法进行了语音单元的选择后,通过与所述实施方式1相同地,由扬声器装置106再现输出所生成的语音数据,可以实现通过将音质改变为小声说话音来进行不完整部分的模糊化的语音合成装置。
(实施方式4)进而,参考图14~图17来说明本发明的实施方式4所涉及的语音合成装置。
在所述实施方式1-3中,说明了将电子邮件的通信内容的文本作为文本信息进行处理的情况,在本实施方式4中,说明将聊天的通信内容的消息作为文本信息进行处理的情况下的语音合成装置。
图14是表示本实施方式4所涉及的语音合成装置的功能性结构的框图。另外,与实施方式1~3相同的结构使用同一符号并省略说明。
如图14所示,本实施方式4所涉及的语音合成装置40中,代替电子邮件文本100,将聊天的消息文本900作为朗读的对象。聊天消息文本900一般为比电子邮件文本简单的形式。
例如,如图15所示,作为聊天消息文本900,考虑其结构为接着接收时间和消息的发信人姓名,用纯文本写入消息的内容。
并且,将所接收、发送的聊天消息文本900存储在消息日志903中,且可从不完整部分检测部103进行参考。
引用结构分析部101使用与所述的实施方式1类似的方法来分析聊天消息文本900的引用结构。使用图16来说明引用结构分析部101的处理动作。引用结构分析部101的处理动作例如也可如下这样。
1)从聊天消息的开头读出字符串,得到用[](角括号)包围的接收时间和发信人姓名,用<time>标志包围接收时间,用<sender>标志包围发信人姓名来截断。
2)数出位于当前行的开头的引用符号的数目,并用引用符号的数目的标志来进行置换。例如,在引用符号有1个的情况下,代替引用符号,赋予<1>,在有2个的情况下,代替引用符号,赋予<2>,在没有引用符号的情况下(不是引用部分),代替引用符号,赋予<0>。其中,在该时刻还不封闭标志。下面,将该引用符号的数目的标志描述为“引用标志”,将引用符号的数目描述为引用等级。
3)若当前的行是聊天消息文本900的最后的行,则封闭引用标志来终止。例如,若当前的行不是引用部分,在行末追加</0>来终止该算法。
4)继续读取下一行。
5)在前一行和当前的行的引用符号的数目不同,或当前的行是空行,或当前的行是“(中略)”和“”等表示原来的语句的省略的字符串,或当前的行和前一行的缩进量的数目不同的情况下,进入到7)。
6)删除行开头的引用符号,进入到3)。
7)用引用标志来封闭前一行,进入到2)。
以上,通过1)~7)的顺序所生成的引用结构已分析文本1100如下所述。
·消息文本开头存在用<time>标志包围的接收时间信息和用<sender>标志包围的发信人姓名,其后存在原来的聊天消息文本900的正文部分。
·正文部分的每个段落用引用标志来包围。另外,根据引用标志,可了解引用的深度。
进而,消息文本整形部902处理引用结构已分析文本1100,来生成已整形文本1101。消息文本整形部902如下所述来生成已整形文本1101。
1)丢掉<time>标志。另外,也可在进行接收时间的朗读的情况下进行保留。
2)对于正文部分,从各引用标志内的文章中删除换行和空白文字,从而变为一行的文本之后,用句号来断开语句。
不完整部分检测部103接收由消息文本整形部902所生成的已整形文本1101,并与在消息日志903中存储的过去的聊天消息文本的正文进行对照,搜索引用等级为1以上的各引用标志内的开头和末尾的语句最先出现的聊天消息,通过字符串匹配来判断引用语句是否完整,即,各引用语句是否相对引用源的语句没有字符串的欠缺。进而,在引用语句不完整的情况下,用原来的完整语句来进行置换之后,可识别原来的完整语句中的哪个部分包含在引用语句中。
在本实施方式4所涉及的语音合成装置40中,不完整部分检测部103所进行的处理是简化了所述实施方式1中记载的处理之后的处理。本实施方式4中的与所述实施方式1记载的处理的不同点在下面列举。
·在本实施方式4中,由于在消息日志903中存储的过去的聊天消息文本为简单的列表结构,所以不需要在所述实施方式1中进行的线程结构的分析。对于从最新的消息回溯10个左右的聊天消息文本,对于正文部分的引用部分之外的文本通过字符串匹配来检索引用源的语句就可以了。
·在聊天消息的朗读中,由于各消息的内容比电子邮件短且消息的交换频繁,所以“○○さんより、××というメ一ルです”的通知消息冗长。作为替代,通过对每个发送者改变合成音的音色来表现各消息来自谁的消息。这可以通过例如预先将语音合成用的单元数据库做成多个音色使用,从而每个说话者使用不同的单元数据库来实现。进而,为了使引用部分的音色也用原来的发信人的音色来进行朗读,在<c>标志中设置“sender=发信人”的属性,从而写入原来的不完整部分检测部从消息日志903发现的引用语句的原来的聊天消息文本的发信人姓名就可以了。
语音合成部104如上所述从开头起一个语句一个语句地处理所生成的不完整部分已检测文本1200,来生成合成音,输出到不完整部分模糊化部105中。合成音的音色使用对消息的发信人唯一分配的音色,在<c>标志中存在sender属性的情况下,使用该发送者的音色。在没有sender属性的情况下,即,没有找到引用源的情况下,除当前要朗读的消息的发信人之外,使用最后发送消息的发信人的音色就可以了。
图17中,由于当前要朗读的消息的发信人是suzuki,除suzuki之外所发送的消息中最新的消息是saito的消息,所以在不完整部分已检测文本1200的<c>标志中没有sender属性,则由<c>标志包围的部分的合成音使用分配给saito的音色。
由于不完整部分模糊化部105进行与所述实施方式1相同的处理就可以了,所以省略说明。
通过使用以上的方法,可以实现下述语音合成装置,该语音合成装置可以进行对用户来说容易收听、且不会妨碍会话的交流的聊天消息文本的朗读。
(实施方式5)接着,说明本发明的实施方式5所涉及的语音合成装置。
所述实施方式1~3中,说明了将电子邮件文本作为文本信息进行处理的情况,在所述实施方式4中,说明了将聊天消息作为文本信息进行处理的情况,在本实施方式5中,说明将网络信息的通信内容即投稿消息作为文本信息进行处理的情况下的语音合成装置。
本实施方式5所涉及的语音合成装置与所述实施方式1进行大致相同的处理,但是如图18所示,本实施方式5所涉及的语音合成装置50和所述实施方式1的结构上的不同点为以下几点所输入的电子邮件文本100变成新闻文本1300;电子邮件文本整形部102变为新闻文本整形部1301;邮件箱107变为已读新闻日志1302;并且,不完整部分检测部103除了已读新闻日志1302之外,还从可通过新闻客户机1303和网络1304连接的新闻服务器1305访问所有新闻日志1306,来进行不完整部分的检测。下面,说明本实施方式5所涉及的语音合成装置50的与实施方式1的动作上的差异。
新闻文本1300与电子邮件文本100相同,具有From字段、Subject字段、In-Reply-To字段、References字段等,包括通过“--”(2个半角负号)的行与正文区分的标题部分和与其接续的正文部分。引用结构分析部101和新闻文本整形部1301进行与所述实施方式1中的引用结构分析部101和电子邮件文本整形部102相同的处理即可。
不完整部分检测部103从已读新闻日志1302中取得与新闻文本1300相同的线程的过去的新闻文本,通过与所述实施方式1相同的处理来搜索引用语句的引用源的语句。但是,在新闻文本1300的标题部分的References字段中出现的新闻文本没有存在于已读新闻日志1302内的情况下,也可利用新闻客户机1303,从通过网络1304连接的新闻服务器1305所具有的所有新闻日志1306中取得该新闻文本。新闻文本的取得通过与现有的新闻客户机的动作相同的顺序来进行。
语音合成部104和不完整部分模糊化部105的动作与所述的实施方式1相同。
通过以上的处理,在网络新闻文本的朗读时也可得到与所述的实施方式1相同的效果。
(实施方式6)接着,说明本发明的实施方式6的语音合成装置。
在本实施方式6中,说明将向网络上的公告板的投稿消息作为文本信息进行处理的情况下的语音合成装置。
图19是表示本实施方式6所涉及的语音合成装置的功能性结构的框图。
与所述的实施方式1~5的情况不同,公告板消息文本不具有各个消息被分割的独立的结构。因此,在本实施方式6所涉及的语音合成装置60中,需要每次从存储有公告板消息文本的公告板消息日志1401中提取作为朗读对象的公告板消息文本1400及不完整部分检测部103参考用的过去的各公告板消息文本。公告板消息文本提取部1402进行该提取处理。下面,使用图20来说明公告板消息文本提取部1402的提取处理的动作。
如图20的例子所示,公告板消息日志1401为了可以在WWW浏览器上浏览,用HTML(Hyper Text Markup Language超文本链接标示语言)来描述,而形成如下的形式。
·整体用<html>标志包围,标题部分用<head>标志包围,正文部分用<body>标志包围。
·在标题部分内的<title>标志所包围的部分中写入公告板的题目。
·正文部分内有<ul>标志,各个投稿用<li>标志来列举。
·各个投稿在第一行内以固定格式写入纪事的连载、投稿者姓名、投稿时间,在通过<br>标志换行后,在其余的部分描述了该投稿的正文。
公告板消息文本提取部1402对这种形式的HTML文件如下所述进行处理。
1)截出用<body>标志包围中的还用<ul>标志包围中的文本。
2)将在1)截出的范围的文本在<li>标志的位置上分割为各个投稿。
将这样分割后的各个投稿的文本作为已分割公告板消息文本1500。在朗读该公告板的最新消息时,例如如下这样就可以了。
1)公告板消息文本提取部1402从已分割公告板消息文本1500中提取最新的消息来作为朗读对象的公告板消息文本1400,并传到引用结构分析部101。
2)引用结构分析部101用与所述实施方式1相同的方法来处理公告板消息文本1400的由<body>标志包围的部分,从而赋予引用标志。
3)公告板消息文本整形部1403如图21所示,生成从作为2)中所处理的结果而生成的引用结构已分析文本1600的第一行中读取纪事的连载和投稿者姓名的文章,并用<header>标志来包围,将第二行之后用<body>标志来包围后设作已整形文本1601。
4)不完整部分检测部103用与所述实施方式1相同的方法从已分割公告板消息文本1500中的朗读对象的公告板消息文本1400之前的文本中检索已整形文本1601中包含的引用语句,来进行对欠缺的字符串的补全。
5)语音合成部104和不完整部分模糊化部105进行与所述实施方式1相同的处理,来进行合成音的生成和再现。
通过以上的处理,在以HTML形式写入的WWW上的公告板的朗读时也可得到与所述实施方式1相同的效果。
以上,根据各实施方式说明了本发明所涉及的语音合成装置。
这样,本发明所涉及的语音合成装置的特征在于,除了以文本的输入为基础来生成合成语音数据的语音合成部之外,包括不完整部分检测部,可检测出文章的不完整部分;和不完整部分模糊化部,在所述语音合成部所生成的语音数据中,使与所述不完整部分检测部所检测出的不完整部分相对应的部分的听觉的清晰度降低。
即,首先,所述不完整部分检测部分析作为语音合成基础的输入文本中的语言上的不完整部分,并将该分析结果送到所述语音合成部。这时,不完整部分检测部若还发送语法分析结果,则所述语音合成部最好即便不再次进行结构分析也可以进行合成音的生成。语音合成部基于所述输入文本的语言的分析结果,来生成合成音,若在存在不完整部分的情况下,还输出表示所生成的合成音的哪个部分与所述不完整部分对应的不完整部分指针信息,并送到所述不完整部分模糊化部。不完整部分模糊化部进行使合成音中的所述不完整部分指针信息所表示的部分的听觉上的清晰度降低的处理,并作为所述输入文本的朗读语音数据进行输出。
由此,由于如通常那样来朗读语言上有含义的部分,并且使没有含义的部分的语音的听觉上的清晰度降低,所以可以防止产生用户的混乱。
这里,所述语音合成部也可输出生成合成音所需的充分的语音特征参数,而不是合成音本身。所谓这种语音特征参数是指例如源过滤器型语音生成模式中的模式参数,LPC倒频谱系数和声源模式参数。这样,通过可以对生成合成音数据之前的语音特征参数而不是合成音数据进行所述不完整部分模糊化部的调整,可以更弹性地进行不完整部分的模糊化处理。
另外,在所述不完整部分检测部的语言分析处理的内容包含所述语音合成部生成合成音所需的语言分析处理的内容的情况下,所述语音合成部也可不输入所述输入文本和所述不完整部分检测部的语言分析结果,而仅输入所述不完整部分检测部分析所述输入文本的结果所得到的语言分析结果。
另外,在所述不完整部分检测部不向所述语音合成部传送语言分析结果的情况下,所述语音合成部可以通过将所述不完整部分的检测结果嵌入到所述输入文本中来传给语音合成部。例如,通过将输入文本内的不完整部分全部用标志来包围并传给语音合成部,语音合成部可以从不完整部分检测部得到输入文本的信息和不完整部分的检测结果这两者。由此,语音合成部没有必要取得分别提供的两种输入的同步。
另外,所述不完整部分模糊化部通过施加在不完整部分的语音上叠加噪音或减小不完整部分的语音的音量这样的音响效果,来使不完整部分的语音的清晰度降低。由此,可以向用户明示在朗读对象的文本内存在由于语言上不完整而不能进行准确的朗读的不完整部分。
另外,所述不完整部分模糊化部也可使语音的模糊化的程度按时间序列变化。对于行开头的不完整部分,使模糊化的程度按时间序列减小,在语音的开头模糊化的程度最大,在不完整部分的末端模糊化的程度最小。对于行末的不完整部分,相反地使模糊化程度按时间序列增加。由此,可以使用户听到更自然的合成音。
另外,进行语音的模糊化的也可不仅仅是不完整部分,也可设置某个时间常数,使语音仅在该时间常数期间模糊化,也可包含不完整部分,进行使语音至少在该时间常数期间模糊化的处理。在按时间序列来使模糊化的程度变化的情况下,即使在不完整部分的长度短的情况下,通过进行这种处理,可以使模糊化的程度的变化不过于急剧,从而可以进一步提高听感上的自然性。
另外,在朗读对象的文本为邮件语句的情况下,准备有分析邮件语句的引用结构而以语句单位来划分所引用的文本的引用结构分析部,还准备有存储过去所发送接收的邮件语句的邮件箱、和可以访问邮件箱而从过去的邮件语句中检索包含某个不完整语句的原来的完整的语句的完整语句检索部,由此,可以暂时用原来的完整的语句来替换不完整的语句,来准确进行语言分析,从而以本来的正确韵律进行朗读。
这里,所述语音合成部也可对所有所述完整语句检测部所发现的原来的完整的语句进行语音合成并进行输出,也可从原来的完整语句的语音合成结果中仅输出所引用的文本的部分。另外,也可预先设置规定的时间常数,使得接受所引用的语句的模糊化处理的部分最大为该时间常数的长度,来从原来的完整的语句的语音合成结果中截出并进行输出。
另外,在朗读的对象是某文本的一部分,且取得包含朗读对象的文本的完整的文本的情况下,通过准备用于取得原来的完整的文本的完整文本取得部,可以得到相同的效果。
另外,本发明并不限于这些实施方式,当然可以在不脱离其范围内根据本发明的构思来进行各种变形或修正。
工业实用性本发明可以适用于使用语音合成技术来朗读电子邮件等文本数据的文本朗读应用程序等和具有这种应用程序的个人计算机等,尤其有利于作为朗读的对象的文章中出现不完整语句的可能性高的文本数据的朗读。
权利要求书(按照条约第19条的修改)按照专利合作条约第19条(1)提出的修改声明权利要求1(原权利要求1)中利用修改前的权利要求11的内容进行了缩减。
权利要求3(原权利要求3)中明确了使音响效果的程度随时间变化是使听觉上清晰度降低的方法。
权利要求4(原权利要求12)中对所从属的权项做了形式上的调整。
权利要求7(原权利要求15)中利用修改前的权利要求1及11的内容进行了缩减。
权利要求8(原权利要求16)中利用修改前的权利要求1及11的内容进行了缩减。
1、一种语音合成装置,生成与所输入的文本信息相对应的合成音,其特征在于,包括不完整部分检测单元,检测出所述文本信息中由字符串的欠缺引起的语言上不完整的部分即不完整部分;不完整部分模糊化单元,使与由所述不完整部分检测单元检测出的不完整部分相对应的合成音的听觉上的清晰度降低;补全单元,补全所述被检测出的不完整部分中欠缺的字符串;语音合成单元,基于由所述补全单元补全后的文本信息,来生成合成音。
2、根据权利要求1所述的语音合成装置,其特征在于,所述不完整部分模糊化单元通过对所述合成音施加(1)降低所述合成音的音量、(2)在所述合成音上覆盖规定的效果音、(3)改变所述合成音的音质中的至少一个音响效果,来使所述合成音的听觉上的清晰度降低。
3、根据权利要求1所述的语音合成装置,其特征在于,作为使所述听觉上的清晰度降低的方法,所述不完整部分模糊化单元使对所述合成音施加的音响效果的程度随时间变化。
4、根据权利要求1所述的语音合成装置,其特征在于,所述文本信息是通信内容,所述语音合成装置还具有日志存储单元,该日志存储单元具有用于存储过去的通信内容的存储区域;所述不完整部分检测单元对比所述文本信息和在所述日志存储单元中存储的过去的通信内容,来检测出所述文本信息的不完整部分;所述补全单元基于所述不完整部分检测单元的检测结果,使用在所述日志存储单元中存储的过去的通信内容来补全所述被检测出的不完整部分中欠缺的字符串。
5、根据权利要求4所述的语音合成装置,其特征在于,所述不完整部分检测单元还对所述文本信息中包含欠缺的字符串的规定的语言单位的语言结构进行分析,仅将该欠缺的字符串、或包含该欠缺的字符串的规定的语言单位作为所述不完整部分进行检测。
6、根据权利要求4所述的语音合成装置,其特征在于,所述通信内容是电子邮件文本、聊天消息文本、网络新闻投稿消息文本和公告板投稿消息文本的其中之一。
7、一种语音合成方法,生成与所输入的文本信息相对应的合成音,其特征在于,包括不完整部分检测步骤,检测出所述文本信息中由字符串的欠缺引起的语言上不完整的部分即不完整部分;不完整部分模糊化步骤,使与在所述不完整部分检测步骤中检测出的不完整部分相对应的合成音的听觉上的清晰度降低;补全步骤,补全所述被检测出的不完整部分中欠缺的字符串;语音合成步骤,基于在所述补全步骤中补全后的文本信息来生成合成音。
8、一种程序,用于生成与所输入的文本信息相对应的合成音的语音合成装置中,其特征在于,使计算机执行下述步骤不完整部分检测步骤,检测出所述文本信息中,由字符串的欠缺引起的语言上不完整的部分即不完整部分;不完整部分模糊化步骤,使与在所述不完整部分检测步骤中检测出的不完整部分相对应的合成音的听觉上的清晰度降低;补全步骤,补全所述被检测出的不完整部分中欠缺的字符串;语音合成步骤,基于在所述补全步骤中补全后的文本信息来生成合成音。
权利要求
1.一种语音合成装置,生成与所输入的文本信息相对应的合成音,其特征在于,包括不完整部分检测单元,检测出所述文本信息中由字符串的欠缺引起的语言上不完整的部分即不完整部分;不完整部分模糊化单元,使与由所述不完整部分检测单元检测出的不完整部分相对应的合成音的听觉上的清晰度降低。
2.根据权利要求1所述的语音合成装置,其特征在于,所述不完整部分模糊化单元通过对所述合成音施加以下音响效果中的一个,来使所述合成音的听觉上的清晰度降低,上述音响效果是指(1)降低所述合成音的音量、(2)在所述合成音上覆盖规定的效果音、(3)改变所述合成音的音质。
3.根据权利要求1所述的语音合成装置,其特征在于,所述不完整部分模糊化单元使对所述合成音施加的音响效果的程度随时间变化。
4.根据权利要求3所述的语音合成装置,其特征在于,在所述不完整部分检测单元在所述文本信息中包含的文章的开头检测出所述不完整部分时,所述不完整部分模糊化单元使在所对应的合成音上施加的音响效果的程度随时间减小。
5.根据权利要求3所述的语音合成装置,其特征在于,在所述不完整部分检测单元在所述文本信息中包含的文章的末端检测出所述不完整部分时,所述不完整部分模糊化单元使在所对应的合成音上施加的音响效果的程度随时间增大。
6.根据权利要求1所述的语音合成装置,其特征在于,所述不完整部分模糊化单元对于与所述不完整部分检测单元中检测出的不完整部分相对应的合成音中的规定时间的合成音,使听觉上的清晰度降低。
7.根据权利要求1所述的语音合成装置,其特征在于,所述不完整部分模糊化单元删除与所述不完整部分检测单元中检测出的不完整部分相对应的合成音。
8.根据权利要求1所述的语音合成装置,其特征在于,所述不完整部分检测单元分析所述文本信息,确定作为语言没有含义的不完整语言单位的部分字符串,并检测出该部分字符串来作为不完整部分。
9.根据权利要求1所述的语音合成装置,其特征在于,所述语音合成装置还具有对于所述文本信息的部分的指定进行受理的部分指定受理单元,所述不完整部分检测单元在所述被指定的部分的开头和末端的至少一个中检测不完整部分。
10.根据权利要求1所述的语音合成装置,其特征在于,所述不完整部分检测单元用标志来包围所述不完整部分,来作为所述不完整部分的识别符。
11.根据权利要求1所述的语音合成装置,其特征在于,所述语音合成装置还具有补全单元,该补全单元补全所述被检测出的不完整部分中欠缺的字符串;所述语音合成单元基于由所述补全单元补全后的文本信息,来生成合成音。
12.根据权利要求11所述的语音合成装置,其特征在于,所述文本信息是通信内容,所述语音合成装置还具有日志存储单元,该日志存储单元具有用于存储过去的通信内容的存储区域;所述不完整部分检测单元对比所述文本信息和在所述日志存储单元中存储的过去的通信内容,来检测出所述文本信息的不完整部分;所述补全单元基于所述不完整部分检测单元的检测结果,使用在所述日志存储单元中存储的过去的通信内容,来补全所述被检测出的不完整部分中欠缺的字符串。
13.根据权利要求12所述的语音合成装置,其特征在于,所述不完整部分检测单元还对所述文本信息中包含欠缺的字符串的规定的语言单位的语言结构进行分析,仅将该欠缺的字符串、或包含该欠缺的字符串的规定的语言单位作为所述不完整部分进行检测。
14.根据权利要求12所述的语音合成装置,其特征在于,所述通信内容是电子邮件文本、聊天消息文本、网络新闻投稿消息文本和公告板投稿消息文本的其中之一。
15.一种语音合成方法,生成与所输入的文本信息相对应的合成音,其特征在于,包括语音合成步骤,与所述文本信息的不完整部分相对应,生成使听觉上的清晰度降低了的合成音;输出步骤,输出所述降低了听觉上的清晰度的合成音。
16.一种程序,用于生成与所输入的文本信息相对应的合成音的语音合成装置中,其特征在于,使计算机执行下述步骤语音合成步骤,与所述文本信息的不完整部分相对应,生成使听觉上的清晰度降低了的合成音;输出步骤,输出所述降低了听觉上的清晰度的合成音。
全文摘要
提供一种语音合成装置,该语音合成装置可以防止由于朗读对象的文章不完整而引起的用户的混乱和合成音的质量劣化,可提供对用户来说容易理解的语音。包括不完整部分检测部(103),检测出所输入的电子邮件文本(100)中因字符串的欠缺而在语言上不完整的部分即不完整部分,参考存储有过去所接收的电子邮件文本的邮件箱(107),来补全所检测出的不完整部分中欠缺的字符串;语音合成部(104),根据补全后的电子邮件文本,生成合成音;不完整部分模糊化部(105),使与不完整部分检测部(103)中检测出的不完整部分相对应的合成音的听觉上的清晰度降低和扬声器装置(106),再现输出所生成的合成音。
文档编号G10L13/08GK1906660SQ200580001970
公开日2007年1月31日 申请日期2005年5月19日 优先权日2004年7月21日
发明者斋藤夏树, 釜井孝浩 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1