语音选择辅助装置、语音选择方法以及程序的制作方法_2

文档序号：9769246阅读：来源：国知局

。其中，“模式”通过与上述词素解析处理的结果同样的表现来记述，在后级的处理(步骤S304)中与输入文的词素解析结果相比较。此外，“属性”表示语音属性之中对应的属性。“权重”表示在模式已匹配的情况下在后级的处理(步骤S305)中向对应的属性相加的分数。
[0038]例如，图4的401表示，在所输入的文章的词素解析结果的一部分与“+7卞<助动词> +。〈句号 >”一致的情况下，对“朗读(-et圭卞)”属性加I。在取出了一个文本解析知识的情况下(步骤S303:是)，解析部102将取出的文本解析知识的“模式”和输入文章的词素解析结果进行比较，判断是否一致(步骤S304)。比较的结果是模式一致的情况下(步骤S304:是)，解析部102对文本解析知识的“属性”加上“权重”的值(步骤S305)。
[0039]模式不一致的情况(步骤S304:否ο)下，或者在步骤S305之后，再次回到步骤S302，解析部102从解析知识存储部103取出下个文本解析知识。这样，反复进行步骤S302?S305，当取出全部的文本解析知识而不再取出新的文本解析知识时(步骤S303:否)，解析部102前进至步骤S306，将相加后的权重标准化(步骤S306)。
[0040]关于标准化，对于图2例示的语音属性的“风格”和“形式”的各个分类，以使同一分类内的相加值的合计成为100的方式进行标准化。但是，对于同一分类内的任一属性，在值为O的情况下，都不进行标准化。
[0041 ] 例如，上述词素解析结果的例A的情况下，在步骤S304中图4的402与403—致，对语音属性的“朗读(-Ct圭卞)”和“小说”分别各加上权重I。此外，由于“朗读(-Ct圭卞)”和“小说”分别属于不同的分类(“风格”和“形式”)，因此步骤S306中的标准化的结果是，各自的值被变更为100，在步骤S307中与输入文章以及输入文章的词素解析结果一起被输出到评价部104。
[0042]另外，文本解析知识不需要一定是图4那样的形式，例如也可以考虑或然性地表现词素的N-gram(模式)与属性的对应(权重)。这样的文本解析知识能够通过利用人工等本实施方式中不包含的方法将具体的文章和恰当的属性建立对应、并将文章中包含的N-gram和属性统计性地建立关系等处理来制作。
[0043]图5表示评价部104接受来自解析部102的输入、并对语音属性存储部105中存储的语音属性进行评价的处理的流程。首先，评价部104进行Smax = O、Vmax = nul I的初始化(步骤S501 KSmax是表示综合类似度的最大值的变量。Vmax是表示综合类似度最大的发音者的变量。接下来，评价部104从语音属性存储部105将语音属性一一取出(步骤S502)。
[0044]评价部104判断语音属性的取出是否成功(步骤S503)。语音属性的取出失败的情况下(步骤S503:否)，即对于全部的语音属性结束了类似度计算的情况下，评价部104输出Vmax并结束处理(步骤S510)。另一方面，语音属性的取出成功的情况下(步骤S503:是)，评价部104计算解析部102的结果与语音属性的“风格”的值的内积即SI (步骤S504)。
[0045]接着，评价部104计算解析部102的结果与语音属性的“形式”的值的内积即S2(步骤S505)。并且，评价部104计算在语音属性的“特征”的单词列表之中的、在输入文章的词素解析结果中包含的单词的数量即S3(步骤S506)。另外，例如为了标准化也可以将单词列表向量化而求出内积。
[0046]最后，评价部104利用算式Sim = a.Sl+β.S2+ γ.S3，计算综合类似度Sim(步骤3507)。0、0、丫是能够根据怎样重视风格、形式、特征而进行调整的、预先设定的参数。并且，评价部104判断是否Sim>Smax(步骤S508)。如果Sim>Smax(步骤S508:是)，评价部104将Smax更新，使发音者姓名存储在Vmax中(步骤S509)。
[0047]例如，假设α = ι、β=ι、γ =ο.1，则成为
[0048]发音者A:Sl=0.2，S2 = 0.3，S3 = 0，Sim = 0.5
[0049]发音者B:Sl=0.4，S2 = 0.3，S3 = l，Sim = 0.8
[0050]发音者(::51=0.3，52= 0.0，53 = 0，5址=0.3
[0051]发音者0:51=0.1，52= 0.1，53 = 0，5址=0.2
[0052]发音者E:Sl=0.2，S2 = 0.3，S3 = l，Sim = 0.6
[0053]发音者卩:51=0.1，52= 0.1，53 = 0，5址=0.2，
[0054]输出Vmax =发音者B。
[0055]另外，图5的流程中，仅输出I名Sim为最大的发音者，但例如也可以按Sim的降序将N人的发音者作为候选而由评价部104输出。
[0056]候选提示部106接受评价部104的处理结果，向用户提示被评价为适合于朗读输入文章的发音者。此时，也可以不仅提示发音者姓名，还参照该发音者的语音属性而将性别、年龄层、类型等信息一并提示。
[0057]进而，候选提示部106向语音合成部107发送来自用户的输入文章和评价部104输出的发音者姓名。语音合成部107参照在语音词典存储部108中存储的语音词典之中的、与所输入的发音者姓名对应的发音者的语音词典，从而将所输入的文章用合成语音输出。这里，用发音者B的语音词典朗读用户输入的文章。另外，在所输入的文章比预先设定的文章长度长的情况下，语音合成部107也可以仅朗读所输入的文章的一部分。
[0058]确认了候选提示部106和语音合成部107的输出的用户，通过选择受理部109输入是否选择所提示的发音者。在用户选择了发音者的情况下，选择受理部109将用户选择了发音者这一情况传达给结果输出部110。结果输出部110输出所选择的发音者的信息，并且对语音合成部107指示以该发音者的语音词典朗读用户输入的文章，语音合成部107输出合成语音。
[0059]在用户没有选择候选提示部106提示的发音者的情况下，选择受理部109将没有选择该发音者这一情况传达给评价部104。评价部104对于该发音者以外的发音者的语音属性再次进行同样的评价，将成为下一候选的发音者向候选提示部106输出。重复该处理直到候选提示部106输出的发音者被选择为止。
[0060]另外，也可以如下这样进行动作，S卩:在评价部104按Sim的降序输出N人的候选的情况下，候选提示部106列举显示这些候选，选择受理部109受理用户从N人的候选中选择的候选。该情况下，也可以是，语音合成部107不是通过N人的候选的语音词典一次进行朗读，而是在候选提示部106控制显示的同时依次进行朗读，使得所提示的候选与语音的对应被知晓，或者控制语音合成部107，使得以候选提示部106接受来自用户的指示而指定的发音者的语音词典进行朗读。
[0061]以上所示的本实施方式的语音选择辅助装置I中，关于风格及形式，自动地进行所输入的文本的解析，选择具有与基于文本解析的评价结果相近的语音属性的发音者，并提示给利用者。因而，利用者根据自身的判断，不需要进行检索就能够容易地选择适合的发音者。
[0062]另外，在第一实施方式中示出了提示适合通过语音合成来朗诵用户输入的文章的发音者的例子，而作为其变形例I，也可以考虑进行控制而使得难以选择不适合朗读所输入的文书的发音者。对于这样的变形例，基于图6所示的语音属性的例子进行说明。
[0063]图6的601是使得性别=女性、年龄层=青年、类型=萌的发音者D在风格=朗读(-CfeS )的文章中不会被选择的例子。具体而言，将风格=朗读(-efes)的值设定为“一100”，对于风格=朗读(-CfeS)的文章，在评价部104的处理中使风格类似度SI成为负的值，从而难以被选择。这时，对于朗读(-CfeS)以外的风格的值，仅以朗读(-CfeS)以外的风格的值进行标准化以使合计值为100。
[0064]此外，图6的602是使得性别=男性、年龄层=青年、类型=冷酷的发音者F在包含词语“俺”的文章中难以被选择的例子。在“特征”中列举的单词列表之中，在开头附加“一”而记载了单词“俺”。
[0065]评价部104通过进行在输入文章中包含开头附加有“一”的语句的情况下使特征类似度S3的值变小或为负等的控制，能够控制为，该发音者针对包含该语句的输入文章不易被选择。
[0066]进而，也可以是，不仅使不适合的发音者不易被选择，评价部104还进行控制以使得不适合的发音者完全不会作为候选被提示。
[0067]根据该变形例I，发音者自身也能够进行控制，使得自身的语音词典在例如要求年龄限制或违反公序良俗的文章、或与形象不符合的文章的朗读中不会被使用。
[0068]此外，作为第一实施方式的其他变形例，也可以是，使得能够利用用户输入的文章和

完整全部详细技术资料下载

当前第2页1 2 3