语音选择辅助装置、语音选择方法以及程序的制作方法

文档序号：9769246阅读：375来源：国知局

语音选择辅助装置、语音选择方法以及程序的制作方法
【技术领域】
[0001]本发明的实施方式涉及语音选择辅助装置、语音选择方法以及程序。
【背景技术】
[0002]在利用语音合成时，为了选择发音者(语音词典)而需要实际听取语音，因此难以从许多候选中进行选择。在以往提供的发音者的选择中，作为选择项的发音者即使较多也就有10种左右，但近年来渐渐成为提供了 800种以上的语音词典。因此，作为选择发音者的手段，提供了指定属性(性别、年代、属性(冷酷/沙哑/萌等)而进行检索的方式。此外，存在如下技术，即，在再现环境中不存在由文本的元数据指定的发音者的语音词典的情况下，基于元数据中记述的属性(与上述的属性相同)选择代替的语音并再现选择出的语音。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献I:日本特开2013 — 72957号公报

【发明内容】

[0006]发明要解决的课题
[0007]但是，在指定属性而检索发音者的方法中，利用者难以恰当地设定与输入文本的朗读(上办fe疔)相适合的发音者的属性。此外，在语音词典大量存在的情况下，即使通过属性来检索也有可能提供许多发音者的候选而无法缩小范围。
[0008]本发明的实施方式是鉴于上述情况而做出的，目的在于提供一种利用者能够容易地选择所希望的发音者的语音选择辅助装置。
[0009]用于解决课题的手段
[0010]为了解决上述课题而达成目的，本发明的实施方式的特征在于，具备:受理部，接受文本的输入;解析知识存储部，存储在所输入的上述文本的特征分析中使用的文本解析知识;解析部，参照上述文本解析知识，对上述文本的特征进行分析;语音属性存储部，存储每个语音词典的语音属性;评价部，评价上述语音词典的上述语音属性与上述文本的特征之间的类似度；以及候选提示部，根据上述类似度，提示适合于上述文本的上述语音词典的候选。
【附图说明】
[0011 ]图1是表示实施方式的语音选择辅助装置的功能结构的框图。
[0012]图2是表示实施方式的语音属性的例子的图。
[0013]图3是表示实施方式的文本解析处理的流程的流程图。
[0014]图4是表示实施方式的文本解析知识的例子的图。
[0015]图5是表示实施方式的对发音者的类似度进行评价的处理的流程的流程图。
[0016]图6是表示实施方式的变形例的语音属性的例子的图。
[0017]图7是表示实施方式的变形例的语音选择辅助装置的功能结构的框图。
[0018]图8是表示实施方式的变形例的发音者的选择履历的例子的图。
[0019]图9是实施方式的根据选择履历对发音者的语音属性进行更新的处理的流程图。
[0020]图10是表示实施方式的语音选择辅助装置的硬件结构的框图。
【具体实施方式】
[0021 ]以下，参照附图对本发明的实施方式进行说明。
[0022](第一实施方式)
[0023]在第一实施方式中说明一种语音选择辅助装置，其能够在输入文本文书时，从多个发音者的语音词典之中提示基于合成语音的朗读中使用的语音词典的候选。图1是表示本实施方式的语音选择辅助装置I的功能结构的框图。语音选择辅助装置I具备受理部101、解析部102、评价部104、候选提示部106、选择受理部109、结果输出部110、语音合成部107、解析知识存储部103、语音属性存储部105和语音词典存储部108。另外，这些各部可以由软件实现，也可以由电子电路等硬件实现。
[0024]受理部101受理由用户进行的、成为语音合成中的朗读对象的文本的输入。解析部102—边参照在解析知识存储部103中存储的文本解析知识，一边对受理部101从用户受理的文本进行解析。关于文本解析知识的详请，在后面描述。
[0025]评价部104对语音属性存储部105中存储的表示语音合成的每个发音者的语音特征的语音属性和解析部102的解析结果进行比较，之后进行评价，选出适合于将所输入的文本通过语音合成进行朗读的发音者的候选。候选提示部106向用户提示由评价部104选出的一个至多个发音者的信息。此时，也可以利用语音合成部107，从语音词典存储部108中切换为与各发音者相对应的语音词典，将所输入的文本的整体或一部分进行语音合成。
[0026]选择受理部109受理用户从候选提示部106提示的发音者之中判断为对于朗读所输入的文本而言最恰当的发音者的选择。结果输出部110向用户提示选择受理部109受理的用户的判断结果。
[0027]接下来，利用图2说明语音属性存储部105中存储的表示语音合成的每个发音者的语音特征的语音属性。图2中示出了语音属性存储部105中存储的语音属性的例子。如图2所示，语音属性通过性别、年龄层、类型、风格(style)、形式、特征这些项目来表现。关于风格，由朗读代寸圭卞)、朗读(-CfeS )、会话(正式)、会话(直率)这些观点来表现。关于形式，由小说、教科书、邮件、会话、广播这些观点来表现。此外，关于特征，由适合于各发音者进行朗读的文章中特征性单词的列表来表现。
[0028]此外，将每个发音者的性别用M(男性)/F(女性)的记号标记，将每个发音者的年龄层用C(儿童)/Y(青年)/M(成人)/H(老人)的记号标记，将每个发音者的类型用C(冷酷)/H(沙哑)/K(可爱)/M(萌)/G(温柔)的记号标记，风格和形式用各个项目合计为100那样的数值标记。
[0029]例如，图2的201表示，是青年男性的冷酷声音，适合于比较正式的会话风格，并且适合于小说及广播的形式。此外，作为特征，可以认为比较适合于科学技术类的内容。另一方面，图2的202表示，虽然在青年男性的冷酷声音这一点上与201同样，但风格适合于直率的会话，形式适合于邮件及会话。此外，作为特征，可以认为适合于设计、时尚这样的比较休闲的内容。
[0030]这样，即使性别、年龄层、类型相同，也有风格、形式、内容的适合与否不同的情况。这样的语音属性例如可以由各个发音者自己设定以便说明自身的声音特征，如果各发音者是例如解说员或配音员等，则也可以通过后述的解析部102的处理对过去用自身的嗓音朗读过的文章组进行解析，或者根据该文章组中包含的语句的频率等将特征性语句进行列表化等，从而作为语音属性来使用。
[0031]另外，关于图2中的观点的种类及各观点的表现方法，是用于具体说明本实施方式的例子，而不是将本发明的内容限定于这些种类及表现方法。此外，图2中为了进行说明而仅记载了6人的发音者的语音属性，但在本实施方式中，设为在语音属性存储部105中实际上存储有更多的发音者的语音属性。
[0032]此外，虽然将语音属性的标签标记为“发音者姓名”，但各语音属性以及语音词典不需要一定对应于特定的人物。也可以通过将多个人物的语音进行组合，或对某个人物的语音词典加以变更，来制作不实际存在的人物的语音属性及语音词典，也可以是同一人物改变声音，从而针对一个发音者对应多个语音属性及语音词典。
[0033]接着，作为对本实施方式的动作进行说明的例子，对用户朗读「花子《混雑旮避时書店仍奥-C待Ot。(中间略)見覚免(DfeS本-CfeS。」这样的文章的情况进行说明。另外，该文章是仿照小说的一部分的例子。虽然实际上设想将小说整体输入，但这里为了说明而仅将一部分作为例子来考虑。
[0034]受理部101受理用户输入的文章，接着送至解析部102。接着，解析部102按照图3的流程，一边参照在解析知识存储部103中存储的文本解析知识，一边对所输入的文章进行解析。具体而言，如图3所示，首先，解析部102对所输入的文章进行词素解析(morphologicalanalysis)(步骤S301)。词素解析是将文章分割为单词并赋予词性的处理，能够通过公知方法实现，因此此处不作详述。以下表示词素解析的结果的例子。
[0035]“花子<人名(名)> + ?<助词>/混雑<名词> +旮<助词>/避时<动词>/書店 < 名词>+(D<助词>/奥 < 名词>+-e<助词>/待o<动词>+7t<助动词>/。<句号>(中间略)見覚免 < 名词>+仍< 助词>/fes <动词>/本< 名词<助动词>/。<句号>”
[0036]这里，“<〇〇>”表示词性，“+”表示单词的划分，表示词组的划分。此外，词性的“人名(名)”表示人名(固有名词)的姓名的名，其他表示标记所示的词性。
[0037]接下来，解析部102从解析知识存储部103中一一取出文本解析知识(步骤S302)。图4是表示文本解析知识的例子的图。文本解析知识由模式、属性、权重这3个值构成

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：铃木优;平野薰;
技术所有人：株式会社东芝;东芝解决方案株式会社;
我是此专利的发明人

上一篇：使用外国单词语法的语音识别的制作方法
上一篇：信息处理装置、信息处理方法和计算机程序的制作方法