文档读出支持设备和方法

文档序号:6377860阅读:148来源:国知局
专利名称:文档读出支持设备和方法
技术领域
在此描述的实施例一般涉及文档读出支持设备和方法。
背景技术
近年来,随着计算机资源的发展和硬件的进化,图书数字化(电子书)受到了很多关注。随着图书数字化的发展,用户可获得用来浏览数字化图书的终端或软件程序,且数字化图书内容的销售也变得很普遍。而且,很流行数字化图书创建支持服务。与纸媒相比,数字化图书仍然有不便之处。但是,通过将需要大量纸张作为媒介的书本转换为数字数据,可降低用于递送、存储和购买的努力和成本。此外,可提供诸如搜索或字典查阅的新使用方法。作为数字书才有的一种使用方法,可获得这样的服务,其使用文本语音转换(TTS)系统而读出数字书并允许用户听取该朗读声音。与该服务不同,可常规获得有声读物。但是,有声读物要求旁白录音(narration recording),且在实践中仅提供有限的书本。相反,根据数字书的读出服务,使用合成语音可读出任意文本(与其要旨无关)。因此,用户可享受听取不值得旁白录音的内容(例如,经常更新的内容),或者听取其有声读物没有被期望以朗读语音的形式来制作的内容(例如,用户拥有的任意文档)。但是,不能获得这样的技术,其保证对于与文档数据的读出有关的元数据的用户定制的便利性以及在读出文档数据时使用的系统环境的灵活性,并可防止读出再现性被损害。

发明内容
本发明的目的是提供一种文档读出支持设备和方法,其保证对于与文档数据的读出有关的元数据的用户定制的便利性以及在读出文档数据时使用的系统环境的灵活性,并可防止读出再现性被损害。根据实施例,一种文档读出支持设备具有文档获取单元、元数据获取单元、提取单元、执行环境获取单元、确定单元和用户验证单元。文档获取单元被配置为获取包括多个文本数据的文档数据。元数据获取单元被配置为获取包括多个定义的元数据,每个定义包括与定义将被施加的文本数据有关的条件以及用于与所述条件匹配的文本数据的读出方式。提取单元被配置为通过将每个定义施加到包括在文档数据中的文本数据,提取文档数据的特征。提取环境获取单元被配置为获取与其中执行文档数据的读出处理的环境有关的执行环境信息。确定单元被配置为,基于文档数据的特征和执行环境信息,通过将元数据施加到文档数据,确定执行读出处理时使用的参数候选项。用户验证单元被配置为向用户展示参数候选项,并接受包括选择或设定的验证指令。根据文档读出支持设备,可确保对于与文档数据的读出有关的元数据的用户定制的便利性以及在读出文档数据时使用的系统环境的灵活性,并可防止读出再现性被损害。


图1是示出根据实施例的示例性文档读出支持设备的框图;图2是示出设备的示例性处理的流程图;图3是示出输入文档的实例的表;图4是示出元数据的实例的表;图5是示出元数据获取单元的示例性处理的流程图;图6是示出由元数据获取单元获取的示例性转换规则的表;图7是示出输入文档特征提取单元的示例性处理的流程图;图8是示出输入文档特征提取单元的示例性处理结果的表;图9是示出输入文档特征提取单元的示例性处理结果的表;图10是示出执行环境获取单元的示例性执行结果的表;图11是示出用户设置限制获取单元的示例性提取结果的图;图12是示出用户设置限制获取单元的示例性提取结果的表;图13是示出参数确定单元的示例性处理的流程图;以及图14是示出用户验证单元的示例性展示的表。
具体实施例方式以下将参考附图详细描述根据本发明实施例的文档读出支持设备。注意在以下的实施例中,由相同的参考标号表不的部分执行相同的操作,且其重复描述将被省略。以下将更详细地描述相关技术。已提出了一些使用合成语音来读出数字书的技术。例如,作为这些技术中的一个,已知以下技术。在将被分配的书本的内容数据中,提前限定包括在该书中的角色和其对话之间的对应。然后,用户可自由指定包括在该书中的各个角色与合成语音人物之间的联系,在听取(或观看和听取)内容时(即,在合成语音朗读时)合成语音人物读出角色对话,同时多个合成语音人物的人物影像作为列表被显示。利用该技术,用户可为分配的书本中的角色分配他或她喜欢的合成语音人物的人物语音,并可听取由分配的合成语音读出的该书本。但是,当这样的内容分配和用户定制功能将被实现时,也出现了一些问题。在将被分配的内容数据中,对于每本书,角色和对话须被唯一地并很好地彼此关联。出于该原因,可被用户获得的内容和人物声音对于用户来说是从服务供应商独特分配的,或是由服务供应商所独特分配的组合。将检查这样的框架,其允许用户根据内容自由地编辑朗读方式,并根据与服务供应商无关的特定内容而自由地分配并共享与朗读方式有关的信息。即使在这样的情况下,在朗读方式信息中限定的参数和将被使用的语音人物取决于该创建者的环境。出于这个原因,为了允许想要听取特定内容的用户参考共享的方式信息来再现该内容的朗读方式,该用户必须能使用与方式信息的创建者的环境相同的环境(例如,同一组人物语音、具有同样或更多功能的话音合成引擎等)。这推动了用户必须具有任何和所有的语音人物的必要性,这是不现实的。而且,这意味着书数据的读出处理可仅被内容分配源提供的内容和推荐的环境来实施,且其与用户的前述自由读出环境相差甚远。而且,即使对于同样的用户,该用户用以回放书数据的环境和装置也通常因情况而变化,且用户不会总是使用同样的环境和装置来听取书数据。例如,与其中用户在由诸如台式PC实现的计算机资源的环境中听取来自扬声器的朗读语音的情况相比,如果他或她通过头戴式耳机或耳塞、使用诸如蜂窝电话或平板电脑的移动装置来听取朗读语音,例如,一组可获得的人物语音可被限制或就装置限制而言,限制了要求大计算量的话音合成引擎功能的使用。相反,已知用户仅在特定环境下(例如,当用户在户外使用移动装置时,应用减噪功能)想要激活的功能。但是,根据这样的用户环境差异和/或可获得的计算机资源差异,很难通过灵活地应用朗读方式信息来回放内容。另一方面,以下将检查这样的情况,其中元数据的这种共享和创建以民间(grass-roots)方式被传播给用户,且可获得广泛的变化而不考虑正式或非正式的数据。在这种情况下,用户可享有的选择方式增加,而在回放书本前他们不会认识到作为朗读语音的朗读方式或人物特征。例如,当恶意用户准备了在使用该元数据读取内容时则会引起对应于内容事项的表达不足或突然的极端音量变化的元数据时,或者当例如包括对耳朵不利的读取语音,就解释书本或语音人物的个性而言,即使没有任何危害,根据该元数据的朗读对于所有用户来说不总是优点。不能获得这样的技术,其保证对于与文档数据的读出有关的元数据的用户定制的便利性以及在读出文档数据时使用的系统环境的灵活性,并防止读出再现性被损害。以下将更详细地描述实施例。本实施例将考虑这样的情况,其中在使用合成语音朗读数字书数据时,作为读出处理的技巧的例如感情、语气(tone)、讲话者差异等被限定为元数据,且按需要参考这些元数据,以根据输入文档的内容或特征的表达多样性,实现使用合成语音的朗读。在这种情况下,当信息(元数据)共享并使用对应于内容或专门用于人物语音的朗读方式(读出方式)时,考虑到计算机资源的差异或实际可被用户获得的功能或将被读出的内容差异,允许根据本实施例的文档读出支持设备尝试回放而同时保证再现性(或者在适合用户的情况下再现性可被提高)。以下将示范一种情况作为实际实例,其中用日语读出日语文档。但是,本实施例不限于日语,且可根据除了日语外的语言通过适当的修改而被执行。图1是根据本实施例的文档读出支持设备的示意性框图。如图1所示,文档读出支持设备包括输入获取单元11、元数据获取单元12、输入文档特征提取单元13、执行环境获取单元14、用户设置限制获取单元15、参数确定单元16、用户验证单元17以及话音合成单元(话音合成器)18。图2示出了本实施例的示意性处理的实例。输入获取单元11输入输入文档1(步骤SI),且元数据获取单元12输入元数据12(步骤S2)。例如,输入文档I是数字书,其将被语音人物读出并包括多个文本数据。元数据2包括,例如,诸如合成参数、重音或朗读方式(读出方式)等的特征量及其适用条件,其根据特定内容和特定语音人物而被定制。获取的输入文档I以例如DOM格式被存储。对于获取的元数据2,例如,获取的特征量和适用条件以可被用于后续参数确定处理的格式而被存储。输入文档I可经由例如诸如因特网或内部网的网络而获得,或可从例如记录介质获得。这同样适用于元数据2。在本实施例中,输入文档I和元数据不需要由同样的创建者创建(当然,它们也可由同样的创建者创建)。输入文档I和/或元数据2可由用户自己创建。步骤SI和S2可以与图2中相反的顺序执行,或其可被同时执行。输入文档特征提取单元13基于元数据2提取输入文档I的特征(步骤S3)。执行环境获取单元14获取与系统有关的执行环境信息,该系统使用语音人物执行读出处理(步骤S4)。不特别限定执行环境信息的获取方法。用户设置限制获取单元15获取用于读出处理的用户设置限制(步骤S5)。注意步骤S4和S5可以与图2中相反的顺序执行,或可被同时执行。此外,步骤S4仅在由参数确定单元16执行下一个处理时才需要被执行,且可以不同于图2的任意时序被执行。这同样适用于步骤S5。注意也可获得其中该用户设置限制获取单元15被忽略的布置。参数确定单元16合并目前获取的处理结果,以确定在实际的读出处理中使用的参数信息(步骤S6)。用户验证单元17执行允许用户选择/设置参数信息所需的用户验证(步骤S7)。例如,当有大量可被用户选择的候选项时,对于特定参数,用户可选择希望的参数来确定参数信息。话音合成单元18使用元数据2和参数信息生成用于输入文档I的合成语音,并利用语音人物输出朗读语音(步骤S8)。以下将描述各个单元。(输入获取单元11)将被用户使用的并包括多个文本数据的书数据作为文档I被输入获取单元11获取。输入获取单元11从获取的书数据提取文本信息。当书数据包括布局(layout)信息时,除了文本信息,输入获取单元11也获得布局信息。布局信息包括,例如在页面布局中将被提供的文本信息、位置、字体尺寸、字体类型等。例如,在基于XHTML或样式单的浮动布局的情况下,例如,布局信息包括作为逻辑元素赋予文本的换行、段落元素、题目元素和/或标题元素等。包括这些信息段的输入文档I可被以例如DOM格式的树形结构存储。注意即使当没有包括布局信息时,例如,可限定代表用于每个换行的线,且文本数据被构造为这些逻辑元素的子元素,由此以DOM格式表示输入文本I。图3示出了 DOM转换的输入文档的实例。图3显示了作为用于各个文本节点的列表以DOM格式存储的文档。在该实例中,每个单个文本节点包括用于识别每本书的“书ID”、以该书中的出现顺序分配的“文本节点ID”、作为该文本节点的实体(substance )的“文本元素”、指示该文本所属的结构的“结构信息”、指示该文本是对话或者描述的“句子类型”以及指示说出书中的该文本的角色的“讲话者”。注意,对于“句子类型”和“讲话者”,由给定估计处理创建的或手动创建的信息可作为属性和属性值被嵌入。注意在图3中,文本节点ID8的文本节点在英语中指“接下来,Kakeru很犹豫…(continuously, Kakeru very hesitatingly.)” (Kakeru 是人名),文本节点 ID40 的文本节点在英语中指“这太多了(that’ s too much)”,文本节点ID41的文本节点在英语中指“这是对的! (that’s right!)”,文本节点ID42的文本节点在英语中指“但你不能说你不可能做到(but didn,t you say that it was impossible for us to do it ),,,文本节点ID105的文本节点在英语中指“蜷缩并睡着在角落里(curled up and asleep in thecorner),,。举例证明这样的情况时将给出以下描述,其中文档数据以DOM格式被存储,但该 实施例不限于此。(元数据获取单元12)用于由用户使用的文本数据的元数据被元数据获取单元12获取作为元数据2。在这种情况下,元数据列举了,例如,内容中的句子、短语、或词的读取转换定义、将由人物在特定上下文中说出的句子、短语或词的定义等。图4示出了元数据的实例。在该实例中,元数据包括多个客户(custom)定义,其描述了适用条件和将被施加到与适用条件匹配的句子、短语或词的转变(重音编辑或朗读方式定义)。更具体地,每个单独的客户定义包括“书ID”、用于识别每个单个规则的“规则ID”、指示规则将被施加的句子的“条件句子”、指示读出句子时如何重读由“条件句子”指定的句子的“重音编辑”、指示对应的语音人物的“语音人物”、指示读出该句子时限定如何读出由“条件句子”指定的句子的“朗读方式定义”以及指示句子类型的“句子类型”。在图4的实例中,可获得将被使用的语音人物A、B、C、K和L。假设在图4的实例中,语音人物A、B和C具有面向对话(dialog-oriented)的特征作为句子类型属性,且语音人物K和L具有面向描述(description-oriented)的特征作为句子类型属性。注意作为表征每个语音人物的属性,可使用例如,语言、性别、年龄、性格等。注意在图4中,规则IDl的“条件句子”中的句子和“朗读方式定义”中的句子在英语中指“This is very delicious”。但是,与“条件句子”中的句子相比,“朗读方式定义”中的句子的一些朗读方式或表达被改变为根据语音人物A的特征的朗读方式或表达。(在该实例中,朗读方式或表达“ i T 6 ”和“ T t ”被改变为“ i T 一 6 ”和“ t/ & ”,由此表征了语音人物A)。例如,在英语中“这非常美味(This is very delicious.)”可被改变为“这非非非非常美味呀! (This is veeeeeeery delicious Iar!)”规则ID2的“条件句子”中的句子和“朗读方式定义”中的句子在英语中都指“我感觉很舒适(I feel so easy)”。但是,与“条件句子”中的句子相比,“朗读方式定义”中句子的一些朗读方式或表达被改变为根据语音人物A的特征的朗读方式或表达。(在该实例中,朗读方式或表达“主。亡>9’’和“ U S十”被改变为“主亡一 >9’’和“ 十石d,,的朗读方式或表达,由此表征了语音人物A)。
注意规则ID3的“条件句子”中的句子和“朗读方式定义”中的句子在英语中都指“我认为它不是(I think it isn’t)”,规则ID4的“条件句子”中的句子和“朗读方式定义”中的句子在英语中都指“当我到家时我给你打电话(I,11 call you when I get home)”,规则ID5的“条件句子”中的句子和“朗读方式定义”中的句子在英语中都指“这绝不会发生(there,s no way that,11 happen!)”,在规则ID100的“条件句子”中的句子和“朗读方式定义”中的句子在英语中都指“这是场灾难(it was a disaster)”,在规则IDlOl的“条件句子”中的句子和“朗读方式定义”中的句子在英语中都指“你曾经见过它么? (haveyou ever seen it ),,。而且,规则ID102的“条件句子”中的句子和“朗读方式定义”中的句子在英语中都指“你弄错了(You’ ve got that wrong )”。在这种情况下,“重音编辑”规定读出该句子时如何重读“条件句子”中的句子,由此表征了语音人物L。然后,如图4所示,从列举出的要旨,基于以下观点等获取转换要旨(conversionsubstance),且获取的转换要旨被持有,同时被转换为可在随后处理中使用的信息。 (I)记号(notation)之间的关联使用内容中的部分字符串作为条件,转换要旨彼此关联。(2)使用段信息的关联作为条件的关联使用内容中的词素或词性(part-of-speech)信息,转换要旨彼此关联。(3)使用其他条件的关联基于内容中的字符串或词素不能唯一地确定转换条件,且转换要旨结合目标字符串所属的文档中的逻辑元素、相邻的词、短语、讲话者等彼此关联,作为目标字符串的上下文。在以下描述中,图4示出的元数据被用作实际实例。但是,本实施例不限于此。而且如上所述,也可使用除日语外的其他语言作为目标语言。以下将描述元数据获取单元12的实际处理。图5示出了元数据获取单元的处理的实例。元数据获取单元12依次获取客户定义(步骤SI I)。接下来,元数据获取单元12确认在获取的客户定义中使用的语音人物。如果客户定义包括同样的语音人物,元数据获取单元12也获得其条件,并组织用于各个语音人物的这些条件(步骤S12)。在图4的实际实例中,由于使用了语音人物A、B、C、K和L,其条件被分别组织。注意图4示出了这样的状态,其中为了简便,已经为各个语音人物组织了条件。而且,元数据获取单元12组织不同条件中的共同的部分记号,如果它们被发现(步骤S13)。接下来,元数据获取单元12提取一些表面(superficial)信息并将其转换为规则(步骤S14)。在图4的实例中,由于规则ID 2和3的客户定义包括语音人物B的朗读方式定义“ C ^ 一”,这些记号和条件句子(条件句子中的对应部分)彼此关联。元数据获取单元12随后提取词性信息段,并将其转换为规则(步骤S15)。在规则ID 2和3的前述实例中,从其表示中提取词性级别信息,并检查条件句子和朗读方式定义之间的关系。
在提取各个条件记号部分的词性信息的段时,规则ID2 :以〈动词 > 主十〈助动词 > —“十石t二々一”规则ID3 :乃〈后置小品词(particle) > — “ t: T 一”且其彼此关联。接下来,元数据获取单元12提取上下文信息段,并将其转换为规则(步骤S16)。在以上实例中,作为这些条件句子的上下文信息,当将词法分析(morphologicalanalysis)施加到规则ID 2的整个条件句子中,其被描述为utS-K tz 士、<副词>/ S o亡D〈副词>/ U〈动词>/ S十〈助动词>/。<符号>/,,在这种情况下,符号“/”指示段边界,且〈标签名 > 指示每个词素的词性名称。当将词法分析施加到规则ID3的条件句子时,其被描述为“子札〈名词>/ ti <后置小品词>/ W、'n <动词>/ i〈后置小品词>/杉毛々〈verb〉/ ^ <后置小品词>/。〈符号>/”使用周边信息段和更详细的词性信息作为上下文,我们得到以下“/ I <动词>/主十〈助动词>/” 一 “/十石 < 动词(基本形)>/ (二々〈后置小品词>/ 一〈名词>/”“/ m 0 <动词>/ ^ <后置小品词>/,,一“/ m 0 <动词(基本形))>/ <后置小品词>/一〈名词>/”接下来,元数据获取单元12合并共同部分(步骤S17)。元数据获取单元12检查公共部分是否可被合并到同样的语音人物的数据中。在以上实例中,作为检查的结果,条件部分和结果部分分别被合并为“/〈动词>/〈后置小品词I助动词>/”一 “〈动词(基本形)>/ U / 一/,,(语音人物B)注意词性标签之间的“ I ”指示逻辑和(0R)。相似地,对于语音人物C,可获得以下合并结果“/〈动词>/〈后置小品词I助动词>/”一 “〈动词(基本形)>/ n / O / —/”对于语音人物K,可获得以下的合并结果“/〈动词>/ t U〈助动词A>/〈助动词B〉/〈助动词C〉 /”一“/〈动词(基本形)>/〈助动词B〉/ T / r芒' b I”而且,元数据获取单元12将同样的处理施加到规则IDl的条件句子。通过检测词性信息,其可被表示为“ i T 毛〈动词 >,,—“ i T 一毛”“ft〈助动词 >,,—“t/ J九”但是,由于即使使用上下文信息也没有公共化的部分,这些具有词性的记号被存储为合并结果。在检查规则ID102的定义时,限定重音记号。也对其应用同样的处理,以及关联“乂 > /、予力'々彐〈动词 >,,—“ 乂 ' I 千力' 1 一 々彐 ”(“so re wa chi ga uyo〈名词 >”一“so, re wa chi ga' a u yo”)被存储。注意重音记号指在'前的位置应重读。因此,在实际实例中,“ ( “so”)和“力” (“ga”)被重读。
元数据获取单元12将合并结果(转换规则)存储为内部数据(步骤S18)。随后,元数据获取单元12确定对于条件定义,处理是否已完成(步骤S19)。如果处理还未完成,过程回到步骤SI来重复处理。如果处理已完成,元数据获取单元12结束图5示出的处理。图6示范了用于图4示出的实际实例的处理的合并结果(转换规则)。在该转换规则实例中,每个单个的转换规则包括用于识别该转换规则的“转换规则ID”、指示转换规则的条件的“条件”、指示该转换规则的结果的“结果”、指示对应语音人物的“语音人物”、指示作为源的规则的规则ID “源ID (图4示出的元数据中的规则ID)”,以及指示句子类型的“句子类型”。(输入文档特征提取单元13)以下将描述输入文档特征提取单元13。输入文档特征提取单元13输入由输入获取单元11获取的DOM格式的文档数据,以及由元数据获取单元12获取的转换规则,且随后获取与文档数据上的各个转换规则的影响有关的信息。以下将描述输入文档特征提取单元13的处理的实例。图7示出输入文档特征提取单元13的处理的实例。输入文档特征提取单元13接收DOM格式的文档数据(步骤S21)。在这种情况下,假设例如,获得图3示出的文档数据。接下来,输入文档特征提取单元13接收存储的元数据(步骤S22)。在这种情况下,假设例如获得在图6中示出的元数据获取结果(转换规则)。注意图3的实例包括讲话者(书中的角色等)J、P、Q、R和T,且图6的讲话者包括语音人物A、B、C、K和L0接着,输入文档特征提取单元13从存储的元数据顺序地加载转换规则,并将加载的转换规则施加到文档数据(步骤S23)。输入文档特征提取单元13将规则施加到各个文档节点,并针对其条件部分符合的规则而持有与彼此关联的转换规则ID和匹配的文本节点(步骤S24)。输入文档特征提取单元13列举了与匹配条件句子的讲话者的关联性(步骤S25)。输入文档特征提取单元13将与条件句子匹配的规则中的讲话者(语音人物)与文档数据中的讲话者(书中的角色等)保持为彼此关联。如果发现记号(句末记号)相似的规则中的讲话者和文档数据中的讲话者之间的对应性,输入文档特征提取单元13使它们保持彼此关联(步骤S26)。如果发现句子类型相似的规则中的讲话者和文本数据中的讲话者之间的对应性,输入文档特征提取单元13使它们保持彼此关联(步骤S27)。如果发现文档元素(结构信息)相似的讲话者的对应性,输入文档特征提取单元13将其列举(步骤S28)。输入文档特征提取单元13确定对于所有的规则,验证处理是否完成(步骤S29)。如果对于所有的规则的验证处理已完成,处理结束。另一方面,如果仍剩余将被验证的规则和句子,输入文档特征提取单元13依次加载元数据,并重复同样的处理。图8和9示出了输入文档特征提取单元13的处理结果的实例。
图8示出与文档数据中各个文本节点对应的匹配的规则的转换规则ID。在图8中,指示与各个文本节点匹配的转换规则ID的“匹配的规则ID”被进一步添加到图3示出的文档数据。该实际实例指示匹配的规则ID5与文本节点ID40匹配,规则ID4与文本ID42匹配,且规则IDl和2与文本节点ID105匹配。注意,在嵌入到图3示出的文档数据中时或独立于图3示出的文档数据,文本节点ID和匹配规则ID之间的对应性可被保持。图9示出了与基于这些对应性结果从不同观点获得讲话者之间的相关性有关联而组织的结果。每个单独结果包括“数量”、“基于条件句子的匹配与讲话者的关联性”、“基于句末表达的与讲话者的关联性”、“与句子类型的关联性”以及“基于结构信息的关联性”。注意P=*指与所有语音人物有关的对应性。(基于条件句子匹配的讲话者关联性)例如,在图9的第一栏,作为由于条件句子的匹配而导致的讲话者之间的对应性,·从规则和输入文档之间的那些而列举第一行的P和A、第二行的R和A、第三行的T和B以及第四行的T和C。(基于句末表达的与讲话者的关联性)接下来,基于句末表达从对应关系提取讲话者之间的关联。在这种情况下,“ T t / S +类型”(desu/masu类型)和“ tf I弋hh类型”(da/dearu类型)彼此不同,并指定属于同样的组的句末表达。例如,与+ T ”(. +desu)或“ + i十,,( +masu)匹配的句末表达被确定为desu/masu类型,且与“ + ,( +da) or “ +.d石”(.+dearu)匹配的句末表达被确定为da/dearu类型,由此将其区别。基于该结果,具有同样个性的讲话者彼此关联。例如,假设由于可识别图8中的文本节点ID40“b.blvt >9 T t soreja a, anmari desu”)对应于desu/masu类型,发现讲话者(书中的角色等)P和讲话者(语音人物)A、B和C之间的对应关系对应于图4中条件句子中的desu/masu类型。结果,作为基于句末表达与讲话者之间的关联性,获得P=A、B、Co而且,认识到图8中的文本节点ID105的讲话者T对应于desu/masu类型,且对应于该ID的匹配的规则IDl和2对应于图4中的讲话者A和B。结果,获得T=A、B。(基于句子类型的关联性) 接下来,提取基于句子类型的相关信息。例如,在图9中的数字(1),目前获得的讲话者(书中的角色等)P和讲话者(语音人物)A之间作为关联性的对应性被描述为候选项。如可从该讲话者P的文本节点(文本节点
C+。”)看出,该句子类型是“面向对话”。另一方面,由于涉及该文本节点的规则(图6中的转换规则ID5)中的讲话者A具有句子类型“面向对话”的特征,他们有同样的属性。如在数字(2)中,对于讲话者R的文本节点(文本节点ID42 '“ tf ¥、二 t i君fz b乃力m無理i言o T PT (i々分o亡分tl ”),句子类型是“面向对话”,以及这与该规则匹配的转换规则中的讲话者A也具有句子类型“面向对话”。因此,这些讲话者具有同样的关系。另一方面,对于数字(3)和(4),输入句子的类型是“面向描述”,但是分别对应于这些规则的转换规则(IDl和2)的讲话者B和C具有句子类型“面向对话”。因此,这些讲话者具有不同的属性。(基于结构信息的关联性)此外,描述了基于结构信息的关联性。在这种情况下,仅清楚地规定作为最小概括的元素(节体(sectiorubody)),且其他的差别被忽视(*)。上述信息的段被传递给随后的处理,作为输入文档特征提取单元13的提取结果。(执行环境获取单元14)以下将描述执行环境获取单元14。执行环境获取单元14获取与用户期望通过话音合成执行读出处理的系统的环境有关的信息(系统环境信息)。更具体地,除了装置和OS的信息外,系统环境信息包括可被用户获取的话音合成引擎、语音人物和/或参数范围等的信息。从安装的语音合成引擎获取的特性信息包括,例如话音合成引擎(TTS)的名称、版本等,以及可获得语音(语音人物)的属性包括,例如,人物名称、可获得的语言、讲话者性别、讲话者年龄等。参数范围作为由话音合成引擎支持的参数信息而被获取。图10示出了由该执行环境获取单元14的获取结果实例。图10示出了两个可获得的操作环境的实例。图10的实例包括装置(终端)类型、OS名称,以及话音合成引擎的名称和版本。而且,作为可获得语音的属性,列举了诸如可获得的人物、可获得的语言、可获得的性别,以及可获得的人物的声音年龄组。该实例指示可获得的语言是JP (日语)和EN (英语),且可获得的性别是男性和女性,且可获得的人物的声音年龄组是成人和儿童。而且,作为话音合成参数,与各个音量、音调、范围、速率(rate)和中断的各段信息有关,展示了可获得的范围。例如,对于音量(可调整的音量范围),可设置从0到100的连续值。如图10所示,对于音调来说,可为图10的上部列中示出的资源设置-20到20的连续值,但对于图10的下部列中示出的资源仅支持五个阶梯的离散值。而且,例如,对于参数范围、速率和中断(暂停时间),可描述连续值(连续)或离散值(离散)。然后,对于连续值描述取值范围,且对于离散值,描述指示可以设置多少阶梯的阶梯的数量等。这些获取结果被传递给随后的处理。(用户设置限制获取单元15)以下将描述用户设置限制获取单元15。用户设置限制包括,例如用户的指定条件和/或限制条件,其将优先于元数据而被应用。更具体地,可指定特定参数的值或取值范围。图11示出了用户设置限制获取单元15所要求的用户界面的实例,以从用户获取指令信息,图12示出了获取的结果的存储实例。假设用户可使用图11中举例的用户界面提前为影响读出的项设置限制,且利用该界面,他或她可自由地设置与项对应的值。在图11示出的实例中,项“感情波动朗读”允许用户指定再现的容许度,作为对应于,例如文档中的“大怒(rage ) ”、“抗议(outcry ) ”、“热切(keen ) ”等的强烈的情感表达的合成语音。对于该项,例如,当设置“满(无限制)(full (no limit))”时,通过对元数据中的“大怒”、“热切”等的定义或用户定制结果直接应用感情韵律字典等或改变将被提供给合成引擎的参数的方法,在读出的时候尝试再现。另一方面,当设置除了“完全”以外的值时,根据其比率设置感情表达强度的程度。例如,当设置“最小(minimum)”时,通过降低感情表达效果90%而完成读出。当设置“中度(mild)”时,通过压制感情表达效果到大约一半的程度而完成读出(大怒一愤怒)。项“词/表达”允许用户设置小说或故事中的亡命徒或粗暴的家伙的残忍/放纵/粗鲁表达、措辞、韵律等的程度信息。例如,无限制地,沿元数据或用户定制信息而实现读出。另一方面,当该设置值被降低时,降低了深刻、严厉的语音效果,和/或当替换特定的表达、句子、短语或词时完成读出。项“音量/节奏变化”允许用户指定用于诸如恐怖故事的高潮中的“嘿!(Hey !)”这样的惊讶表情、突然喊出的声音、开车时或逃跑时的重读或快速朗读效果。如在以上的实 例中,当设置“满”时,原封不动地使用元数据定义或用户定制信息。但是,当这种设置被限制时,通过降低这样的表达的程度来完成读出。图12示出了当用户设置限制获取单元15存储用户界面上的设置时的实例。假设根据图11示出的用户界面上的对应的滑块值来设置每个项的上限值(可变值)。在这种情况下,假设针对“满”,容许的感情表达度被设为大约75%,容许的词/表达被设为大约30%,且容许的音量/节奏变化度被设为大约55%。这些结果被传递给随后的参数确定单元16。(参数确定单元16和用户验证单元17)以下将描述参数确定单元16和用户验证单元17。参数确定单元16合并目前获得的处理结果以确定在实际读出过程中使用的参数信息。图13示出了参数确定单元16的处理的实例。以下将描述参数确定单元16的处理的实例。参数确定单元16接收元数据存储结果(步骤S31)、输入文档特征提取单元13的处理结果(步骤S32)、执行环境获取单元14的执行结果(步骤S33)、以及用户设置限制获取单元15的提起结果(步骤S34),作为之前阶段的处理结果。参数确定单元16计算将被展示给用户的各个项的再现度。注意步骤S36和S37中的一个或两个可被忽略。以下将描述作为再现度的比较目标的推荐环境。推荐环境假设了三个环境,S卩,与语音人物相关的推荐环境、读出时与感情(表达)有关的推荐环境(选项)以及与参数有关的推荐环境(选项)。但是,该实施例不限于此。以下将描述与语音人物有关的推荐环境。例如,从来自输入文档特征提取单元13的处理结果(例如,图8和9示出的结果),可选择当图4示出的元数据被应用到图3示出的数字书时推荐的语音人物。例如,从以上描述可看出,可获得将图4示出的元数据中的语音人物B、A和C分配到图3示出的文档数据中的讲话者P、R和T的方法。例如,当文档数据包括讲话者的属性数据(例如,语言、性另IJ、年龄、个性等)和元数据包括语音人物的属性数据(例如,语言、性别、年龄、个性等)时,也可获得这样的方法,考虑到这些属性的数据,除了输入文档特征提取单元13的处理结果外,将元数据中的语音人物分配给文档数据中的讲话者。此外,可使用选择推荐的语音人物的各种方法。图14举例了语音人物的推荐环境(注意图14示出的语音人物的名称被举例为不同于以上描述中的那些,且当使用前述实例时,在图14示出的语音人物的推荐环境中描述语音人物A、B、C等。)注意图14示出的实例仅列出了语音人物。或者,对应于各个语音人物的文档数据中的讲话者可被一起展示。在用户的系统环境中,图14中的推荐的语音人物A、B、C等或“Taro Kawasaki”等不总是可获得。用户仅可使用在其系统环境中可获得的语音人物。因此,参数确定单元16将推荐的语音人物与用户可获得的语音人物进行比较以计算与讲话者有关的再现度(步骤S35)。与每个讲话者有关的再现度可被表示为包括在输入文档中的讲话者的特征量(和或对应于该讲话者的推荐的语音人物的特征量)和在话音合成器中的用户可可获得的语音人物的特征量之间的匹配度。更具体地,作为讲话者和语音人物的属性的诸如语言、性别、年龄等的各种可获得的项被适当地标准化,以将其表示为向量元素。然后,这些向量之间的相似性(例如,余弦距离)被计算,且随后被用作匹配度等级。此外,可使用各种其他的再现度计算方法。接下来,例如,当被推荐使用的参数的覆盖范围的数据作为包括在元数据中的数据而被提供时,参数确定单元16计算话音合成器可获得的、与参数覆盖范围有关的再现度(步骤S36)。以与以上描述同样的方式,使用参数覆盖范围作为向量元素计算向量间的相似性,且该相似性可被用作匹配度等级。接下来,例如,当将被使用的推荐的感情表达的数据(例如,“正常(usual)”、“惊讶(surprise)”,生气(anger)”、“悲伤(SadneSS)”、“厌恶(dislike)”等)作为包括元数据中的数据被提供时,参数确定单元16计算与话音合成器可得的感情表达的存在/不存有关的再现度(步骤S37)。以与上述同样的方式,使用感情表达的存在/不存在作为向量元素计算向量间的相似性,且该相似性被用作匹配度的等级。注意,步骤S35到S37的计算顺序不是特别限定的。同样,步骤S36和S37中的一个或两个可被忽视。而且,参数确定单元16计算合并的总匹配度(再现度)(步骤S38)。这种总再现度可被限定为与以下各个功能有关的匹配度的积。再现度=讲话者特征量的匹配度X可获得的感情的匹配度X可被回放的参数的匹配度X元数据改变部分的文档特征覆盖率注意作为总再现度,例如,可展示数值,或者计算的度可被分为一些等级,且可展示等级值。用户验证单元17分别展示与如上所述被针对各种功能而计算的各个功能有关的匹配度,还一起展示总再现度,例如如图14所示出的(步骤S39)。例如,在第二行的书中,不能使用执行环境中的推荐的语音人物“ TakatomoOkayama”,且具有最高匹配度的“Taro Kawasaki”被展示。通过按压“Taro Kawasaki”旁边的按钮,用户可改变并选择接下来或随后的候选项中推荐的语音人物。
例如,在第一行的书中,与推荐的语音人物“ Taro Kawasaki ”匹配的“ TaroKawasaki”被展示在执行环境中。在这种情况下,不展示执行环境中的语音人物的下一个候选项。注意,针对各个功能明确地展示匹配度。或者例如,展示具有低匹配度的项的字段的帧(frame)本身或显示字符被突出。例如,在这种情况下,匹配度可被分为若干等级,且不同的颜色或亮度级可被用于各个等级。相反,展示具有高匹配度的项的字段的帧本身或显不子符可被关出。但展示总再现度时,可以不同的模式(例如不同的颜色)展示低和高的再现度。例如,在图14的实例中,“极好(Excellent)”、"很好(Good)”和“好(Okay)”,以及“差(Poor)”和“坏(Bad)”可使用不同的显示颜色。此外,可使用容易地向用户通知结果的各种显示方法。接下来,用户验证单元17获得用户的确定/修正(步骤S41)。例如,当用户按压展示为第一候选项的语音人物旁边的按钮时,下一个或随后的候选项的推荐的语音人物被改变或选择。用户可在步骤S41重复用户的确认/修正,如果用户用于展示的结果的确认/选择&指定完成(步骤S40),该处理结束。注意用户可明确输入最终设定指令。例如,可提供设定按钮。处理结果作为控制参数被传递给话音合成单元18。(话音合成单元18)话音合成单元18生成合成语音,同时施加与指定的讲话者匹配的转换规则和文档表达作为控制参数,且将其合成语音输出为语音人物的朗读语音。根据前述顺序,考虑到对于用户来说实际可获得的计算机资源和功能以及将被读出的内容中的差异,可实施确保再现的回放。根据该实施例,可确保用于与文档数据的读出处理有关的元数据的用户定制的便利性和在文档数据的读出处理中使用的系统环境的灵活性,并可防止读出处理的再现性受到损害。而且,在前述实施例中描述的处理顺序可基于作为软件的程序而被执行。通用计算机系统可提前存储该程序,且可加载该程序,由此获得与前述实施例的文档读出设备的功能相同的功能。在前述实施例中描述的指令作为计算机可执行程序被记录在磁盘(软磁盘、硬磁盘等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD 土 R、DVD 土 RW等)、半导体存储器或等同于这些的记录介质。存储格式没有特别限定,只要记录介质可被计算机或嵌入式系统读取。当计算机从该记录介质加载程序,并基于该程序控制CPU执行在程序中描述的指令时,可实施与前述实施例的文档读出支持设备中的操作相同的操作。当然,计算机可经由网络获取或加载程序。基于从计算机或嵌入式系统中的记录介质安装的程序指令,在计算机上运行的OS(操作系统)、数据库管理软件、网络MW (中间件(middleware))等可执行一些需要实施该实施例的一些处理。而且,该实施例的记录介质不限于独立于计算机或嵌入式系统的介质,而是包括存储或临时存储从LAN或因特网下载的程序。
记录介质的数量不限于一个。本实施例的记录介质还包括这样的情况,其中该实施例的处理从多个介质被执行,且介质的配置没有特别限制。注意本实施例的计算机或嵌入式系统基于存储在记录介质中的程序执行该实施例的各个处理,且可以是包括个人电脑、微型计算机等的设备中的任意一个,或经由网络通过连接多个设备而获得的系统。本实施例的计算机不限于个人电脑,且包括包含在信息处理设备中的算术处理装置、微型计算机等。因此,本实施例的计算机是通过程序实施该实施例的功能的装置或设备的通用名。尽管描述了特定实施例,这些实施例仅以举例的方式被展示,且不旨在限定本发明的范围。确实,在此描述的新颖实施例可以其他各种方式被实施;而且,可以做出以在此描述的实施例的形式的各种忽略、代替和改变,而不脱离本发明的精神。所附权利要求书及其等价物旨在涵盖落在本发明的范围和精神内的这样的形式或修改。
权利要求
1.一种文档读出支持设备,其特征在于包括文档获取单元,被配置为获取包括多个文本数据的文档数据;元数据获取单元,被配置为获取包括多个定义的元数据,每个定义包括与定义将被施加的所述文本数据有关的条件以及用于与所述条件匹配的所述文本数据的读出方式;提取单元,被配置为通过将每个所述定义施加到包括在所述文档数据中的所述文本数据,提取所述文档数据的特征;执行环境获取单元,被配置为获取与其中执行所述文档数据的读出处理的环境有关的执行环境信息;确定单元,被配置为,基于所述文档数据的所述特征和所述执行环境信息,通过将所述元数据施加到所述文档数据,确定在执行所述读出处理时使用的参数候选项;以及用户验证单元,被配置为向用户展示所述参数候选项,并接受包括选择或设定的验证指令。
2.根据权利要求1所述的设备,其特征在于还包括话音合成单元,被配置为使用经由所述用户验证单元设定的所述参数生成用于所述文档数据的朗读语音。
3.根据权利要求1所述的设备,其特征在于还包括用户设置限制获取单元,被配置为从用户获取具有高于所述元数据的优先权的用户设置限制。
4.根据权利要求3所述的设备,其特征在于所述确定单元考虑到所述用户设置限制而限制参数能呈现的值或取值范围。
5.根据权利要求3所述的设备,其特征在于允许所述用户设置限定在所述读出处理中使用的感情表达的改变范围、感情类型和语气、将被读出的词或短语以及音量或节奏的变化范围或值中的至少一个。
6.根据权利要求1所述的设备,其特征在于,在提取所述文档数据的所述特征时,所述提取单元通过概括和施加在所述元数据中描述的对应关系从某些定义生成将被施加到整个相关信息的提取规则。
7.根据权利要求1所述的设备,其特征在于,限定了目标句子或词以及对应的读出方式或重音作为定义,以及所述提取单元通过逐步从所述定义概括对应关系而获取适当的对应关系。
8.根据权利要求1所述的设备,其特征在于在提取所述文档数据的所述特征时所述提取单元使用表面表达、句末表达、词性信息、句子的结构信息或句子类型。
9.根据权利要求1所述的设备,其特征在于基于包括在所述文本数据中的讲话者的特性和在所述元数据中限定的讲话者的特性,所述确定单元确定所述参数候选项。
10.一种文本读出支持方法,其特征在于包括获取包括多个文本数据的文档数据;获取包括多个定义的元数据,每个定义包括与定义将被施加的所述文本数据有关的条件以及用于与所述条件匹配的所述文本数据的读出方式;通过将每个所述定义施加到包括在所述文档数据中的所述文本数据,提取所述文档数据的特征;获取与其中执行所述文档数据的读出处理的环境有关的执行环境信息;基于所述文档数据的所述特征和所述执行环境信息,通过将所述元数据施加到所述文档数据,确定在执行所述读出处理时使用的参数候选项;以及向用户展示所述参数候选项,并接受包括选择或设定的验证指令。
11.一种存储计算机程序的非临时性计算机可读存储介质,计算机执行所述计算机程序提供以下步骤获取包括多个文本数据的文档数据;获取包括多个定义的元数据,每个定义包括与定义将被施加的所述文本数据有关的条件以及用于与所述条件匹配的所述文本数据的读出方式;通过将每个所述定义施加到包括在所述文档数据中的所述文本数据,提取所述文档数据的特征;获取与其中执行所述文档数据的读出处理的环境有关的执行环境信息;基于所述文档数据的所述特征和所述执行环境信息,通过将所述元数据施加到所述文档数据,确定在执行所述读出处理时使用的参数候选项;以及向用户展示所述参数候选项,并接受包括选择或设定的验证指令。
全文摘要
本发明涉及文档读出支持设备和方法。根据一个实施例,提供了一种文档读出支持设备,具有第一到第三获取单元(11、12、14)、提取单元(13、确定单元(16)和用户验证单元(17)。第一获取单元(11)获取具有文本的文档。第二获取单元(12)获取具有定义的元数据,每个定义包括适用条件和读出方式。提取单元(13)提取文档的特征。第三获取单元(14)获取执行环境信息。确定单元(16)基于该特征和信息确定读出的参数候选项。用户验证单元(17)展示候选项并接收验证指令。
文档编号G06F17/30GK103020105SQ20121036574
公开日2013年4月3日 申请日期2012年9月27日 优先权日2011年9月27日
发明者布目光生, 橘健太郎, 森纮一郎, 森田真弘, 清水勇词, 铃木优 申请人:株式会社 东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1