带有语音消息的图像的生成控制装置及生成方法与流程

文档序号：29792904发布日期：2022-04-23 18:06阅读：60来源：国知局

1.本发明涉及一种与使用语音合成技术生成带有语音消息的图像的处理相关的生成控制装置及带有语音消息的图像的生成方法。

背景技术：

2.语音合成例如已被用于留言电话功能中的播放默认语音消息的领域、朗读文本信息的朗读功能的领域。近年来，随着语音合成技术的进一步发展，开始以语音合成服务的形式提供更先进的语音合成功能、应用。例如，有这样一种服务，当某用户选择一个讲话者并输入他希望该讲话者所讲的文本时，即使没有这样的语音数据录音，也会生成并提供该讲话者自然讲话的合成语音(例如参照非专利文献1)。这项服务利用了现在能够高精度且容易地合成与特定讲话者相似的语音合成音的技术。作为支持该操作的技术，例如已经提出了一种字典分发系统，其分发具有最佳配置的字典，即使在硬件规格有限的终端中也能够实现大量讲话者的语音合成(例如参照专利文献1)。现有技术文献专利文件
3.专利文献1：日本专利特开2019-040166号公报非专利文件
4.非专利文献1：《来自语音合成的新文化？》、[online]、2017年9月14日、av watch、[2020年9月14日搜索]、互联网《url：https://av.watch.impress.co.jp/docs/topic/1077565.html》

技术实现要素：

本发明所要解决的技术问题
[0005]
自先前以来便有被称为天才、艺术家的名人向他们的支持者提供所谓被称为溴化银(bromide)的肖像写真的历史。以肖像写真为代表的图像很好地呈现出了被拍摄者的人物特征，可以说是让其他人想起该人物存在的代表性媒介。如果可以将该人物的语音与肖像写真关联，并且可以对语音内容进行个性化，那么可以进一步提高肖像写真对于支持者的价值。
[0006]
为了能够灵活地个性化语音消息，优选将所生成的语音消息数据(语音数据)存储到预定位置并集中管理。本发明是考虑上述情况而完成的，其提供一种生成带有语音消息的图像的方法，该带有语音消息的图像在用户所选择的图像上叠加了用户所选择或输入的讲话内容的语音数据访问信息。解决问题的方案
[0007]
本发明提供一种带有语音消息的图像的生成控制装置，其具备：选择接收部，其受
理可提供的图像中任意者的选择和关于应与所选择的图像关联的讲话内容的选择或输入；语音数据生成处理部，其生成所选择或输入的讲话内容的语音数据；语音数据存储处理部，其以可访问的方式存储所生成的语音数据；访问信息叠加部，其将所存储的语音数据的访问信息叠加到所选择的图像上；图像存储处理部，其以可输出的方式存储所述叠加了访问信息的带有语音消息的图像。
[0008]
而且，从不同的观点来看，本发明提供一种带有语音消息的图像的生成方法，其包含：处理器受理可提供的图像中任意者的选择和关于应与所选择的图像关联的讲话内容的选择或输入的步骤；生成所选择或输入的讲话内容的语音数据的步骤；将所生成的语音数据以可访问的方式存储的步骤；将所存储的语音数据的访问信息叠加到所选择的图像上的步骤；将所述叠加了访问信息的带有语音消息的图像以可输出的方式存储的步骤。发明效果
[0009]
本发明的带有语音消息的图像的生成控制装置具备生成由用户选择或输入的讲话内容的语音数据的语音数据生成处理部、及将所述语音数据的访问信息叠加到由用户选择的图像上的访问信息叠加部，因此可生成带有语音消息的图像，该带有语音消息的图像在用户所选择的图像上叠加了用户所选择或输入的讲话内容的语音数据的访问信息。
附图说明
[0010]
图1是示出在本实施方式中，与生成带有语音消息的图像相关的生成控制装置的构成例的框图。(第一实施方式)图2是示出在本实施方式中，与生成带有语音消息的图像相关的生成控制装置的其他构成例的框图。(第二实施方式)图3a是示出在本实施方式中，与生成带有语音消息的图像相关的处理流程的第一流程图。(第二实施方式)图3b是示出在本实施方式中，与生成带有语音消息的图像相关的处理流程的第二流程图。(第二实施方式)图3c是示出在本实施方式中，与生成带有语音消息的图像相关的处理流程的第三流程图。(第二实施方式)图4a是示出在本实施方式中，与生成带有语音消息的图像相关的第一操作的说明图。(第二实施方式)图4b是示出在本实施方式中，与生成带有语音消息的图像相关的第二操作的说明图。(第二实施方式)图4c是示出在本实施方式中，与生成带有语音消息的图像相关的第三操作的说明图。(第二实施方式)图4d是示出在本实施方式中，与生成带有语音消息的图像相关的第四操作的说明图。(第二实施方式)图5是示出在本实施方式中，带有语音消息的图像的例子及语音消息播放的操作例的说明图。(第二实施方式)图6是示出在本实施方式中，将带有语音消息的图像的识别信息呈现给用户的例子的说明图。(第二实施方式)
图7是示出在本实施方式中，与输出带有语音消息的图像相关的处理流程的流程图。图8是示出在本实施方式中，与播放带有语音消息的图像相关的处理流程的流程图。
具体实施方式
[0011]
以下，使用附图对本发明进一步加以详述。另外，以下说明在所有方面均为例示，不应解释为限定本发明。(第一实施方式)图1是示出在本实施方式中，与生成带有语音消息的图像相关的生成控制装置的构成例的框图。如图1所示，带有语音消息的图像的生成控制装置10具备：选择接收部11、语音数据生成处理部12、语音数据存储处理部13、访问信息叠加部14及图像存储处理部15。此外，还可以具备：识别信息生成处理部16、识别信息提供处理部17及通信部18。
[0012]
作为生成控制装置10的具体形态，例如可例举具有处理器的个人电脑、平板终端或智能手机等。选择接收部11、语音数据生成处理部12、语音数据存储处理部13、访问信息叠加部14及图像存储处理部15的功能通过由生成控制装置10的处理器执行预定的处理程序来实现。关于识别信息生成处理部16及识别信息提供处理部17也同样如此。
[0013]
选择接收部11受理用户对在带有语音消息的图像中所使用的图像的选择。此外，执行受理用户对语音消息的内容(讲话内容)的选择或输入的处理。选择接收部11包含受理用户的操作输入的操作输入装置，选择接收部11还可以受理与图像选择和语音消息内容的选择或输入相关的用户操作。或者，如图1的点划线所示那样，生成控制装置10具备与外部设备(在图1的例子中是移动通信终端20)进行通信的通信部18，选择接收部11还可以受理用户在移动通信终端20进行的与图像选择及语音消息内容的选择或输入相关的操作。移动通信终端20可以包含信息提供部29，其提供位置信息、与年月日等相关的日期信息、与时分秒相关的时刻信息的至少任一种。
[0014]
语音数据生成处理部12执行基于用户所选择或用户所输入的语音消息的内容而生成语音数据的处理。语音数据生成处理部12可以具备进行语音合成的功能，基于用户所选择或输入的语音消息的内容而生成语音数据。或者，也可以如图1以点划线所示那样，生成控制装置10具备与外部设备(在图1的例子中为语音合成服务器40)进行通信的通信部18，语音数据生成处理部12使进行语音合成的语音合成服务器40生成语音数据并获取所生成的语音数据。
[0015]
语音数据存储处理部13执行以可基于访问信息进行访问的方式存储所生成的语音数据的处理。语音数据存储处理部13可以包含存储语音数据的存储装置，并将所生成的语音数据存储于生成控制装置10内的存储装置。访问信息是确定所述存储装置内存储语音数据的位置的信息。或者，也可以如图1以点划线所示那样，语音数据存储处理部13具备与外部设备(在图1的例子中为语音保存服务器50)进行通信的通信部18，语音数据存储处理部13进行控制使语音保存服务器50存储语音数据。访问信息是确定语音保存服务器50内存储语音数据的位置的信息。
[0016]
此外，在使语音合成服务器40生成语音数据的情况下，可以一旦获取所生成的语音数据就将其存储于语音保存服务器50中，也可以向语音合成服务器40发送指令使其将所生成的语音数据发送、存储于语音保存服务器50中。在这种情况下，发送指令以将访问信息从语音保存服务器50发送到语音数据存储处理部。访问信息叠加部14执行如下处理：获取用于访问所述语音数据的访问信息，将该信息转换为图像形式，叠加到由用户选择的图像上，生成带有语音消息的图像。
[0017]
图像存储处理部15执行以可输出的方式存储所生成的带有语音消息的图像的处理。图像存储处理部15包含存储带有语音消息的图像的存储装置，将所生成的带有语音消息的图像存储于生成控制装置10内的存储装置。或者，也可以如图1以点划线所示那样，生成控制装置10具备与外部设备(在图1的例子中为网络打印服务器60)进行通信的通信部18，图像存储处理部15控制在网络打印服务器60中存储带有语音消息的图像。
[0018]
带有语音消息的图像可以输出到例如生成控制装置10所具备的显示部(未示出)，或者也可以输出到外部设备(在图1的例子中为图像处理装置70)。在将带有语音消息的图像存储于网络打印服务器60中的情况下，所存储的带有语音消息的图像的输出也可以无需经由生成控制装置10而在图像处理装置70与网络打印服务器60之间进行。
[0019]
(第二实施方式)在第一实施方式中，描述了生成控制装置10的选择接收部11、语音数据生成处理部12、语音数据存储处理部13、访问信息叠加部14、图像存储处理部15的至少任一者可以使外部设备执行处理。根据该实施方式，生成控制装置10控制与生成带有语音消息的图像相关的过程，在外部设备中执行与各过程相关的处理。
[0020]
图2是示出在本实施方式中，与生成带有语音消息的图像相关的生成控制装置的构成例的框图。如果将图2所示的框图与图1的框图对应，则可以将前端服务器30理解为图1的生成控制装置10。在本实施方式中，是以存在移动通信终端20、语音合成服务器40、语音保存服务器50及网络打印服务器60为前提的构成，因此用实线来表示。另外，前端服务器30可以不由1台物理服务器构成，而是由作为所谓云服务器的多台设备构成。而且，作为图2所示的变化例，上述云服务器可以包含语音合成服务器40、语音保存服务器50及网络打印服务器60的任一者的至少一部分功能。
[0021]
图3a～图3c是示出在本实施方式中，与生成带有语音消息的图像相关的处理流程的流程图。另外，本领域技术人员应该能够根据第二实施方式的图3a～图3c的处理，容易地理解图1所示的第一实施方式的构成中的处理。如图3a所示，用户使用移动通信终端20访问与带有语音消息的图像相关的服务(步骤s11)。对服务的访问可以通过浏览由所述服务的提供者指定的规定网页来进行，也可以使用sns(social network service，社交网络服务)来进行。关于从移动通信终端20访问的服务请求，由前端服务器30来对应处理。
[0022]
图4a是示出在本实施方式中，由用户执行用以访问生成带有语音消息的图像的服务的操作例的说明图。如图4a所示，只有预先完成注册手续(未示出)的会员，经过输入在注册时分配的id和密码的认证处理才能够访问所述服务。当作为选择接收部11的前端服务器30的处理器识别到已经从移动通信终端20登
录到所述服务时(步骤s11)，向移动通信终端20提供与图像选择相关的信息(步骤s13)。其目的在于让用户选择可作为带有语音消息的图像而提供的图像中的任意图像。然后，受理使用移动通信终端20的用户对图像的选择(步骤s15)。
[0023]
图4b及图4c是示出在本实施方式中，由用户执行用以选择带有语音消息的图像所使用的图像的操作例的说明图。在本实施方式中，假设图像是用户所选择的艺术家的肖像写真。如图4b所示，作为选择接收部11的前端服务器30的处理器在移动通信终端20的屏幕上显示受理与选择艺术家相关的操作画面。在图4b所示的例子中，可以在搜索词输入栏21输入与艺术家关联的关键词来进行搜索。而且，还可以从艺术家姓名列表显示中选择。此外，还可以从作品名称列表显示中选择。或者，还可以从流派列表显示中缩小范围，然后使用艺术家姓名或作品名称依次缩小范围。
[0024]
当用户使用显示的画面执行选择艺术家的操作时，作为选择接收部11的前端服务器30的处理器随后如图4c所示那样，在移动通信终端20的屏幕上显示与所选择的艺术家相关的肖像写真的候补。用户通过触摸选择任意肖像写真并操作“ok”键来选择图像。其次，作为选择接收部11的前端服务器30的处理器受理用户使用移动通信终端20对讲话内容的选择或输入(步骤s17)。选择与所选择的图像关联的讲话内容。
[0025]
图4d是示出在本实施方式中，受理讲话内容的选择或输入的画面的一例的说明图。如图4d所示，用户可以选择多个现成的讲话样板中的任一个。另外，将现成的讲话样板中所包含的“〇〇先生/女士”的部位替换成注册用户的姓名。如此，即便是现成的讲话样板，其一部分也得到个性化。用户还可以在讲话内容输入栏22中输入任意的讲话样板来代替选择现成的讲话样板。
[0026]
根据讲话内容是从现成的讲话样板的任意者中选择还是由用户输入，作为选择接收部11的前端服务器30的处理器执行与选择相应的处理(步骤s19)。尤其是在输入了讲话样板的情况下(步骤s19中的“否”)，前端服务器30确认所输入的讲话样板是否满足预先规定的条件。所述条件可以包括例如与讲话的长度、语言、领域相关的限制。而且，还可以确认是否包括不适合所选择的艺术家的讲话内容的语句(禁用语)(步骤s21)。前端服务器30预先存储适用于所有图像的限制、禁用语等条件及各艺术家所固有的限制、禁用语。在所输入的讲话样板不符合任一条件的情况下，作为选择接收部11的前端服务器30的处理器将该情况通知给用户并要求修正讲话样板(步骤s21中的“否”)。
[0027]
另一方面，在讲话内容是从现成的讲话样板的任意者中选择的情况下(步骤s19中的“是”)、或者是所输入的讲话样板符合条件的情况下(步骤s21中的“是”)，执行以下处理。作为语音数据生成处理部12的前端服务器30的处理器将与所选择的图像预先关联的配置文件信息及所选择或输入的讲话样板发送到语音合成服务器40，进行语音合成(步骤s23)。
[0028]
此处，配置文件信息包含用以确定与图像相应的讲话的音调、语调等的参数。作为参数的具体例，可例举“喜悦”、“愤怒”、“悲伤”的情绪参数，与声音高度相关的参数“高度”，与讲话速度相关的参数“语速”，与抑扬大小相关的参数“抑扬”。对于这6个参数中的每一个，都用作为最小值的-100％～作为最大值的+100％的数值来确定与图像相应的讲话的音调及语调等。优选对每个可选择的图像都预先关联各参数值。而且，配置文件信息包含要在上述“〇〇先生/女士”的称呼中所使用的用户的姓
名。
[0029]
此外，配置文件信息包含用以对语音消息赋予附加价值的信息。例如与用户的出生年月日相关的信息。在生日当天、或者生日附近播放语音数据的情况下，除了基本讲话样板之外，还可以附加诸如“你生日快乐。”、“很快就是您的生日了。恭喜。”之类的讲话样板。而且，还可以附加诸如
“××
岁生日快乐。”之类的讲话样板。此外，如果在艺术家的出道日、出道日附近播放语音数据，则可以附加诸如“出道已经
△△
年。谢谢您的支持。”之类的讲话样板。
[0030]
此外，配置文件信息还可以包含家庭、工作地址。例如，在播放语音消息时的位置信息与家庭地址一致的情况下，可以附加诸如“欢迎回家。”之类的讲话样板。或者，在与工作地址一致的情况下，可以附加诸如“辛苦了。”之类的讲话样板。此外，在艺术家举办的活动现场播放语音消息的情况下，还可以附加诸如“谢谢你来参加〇〇。”之类的应景的讲话样板。另外，在配置文件信息有变化，例如家庭、工作地址变更的情况下，作为语音数据生成处理部12的前端服务器30的处理器还可以使语音合成服务器40生成与变化相应的讲话内容的语音数据。
[0031]
在由语音合成服务器40生成的语音数据被直接存储于语音保存服务器50中的情况下，语音数据存储处理部13也一并将该指令发送到语音合成服务器40。一旦从语音合成服务器40获取所生成的语音数据，就在获取语音数据后，由语音数据存储处理部13将该语音数据发送到语音保存服务器50进行存储。
[0032]
从作为语音数据生成处理部12的前端服务器30接收到指令的语音合成服务器40响应该指令而执行以下的处理。根据配置文件信息确定语音合成中所使用的声音的音调、语调等(参照在图3b中作为参考或对应的处理而示出的步骤s25)，然后根据选择了讲话样板的艺术家及所确定的音调、语调等进行语音合成(参照在图3b中作为参考或对应的处理而示出的步骤s27)。关于语音合成所使用的声音的音调及语调的至少任一者，可以进行几种类型的语音合成，而非只有一种。然后，可以基于播放所生成的语音数据的日期、时间、配置文件信息来选择多种类型的音调及语调的语音数据中的任意种。或者，可以在播放语音数据时，确定要应用多种类型的音调及语调中的哪一种，并且提供应用了所确定的音调及语调的语音数据。
[0033]
根据优选的形态，除了从语音数据生成处理部12发送的基本讲话样板之外，语音合成服务器40还基于配置文件信息生成用以赋予附加价值的各种讲话内容的合成语音。而且，虽然与配置文件信息无关，但可以生成用以赋予附加价值的讲话内容的合成语音。例如，可以根据播放的时间段来生成诸如“早上好”、“你好”、“晚上好”之类的讲话的合成语音。
[0034]
在从作为语音数据存储处理部13的前端服务器30接收到指令的情况下，将所生成的语音数据发送到语音保存服务器50而进行存储。根据其他形态，语音合成服务器40将所生成的语音数据发送到作为语音数据存储处理部13的前端服务器30。接收语音数据的前端服务器30作为语音数据存储处理部13将该语音数据发送到语音保存服务器50而进行存储。关于用以赋予附加价值的讲话样板，将判断是否附加该讲话样板的相关信息与语音数据进行关联而存储。例如，关联与出生年月日相关的信息、与家
庭、工作地址相关的信息等而存储。
[0035]
接收了语音数据的语音保存服务器50基于来自语音数据存储处理部13的指令而存储所接收的语音数据。然后，将用以访问所存储的语音数据的访问信息发送到前端服务器30。作为语音数据存储处理部13的前端服务器30接收访问信息(步骤s29)。作为访问信息的具体的一形态，可例举确定存储于语音保存服务器50中的语音数据的url。然而，并不限于该形态，只要是使接收了访问信息的语音保存服务器50能够唯一地确定所存储的语音数据的信息即可。
[0036]
从语音保存服务器50接收访问信息后，作为访问信息叠加部14的前端服务器30的处理器将从语音保存服务器50接收到的访问信息转换为图像(步骤s31)。在本实施方式中，访问信息叠加部14将访问信息转换为二维码。然后，获取由用户选择的图像，在该图像上叠加二维码(步骤s33)。此处，可作为带有语音消息的图像的素材而提供的图像被预先存储于前端服务器30中，但作为替代或补充，也可以将图像存储于外部服务器(未图示)中，并且可以选择及获取该服务器中所存储的图像。
[0037]
在本实施方式中，图5是示出带有语音消息的图像的例子及语音消息播放的操作例的说明图。如图5所示，带有语音消息的图像80在所选择的艺术家的肖像写真的部分区域叠加二维码81。二维码81是与该图像关联的语音数据的访问信息。
[0038]
当作为与带有语音消息的图像相关的服务的注册会员的用户使用存储了与认证处理相关的id和密码的移动通信终端20拍摄二维码81时，可以访问语音数据并在移动通信终端20播放该语音数据。此处，用于播放语音数据的移动通信终端20可以与用于生成带有语音消息的图像的移动通信终端20相同，也可以不同。
[0039]
根据上述形态，用于播放语音数据的移动通信终端20必须存储有与带有语音消息的图像相关的服务的认证处理相关的id和密码。即使没有预先存储id和密码，在播放语音数据时输入该id和密码也可以播放。可以播放语音数据的用户只能是与带有语音消息的图像相关的服务的注册会员。
[0040]
根据其他形态，语音数据的播放可以不需要认证处理，任何人都能访问、播放语音数据。这样，带有语音消息的图像可用作例如广告手段。也可以在生成语音数据时由用户指定播放时是否需要认证。
[0041]
返回流程图的说明。在图3b所示的步骤s33中，描述了作为访问信息叠加部14的前端服务器30的处理器在所选择的图像上叠加二维码而生成带有语音消息的图像80。随后，作为图像存储处理部15的前端服务器30的处理器将带有语音消息的图像80发送到网络打印服务器60并进行存储(图3c的步骤s35)。此外，作为识别信息生成处理部16的前端服务器30的处理器指令网络打印服务器60生成并提供识别信息，该识别信息用于输出存储于网络打印服务器60中的带有语音消息的图像80。
[0042]
网络打印服务器60响应这些指令，存储带有语音消息的图像80(参照在图3c中作为参考或对应的处理而示出的步骤s37)。然后，生成在输出所存储的图像时，用于指定该图像的识别信息(参照在图3c中作为参考或对应的处理而示出的步骤s39)。然后，将所生成的识别信息发送到作为识别信息生成处理部16的前端服务器30。作为识别信息提供处理部17
的前端服务器30的处理器在接收识别信息后，将识别信息发送到移动通信终端20，并呈现给用户。或者，在进行上述步骤s35的处理时，作为识别信息提供处理部17的前端服务器30的处理器指令网络打印服务器60将所生成的识别信息发送到移动通信终端20，并呈现给用户。图3c的流程图示出了该形态。
[0043]
接收了识别信息的移动通信终端20将识别信息显示在画面上而呈现给用户(参照在图3c中作为参考或对应的处理而示出的步骤s41)。图6是示出在本实施方式，将带有语音消息的图像的识别信息呈现给用户的例子的说明图。在图6所示的例子中，向用户呈现作为识别信息的预约号码。用户可以前往设置有图像处理装置70的地方，使用所呈现的预约号码输出带有语音消息的图像80。在本实施方式中，图像处理装置70是设置在便利店的多功能机。以上是与生成带有语音消息的图像相关的处理过程。
[0044]
随后，描述与输出带有语音消息的图像相关的处理过程。如图6所示，接收到用于输出带有语音消息的图像的预约号码呈现的用户，前往设置有图像处理装置70的便利店，执行输出带有语音消息的图像的操作。图7是示出在本实施方式中，与输出带有语音消息的图像相关的处理流程的流程图。
[0045]
如图7所示，用户执行操作，使图像处理装置70执行与服务内容相关的输出服务。图像处理装置70的处理器受理用户请求的与服务内容相关的输出的操作时(步骤s51中的“是”)，等待输入识别信息(预约号码)(步骤s53)。在用户输入识别信息后(步骤s53中的“是”)，图像处理装置70的处理器将所输入的识别信息发送到网络打印服务器60(步骤s55)。然后等待网络打印服务器60的响应(步骤s57、s61的循环)。
[0046]
另一方面，网络打印服务器60的处理器等待从图像处理装置70发送输出用的识别信息(步骤s71)，调查是否存储了与接收到的识别信息对应的图像数据(步骤s73)。如果没有存储与识别信息对应的图像数据(步骤s73中的“否”)，则将该事实发送到图像处理装置70(步骤s75)。然后，将处理返回至步骤s71，等待接收下一个识别信息。如果存储了与接收到的识别信息对应的图像数据(步骤s73中的“是”)，则将所存储的图像数据发送到图像处理装置70(步骤s77)。
[0047]
当图像处理装置70的处理器从网络打印服务器60接收到未存储图像数据的通知时(步骤s57中的“是”)，在操作部(未图示)显示该通知并要求用户确认并重新输入识别信息(步骤s59)。然后，将处理返回到步骤s53并等待识别信息的重新输入。另一方面，在从网络打印服务器60接收到图像数据的情况下(步骤s61中的“是”)，打印输出所接收到的图像数据、即带有语音消息的图像(参照图5)(步骤s63)。以上是与输出带有语音消息的图像相关的处理。
[0048]
随后，描述与播放带有语音消息的图像相关的处理过程。如图5所示，当用户使用移动通信终端20拍摄在带有语音消息的图像80上叠加的二维码81时，可访问所关联的语音数据并在移动通信终端20播放该语音数据。图8是示出在本实施方式中，与播放带有语音消息的图像相关的处理流程的流程图。
[0049]
如图8所示，在内置的摄像头(未图示)拍摄带有语音消息的图像上所叠加的二维码时(步骤s81中的“是”)，移动通信终端20的处理器执行如下处理。从所拍摄的二维条码中提取语音数据的访问信息，访问语音保存服务器50中所存储的语音数据(步骤s83)。然后，等待来自语音保存服务器50的响应(步骤s85、s89的循环)。在本实施方式中，访问信息是语音保存服务器50中所存储的各语音数据的唯一的url。
[0050]
根据优选的形态，当访问语音保存服务器50时，除了访问信息以外，还附加用于判断是否包含用于赋予附加价值的讲话样板的信息。例如与当前位置相关的信息。而且，在语音保存服务器50对应处于世界各地的用户的情况下，可以附加与用户所在地的日期和时间相关的信息。这样做的目的是：针对是否包含在讲话样板中的条件取决于日期和时间的情况，基于各用户所在地的日期和时间进行正确的判断。
[0051]
当语音保存服务器50从外部设备接收到对所存储的语音数据的访问请求时(步骤s101中的“是”)，确认是否存储了与该访问请求所附加的访问信息对应的语音数据(步骤s103)。在未存储与访问信息对应的语音数据的情况下，将该事实发送到发送访问请求的设备(步骤s105)。然后，将处理返回至步骤s101，等待下一个访问请求。
[0052]
另一方面，在存储了与接收到的访问信息对应的语音数据的情况下，语音保存服务器50对除了基本讲话样板以外，是否应包括用以赋予附加价值的讲话样板进行判断(步骤s107)。如果有符合应赋予附加价值的条件的情况(步骤s107中的“是”)，则将包含该讲话样板的语音数据发送到提出访问请求的移动通信终端20(步骤s109)。另一方面，如果没有符合应赋予附加价值的条件的情况(步骤s107中的“否”)，则将基本讲话样板的语音数据发送到提出访问请求的移动通信终端20(步骤s111)。
[0053]
在移动通信终端20的处理器从语音保存服务器50接收到语音数据未被存储的通知的情况下(步骤s85中的“是”)，在画面上显示该通知以告知用户，结束处理(步骤s87)。另一方面，如果从语音保存服务器50接收到语音数据(步骤s89中的“是”)，则播放所接收到的语音数据(步骤s91)。以上是与播放带有语音消息的图像相关的处理。
[0054]
(第三实施方式)在本实施方式中，作为语音数据生成处理部12的前端服务器30的处理器可以通过图3b所示的步骤s27的处理来获取由语音合成服务器40生成的语音数据，将其发送到移动通信终端20而进行播放。这种情况下，用户可以在将所生成的语音数据存储于语音保存服务器50中之前试听并确认。试听了所生成的语音数据的用户如果对该语音数据不满意，则可以返回到上述步骤s17的处理重新选择讲话内容。通过这种方式，用户可以确认所选择或输入的讲话内容、调整后的讲话的音调、语调等，将确认后的语音数据存储于语音保存服务器50中。
[0055]
此外，用户还可以选择或调整用以确定讲话的音调、语调等的各参数值。在第一实施方式、第二实施方式中，描述了在可选择的各图像上预先关联了用以确定讲话的音调、语调等的各参数值。相对于此，在本形态中，用户可进一步变更图像所关联的参数值而调整为喜欢的状态。或者，可选择对于图像的参数值。参数值的选项可以预先与图像关联。或者，可以与图像无关地准备，或者可以是两者的组合。用户可以调整或选择与讲话的音调、语调等相关的参数值，反复试听直到语音数据成为喜欢的状态，然后将该语音数据存储到语音保
存服务器50中。
[0056]
如上所述，(i)本发明的带有语音消息的图像的生成控制装置的特征在于具备：选择接收部，其受理可提供的图像中任意者的选择和关于应与所选择的图像关联的讲话内容的选择或输入；语音数据生成处理部，其生成所选择或输入的讲话内容的语音数据；语音数据存储处理部，其以可访问的方式存储所生成的语音数据；访问信息叠加部，其将所存储的语音数据的访问信息叠加到所选择的图像上；图像存储处理部，其以可输出的方式存储所述叠加了访问信息的带有语音消息的图像。
[0057]
在本发明中，可提供的图像是预先规定为可以关联语音数据而进行提供的图像的1个以上图像。作为其具体形态，例如可例举上述实施方式中的名人的溴化银图像等。而且，讲话内容是与所述图像关联的语音数据的内容。
[0058]
讲话内容的选择是用户从预先规定的多个样板中选择喜欢的样板，讲话内容的输入是用户任意输入讲话内容。其中，可输入的讲话内容可能对例如讲话的长度、语言、领域有一定的限制。语音数据生成处理部应用公知的语音合成技术来生成语音数据。
[0059]
而且，访问信息叠加部是将图像形式的所述访问信息叠加到所选择的图像上。其具体的形态例如是将一维码或二维码的访问信息叠加到所选择的图像上。通过读取所叠加的一维码或二维码，可以访问与图像相关联的语音数据，且可以播放该语音数据。上述实施方式中的语音保存服务器存储所生成的语音数据。图像存储处理部将叠加了访问信息的带有语音消息的图像存储于规定位置。上述实施方式中的网络打印服务器存储所生成的带有语音消息的图像。
[0060]
选择接收部、语音数据生成处理部、语音数据存储处理部、访问信息叠加部及图像存储处理部如下所示地构成。即，它们的功能的可以由cpu(central processing unit，中央处理单元)或mpu(micro processing unit，微处理单元)等处理器执行预先存储于存储器中的控制程序来实现。根据该形态，通过将包含处理器、存储器及输入/输出接口电路、通信接口电路等外围电路的硬件资源，与控制程序的软件资源有机结合来实现各功能。
[0061]
此外，对本发明的优选的形态加以说明。(ii)所述带有语音消息的图像的生成控制装置进一步具备：识别信息生成处理部，生成用于输出所述带有语音消息的图像的识别信息；识别信息提供处理部，将所生成的识别信息提供给用户。这样，用户可使用所提供的识别信息来访问带有语音消息的图像，输出带有语音消息的图像。
[0062]
(iii)所述选择接收部在受理所述讲话内容的输入的情况下，判定该输入是否包含针对应关联该讲话内容的图像所预先规定的禁用语，在包含所述禁用语的情况下，不允许所述语音数据生成处理部基于该输入生成语音数据。这样，通过预先规定与所有图像或所选择的图像对应的禁用语，可以抑制不适合该图像的内容的语音数据的生成。例如，如果预先规定与名人对应的禁用语，那么可防止用名人的语音生成不合适内容的消息，并保护名人的人格。
[0063]
(iv)所述带有语音消息的图像的生成控制装置进一步具备与外部设备进行交换
的通信部，所述生成控制装置构成为可执行以下操作中的至少任一项：所述选择接收部经由通信自外部设备受理所述图像的选择及所述讲话内容的选择或输入；所述语音数据生成处理部使外部设备生成所述语音数据；所述语音数据存储处理部将所生成的语音数据存储于外部设备中；所述访问信息叠加部使外部设备执行在所选择的图像上叠加所述访问信息的处理；所述图像存储处理部将所述带有语音消息的图像存储于外部设备中。这样，能够与可经由通信进行交换的外部设备协作生成带有语音消息的图像。
[0064]
还可以构成为可进一步执行以下操作中的至少任一项：所述识别信息生成处理部使外部设备生成所述识别信息，或者所述识别信息提供处理部向外部设备发送所述识别信息而提供给所述用户。这样，能够使用可经由通信进行交换的外部设备，将用于输出带有语音消息的图像的识别信息提供给给用户。
[0065]
(v)本发明的优选的形态包括一种用于生成带有语音消息的图像的处理终端，其具备：终端操作部，其受理图像的选择操作和关于应与该图像关联的讲话内容的选择或输入操作；终端通信部，其将所受理的图像选择和所受理的讲话内容的选择或输入发送到带有语音消息的图像的生成控制装置，并接收所述识别信息；终端显示部，其将所接收的识别信息提供给所述用户。上述实施方式中的移动通信终端相当于本形态中的处理终端。
[0066]
(vi)本发明的优选的形态包括一种用于播放与带有语音消息的图像相关的语音数据的处理终端，其具备：访问信息获取部，其从利用所述带有语音消息的图像的生成控制装置而生成、使用所述识别信息而输出的带有语音消息的图像中，获取所述访问信息；访问处理部，其使用所获取的访问信息来访问所存储的语音数据；语音播放部，其播放所访问的语音数据。上述实施方式中的移动通信终端相当于本形态中的处理终端。
[0067]
(vii)所述处理终端进一步具备信息提供部，其提供与位置、日期及时刻的至少任一种相关的信息，可以根据访问所述语音数据时的位置、日期、时刻的至少任一种，确定所要播放的语音数据的内容、播放时的音调及播放时的语调的至少任一种。
[0068]
(viii)本发明的优选的形态包括一种带有语音消息的图像的生成方法，其包括：处理器受理可提供的图像中任意者的选择和关于应与所选择的图像关联的讲话内容的选择或输入的步骤；生成所选择或输入的讲话内容的语音数据的步骤；将所生成的语音数据以可访问的方式存储的步骤；将所存储的语音数据的访问信息叠加到所选择的图像上的步骤；将所述叠加了访问信息的带有语音消息的图像以可输出的方式存储的步骤。
[0069]
本发明的优选的形态包括上述多个形态的任意组合。除了上述实施方式以外，本发明还可以有各种变化例。这些变化例不应被解释为不属于本发明的范围。本发明应包括与权利要求同等的含义及在上述范围内的所有变化。附图标记说明
[0070]
10：生成控制装置、11：选择接收部、12：语音数据生成处理部、13：语音数据存储处理部、14：访问信息叠加部、15：图像存储处理部、16：识别信息生成处理部、17：识别信息提供处理部、18：通信部、20：移动通信终端、21：搜索词输入栏、22：讲话内容输入栏、29：信息提供部、30：前端服务器、40：语音合成服务器、50：语音保存服务器、60：网络打印服务器、70：图像处理装置、80：带有语音消息的图像、81：二维码。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：中井康博村上光一田中义朗中谷隆哉叶尚幸
技术所有人：夏普株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。