用于通信的方法以及通信设备的制作方法

文档序号：2830107阅读：331来源：国知局

专利名称：用于通信的方法以及通信设备的制作方法
用于通信的方法以及通信设备本发明涉及用于通信的方法以及通信设备，尤其涉及对话系统。人机界面领域中的最新发展导致了通过设备和该设备的用户之间的对话来进行操作的技术设备的广泛使用。一些对话系统基于视觉信息的显示以及由用户所做出的手动交互。例如，几乎每个移动电话都是通过基于移动电话显示屏中的显示选项，以及用户按下合适的按钮以选择特定的选项来操作对话而操作的。此外，存在基于语音的对话系统，或者至少部分地基于语音的对话系统，其允许用户输入与对话系统的口头对话。用户可以发出口头指令并且从对话系统接收视觉的和/或可听见的反馈。一个这种实例可以是家用电器管理系统，在其中用户发出口头命令来激活例如录影机的设备。这些对话系统的共同特征在于用于记录和处理声音输入，并且用于生成合成语音以及向用户提供合成语音的音频接口，该声音输入包括语音。除了上述对话系统之外，可以用另外的通信设备，该设备的特征在于用于向用户报告信息的语音输出，而不是用户实际上可以输入与该设备的对话。因此，以下，将能够生成并且输出合成语音的设备和系统称为"通信设备"，从而对话系统是这种通信设备的特定地优选的变体，因为对话系统在用户和系统之间提供非常自然的双边交互。做了许多尝试，以通过同时显示对应的面部动画，例如通过显示合适的唇部运动，来支持对合成语音的理解。从二十多年前就开始进行研究，以将人为性状的面部动画与合成语音结合，从而创建人为的"说话的头"。在支持说话动画代理(talking animated agent)的市场上有若干产品。重要的问题是语音与相关的唇部运动的同步。对于更开放的声音，例如/a/，嘴巴需要张开得很宽，对于其它声音，例如/i/，嘴巴需要适当地闭合，对于/u/，嘴巴闭合并且变圆，等等。如果同步成功，则合成语音易于理解，否则如果同步偏离，甚至会变得更难理解例如，如果在声学上合成了/b/，而在显示屏上显示了属于/g/的唇部运动，视觉刺激通常占主导作用，从而用户更有可能错误地理解合成语音。另一个问题是语音与相关的面部和身体姿势之间的同步。尽管各文化之间存在差异，但是通常通过更高的语调和/或诸如抬起一个或者两个眉毛、耸肩等等来强调重要的词语。可以通过在句末提高语调，并且通过直接看着对话伙伴，通常伴随着进一步睁开眼睛，来强调提问。这里，正确的同步可以帮助理解，而同步"偏离"实际上会损害对合成语音的理解。目前为止，类似的研究和商业发展集中于实现面部表情并且尤其是唇部运动的更自然的举止表现。可用性实验室中复杂并且昂贵的仿真显示如果语音与视觉提示之间的同步不完美(即，不对应于来自人与人交流的经验)，将降低语音的可理解性。如果动画性状不足以反映声学韵律(prosodic)提示，即与人的举止表现不相似，该代理的用户所做出的理解总体上将会更困难。尽管进行了许多研究，创建可信的多模代理的困难仍然存在。一个主要原因是由于交流在人类历史中具有重要角色，人们对于面部表情以及其它非言辞的提示极其敏感。因此本发明的目的是为了提供用于通信的方法以及通信设备，其对语音输出提供一致的并且有支持力的视觉增强。在根据本发明的用于通信的方法中，从通信设备声学地输出合成语音。与该合成语音输出同时，发射光信号，其取决于输出的合成语音的语义内容。本发明之下的实验显示出通过对这种抽象语音表示的视觉化，增加了对于输出合成语音的理解。特别地是当用户，即听众和观众，学习了如何同时解释合成语音和光信号的情况下。通过观察输出信息之后进行自动学习。特别当输出光信号与对应于输出合成语音的唇部运动/面部姿势之间不存在相似性时，可获得本发明的优势。本发明尤其基于以下知识在视觉支持语音理解的过程中，重要的是避免在声学上与输出语音相冲突的输出视觉信号，例如当在显示屏上视觉显示属于/g/的唇部运动的同时，声学上将/b/呈现给用户。迄今，已知的方法都不能确保在视觉支持语音理解的过程中避免这种"陷阱"。只有现在才有可能用根据本发明的方法来避免这种陷阱。这还因为在第一次使用该方法之前，用户没有记住语音和输出光信号之间的联系，从而没有错误理解的可能。从属权利要求以及后续描述特别地公开了本发明的有利的实施例和特征。根据本发明，取决于输出的合成语音的语义内容来输出光信号。然而，优选地，该输出光信号还取决于韵律内容，尤其是与语义内容有关的韵律内容。术语"韵律内容"意味着除了实际语音声音之外的语音特点，例如定调(pitch)、节奏以及音量。通过这种韵律元素，还带来了语音的情感内容。此外，韵律元素还定义了语义信息，例如句子结构、语调等等。当前输出的光信号尤其取决于当前输出的合成语音。用于确定合适的光信号模式的适当的上下文可以是整个讲话、句子以及按照句法确定的句子元素，例如短语。可替换地或者此外，输出光信号可能仅涉及当前输出的词语或者语音声音。优选地，输出光信号的颜色、强度和持续时间和/或形状(轮廓或外形)取决于输出的合成语音。在本发明的特别优选的实施例中，输出光信号对应于或者基于预先定义的，优选抽象的，光的模式。术语"抽象的"是指无法尝试通过光的模式来表示输出的合成语音的唇部运动或面部姿势。光的模式可以包括用于描述要输出的光信号的参数的集合。应用这种简单的光的模式可以相当大地增加本发明的成功性。光的模式优选仅包括比较低的光分辨率。光的模式优选包括小于50个光场，更优选的是小于30个，甚至更优选的是小于20个，尤其优选的是小于10个光场。在本发明之下的试验中，已经证明用户可以容易地学习实现5到IO个光场的实施例，同时还提供了对语音理解的有效支持。优选地，光场具有一些维度和形式。特别地，可以通过由个别光场所发射的光信号的颜色、强度和持续时间来定义光的模式。此外，还可以通过涉及由个别的光场所发射的光信号的颜色、强度和持续时间在一段时间内的表现，以及涉及在特定时间由光场所发射的光信号的空间排列的信息来定义光的模式。还可以通过连续出现或者同时出现的光的模式的集合来定义光的模式。光场优选包括一个或者多个彩色LED (发光二极管)。根据本发明，发射的光信号取决于输出的合成语音的语义内容。为此，在语音生成过程期间，特别是通过输出计划模块或者通过语言计划模块，从输出文本和/或抽象表示，优选是输出文本、即要输出的文本的语义表示中，可以构造语义标签。可以通过对话管理模块，将输出文本和/或抽象表示转发到输出计划模块或者语言计划模块。从而可以将光的模式或者光的模式的集合分配给每个语义标签，从而通过对应于该语义标签的光的模式的输出来支持或者增强语音输出，该语义标签是之前根据输出文本和/或输出文本的抽象表示来构造的。因此，每个标签，尤其是每个语义标签，触发特定光的模式的输出。在若干标签在语音片断中同时出现的情况下，优选通过组合或者覆盖合适的光信号，组合地或者并行地输出若干对应的光的模式。例如，句子等级标签可以确定以哪种普通颜色、显示词语等级模式的光的模式。提问可以具有与陈述的颜色(例如绿色)不同的基本颜色(例如红色)。类似地，对话状态标签还可以影响光的模式 (例如，可以将降低的总体光强度给予对仅以低信赖等级识别的输入的响应)。词语和音素标签或者光的模式可以被分别覆盖在更普遍的标签或者光的模式之上。因此，实现了所实施的可视化不——或者不仅——实现了对自然嘴型的抽象化，而且进一步实现了用于增强用户对于合成语音输出的理解的抽象化模式。i^吾义标签同时优选基于预定义的语义标准来描述语义内容。例如，以下语义标签可以个别地或者组合地被定义为对话状态标签，例如一需要确认(输出的合成语音是否需要确认？)；一信赖等级临界值(critical)(是否是信赖等级临界值？)；一系统信息输出(输出的合成语音是否包括系统信息？)句子等级标签，例如一输出的语音是否包括自信陈述？一输出的语音是否包括礼貌陈述？一输出的语音是否包括不确信陈述？一输出的语音是否包括提问形式的礼貌陈述？—输出的语音是否包括开放性提问？一输出的语音是否包括带修辞的提问？一输出的语音是否包括礼貌的命令？一输出的语音是否包括严厉的命令？一输出的语音是否包括功能性的重要句子，即这个句子是否对于成功地进行对话有重大意义？一输出的语音是否包括礼貌的句子？一输出的语音是否包括敏感的句子，即这个句子是否包括个人敏感的信息？词语/短语等级标签，例如一输出的语音是否包括通信关键字？(即，如果错误地理解这个词语的意思，那么整个句子的意思就错了) 一输出的语音是否包括中心动词短语？一输出的语音是否包括与中心短语相关的宾格短语？ —输出的语音是否包括动作的动词短语？随后可以通过回答"是"或"否"或者通过量化的陈述，例如0 到100之间的数字，来定义对于特定标准的语义标签，由此与用"是"来回答对应提问的确定性成比例，该数字较大。可以将光的模式分配给每个提问的每个可能的回答。光的模式与词语和音素关联的进一步的实例可以是一涉及POS (语音的部分)的标签(动词、名次、代词等等)例如，可以将不同的光的模式形状分配给各种类型的词语；一涉及元音的标签例如，可以将具有更大的光强度的光的模式分配给所有元音，或者可以将具有不同强度的光的模式分配给不同元音；一涉及摩擦音的标签将不同的光的模式分配给不同摩擦音。根据优选的实现方式，发射的光信号取决于输出的合成语音的韵律内容。这尤其应用于具有语义显著性的韵律内容。例如，通过诸如逗号、感叹号、问号等的标点符号来分解句子，通常通过肯定句段的语调，或者通过在句末升高或降低声音来引入这些标点符号。自然地，除了当发射光信号时具有语义显著性的韵律标志或标签之外，还可以考虑其它韵律标志或标签一例如说话者的情绪。连同通信方法，本发明还包括通信设备。根据本发明的通信设备包括用于输出合成语音的语音输出单元，以及用于输出光信号的光信号输出单元。实现了处理器单元，从而根据输出的合成语音的语义内容来输出光信号。此外，该通信设备可以包括语音合成单元，例如文本一到-语音(TTS)转换器，例如作为语音输出单元的一部分或者在语音输出单元之外。该通信设备可以是对话系统或者对话系统的一部分。为了从输出文本和/或抽象表示构造语义标签，该通信设备优选包括语言计划单元或者输出计划单元。根据本发明的优选实施例，该通信设备包括用于存储语义标签以及存储分配给该语义标签的光的模式的存储单元。对应于独立方法权利要求的设备权利要求的进一步的发展也在本发明的范围之内。该通信设备可以包括任意数量的模块、组件或单元，并且可以以任意形式分布。结合附图考虑以下详细描述，本发明的其它目的和特征将会变得显而易见。应该理解的是，附图仅仅是为了示例的目的而画出的，而不是作为对于本发明的限制。

图1是对话系统中的信息流图；图2是通信设备的方框图。图1示出了根据本发明的通信设备的通信方法的信息流，特别是例如，由对话系统所输出的合成语音的信息流，该语音受光信号输出支持。这里，对话系统是通信系统的实例。首先，对话系统DS的对话管理模块DM决定采取输出动作。在下一步中将对应于这个输出动作定义的输出动作信息oai转发到对话系统DS的输出计划模块OP。输出计划模块OP选择合适的输出模态，并且将对应的语义表示 sr发送到对话系统DS的模态输出提供模块。该图作为模态输出提供模块的实例示出了语言提供模块LR、图形和运动计划模块GMP以及光信号计划模块LSP。例如，输出计划模块OP将要由该系统说出的句子的语义表示 sr发送到语言提供模块LR。在那里，将语义处理成(可能在添加有元标签(meta-tag enriched))文本，随后将该文本转发到语音提供模块SR，该模块具备用于输出所提供的语音的扬声器。因此，将句子的语义表示sr转换成图形和运动计划模块GMP 中的视觉信息，然后将该信息转发到图形和运动提供模块GMR，并且在其中提供视觉信息。'在光信号计划模块LSP中，将句子的语义表示sr转换成对应的光的模式，然后将该光的模式转发到光信号提供模块LSR，并且输出为光信号ls。在这个对话系统DS中，同样地，通过输出计划模块OP来直接分析语义表示sr，以创建时间同步控制流，然后通过语音提供模块 SR、光信号提供模块LSR以及图形和运动提供模块GMR来处理该控制流并且将其转换成音频-视频输出。图2的框图显示了通信设备，尤其是对话系统DS。对话系统 DS再次包括用于输出合成语音的语音提供模块SR，以及用于输出光信号的光信号提供模块LSR。配备有必要的软件的处理器单元对要输出的语义表示sr进行分析，以便提取用于表征输出语音的语义标签。将可提取的语义标签与分配给这些标签的光的模式一起存储在存储单元SPE中，可以通过处理器单元PE来访问存储单元SPE。以可以访问存储单元SPE，从而检索与从输出语音提取的语义标签关联的光的模式的方式，实现处理器单元PE。这些光的模式或者合适的控制信号被转发给光信号提供单元LSR，以便相应的光信号的输出可以生效。相应语音的输出在语音提供模块SR中同时生效。此外，将处理器单元PE实现为可以执行文本一到一语音(TTS) 转换器、用于提取语义标志的语音分析过程、输出计划模块OP以及对话管理模块DM的基本功能。尽管通过优选实施例及其变体来公开了本发明，应该理解的是，在不脱离本发明的范围的情况下可以对其做出多种额外的修改和变形。例如，所述的输出提供模块仅仅是示例性的，本领域的技术人员可以在不偏离本发明的范围的情况下对其进行补充和修改。为了简洁起见，应该理解的是贯穿这个申请所使用的"一"或 "一个"不排除多个，并且"包括"不排除其他步骤和元素。
权利要求
1、一种通过通信设备(DS)来通信的方法，其中，从所述通信设备(DS)输出合成语音(ss)，并且其中，根据所述合成语音(ss)的语义内容，与所述合成语音(ss)同时输出光信号(ls)。
2、如权利要求1所述的方法，其中，所述输出的光信号(ls) 取决于所述合成语音(ss)的韵律内容。
3、如权利要求1或2所述的方法，其中，所述输出的光信号(ls) 的颜色取决于所述合成语音(ss)。
4、如权利要求1到3中任意一个所述的方法，其中，所述输出的光信号(ls)的强度取决于所述合成语音(ss)。
5、如权利要求1到4中任意一个所述的方法，其中，所述输出的光信号(ls)的持续时间取决于所述合成语音(ss)。
6、如权利要求1到5中任意一个所述的方法，其中，所述输出的光信号(ls)的形状取决于所述合成语音(ss)。
7、如权利要求1到6中任意一个所述的方法，其中，所述输出的光信号(ls)基于之前的光的模式。
8、如权利要求1到7中任意一个所述的方法，其中从输出文本和/或所述输出文本的抽象表示(sr)来构造语义标签，将光的模式分配给每个语义标签，以及与所述合成语音(ss)同时输出所述光信号(ls)，其中，所述光信号(Is)对应于分配给所提取的语义标志的所述光的模式。
9、一种通信设备(CD)，包括语音输出单元(SR)，用于输出合成语音(ss)，光信号输出单元(LSR)，用于输出光信号(Is)，以及处理器单元(PE)，其被配置为使所述输出的光信号(Is)对应于所述输出的合成语音(ss)的语义内容。
10、如权利要求9所述的通信设备(CD)，包括处理器单元(PE)，用于从输出文本和/或所述要输出的文本的抽象表示(sr)来构造语义标签。
11、如权利要求9或IO所述的通信设备(CD)，包括存储单元 (SPE)，用于存储所述语义标签，并且用于存储分配给所述语义标签的光的模式，从而将所述处理器单元(PE)实现为使所述输出的光信号(Is)基于分配给所述语义标签的光的模式，从所述输出文本和/或所述输出文本的抽象表示(sr)来构造所述语义标签。
12、一种对话系统，包括根据权利要求9到11中的任意一个所述的通信设备。
全文摘要
本发明描述了通过通信设备(DS)来通信的方法，其中从该通信设备(DS)输出合成语音(ss)，并且其中根据该合成语音(ss)的语义内容，与该合成语音(ss)同时输出光信号(ls)。此外，描述了合适的通信设备(DS)。
文档编号G10L13/04GK101268507SQ200680025240
公开日2008年9月17日申请日期2006年7月3日优先权日2005年7月11日
发明者H·舍尔, T·波尔特莱申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T.波尔特莱;H.舍尔
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人