用于发送音频消息的方法和系统的制作方法

文档序号:2829001阅读:234来源:国知局
专利名称:用于发送音频消息的方法和系统的制作方法
技术领域
本发明涉及一种用于发送音频消息的方法以及一种适当的音频消息传送系统,该方法通过音频消息传送系统将音频消息从发送方发送到接收方。本发明进一步涉及一种用于这种音频消息传送系统的发送装置和接收装置。
自从基于文本的消息传送服务在几年前被引入,它正变得越来越流行。非常流行的短消息传送服务(SMS)正是这种服务的一个例子。比如AOL的Instant Messenger、微软的MSM Messenger以及雅虎的Messenger for PCs的文本新闻系统可以在下载所需的免费软件后被免费使用。一些这种基于PC的消息传送供应商除了提供文本消息传送服务以外,还提供语音聊天功能。另外,一些其它提供商专门从事语音聊天业务,最终带来因特网语音(voice-over-IP(因特网协议))的构思。
语音聊天功能与文本消息传送之间的一个值得注意的区别在于,对用户来说,进行显式的交互是有可能的,例如通过选择聊天窗口并在其中打字或者通过诸如书写word文档并将其发送出去的操作。另一方面,语音交互是被连续发送的,即发生不中断的互换。这常常是用户实际上并不希望的,例如,当他与其它人在房间中并且只想将特定话语作为消息发送时就是这种情况,而他针对房间内的其他人的话语通常不应被传送。一般的电话可以使用户通过用手遮住麦克风或者将电话切换到静音来解决这个问题。很显然,当使用免提电话或者耳机时这就不可能了。消息接收方也有类似的问题,利用基于文本的消息传送服务,即使当同一个房间里有第三方时也可以通过阅读第三方无法看到的屏幕或显示器来阅读私人消息,但是要确保可听消息不被第三方听到几乎是不可能的,除非该消息是通过双耳式耳机被收听的。
文本消息传送系统看来确实比语音聊天功能具有更高的接受程度。这可能归因于用户实际上往往并不想要持久的对话过程。一方面,他们希望能够与其他人建立联系。另一方面,他们可能同样想要在离线模式下进行联系,在离线模式下,他们不会持久地处于正在进行的对话中,在该对话中他们的所有话语都被传送。
因此,本发明的一个目的是提供一种用于发送音频消息的方法以及一种适当的音频消息传送系统,该方法通过音频消息传送系统将音频消息从发送方发送到接收方,该音频消息传送系统为用户提供与文本消息传送系统基本相同的体验。特别地,用户应当能够容易地发送特定的语句作为音频消息,同时防止其它语句由该消息传送系统发送出去。
为此目的,本发明提供一种用于通过音频消息传送系统将音频消息从发送方发送到接收方的方法,该方法包括如下步骤首先,发送方的音频消息被发送装置收集。该消息通常是通过由发送方说出该消息而产生的。然而,发送方也可能以其它方式产生该消息或该消息的各部分,例如通过唱歌、演奏乐器、拍手等等。
然后,该音频消息将被分析,以便检测在下文中也称为“音频报头”的控制信息部分,该部分包括诸如消息的通信规范的细节的指示;此外还检测包括要被发送到接收方的有效消息或有效信息的主要部分,该部分在下文中也称为“音频主体”。
术语“发送方”和“接收方”不一定意味着单独用户,而是可以指代用户组、这样的组中的一个成员或所有成员。用户组可以利用单个共享发送或接收装置,例如,该装置所属的家庭成员,或者使用为办公室指定的装置的该办公室内的雇员。用户组还可以指这样一组用户,其中每个人都有自己的装置,在这种情况下,针对该用户组的消息将被发送至所有的接收装置。
合并在控制信息部分中的消息的通信规范可以是任何一种传输和/或呈现规范,例如消息类型和/或发送模式,其规定该消息是保密的、私人的、紧急的等等。控制信息部分还可以包括用于发送方标识或者指定消息接收方的信息。例如,典型的音频报头可以是“Bob致Carl的私人消息”。音频消息的该控制信息部分至少被部分地翻译,以用来控制音频消息传送系统对特定音频消息的发送和/或呈现。例如,用于发送装置和/或接收装置和/或音频消息传送系统的其它部件(比如收发站、路由器等)的控制信号可以基于该控制信息部分来生成。
在另一个步骤中,至少音频消息的主要部分被发送到位于接收方附近的接收装置,并在那里被呈现给接收方。
一种根据该方法的用于将音频消息从发送方发送到接收方的适当的音频消息传送系统包括发送装置和消息分析装置,该发送装置具有用来收集发送方的音频消息的用户接口,该消息分析装置分析该音频消息,以便检测关于该音频消息的通信规范的控制信息部分和包括要被发送至接收方的实际消息的主要部分。此外,该音频消息传送系统包括翻译单元,其用来至少部分地对音频消息的控制信息部分进行翻译,以便对该音频消息传送系统进行控制,以用于传送特定的音频消息。另外,该音频消息传送系统包括具有用户接口的接收装置,以用于至少将音频消息的主要部分呈现给接收方。最后,该音频消息传送系统需要用于至少将音频消息的主要部分从发送装置发送到接收装置的装置。
在根据本发明的方法和音频消息传送系统的帮助下,用户通过包含在音频消息中的命令来控制该音频消息传送系统,从而避免了对他所说的全部内容的连续传输。换句话说,用户可以在话语中与消息的实际音频内容一起为系统提供“元信息(meta-information)”。该系统相应地分析该音频消息,并且将包含控制信息的音频报头与具有任何要被传输的话语的音频主体分开。如果该系统不能检测具有适当指示(其表明以特定方式将消息传送给特定个人)的音频报头的话,就什么也不会被发送。
这将在下面的简单例子中被解释假设系统的用户说“致Carl的消息足球比赛在下午7点开始”,该话语将由发送装置的用户接口拾取并且被分析。音频报头“致Carl的消息”将被检测和翻译,消息“足球比赛在下午7点开始”将被发送至被称为“Carl”的接收方。另一方面,如果用户简单地通过话语“Pete,你知道吗,足球比赛在下午7点开始”告诉房间内的另一个人关于比赛的开始时间,则被激活的音频消息传送系统或者相应的发送装置就会基于对该语句的分析推断其中不包括音频报头。因此,该语句就不会被识别为音频消息,并且不会被发送出去。
因此,本发明提供一种特别简单并且用户友好的控制所述系统的装置,从而只有特定的语句被音频消息传送系统发送给其它人,而不需要事先停用该系统或该系统的某些部件(例如麦克风或扬声器)。此外,进行发送的用户可以关于消息的发送和呈现对该系统进行控制,其中可以通过适当制定音频报头将所有控制指示方便地包括在消息中,而无需用户执行任何手动操作。换句话说,音频消息传送系统的整个控制可以利用免提机而被舒服地执行。因此,这种系统提供优于例如在自动免提机中的一般移动电话的普通语音控制的优点,其中可以利用语音命令启动和控制与其他参与方的连接,但是此后在用户与参与方之间保持永久连接。用户的所有语句都被传送给其他参与方,并且只有通过发出适当命令或者通过盖住麦克风等才能使电话静音。
各从属权利要求和接下来的说明揭示了本发明的特别有益的实施例和特征。
在本发明的一个优选实施例中,音频消息的控制信息部分也被至少部分地发送至接收装置并且被翻译出来,以用于控制将音频消息呈现给接收方。换句话说,在音频报头的帮助下,接收装置接收适当的信息,例如关于何时、如何以及向哪个(哪些)用户输出音频消息或者音频消息的音频主体。优选地,音频报头也可以至少部分地被输出给接收方。
由于控制信息部分优选地涉及用户说出的命令,因此自动语音识别技术可被用来识别音频消息中的控制信息部分,其中在这种情况下,自动语音识别并不严格意味着语音识别,而是意味着语言理解技术。为此,发送装置应该包括自动语音识别配置。
为了帮助对音频消息中的控制信息部分进行识别,该音频消息优选地以已定义的复合结构建立,其中,控制信息部分被定位在相对于主要部分的特定位置。更优选地,控制信息部分被定位在音频消息的开头,后面跟着是主要部分。这样配置的优点在于,控制信息部分首先被语音识别配置检测到,后面的主要部分只需要被缓冲或者准备被发送。然而,控制信息部分可以被定位在消息中的任何合适的位置处(例如消息的末尾),或者控制信息部分可以分布在消息中的几个位置处,使得某些控制信息被定位在消息的开头,另外的控制信息则被定位在消息的靠中间位置或末尾。
在自动语音识别器的帮助下的音频消息的分析可能包括例如搜索可能被音频消息传送系统存储在适当存储器(比如发送装置或接收装置中的存储器单元)中的某些关键字。这些关键字的典型例子可以是“消息”、“致...的消息”等、对于消息的可能接收方的描述符以及指定消息类型或传输方式的关键字,比如“保密”、“私人”或者“紧急”。
为了使消息的传输尽可能容易,将唯一的标识符串与音频消息传送系统的可能用户或用户组相关联。这样的唯一标识符串可以包括例如用户的真实姓名,或者同样可以是隐藏不同用户的身份的任何其他串。特别地,可以利用单个串整体标识整个用户组。优选地使用能被其他用户容易地回想起来的昵称或幻想的名字。这些昵称被包括在系统的词汇表中,并且可以被用来只通过说出其昵称就可以很高效地在音频报头中表示该用户。此外,可以这样定义各组,其中如果音频报头包含该组的名称,则该组中的所有联系成员都将接收到该消息。
优选地,可能的接收方的标识符串与相应的地址簿条目一起被存储在发送装置的存储器中,并且如果需要的话,还可以被存储在接收装置或音频消息传送系统的其他适合的位置处。
音频消息经常会被同时发送给很多人。在一个较长的对话中,相同的接收方列表将被频繁使用。当说出音频报头时,对用户来说,如果每次都必须说出所有接收方的所有名字将是很不方便的。因此,动态地将昵称或其它标识符串与相关地址簿条目的列表相关联将使得消息的发送更加舒服。
优选地,比如“回答”或类似的关键字被用来在音频报头中表示相关音频消息应该被发送到上次接收的信息的发送方,并且可能应当被发送到上个消息被发送到的所有用户。
所述发送装置优选地被实现为对话系统,其包括这样的对话系统或者这样的对话系统的一部分。在这个特别优选的实施例中,可以在音频消息传送系统(更优选地是该发送装置)与发送方之间启动自动对话,以便当自动语音识别器的识别结果的模糊度值(比如基于内部置信度量度)达到或超过某个模糊度阈值水平的时候,识别音频消息的控制信息部分。
换句话说,如果系统对于消息是否要被发送、要被发送给谁或者应该以什么方式被发送不确定的话,该系统可以向用户发出提示以便请求确认,或者可以进入与用户的对话以便允许校正所假定的音频报头。通过这种方式,该系统确保没有消息被无意地发送或者被发送给错误的接收方。
正如已经提到的那样,在一个优选实施例中,控制信息部分也被至少部分地发送至接收装置,该控制信息部分在那里被翻译以用来控制音频消息的输出。当关于接收方的标识的信息(例如标识符串)也被发送时,这是特别有用的。在该标识符串的帮助下,在音频消息的音频主体的音频消息输出发生之前,可以在接收装置处识别所述用户。
为此,在一个特别优选的实施例中,用户或用户组的标识符串被链接到特定用户、用户组或用户组成员的标识符特征。所述标识符特征可以是例如保密字符序列、说话者标识符特征和/或视频特征(比如适当用户的生物测定数据)。在这些标识符特征的帮助下,可以在输出特定音频消息的主要部分之前,在接收该消息时从该接收装置附近的其他可能用户当中识别出该特定音频消息的经授权的接收方。
优选地,所述标识符特征可以被存储在接收装置可访问的存储器中,并且该接收装置包括基于这些标识符特征来识别接收方的装置。
一种可能性是,摄影机观察房间里的人,并且在生物测定数据的帮助下利用已知的图像处理技术识别接收方的面部。
或者,该装置可以声学地识别该用户。例如,可以输出音频报头,随后进行适当的提示。如果用户回答,则可以通过说话者标识将该用户识别为正确的用户。只有当该用户被成功验证后该消息才被输出。
在一个优选实施例中,音频消息的发送方可以通过标识符特征而被识别,并且关于该发送方的相应信息可以与音频消息一起被发送。只要发送方已经在音频报头中标识了自己(例如以“Bob致Carl的消息”的形式),就可能在标识符特征的帮助下检测发送方的有效性。
通常,音频消息由于其话题性而应该被立刻输出至经授权的接收方。然而,存在这种情况,其中所述输出可能不合适,例如当应该输出保密或私人消息而接收方不是单独在房间内或者忙于其它事情并且不能接收该消息时。这可能是由于接收方正在谈话或者正在打电话。考虑到这种情况是特别重要的,因为此时不能接受音频消息。如果用户不在房间内或者没有注意到而消息又立刻被输出,那么该消息就被不可挽回地丢失了。
为了解决这个问题,根据本发明的一种优选方法自动分析所识别的接收方当前正处于的状况,根据该状况,以特定形式和/或在特定时间将该音频消息呈现给接收方。例如,如果接收方在场并且没有忙于吸引其注意力的事情(比如电话交谈),则呼入的消息可以被立刻播放。否则,该消息可以被缓存,并且当用户一进入房间或者一结束他的事情时,该消息就被播放出来。如果在较长的消息中需要中断(比如由于有电话呼入),则可以在以后的某时刻进行重放。
存在不同的对接收方当前所处状况进行自动分析的方法。在一个优选实施例中,一种特别令人满意的接收装置被实现为对话系统,该对话系统具有利用摄影机或类似装置接收其环境照片的附加能力。然后,利用公知的图像处理技术,接收方的身份和/或当前情况能够被确定。识别接收方和/或分析当前情况的一种非常简单的方法是在音频消息传送系统/接收装置与接收方之间启动自动对话。例如,该装置可以在上述对话之前输出音频报头“致Carl的消息”,然后发出提示“您准备好接收该消息吗?”。如果用户回答“是”,则该消息就被呈现,否则该消息就被缓存,直到用户后来明确请求该消息。
正如已经描述的那样,除了位于发送方附近的发送装置之外,所述音频消息传送系统还需要位于实际接收方附近的接收装置。
一种适当的发送装置应当至少包括如下组件-用户接口,用来收集发送方的音频消息;-消息分析装置,用来分析该音频消息,以便检测关于该音频消息的通信规范的控制信息部分,以及包括将被发送给特定接收方的有效消息的主要部分;-翻译单元,用来至少部分地翻译该音频消息的控制信息部分,该控制信息部分在音频消息传送方面控制该音频消息传送系统;-发送接口,用来至少将该音频消息的主要部分发送给接收装置。
一种适当的接收装置应当至少包括如下组件-接收接口,用来接收由发送装置发送的音频消息,该音频消息包括关于该音频消息的通信规范的控制信息部分以及包括将要被发送给特定接收方的有效消息的主要部分;-用户接口,用来至少将该音频消息的主要部分呈现给该接收方;-翻译单元,用来至少部分地翻译该音频消息的控制信息部分,该控制信息部分在音频消息呈现方面控制该音频消息传送系统。
正如已经在上面解释过的那样,所述发送装置和/或接收装置优选地被实现为对话系统。所述发送装置和接收装置可以被构造得完全相同,并且可以包括用于发送和接收消息的所有必要组件。用于其它目的(比如控制其它装置)的对话系统可以配备适当的组件,从而使得这样的对话系统可以被用作根据本发明的音频消息传送系统的发送装置和/或接收装置。
在一个特别优选的实施例中,所述发送装置和接收装置包括如在DE 102 49 060 A1中所描述的对话系统的部件。在这种情况下,该对话系统只需要进一步配备适当的消息分析装置、翻译单元和发送器/接收器接口,从而能够通过通信网络来传输音频消息。所述消息分析装置实质上可以是已经在该装置中存在的语音识别单元,其配备有适当的词汇表以用于检测音频报头。用来翻译音频消息的控制信息部分的翻译单元优选地可以被实现为实际对话控制单元内的软件例程,或者可以被实现为运行在该对话系统的处理器上的不同形式的软件。该翻译单元必须能够将包含在音频报头中的控制指示转换为控制信号,从而能够按照预定方式将该消息从发送方的发送装置发送到接收方的接收装置,或者能够通过该接收装置以正确的方式将接收到的消息呈现给正确的接收方。
本发明的其它目的和特征将会通过下面结合附图进行的详细说明而变得显而易见。然而,应当了解的是,附图只是为了解释的目的而设计的,其并不作为对发明的限定。


图1是根据本发明的音频消息传送系统的一个实施例的示意图;图2是用于根据图1的音频消息传送系统的发送和/或接收装置的一个优选实施例的透视图;图3示出了具有根据本发明的结构的音频消息的一个简单例子;图4是示出了在发送装置中从用户输入开始直到音频消息的发送的处理流程的流程图。
图1示出了一种音频消息传送系统,为了简便起见,其只具有两个装置,即位于发送方US附近的发送装置2T和位于接收方UR附近的接收装置2R,其中,发送装置2T和接收装置2R通过网络N被彼此连接。
通信网络N可以是任意一种网络,比如电话网、移动电话网、因特网、办公室内联网或者家庭通信网络。其中只需要两个装置2T和2R能够通过适当接口14相互通信。
通常,这样的音频消息传送系统1包括多得多的装置。任何数量的装置都可以被合并在其中。特别地,不必将某个消息仅仅从一个特定装置发送到另一个装置。这样的消息可以被同时发送到几个装置,例如将消息从一个用户发送至用户组(即许多接收方)。
在所示的实例中,发送装置2T和接收装置2R通常以相同方式制造,即它们既可以被用于接收音频消息也可以被用于发送音频消息。附图标记2T和2R只是为了清楚起见来区分接收装置2R和发送装置2T。一般来说,还可以在相反的方向上发送消息。因此,为了简化问题,在适当情况下也将所述装置称作“收发装置”2T、2R。
按照一种有利的配置将这样的收发装置2T、2R构造成对话系统。
与其它未被显示在图中的其它组件一起,这种对话系统包括用户接口10,该用户接口10具有用来通过麦克风等等从用户那里拾取或者收集诸如语音或歌唱的音频信号的配置。该用户接口10还具有声学输出配置12,比如扬声器。此外,用户接口10可以包括用于视觉输出或输入的组件,比如显示器和/或摄影机。
在图2所示的一个优选实施例中,用户接口是可移动的(例如可以围绕一个轴旋转)并且被安装在外壳18上,该外壳可能包含收发装置2T、2R的任意其他组件。用户接口10具有可清楚辨认的正面17,其包括扬声器12、两个麦克风11和摄影机16。此外,该实施例可以包括显示单元(图中未示出),以用于信息的视觉输出。具有这种显示单元的一个优选对话系统是在DE 102 49 060 A1中描述的家庭对话系统,在这里合并其全文以作参考。将在下面解释通过收发装置2T、2R的这种实现方式而实现的本发明的附加功能性优点。
收发装置2T、2R的其他组件是音频控制单元8,其例如控制用户接口10的音频功能并且为后面的处理步骤准备呼入的语音信号。所述后面的处理步骤的一个例子是自动语音识别配置7,其包括实际的语音识别单元5,后面跟着是后续的语言理解单元6。在这些组件的帮助下,呼入的用户US的语音信号可以按照通常方式被分析和识别,即可以确定口头输入的底层含意。
语音识别结果随后被转发到对话控制单元3,其控制与用户的实际对话并且与在这里作为消息收发应用13的应用一起工作,以便发送或接收音频消息。该消息收发应用13与连接到通信网络N的物理网络接口14一起确保可以以适当的电子形式发送和接收消息。因此,消息收发应用13与网络接口14一起也可以被看作“接收接口”或“发送接口”,或者在适当情况下被看作“收发接口”。
由于为了允许与用户US、UR进行对话向用户进行输出是必要的,因此所述系统还具有提示生成器9以用于生成输出提示。这样的提示生成器9可以输出从存储器取回的预先生成的提示,或者可以包括语音生成单元,以用于将文本提示转换为语音信号,所述语音信号可以作为合成语音借助语音控制器8和用户接口12而被输出。
发送用户US的音频消息可以以以下方式被发送至接收方UR,接收方UR在该例中是另一个单独用户发送方US说出音频消息AM,该消息被收发装置2T的用户接口10检测到,或者更精确地说是被音频检测配置11检测到。所记录的语音信号然后被音频控制单元8预处理,并且被转发到自动语音识别单元5的内核,该自动语音识别单元5与随后的语言理解单元6一起分析用户US的语句。
根据本发明,这样的音频消息AM包括控制信息部分CP(音频报头)以及要被发送的实际信息(即所谓的主要部分MP)。该结构在图3中示出。这里所示的消息“致Carl的私人消息会议将在下午7点开始”包含控制信息部分CP“致Carl的私人消息”,后面是主要部分MP“会议将在下午7点开始”。
自动语音识别配置7被设置成能够识别控制信息部分CP并且将其与主要部分MP分离。为此,自动语音识别配置7的词汇表包括某些控制字CW,如果所述控制字在一定的句法中出现,则它们将被识别为属于音频消息AM的控制信息部分CP。
这些控制字CW被储存在接收装置2T的存储器单元15中。此外,该存储器单元15还存储标识符串IS,比如有可能是可能的接收方的该音频消息传送系统的各个用户的昵称。包括潜在接收方的昵称以及他们在音频消息传送系统1中的地址的相应的“好友列表”可以由发送装置2T的用户来组织。该列表可以被存储在发送装置2T中或者被存储在该音频消息传送系统1的其它位置处,例如被存储在服务供应商的服务器上。
在图中所示的实例中,音频消息AM的主要部分MP和控制信息部分CP都被从自动语音识别配置7传递到对话控制模块3,在该对话控制模块3中安装有例如具有软件例程形式的翻译单元4。该翻译单元4也可以访问存储器15中的控制字CW和标识符串IS,因此,其可以翻译音频消息AM的控制信息部分CP,以便生成用于音频消息传送系统1(特别是发送装置2T)的相应的控制信号,从而控制音频消息传送系统1(特别是发送装置2T)。如果控制信息部分CP不能被清楚地识别,则对话控制单元3通过例如使提示生成器9向发送方US发出适当的提示来启动对话,比如“您打算向Carl发送私人消息吗?”。在适当情况下,发送方US可以用简单的“是”或“不是”来回答,以便确认所推测的控制报头CP或者在错误地检测控制报头CP时终止所述程序。
如果该系统已经确定控制报头已被正确识别,或者如果用户已经通过随后的对话确认了所推测的控制报头,则附加在音频报头CP上的音频消息AM的主要部分MP就被发送到通过标识符串IS在音频报头CP中指定的接收方UR,在前面的实例中就是昵称为“Carl”的用户。
为此,对话控制单元3将主要部分MP以及优选地还有控制信息部分CP传递给消息收发应用13,并且同时传递任何相应的控制信号,从而可以经由网络N将音频消息AM传送到昵称为“Carl”的用户的接收装置2R的地址。控制信息部分CP和音频消息AM的主要部分MP随后经由连接到通信网络N的网络接口14被发送到接收装置2R。
在发送装置2T内的操作序列被显示在图4的流程图中。该处理从步骤I的用户输入开始。在步骤II中,通过适当的分析确定该用户输入是否包括音频报头CP,从而接下来的步骤III检查音频报头的全部所需部分是否都存在并且可以清楚识别。否则,步骤IV启动对话,即向用户提出问题并且分析回答,直到音频报头的全部所需部分都被识别。误翻译的一个典型例子可能由以下消息造成“致Julie的私人消息Ann,今天我们一起吃午饭好吗?”。这个消息可能被翻译成给出音频报头“致Julie的私人消息”和主要部分“Ann,今天我们一起吃午饭好吗?”,或者音频报头“致Julian的私人消息”和主要部分“今天我们一起吃午饭好吗?”。在这种情况下,系统可能会提示“您想要向Julian发送私人消息吗?”发送方US可以回答“不,我想向Julie发送私人消息”。这里,该回答通过指定第一种可能选项而澄清了误翻译。在步骤V,可以将音频主体(即主要部分MP)与音频报头CP分离。随后,在该对话中可能会有进一步的处理步骤。在上面的例子中,用户被提问是否还有其他信息要与音频消息AM一起被发送,即是否要发送图像或视频。其它附件同样可以伴随音频消息AM,比如文档。如果用户确认,则处理步骤VII可以确定哪个图像或视频将被附加到该消息。步骤VI中的另一个提示可以询问是否还有更多的图片、视频等要被添加。一旦消息完成,步骤VIII决定发送该消息。
在接收装置2R处,音频消息AM的控制信息部分CP和主要部分MP通过网络接口14被接收,并且由该装置中的消息收发应用13进行处理。消息的输出由对话控制单元3执行,如果必要的话还可以由接收装置2R的用户接口10的提示生成器9、音频控制单元8以及扬声器12执行。
为了避免在预定接收方UR不在房间内或者忙于其它事情或者与不应知道该消息的内容的其他人在一起时输出所述消息,接收装置2R预先分析所述情况。例如,可移动的用户接口(参见图2)可以旋转,以便在摄影机16的帮助下扫描整个房间。利用已知的图像处理技术,可以确定预定接收方UR是否在房间内。在与存储在所述存储器中的不同标识符串IS相关联的标识符特征IC的帮助下,可以识别预定接收方UR。
为此,伴随所述消息的标识符串IS被消息收发应用13或者接收装置2R的类似的适当模块使用,以便从存储器15中取回相应的标识符特征IC,并且利用这些标识符特征IC来识别接收方UR。所述标识符特征IC可以是用在图像处理中以便从房间内的其他人当中识别出接收方UR的生物测定数据。
同样地,也可以应用说话者标识特征。例如,在本例中,对话控制单元3可以确保只有音频报头CT(“致Carl的私人消息”)经由接收装置2R的音频控制单元8和用户接口10而被输出,随后是由提示生成器9生成的补充“您想立刻收听消息吗?”。当被这样问到的用户进行回答时,可以由语音识别单元5和所述语言理解单元分析所说出的回答,并且同时通过说话者标识来检查其有效性,从而将所提取的特征与存储器15中的信息特征IC进行比较,以便确定是否是正确的用户和经授权的接收方正在回答。
此外,在摄影机16和通常的图像处理技术的帮助下,可以确定用户是否在与其他人谈话、是否在打电话或者是否正处于使其不能接收消息的其他情况。
如果接收方UR不在房间内或者不能接收消息AM,则该消息被缓存并在以后的时刻被输出。如果接收方UR表明愿意私下收听该消息,则接收装置2R也将缓存该音频消息AM,并且直到接收方UR重新独自在房间内或者直到接收方例如通过佩戴耳机等方式而确保能够私下收听该音频消息AM时才播放该消息。
接收装置2R的用户接口10有利地将其正面17转向由接收装置2R识别的消息的经授权的接收方,也就是说,当输出对话提示或者音频消息AM或者音频消息AM的主要部分时,该接收装置2R转向到直接面对接收方UR。输出或利用接收装置2R或者发送装置2T的其它有利方式以对话系统的形式实现,其在文献DE 102 49 060 A1中被描述。
尽管以优选实施例及其变型的形式公开了本发明,但是应该明白,在不脱离本发明范围的情况下可以对其作出大量附加的修改和变型。特别地,可以例如利用与所描述的不同的体系结构来构造所述发送装置和/或接收装置。
为了清楚起见,还应该明白,本申请中的“一个”并不排除多个,“包括”一词不排除其他步骤或元件。除非被明确描述为单个实体,否则“单元”一词可以包括多个块或装置。
权利要求
1.一种用于通过音频消息传送系统将音频消息(AM)从发送方(US)发送到接收方(UR)的方法,包括如下步骤-利用发送装置(2T)收集发送方(US)的音频消息;-分析该音频消息(AM),以便检测关于该消息(AM)的通信规范的控制信息部分(CP)以及包含要被发送给接收方(UR)的有效消息的主要部分(MP),其中,该音频消息(AM)的控制信息部分(CP)被至少部分地翻译以便控制该音频消息传送系统(1),以用于传送该(特定)音频消息(AM);-至少将该音频消息(AM)的该主要部分(MP)发送到接收装置(3);-至少将该音频消息(AM)的该主要部分(MP)呈现给接收方(UR)。
2.根据权利要求1的方法,其中,所述音频消息(AM)的控制信息部分(CP)至少部分地被发送至所述接收装置(3)并且被翻译,以用于控制将该音频消息(AM)呈现给接收方(UR)。
3.根据权利要求1或2的方法,其中,所述音频消息(AM)的控制信息部分(CP)至少部分地被呈现给接收方(UR)。
4.根据权利要求1至3中的任意一个的方法,其中,按照已定义的复合结构来建立所述音频消息(AM),在该复合结构中,所述控制信息部分(CP)被定位在相对于所述主要部分(MP)的特定位置处。
5.根据权利要求1至4中的任意一个的方法,其中,通过使用自动语音识别技术来识别所述音频消息中的控制信息部分(CP)。
6.根据权利要求5的方法,其中,如果自动语音识别配置(7)的识别结果的模糊度值达到或者超过特定的模糊度极限,则在所述音频消息传送系统(1)和发送方之间启动自动对话来识别所述音频消息(AM)的控制信息部分(CP)。
7.根据权利要求1至6中的任意一个的方法,其中,将各唯一的标识符串(IS)与所述音频消息传送系统的可能的用户或用户组相关联,并且所述音频消息(AM)的控制信息部分(CP)包括与该音频消息(AM)的接收方(UR)相关联的标识符串(IS)。
8.根据权利要求1至7中的任意一个的方法,其中,将用户或用户组的标识符串(IS)与该用户或该用户组和/或该用户组的不同成员的标识符特征(IC)相关联。
9.根据权利要求8的方法,其中,在呈现所述音频消息(AM)的主要部分(MP)之前,基于所述标识符特征(IC)来识别该音频消息(AM)的经授权的接收方(UR)。
10.根据权利要求8或9的方法,其中,基于所述标识符特征(IC)来识别所述音频消息(AM)的发送方(US)。
11.根据权利要求1至10中的任意一个的方法,其中,自动分析被识别出的接收方(UR)当前所处的状况,并且根据该状况以特定形式和/或在特定时间将所述音频消息(AM)呈现给接收方(UR)。
12.根据权利要求10或11的方法,其中,在所述音频消息传送系统(1)和接收方(UR)之间启动自动对话,以便识别接收方(UR)和/或分析当前状况。
13.根据权利要求1至12中的任意一个的方法,其中,所述音频消息(AM)的至少主要部分(MP)通过用户接口(10)被呈现给接收方,该用户接口(10)包括可自动定向的正面(17),在呈现消息期间,所述正面被定向成面对接收方。
14.一种用于将音频消息(AM)从发送方(US)发送到接收方(UR)的音频消息传送系统(1),包括-发送装置(2T),其具有用来收集发送方(US)的音频消息(AM)的用户接口(10);-消息分析装置(7),其用来分析该音频消息,以便检测关于该音频消息(AM)的通信规范的控制信息部分(CP)以及包含要被发送给接收方(UR)的有效消息的主要部分(MP);-翻译单元(4),用于至少部分地翻译该音频消息(AM)的控制信息部分(CP),以便控制该音频消息传送系统(1),以用于传送该(特定)音频消息(AM);-接收装置(2R),其具有用来至少将该音频消息(AM)的主要部分(MP)呈现给接收方(UR)的用户接口(10);-用于至少将该音频消息(AM)的主要部分(MP)从发送装置(2T)发送到接收装置(2R)的装置(13,13,N)。
15.一种用于根据权利要求14的音频消息传送系统(1)的发送装置(2T),包括-用户接口(10),用于收集发送方(US)的音频消息(AM);-消息分析装置(7),其用来分析该音频消息,以便检测关于该音频消息(AM)的通信规范的控制信息部分(CP)以及包括要被发送给接收方(UR)的有效消息的主要部分(MP);-翻译单元(4),用于至少部分地翻译该音频消息(AM)的控制信息部分(CP),以便控制该音频消息传送系统(1),以用于传送该(特定)音频消息(AM);以及-发送接口(13,14),用于至少将该音频消息(AM)的主要部分(MP)发送到接收装置(2R)。
16.一种用于根据权利要求14的音频消息传送系统的接收装置(2R),包括-接收接口(13,14),用于接收由发送装置(2T)发送的音频消息(AM),该音频消息(AM)包括关于该音频消息(AM)的通信规范的控制信息部分(CP)和包含要被发送给特定接收方(UR)的有效消息的主要部分(MP);-用户接口(10),用于至少将该音频消息的主要部分呈现给接收方;以及-翻译单元(4),用于至少部分地翻译该音频消息(AM)的控制信息部分(CP)以便控制该音频消息传送系统(1),以用于呈现该音频消息(AM)。
全文摘要
本发明描述了一种用于通过音频消息传送系统将音频消息(AM)从发送方(U
文档编号G10L15/26GK1943191SQ200580011084
公开日2007年4月4日 申请日期2005年4月8日 优先权日2004年4月13日
发明者E·特伦, T·波尔特勒 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1