在用户和系统之间进行通信的方法和系统的制作方法

文档序号：6656382阅读：209来源：国知局

专利名称：在用户和系统之间进行通信的方法和系统的制作方法
技术领域：
本发明涉及一种在用户和系统之间进行通信的方法，其中，检测用户是否注视系统，并基于此点调整所述通信。
近年来，在与用户进行交互的开发系统中存在许多处理。一个示例是语音控制通信，其中，用户与系统进行交互，命令该系统执行不同的动作。
在US 20020105575中，描述了一种能够激活语音控制设备的语音控制方法，其中，检测到用户朝向设备注视。只有在检测到用户朝向设备注视时，才激活语音控制。本发明的主要目的在于，使由于相同的口头命令而激活未期望的多个话音控制设备的风险最小化。
此设备具有的问题是，它不处理会话交互中出现的事件，例如通过与会话无关的事件引起的短干扰。这使得用户和设备之间的通信很困难而且生硬。此外，设备不能一旦检测到用户注视设备就主动通知用户。
WO 03/096171公开了一种包括用于识别话音信号的拾取装置的设备。还公开了一种操作电子设备的方法，该电子设备能够使用户借助于话音控制操作设备。
关于本发明的问题在于，为了与系统进行交互，话音信号必须要被识别。这在用户的话音例如因为生病而不同时成为问题。此外，此系统不处理会话交互中出现的事件，例如通过与会话无关的事件引起的短干扰。这使得整个交互同样非常僵硬并且不自然。
在凝视被用作注意力指示器的情况下存在系统(K.Thorisson的“Machine perception of reception of real-time multimodalnatural dialogue”，Language，Vision & Music，第97-115页，2001年)，其中，分析眼睛的凝视和身体的运动，以便获得用户注意力的状态。此信息的主要用途在于确定哪些对象处于用户当前注意力的焦点。
该系统具有的问题在于如何配备它，因为它必须与头顶照相机在物理上一起安装到用户的头部。除使用系统所带来的巨大不便之外，在用户和系统之间的交互受到限制而且非常不自然。
本发明的目的是解决上述问题。
根据本发明的一个方面，涉及在用户和系统之间进行通信的方法，包括-检测用户是否注视系统，并基于此点-调整所述通信。
因此，通过检测用户注意力的状态，用户和系统之间的通信变得自然、不唐突并且类似人的(human like)。
在一个实施例中，所述方法还包括一旦检测到用户的出现，就对用户作出反应。
这使得在用户和系统之间的通信更加类似人。举例来说，系统可以对用户进行反应，通过在用户进入设备位于的房间中时向用户打招呼。这可以比得上人与人之间的交互，例如，某人在他/她从办公回到家时受到家人的欢迎。
在一个实施例中，所述方法还包括一旦检测到用户的身份，就对用户作出反应。
因此，系统的安全被增强，因为如果检测到的用户是不认识的，则系统将无论如何也不会作出反应。此外，已识别的用户的个人简档和偏好可以用于进一步调整所述通信。
在一个实施例中，所述方法还包括同时与一个以上的用户进行通信。
因此，所述系统可以同时与一个以上的用户交互，无需每当他/她想与系统进行通信时必须识别出新用户。因此，系统通过检测哪个用户正在注视该系统，可以辨别若干用户中的哪一个用户正在进行通信。这类似于一个人同时与相同房间中的一个以上的其他人交谈。例如，这可以是一个家庭，其中，每个家庭成员例如可以要求系统执行不同的动作，例如检查电子邮件等。这是形成用户例如家庭成员与系统之间的通信非常类似人的原因。
在一个实施例中，所述方法还包括基于用户朝向系统的注视，在用户和系统之间发起通信。
因此，通信以非常便利的和类似人的方式开始，因为用户朝向系统的注视将指示用户对开始通信的兴趣。这类似于一个人想要了解另一个人是否愿意开始会话的情形。那个人一般将通过接近另一个人并用眼睛打量他/她来指示这一点。
在一个实施例中，所述方法还包括在已经发生事件时，在用户和系统之间发起通信。
这进一步改进了用户和系统之间的通信。例如，此事件可以包括接收电子邮件，或某人正在振铃，其被连接到系统。在那种情况下，系统可以询问用户他/她是否可以中断——因为某人正在振铃。电话甚至可以被集成到系统中，从而系统可以通知用户电话正在振铃，并且他/她是否想要应答它。优选地，系统首先检测用户是否出现在房间里，或用户是否忙于另一个动作。如果用户正在注视系统，则他/她乐于参与通信。
在一个实施例中，所述方法还包括检测用户的物理位置。
因此，不必迫使用户在与系统进行通信的同时待在系统的附近。例如，用户在与系统进行通信的同时，可以躺在沙发上，或者坐在椅子里。
在一个实施例中，所述方法还包括检测声学输入。
因此，系统还可以检测用户音响或者检测来自环境的音响，籍此通过检测用户是否注视系统以及借助于所述音响来进行通信。这当然是人们如何进行通信的通常方式。
另一方面，本发明涉及一种将用于使处理单元执行所述方法的指令存储于其中的计算机可读介质。
又一方面，本发明涉及一种用于与用户进行通信的系统，包括-检测装置，检测用户是否注视系统，以及-处理器，用于基于来自所述检测装置的输出数据来调整所述通信。
因此，获得一种会话系统，其能够使用户以非常类似人的方式与系统进行交互。
在一个实施例中，系统还包括用于检测声学输入的声传感器。
因此，通过既检测声学输入又检测用户是否注视系统，任何人可以说系统某种程度上具备了“眼睛”和“耳朵”。例如，用户可以注视系统但在一段时间不响应在用户和系统之间的对话。这在某种程度上可以说明用户不再对参与和系统的对话感兴趣并且可以停止通信。同样地，在交互期间，用户可以在注视另一方向而非系统。虽然检测装置将指示用户没有集中注意力，但是对话会话可以指示用户仍然真正地集中注意力。
下面，将结合附图更详细地描述本发明，尤其是更详细地描述本发明的优选实施例，其中

图1示出了用于与用户进行通信的系统103，以及图2说明了在用户和系统之间进行通信的方法流程图。
图1示出了与用户101进行通信的系统103，在本实施例中其被集成在计算机中。系统103包括检测装置105，其检测用户101的出现和不存在，以及用户101是否在注视系统103，即在此情况下朝向计算机监视器。如这里所示，系统103还包括声传感器104，用于检测来自用户101和环境的声学输入。然而，声传感器104不是本发明的基本部分，并且可以简单略去。还示出了处理器106，用于基于从检测装置105和声传感器104输出的数据来调整用户101和系统103之间的通信。此外，系统103可以装备有转动设备111，用于通过转动跟随用户101的运动。检测装置105可以例如是相机，其包括算法以便通过扫描用户的脸来执行所述检测，并利用来自扫描的一个或多个特征来确定用户101是否朝向系统103注视。在优选实施例中，检测两眼的可见度，以便确定脸部图像是否是正面脸部。因此，用户外表的变化例如用户长胡子，不会影响检测。基于用户101是否注视系统103，确定用户对系统的注意力。因此，在用户101朝向系统103注视时，检测装置105这样解释它，即用户正在关注，然后保留在系统和用户101之间的通信。另一方面，如果用户101一段时间没有注视所述系统103，则检测装置105可以解释为用户103不再关注。同样，用户对系统的注意通过声传感器104来确定，声传感器104检测用户101是否响应用户101和系统106之间的对话或者请求。这请求可以是“你愿意继续对话吗？”。如果所述用户回答“是的，我想继续对话”，声传感器104检测到用户正在关注。处理器106利用来自检测装置和声传感器104的解释之间的相互关系，即关于用户101是否关注的解释，来调整用户101和系统103之间的通信。调整可以包括停止用户101和系统103之间的通信，询问用户101他/她是否想继续对话或者稍后继续对话。
在图1a所示的示例中，用户101对建立与系统103的通信感兴趣。一旦用户101被系统103检测到，则系统103主动反应，例如问候用户。在优选实施例中，如果用户的身份已被检测，则系统103主动向用户作出反应。否则，它不进行反应。这增强了系统的安全。此外，已识别的用户的个人简档和偏好还可用于调整所述通信。建立与系统103的通信，可以通过注视了系统103预定时间来实现，例如5秒钟。然后，检测装置105检测用户101正在并且已经正在注视系统103一段时间。这说明用户101愿意参与和系统103的会话，然后建立通信113，如图1b所示。系统103还可以另外询问用户103他/她是否对与系统103进行通信感兴趣。在用户101仍然关注的同时，根据声传感器104或检测装置105，或者根据两者的组合，优选保留此通信113。例如，用户101可以不直接朝向系统103注视，如图1c所示，因为用户101从事另一个动作，例如与室内的另一人115交谈。在此情况下，系统可以要么中断用户101和系统103之间的对话，要么询问用户101他/她是否想继续对话。如果用户101不响应该问题，则可以停止通信113。此外，如果用户101离开房间，并且系统103不再检测用户101的出现，则通信113和系统103可以立即或在某一预定时间之后关闭，因为有可能用户101必须离开房间片刻而不用中断连接113。
在一个实施例中，系统一检测到用户的身份就可以反应，并且与一个以上的用户进行通信。因此，系统通过检测哪个用户正在注视该系统，可以辨别若干用户中的哪一个用户正在进行通信。因此，系统具有同时与一个以上的用户交互的能力，无需每当他/她想与系统进行通信时必须识别出新用户。
在一个实施例中，系统还装备有语音识别模块和话音活动分析。因此，用户的话音可以被检测并且区别于其他的话音或者声音。
在一个实施例中，系统103进一步确定用户101的位置，并优选检测用户101是否正在注视系统103。因此，用户101在与系统103通信时不必呆在相同的位置，并因此在与系统103进行通信113的同时，例如可以躺在沙发上，或者坐在椅子里，如上所述。
在一个实施例中，声学输入的位置由系统103计算，例如由波束形成系统(未示出)计算，并与用户101的位置相比较。因此，如果声学输入不同于用户101的位置，例如来自电视，则系统可以忽略它并继续与用户101对话。
在一个实施例中，如果事件已经发生，系统103发起与用户101的通信，例如对话。例如此事件可以包括接收电子邮件，或有人正在振铃，其被连接到系统。系统103然后检查用户101是否出现在房间里，用户101是否从事另一个动作，或者用户101是否正在交谈。例如，系统103可以优雅地询问用户101他/她是否可以中断——因为有人在振铃。在此情况下，能够装备该系统的外部照相机检测出谁在振铃，并且如果用户通过用户注视或者用户话音请求，则振铃人的图像可以显示在监视器上，如图1所示。
在一个实施例中，系统103包括辅助子系统，例如，该子系统分布在用户101公寓的不同房间或不同区域中。因此，每个子系统连续监视用户101的出现。检测用户103出现的子系统继续通信。因此，用户101可以在与一个子系统通信的同时，在他/她的公寓内四处行走。例如，在子系统已经识别了用户之后，用户在起居室里与子系统进行通信。当用户走出起居室并进入卧室时，卧室中的系统检测到用户的出现，识别出他并且继续例如对话。也可以为房子内四处移动的多个用户这样做。
在一个实施例中，系统103装备有计算置信级的语音识别系统(未示出)。该值指示识别器关于它的假设的可靠度。作为示例，该值将为低，例如如果存在大量背景噪声的话。优选地，使用阈值，然后丢弃置信值低于阈值的输入。如果用户101注视系统103，则该阈值应该低，而如果用户101没有直接注视系统103，则阈值高，并且系统103必须确信要采取行动。
当然，系统103可以集成到代替计算机的各种设备中，如图1所示。例如，系统103可以被集成到安装到墙上的设备中，或集成到便携设备中，从而用户101可以将系统103从一个地方移到另一地方，这取决于用户101所处的地方。此外，系统103可以被集成在机器人或便携式计算机或者诸如电视之类的任何种类的电气设备中。
图2说明了在用户和系统之间进行通信的方法实施例的流程图。首先，用户和系统之间的通信被启动(In.Com.)201。这可以仅仅通过注视系统预定时段来实现。当系统检测到用户已经注视了系统一段时间时，例如5秒钟，则在用户和系统之间建立连接，并且用户和系统之间的通信可以被启动(Act.Dial.)203。系统连续检查用户是否朝向系统注视(Int.)205，例如通过聚焦用户的眼睛。如果用户没有朝向系统注视(N)209，则通信可能将被中断。如果说明用户没有关注，则系统还可以适于询问用户他/她是否想要继续对话(Cont.？)213。如果用户未响应该问题，或回答“否”，则通信停止(St.)217。此外，如果用户离开房间，并且系统不再检测到用户的出现，则停止通信(St.)217。否则，如果用户回答“是”，和/或朝向系统注视，则对话继续(Cont)215。
应当理解，上述实施例说明而非限制本发明，并且本领域技术人员在不脱离所附权利要求范围的前提下，将能够设计出许多替换实施例。在权利要求中，括号内任何参考符号将不会认为是对权利要求的限制。词语“包括”并不排除权利要求中所列的元件或步骤之外的其他元件或步骤的存在。本发明可以借助于包括若干分离元件、以及借助于适宜的程序式计算机来实现。在罗列若干装置的设备权利要求中，部分这些装置可以通过同一个硬件项目来体现。事实仅在于，在互不相同的独立权利要求中列举的某些方法，并未指示不能有利地使用这些方法的组合。
权利要求
1.一种在用户(101)和系统(103)之间进行通信(113)的方法，包括检测用户(101)是否注视所述系统(103)，并且基于此点调整所述通信(113)。
2.根据权利要求1的方法，还包括检测用户(101)的物理位置。
3.根据权利要求1或2的方法，还包括一旦检测到用户的出现，就对用户(101)作出反应。
4.根据权利要求1-3中任一权利要求的方法，还包括一旦已经检测到用户的身份，就对用户(101)作出反应。
5.根据权利要求1-4中任一权利要求的方法，还包括同时与一个以上的用户(101)进行通信。
6.根据权利要求1-5中任一权利要求的方法，还包括基于用户朝向系统(103)的注视，在用户(101)和系统(103)之间发起通信。
7.根据权利要求1-6中任一权利要求的方法，还包括在已经发生事件时在用户(101)和系统(103)之间发起通信。
8.根据权利要求1-7中任一权利要求的方法，还包括检测声学输入(104)。
9.一种将用于使处理单元执行方法1-8的指令存储于其中的计算机可读介质。
10.一种用于与用户(101)进行通信的系统(103)，包括检测装置(105)，用于检测用户(101)是否注视所述系统(103)，以及处理器(106)，用于基于从所述检测装置(105)输出的数据来调整所述通信(113)。
11.根据权利要求10的系统(103)，还包括声传感器，用于检测声学输入(104)。
全文摘要
本发明涉及一种在用户(101)和系统(103)之间进行通信(113)的方法，在该系统或其它地方检测用户是否注视系统，并基于此点调整所述通信。
文档编号G06F3/038GK1981257SQ200580022968
公开日2007年6月13日申请日期2005年7月1日优先权日2004年7月8日
发明者T·波特勒, V·菲洛民, C·贝尼恩, H·肖尔, F·萨森谢德特, J·F·马施纳, R·克尼瑟申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T.波特勒;V.菲洛民;C.贝尼恩;H.肖尔;F.萨森谢德特;J.F.马施纳;R.克尼瑟
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。