本发明涉及通信技术领域,具体的说,涉及一种面向智能机器人的通讯方法、拨打端设备和接听端设备及通讯系统。
背景技术:
随着信息技术、计算机技术以及人工智能技术的不断发展,智能机器人已经走入到医疗、保健、家庭、娱乐以及服务行业等与人们生活息息相关的领域。人们对于智能机器人的要求也越来越高,需要智能机器人具备更多的功能从而为人类生活提供更多的帮助。
根据心理学的研究发现,人类说一句话的信息传达,7%通过文本内容,38%通过语调语气,而55%通过表情、肢体动作。而在传统的电话沟通体验中,通话双方只能通过语音、语调来表达自己,大部分信息(55%)被丢失了,对方并不能收到,导致信息传达的效率非常低,体验度不高。
因此,亟需一种能够提高信息传达效率,提高用户沟通体验的的面向智能机器人的通讯方法、拨打端设备和接听端设备及通讯系统。
技术实现要素:
本发明的目的在于提供一种面向智能机器人的通讯方法、拨打端设备和接听端设备及通讯系统,提高信息传达效率和用户沟通体验。
本发明提供一种面向智能机器人的通讯方法,该方法包括:
拨打端设备获取拨打电话用户的动作、语音及表情信息;
将所述动作、语音及表情信息通过服务器发送给接听端设备。
在获取动作、语音及表情信息的步骤中包括:
所述拨打端设备通过惯性动捕服、光学跟踪系统、动作手套或摄像头获取拨打电话用户的动作信息;
所述拨打端设备通过摄像头获取拨打电话用户的表情信息。
本发明还提供一种面向智能机器人的通讯方法,所述智能机器人可进行多模态表达,该方法包括:
接听端设备通过服务器接收拨打端设备发送的动作、语音及表情信息;
结合所述的动作、语音及表情信息,生成动作、语音及表情的多模态输出信息并输出给接听端用户。
在生成动作、语音及表情的多模态输出信息并输出给接听端用户的步骤中包括:
解析所述动作信息,生成动作指令,以及根据所述动作指令,输出相应动作;
解析所述表情信息,生成表情输出指令,根据所述表情输出指令,输出相应表情。
本发明还提供一种面向智能机器人的拨打端设备,该设备包括:
获取模块,其用于获取拨打电话用户的动作、语音及表情信息;
发送模块,其用于将所述动作、语音及表情信息通过服务器发送给接听端设备。
所述获取模块包括:
动作获取子模块,其用于通过惯性动捕服、光学跟踪系统、动作手套或摄像头获取拨打电话用户的动作信息;
表情获取子模块,其用于通过摄像头获取拨打电话用户的表情信息。
本发明还提供一种面向智能机器人的接听端设备,所述智能机器人可进行多模态表达,该设备包括:
接收模块,其用于通过服务器接收拨打端设备发送的动作、语音及表情信息;
输出模块,其用于结合所述的动作、语音及表情信息,生成动作、语音及表情的多模态输出信息并输出给接听端用户。
所述输出模块包括:
动作输出子模块,其用于解析所述动作信息,生成动作指令,以及根据所述动作指令,输出相应动作;
表情输出子模块,其用于解析所述表情信息,生成表情输出指令,根据所述表情输出指令,输出相应表情。
本发明还提供一种面向智能机器人的通讯系统,该系统包括:
所述的拨打端设备和所述的接听端设备。
本发明实施例提供的面向智能机器人的通讯方法、拨打端设备和接听端设备及通讯系统,通过在拨打端采集拨打电话用户的动作、语音及表情等多模态信息并发送给接听端对接听电话用户进行该动作、语音及表情等信息的多模态表达,实现了多模态方式的电话通信。相对于传统的只能通过语音、语调来表达自己的电话通信方式,本发明在实现通话的同时,将通信者的表情,肢体动作进行传输和表达,丰富了电话沟通的信息传达方式和内容,提高了信息的传达效率,并且能够带给用户类似面对面交流的感受,使用户与电话的交互过程更加拟人化,提高用户的沟通体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚的说明本发明实施例中的技术方案,下面将对实施例描述中所需要的附图做简单的介绍:
图1是本发明实施例提供的面向智能机器人的拨打端通讯方法流程示意图;
图2是本发明实施例提供的面向智能机器人的接听端通讯方法流程示意图;
图3是本发明实施例提供的面向智能机器人的拨打端设备的示意图;
图4是本发明实施例提供的面向智能机器人的获取模块的示意图;
图5是本发明实施例提供的面向智能机器人的接听端设备的示意图;
图6是本发明实施例提供的面向智能机器人的输出模块的示意图;
图7是本发明实施例提供的面向智能机器人的通讯系统的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
在传统的电话沟通方式中,通话的双方智能通过语音、语调来表达自己,而单纯以声音做为信息传递的载体,其所携带的信息量是十分有限的。针对这个问题,本发明提供了一种面向智能机器人的拨打端通讯方法和对应的接听端通讯方法,拨打端设备和接听端设备,以及通讯系统,以丰富电话沟通的信息传达方式,提高打电话的用户体验。
本发明实施例提供的适用于电话拨打端的面向智能机器人的通讯方法,如图1所示,该方法包括:步骤101和步骤102。
在步骤101中,拨打端设备获取拨打电话用户的动作、语音及表情信息。拨打端设备通过多模态信息的采集来获取拨打电话用户的语音、表情以及肢体动作,在本发明的其他实施方式中,拨打端设备采集的多模态信息还可以包括其他能够表达拨打端用户通话状态的信息,例如拨打电话用户所处的环境信息等。
进一步的,在本步骤中,拨打端设备通过惯性动捕服、光学跟踪系统、动作手套或摄像头等方式获取拨打电话用户的动作信息,对于动作信息的识别,最低限度是能识别用户的手势动作轨迹。拨打端设备通过摄像头获取拨打电话用户的表情信息。
在本发明的一种实施方式中,在步骤101中,拨打端设备首先识别拨打电话的用户,然后采集该识别出的用户的多模态信息。由于用户拨打电时所处的场景往往是十分复杂的,因此,需要将拨打电话的用户和所处场景区分开来,以针对拨打电话的用户进行表情、动作以及声音的采集。
在采用惯性动捕以及动作手套等需要信息采集设备的动作采集方式中,自然以穿戴有惯性动捕服或动作手套的对象作为拨打电话的用户。而在通过光学跟踪系统以及摄像头等通过图像识别进行动作和表情采集的方式中,则应将拨打电话用户的图像与场景图像进行区分。
在一种实施方式中,可以通过距离识别场景中的拨打电话用户,将距离拨打端设备最近的用户作为拨打电话用户。例如,当前拨打电话的场景中有多个人物,拨打端设备通过对光学跟踪系统或者摄像头采集的图像进行识别分析,获知距离拨打端设备最近的人物图像作为拨打电话用户,进而对该拨打电话用户的图像信息进行动作和表情采集。
在一种实施方式中,可以通过用户特征识别场景中的拨打电话用户,即拨打端设备存储有拨打电话用户的特征信息,在该用户拨打电话时,拨打端设备通过采集的多模态信息识别出该用户的特征信息,进而将该用户作为拨打电话用户,针对该用户进行动作、表情以及语音的采集。例如,在一种应用情景下,拨打电话用户的特征信息可以为经常拨打电话的用户的面部特征,在该用户通过拨打端设备拨打电话时,拨打端设备即可通过面部识别,确认并定位到拨打电话的用户,将其与场景中可能存在的其他人物区分开来,进而采集拨打电话用户的多模态信息,过滤掉场景中其他人的多模态信息。
又或者,在一种应用情景下,拨打电话用户的特征信息可以为经常拨打电话的用户的声音特征,在该用户通过拨打端设备拨打电话时,拨打端设备即可通过声音识别,结合画面确认并定位到拨打电话的用户,将其与场景中可能存在的其他人物区分开来,进而可以过滤掉场景中的其他声音和画面信息,对拨打电话用户的声音、动作和表情进行采集。
当然,拨打电话用户的个数并不局限于为一个,往往有在拨打端需要进行多人共同通话的应用情景,在这种情境下,拨打电话的用户为多个,对于多个拨打电话用户的识别同样也可通过上述通过距离的识别的方式,认定在一定距离内的多个用户为拨打电话用户。或者,也可以通过上述通过身份特征识别的方式,对于经常共同打电话的用户的身份特征进行记录,在拨打电话时,若识别出该多个用户则认定为拨打电话用户。多个拨打电话用户的识别当然也可以通过其他例如用户主动对拨打端设别进行相应设置等方式确认。
在采集拨打端的多个用户的动作和表情信息时,将声音信息与动作表情信息进行对应采集,即识别当前正在说话的用户,然后对该用户的声音、动作及表情信息进行同时采集,当前说话的用户切换成其他人后,再次进行识别,然后对切换后的用户的声音、动作及表情信息进行同时采集。
拨打端设备结合用户的身份特征还可以相应的记录用户的打电话的习惯信息,例如记录用户在什么时间经常拨打电话给谁,即可在该时间点进行拨打电话的提醒,或者直接通过拨打端设备自动接通该经常拨打的电话。
又如,拨打端设备记录有用户拨打电话的习惯为不喜欢或者不便在打电话时进行动作,则拨打端设备在该用户打电话时则可不进行动作信息的采集和传输。
当然,对于用户动作和表情的采集都可以通过用户对拨打端设备进行设置来进行自定义的开启和关闭,从而实现在一定程度上的隐私保护。拨打端设备也可以通过对于打电话场景的识别以及拨打电话用户的状态识别,确认一些不适合进行动作和表情传输表达的场景和情况,当处于该种场景和情况下时,自动关闭对于表情和动作的采集,采用传统的采集声音传达的通话方式。
在本发明的一种实施方式中,拨打端设备采集的多模态信息还可以包括拨打电话用户所处的环境信息,拨打电话用户所处的环境信息也是由拨打端设备采集的,例如,可以通过图像识别出拨打电话用户所处的地点或者天气等等信息。将采集的环境信息发送给接听端可以进一步丰富电话通讯所传递的内容。
在步骤102中,将动作、语音及表情信息通过服务器发送给接听端设备。在本步骤中,拨打端设备将在步骤101中采集的描述拨打电话用户通话状态的动作、语音、表情以及环境信息等多模态信息通过网络传输给服务器,以用于服务器将这些信息发送给接听端,完成电话通讯的信息传递过程。
本发明实施例提供的适用于电话接听端的面向智能机器人的通讯方法,如图2所示,该方法包括:步骤201和步骤202。
在步骤201中,接听端设备通过服务器接收拨打端设备发送的动作、语音及表情信息。接听端设备通过网络从服务器上接收在步骤102中由拨打端上传的描述拨打电话用户通话状态的动作、语音、表情以及环境信息等多模态信息,完成电话通讯的信息传递过程。
然后在步骤202中,结合的动作、语音及表情信息,生成动作、语音及表情的多模态输出信息并输出给接听端用户,即基于在步骤201中接收的拨打端采集的信息通过多模态的输出方式表达给接听端的用户,完成整个通讯过程。
在本步骤中,需要特别指出的是接听端设备必须是可以进行多模态表达的机器人,即接听端设备可以通过自身软硬件生成多模态的输出信息并输出。
进一步的,步骤102中包括:动作输出步骤、表情输出步骤以及声音输出步骤。动作解析步骤即解析动作信息,生成动作指令,以及根据动作指令,输出相应动作。表情输出步骤即解析表情信息,生成表情输出指令,根据表情输出指令,输出相应表情。声音输出步骤即解析声音信息,生成声音输出指令,根据声音输出指令,输出相应声音。
在本发明实施例中,拨打电话用户的多模态信息的是以动作、语音、表情以及环境等信息相结合的方式输出的。其中,对于动作信息的输出可以通过机器人的肢体或者通过机器人的显示界面来实现,例如,拨打端用户在拨打电话的过程中对接听端用户进行夸奖说:“你做的很棒!”并竖起大拇指,拨打端设备采集到该语音信息以及竖起大拇指的动作信息,接听端设备接收到上述信息后,对相应的动作信息进行解析,生成驱动机器人通过肢体进行该动作的动作指令,机器人根据该指令在输出语音信息的同时驱动自身肢体向接听端用户竖起大拇指。
或者,接听端设备接收到上述信息后,对相应的动作信息进行解析,生成驱动自身显示界面显示竖起大拇指动作的图片或者动画的动作指令,进而机器人通过自身界面在输出语音信息的同时向接听端用户显示该竖起大拇指的图片或者动画。
对于表情信息的输出方式与动作信息的输出方式类似,同样可以通过机器人自身的显示界面和面部表情硬件实现表达。如上例中,拨打端用户在拨打电话的过程中对接听端用户进行夸奖说:“你做的很棒!”并竖起大拇指的同时做出喜悦的表情,接听端设备接收到上述信息后,对相应的表情信息进行解析,生成驱动机器人通过面部表情硬件表现该表情的的表情输出指令,机器人根据该表情输出指令在输出语音信息和肢体动作的同时驱动自身面部表情硬件做出扬起眉毛并展现笑脸的喜悦表情,同样的,也可以通过自身显示界面显示喜悦表情的图片或者动画,在此不在赘述。
与拨打端设备类似的,在特定的实施方式中接听端设备在进行多模态信息表达的时候,也需要对接听电话用户进行识别,以确定接听电话用户的位置,从而在进行特定的动作以及表情输出时能够面对接听电话的用户,使多模态的输出过程不受到接听端环境的影响,给人以面对面交流的体验,使用户与电话的交互过程更加拟人化。对于接听电话用户的识别方式与拨打端设备对于拨打电话用户的识别方式类似,即可以通过距离或者身份特征等方式进行识别。如上例,机器人识别到接听电话用户后,即可确认接听电话用户的位置,机器人在输出竖起大拇指动作的时候面向接听电话用户的所在的位置,从而实现向接听电话用户竖起大拇指的动作输出效果。
针对在上述电话拨打端通讯方法的实施例中,拨打端有多人共同通话的应用情景,由于用户的声音信息与动作表情信息是对应采集的,接听端设备在进行多模态输出表达时,则在输出语音的同时输出其所对应的动作及表情,在拨打端切换说话的用户后,接听端设备即输出切换后拨打端采集的用户的语音同时输出其对应的动作及表情。
对于在上述电话拨打端通讯方法的实施例中,拨打端设备采集的拨打电话用户所处的环境信息,接听端设备可以通过自身显示界面或者语音进行表达输出。例如,拨打电话用户所在地方正在下雨,拨打端设备采集到该环境信息后通过服务器发送给接听端设备,接听端设备根据该下雨的环境信息,可以在语音信息中合成加入雨声进行输出,使得接听电话用户在听到拨打电话用户的声音的同时听到下雨的声音,从而了解到拨打电话用户所处的环境情况。又或者,拨打端设备可以在输出其他多模态信息的同时通过自身显示界面进行下雨这一环境情况的文字或者图像表达输出,进一步丰富了电话通讯所传递的内容。
上述本发明提供的适用于电话拨打端的面向智能机器人的通讯方法,是在电话通讯过程中,对于信息的采集获取和发送的方法。同样,本发明提供的适用于电话接听端的面向智能机器人的通讯方法,是在电话通讯过程中,对于信息的接收和输出的方法。在实际的应用方式中,若电话通讯的双方设备都可以进行多模态数据的表达,例如打电话的双方都为电话机器人(电话机器人是在现有智能手机基础上,增加了各种机器人场景需要的传感器、摄像头等,能将机器人相关的一些体验实现在手机上,并且手机的外观也可以变化成人形,但体积仍和手机类似),则通话双方都可以同时应用本发明提供的上述信息的采集获取和发送的方法和对于信息的接收和输出的方法,从而实现双向的多模态的电话交流。
若只有一方设备可以进行多模态数据表达,则具有相应功能的一方则可以应用本发明提供的上述信息的接收和输出的方法,而没有相应功能的一方则对应应用本发明提供的上述信息的采集获取和发送的方法,实现单向的多模态的电话交流。
本发明实施例还提供一种面向智能机器人的拨打端设备,如图3所示,该拨打端设备包括:获取模块1和发送模块2。
其中,获取模块1用于获取拨打电话用户的动作、语音及表情信息。
发送模块2用于将动作、语音及表情信息通过服务器发送给接听端设备。
进一步的,如图4所示,获取模块1包括:动作获取子模块11和表情获取子模块12。
其中,动作获取子模块11用于通过惯性动捕服、光学跟踪系统、动作手套或摄像头获取拨打电话用户的动作信息。
表情获取子模块12用于通过摄像头获取拨打电话用户的表情信息。
本发明实施例提供的面向智能机器人的拨打端设备的具体实施方式已在上述本发明提供的适用于电话拨打端的面向智能机器人的通讯方法中的进行了阐明,在此不再赘述。
本发明实施例还提供一种面向智能机器人的接听端设备,如图5所示,该接听端设备包括:接收模块3和输出模块4。
其中,接收模块3用于通过服务器接收拨打端设备发送的动作、语音及表情信息。
输出模块4用于结合的动作、语音及表情信息,生成动作、语音及表情的多模态输出信息并输出给接听端用户。
进一步的,如图6所示,输出模块4包括:动作输出子模块41和表情输出子模块42。
其中,动作输出子模块41用于解析动作信息,生成动作指令,以及根据动作指令,输出相应动作。
表情输出子模块42用于解析表情信息,生成表情输出指令,根据表情输出指令,输出相应表情。
本发明实施例提供的面向智能机器人的接听端设备的具体实施方式已在上述本发明提供的适用于电话接听端的面向智能机器人的通讯方法中的进行了阐明,在此不再赘述。
本发明实施例还提供一种面向智能机器人的通讯系统,如图7所示,该通讯系统包括:上述拨打端设备和接听端设备,拨打端设备通过网络向服务器传输采集到的多模态电话信息,接听端设备通过网络接收服务器传输的多模态电话信息。
本发明实施例提供的面向智能机器人的通讯方法、拨打端设备和接听端设备及通讯系统,通过在拨打端采集拨打电话用户的动作、语音及表情等多模态信息并发送给接听端对接听电话用户进行该动作、语音及表情等信息的多模态表达,实现了多模态方式的电话通信。相对于传统的只能通过语音、语调来表达自己的电话通信方式,本发明在实现通话的同时,将通信者的表情,肢体动作进行传输和表达,丰富了电话沟通的信息传达方式和内容,提高了信息的传达效率,并且能够带给用户类似面对面交流的感受,使用户与电话的交互过程更加拟人化,提高用户的沟通体验。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。