一种语音唤醒方法、装置及系统与流程

文档序号:17379527发布日期:2019-04-12 23:41阅读:208来源:国知局
一种语音唤醒方法、装置及系统与流程

本发明实施例涉及人工智能领域,特别涉及一种语音唤醒方法、装置及系统。



背景技术:

随着人工智能技术的不断发展,以及对于行车安全的考虑,在车载环境中通过语音交互的方式实现人在车载环境中与各类具有语音功能的软件、硬件的交互被广泛推广应用。

目前人们进行语音交互时通常包括通过触摸按键进行唤醒和唤醒词唤醒方式。对于通过触控按键进行唤醒的方式,用户触控或按下按键后启动语音交互功能,这种方式在行车中存在安全隐患,驾驶员需要将视线离开路面,不利于行车安全。对于唤醒词唤醒方式,应用程序获取该关键字后进行唤醒,启动语音交互过程,该方式需要用户频繁说出唤醒词,交互过程繁琐。尤其当路况拥堵,驾驶员心情烦躁时,这种频繁通过唤醒关键字唤醒语音交互功能的方式会让驾驶员心情更为烦躁。



技术实现要素:

针对现有技术中存在的上述问题,本发明提出一种语音唤醒方法、装置及系统。

本发明实施例提供了一种语音唤醒方法,应用于车载环境,包括:

步骤101,确定用户的状态属性;

步骤102,判断用户的状态属性是否满足免唤醒的条件,若是,则执行步骤103;

步骤103,激活免唤醒的功能;

免唤醒指无需唤醒词即可用语音唤醒语音控制逻辑。

用户的状态属性包括用户的情感属性、和/或用户的生理状态属性。

当状态属性包括用户的情感属性时,确定用户的情感属性,

其中,获取用户的特征参数,根据该特征参数确定用户的情感属性,其中用户的特征参数包括用户的面部表情、生理参数、和/或语言动作行为。

获取用户的特征参数,根据该特征参数确定用户的情感属性包括

获取用户的面部表情,根据用户面部表情确定用户的情感属性,当通过面部表情无法确定用户的情感属性时,结合用户的生理参数、和/或语言动作行为确定用户的情感属性。

当状态属性包括用户的生理状态属性时,确定用户的生理状态属性,

其中,获取用户的一个或多个生理参数、面部表情、和/或语言动作行为的特征参数,根据该特征参数确定用户的生理状态属性。

优选地,判断用户的状态属性是否满足免唤醒的条件包括

当用户的状态属性包括用户的情感属性时,判断驾驶员的情感属性是否是负面情绪或不利于安全行车,若是,则满足该条件;或者判断非驾驶员的情感属性是否是负面情绪,若是,则满足该条件。

当用户的状态属性包括用户的生理状态属性时,判断用户的生理状态属性是否为身体状况异常,若是则满足该条件;

当用户的状态属性包括用户的情感属性和用户的生理状态属性时,判断用户的状态属性是否满足免唤醒的条件包括

判断驾驶员的情感属性是否是负面情绪或不利于安全行车,若是,则满足该条件;或者判断非驾驶员的情感属性是否是负面情绪,若是,则满足该条件;

或者

判断用户的生理状态属性是否为身体状况异常,若是则满足该条件;

或者

判断驾驶员的情感属性为负面情绪或不利于安全行车,并且生理状态属性为身体状况异常,或者非驾驶员的情感属性为负面情绪,并且生理状态属性为身体状况异常,则满足该条件。

优选地,在步骤101之前,确定用户是否开启特定条件下免唤醒的功能,若是,则执行步骤101。

优选地,在步骤101之前,获取用户发出的语音指令,判断所述语音指令是否包含唤醒词,若不包含唤醒词,则执行步骤101。

优选地,该用户为驾驶员。

本发明实施例提供了一种语音唤醒装置,应用于车载环境,包括:

确定模块,用于确定用户的状态属性;

判断模块,用于判断用户的状态属性是否满足免唤醒的条件;

激活模块,用于当判断模块的判断结果为满足条件时,激活免唤醒的功能;

免唤醒指无需唤醒词即可用语音唤醒语音控制逻辑。

用户的状态属性包括用户的情感属性、和/或用户的生理状态属性。

当状态属性包括用户的情感属性时,确定模块具体用于确定用户的情感属性,

其中,获取用户的特征参数,根据该特征参数确定用户的情感属性,其中用户的特征参数包括用户的面部表情、生理参数、和/或语言动作行为。

获取用户的特征参数,根据该特征参数确定用户的情感属性包括,

获取用户的面部表情,根据用户面部表情确定用户的情感属性,当通过面部表情无法确定用户的情感属性时,结合用户的生理参数、和/或语言动作行为确定用户的情感属性。

当状态属性包括用户的生理状态属性时,确定模块具体用于确定用户的生理状态属性,

其中,获取用户的一个或多个生理参数、面部表情、和/或语言动作行为的特征参数,根据该特征参数确定用户的生理状态属性。

优选地,判断用户的状态属性是否满足免唤醒的条件包括

当用户的状态属性包括用户的情感属性时,判断驾驶员的情感属性是否是负面情绪或不利于安全行车,若是,则满足该条件;或者判断非驾驶员的情感属性是否是负面情绪,若是,则满足该条件。

当用户的状态属性包括用户的生理状态属性时,判断用户的生理状态属性是否为身体状况异常,若是则满足该条件;

当用户的状态属性包括用户的情感属性和用户的生理状态属性时,判断用户的状态属性是否满足免唤醒的条件包括

判断驾驶员的情感属性是否是负面情绪或不利于安全行车,若是,则满足该条件;或者判断非驾驶员的情感属性是否是负面情绪,若是,则满足该条件;

或者

判断用户的生理状态属性是否为身体状况异常,若是则满足该条件;

或者

判断驾驶员的情感属性为负面情绪或不利于安全行车,并且生理状态属性为身体状况异常,或者非驾驶员的情感属性为负面情绪,并且生理状态属性为身体状况异常,则满足该条件。

优选地,装置还包括开关模块,用于用户选择开启或者关闭免唤醒的功能;当用户选择开启时,则开启免唤醒的功能。

优选地,该装置还包括语音检测模块,用于判断获取的用户发出的语音指令是否包含唤醒词,若不包含唤醒词,则触发判断模块执行其功能;若包含,则触发激活模块不激活免唤醒的操作。

优选地,该用户为驾驶员。

本发明实施例还提供一种语音控制逻辑,包括如上所述的装置。

本发明实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如上所述的方法。

本发明实施例提供了一种计算机可读存储介质,其特征在于,存储计算机指令,所述计算机指令用于实现如上所述的方法。

通过本发明的语音唤醒方法、装置,用户在与语音控制逻辑进行语音交互时,无需每次都说出唤醒词,语音控制逻辑根据预设的条件判断其唤醒方式,通过上述语音唤醒方法,能够简化用户和语音控制逻辑之间语音交互的流程,使语音交互更便捷,更人性化、智能化,提高语音交互的效率,提高用户体验度以及行车安全性。

附图说明

图1是本发明一种实施例中的语音唤醒的方法。

图2是本发明一种实施例中的语音唤醒的装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提出的一种语音唤醒方法。

该方法可以应用于语音控制逻辑,该语音控制逻辑包括单向或双向能够实现语音交互功能的软件、硬件、固件等,语音控制逻辑可以由一个或多个设备执行。当语音控制逻辑为软件时,其全部或部分软件安装或放置于车辆,其余部分软件位于其他位置,各部分软件相互配合实现其功能,当语音控制逻辑为硬件或固件时,该语音控制逻辑由一个或多个设备或固件实现,全部或部分设备、固件位于或安装于车辆,其余部分设备或固件位于其他位置,相互配合实现其功能。

为了表述的方便,在本发明中无需唤醒词即可用语音唤醒语音控制逻辑称为免唤醒。

参见图1,该语音唤醒方法包括以下步骤:

步骤101,确定用户的状态属性;

步骤102,判断用户的状态属性是否满足免唤醒的条件,若是,则执行步骤103;

步骤103,激活免唤醒的功能。

其中,用户的状态属性包括用户的情感属性、和/或用户的生理状态属性。

进一步的,步骤102的判断结果为不满足所述条件时,该方法还包括步骤104,不激活免唤醒的功能。

具体的,在步骤101中,确定用户的状态属性具体为:

当状态属性包括用户的情感属性时,确定用户的情感属性,情感属性包括平和、生气、高兴、激动、烦躁、伤心等的情绪状态。

其中通过以下方式确定用户的情感属性:

获取用户的特征参数,根据该特征参数确定用户的情感属性,其中用户的特征参数可以是用户的面部表情、生理参数、和/或语言动作行为。

优选地,首先,获取用户的面部表情,根据用户面部表情确定用户的情感属性,可以通过实时采集用户面部图像的方式,对用户的面部表情进行分析,确定用户的情感属性,或者获取一段时间内用户面部的多个图像或一段视频,根据所述多个图像或一段视频对用户面部表情的变化进行分析,从而确定用户的情感属性,以实现更准确的得出用户的情感属性。

进一步的,当通过面部表情无法确定用户的情感属性时,可以结合用户的生理参数、和/或语言动作行为确定用户的情感属性。例如获取用户的心跳、血压等生理参数,结合用户的面部表情、语音动作行为,确定用户的情感属性,比如有的人在生气的时候,表情很明显,而有的人表情不是很明显,在识别时不能非常明确的确定,人在生气时,通常存在血压升高、生气的肢体动作、生气的语音等情况,结合用户的生理参数和/或语言动作行为,可以提高识别的准确性。

此外,可以通过对之前获取的用户的面部表情、和/或生理参数、和/或语言动作行为等特征参数进行学习,确定用户的这些特征参数对应的情感属性,通过上述学习,建立起用户特定的情感属性模型,随着获取的用户的特征参数的样本的增加,对该模型不断的进行自学习,不断更新并进行纠错,提高识别用户情感属性的准确性,在该模型中,输入用户的特征参数,则可以得出用户专属的情感属性。通过该方式,可以提高识别用户情感属性的准确性。其中,通过用户的相关信息,如指纹信息,头像信息,声纹信息或者其他生物特征有关的信息,或者其他可以识别用户的信息对用户进行标识。此外,在本发明中需要识别或标识用户时采用该方式识别或标识用户。

其中可以通过各种感测模块检测用户的特征参数,如通过摄像头检测用户的面部表情,通过可穿戴设备获取用户的生理参数等。

当状态属性包括用户的生理状态属性时,确定用户的生理状态属性,例如生理状态属性包括例如疲劳、生病等与身体状况相关的属性。

其中可以通过各类感测模块获取用户的一个或多个生理参数、面部表情、和/或语言动作行为等特征参数,从而确定用户的生理参数,例如通过检测用户血压,心跳,体温等生理参数,判断用户身体状况是否发生异常,如心脏不适、血压异常、高烧等。通过检测用户的面部表情,判断用户是否疲劳犯困等。通过检测用户的肢体动作,如按压心脏等,确定用户是否突发心脏病。

优选地,可以预先存储用户的既往病史或者高风险发作的疾病,对预先存储的疾病重点关注,如用户患有高血压、高风险发作的疾病是心脏病,检测用户的特征参数,当获取的特征参数满足对应的疾病特征或者较高概率引发疾病,则根据此确定用户的生理参数为身体状况异常,具体为突发高风险疾病,若检测到用户体温升高,处于发烧状态,则确定用户的生理参数为身体状况异常,具体为发烧。

优选地,建立各类疾病与与之相关的生理参数的对应关系,为相应的参数值设置预警值,当对应于某种疾病的相关生理参数值达到预警值,则确定用户的生理参数为身体状况异常。

在步骤102中,判断用户的状态属性是否满足免唤醒的条件,若是则执行步骤103;

该条件为:

当用户的状态属性包括用户的情感属性时,判断驾驶员的情感属性是否是负面情绪或不利于安全行车,若是,则满足该条件;或者判断非驾驶员的情感属性是否是负面情绪,若是,则满足该条件。

优选地,负面情绪包括生气、烦躁、伤心等,不利于安全行车的情绪包括生气、烦躁、伤心、激动等容易导致忘记行车注意事项的情绪。例如当驾驶员情绪烦躁时,采用免唤醒的方式简化了语音交互的流程,在一定程度上可以缓解用户的情绪。

优选地,当驾驶员的情感属性是负面情绪或不利于安全行车时,进一步获取路况信息,当当前路段为拥堵状态时,则满足该条件。

当用户的状态属性包括用户的生理状态属性时,判断用户的生理状态属性是否为身体状况异常,如发烧、血压升高等生病情况、或疲劳等的情况,若是,则满足免唤醒的条件。

当用户的状态属性包括用户的情感属性和用户的生理状态属性时,判断用户的状态属性是否满足免唤醒的条件包括

判断驾驶员的情感属性是否是负面情绪或不利于安全行车,若是,则满足该条件;或者判断非驾驶员的情感属性是否是负面情绪,若是,则满足该条件;

或者

判断用户的生理状态属性是否为身体状况异常,若是则满足该条件;

或者

判断驾驶员的情感属性为负面情绪或不利于安全行车,并且生理状态属性为身体状况异常,或者非驾驶员的情感属性为负面情绪,并且生理状态属性为身体状况异常,则满足该条件。

进一步的,还判断获取的非驾驶员的语音指令是否与行车安全相关,若不是,则激活免唤醒功能,否则,不激活免唤醒功能,并向用户语音提示不激活的理由。

在步骤103中,激活免唤醒功能。

当满足上述条件时,语音控制逻辑根据获取的用户的语音指令执行相应的动作,例如当需要调用其他程序或功能执行用户的语音指令时,则调用其他程序或功能,并向用户反馈执行结果或者与用户进行持续的交互,当无需调用其他程序或功能时,则根据识别的语音指令与用户进行交互。

在步骤104中,不激活免唤醒功能。

在根据上述判断步骤判断不满足上述条件时,则不激活免唤醒的功能,需要采用唤醒词唤醒语音控制逻辑,或者其他常用的唤醒语音控制逻辑的方式进行唤醒。

优选地,该方法还包括获取用户的语音指令,该获取语音指令的步骤可以在步骤101之前执行,或者在上述方法的任意时刻执行。

进一步的,当确定满足免唤醒的条件时,根据用户的状态属性输出对应的语音提示,提示用户当前处于哪种状态,提醒其小心驾驶,告知用户激活了免唤醒功能,并根据用户的状态提出解决建议,如用户为烦躁的情绪,语音提示用户当前比较烦躁,是否需要听比较舒缓的音乐,当用户说好的时,则调用其他程序或服务,为用户播放音乐。例如当用户发烧时,提示用户发烧了,并询问用户是否要去医院,后续的交互根据语音控制逻辑与用户的交互执行。进一步的,对用户的历史状态属性和用户的行为进行学习,确定在某个状态属性时,用户执行的高概率事件,该高概率事件是指当用户处于某种状态属性时,用户执行该事件的概率高于预设阈值。基于该模型确定用户的状态属性对应的高概率事件,基于确定的高概率事件向用户输出语音提示,并问询用户是否要执行该高概率事件。

可选的,当用户被告知激活了免唤醒功能时,若用户不需要激活该功能,可以向语音控制逻辑发起语音指令,令其关闭该功能,语音控制逻辑根据用户的语音指令关闭该功能。通过该方式,一方面可提高行车安全性,另一方面可以明确告知用户语音控制逻辑的状态,并使用户根据其需要控制语音控制逻辑的激活方式。有效的避免了语音控制逻辑被误触发。

本实施方式提供的语音唤醒语音控制逻辑的方法,通过判断用户的状态属性是否满足免唤醒词唤醒语音控制逻辑的条件,在满足条件时,激活免唤醒词唤醒语音控制逻辑的方式,通过上述语音唤醒方法,能够简化用户和语音控制逻辑之间语音交互的流程,使语音交互更便捷,更人性化、智能化,提高语音交互的效率,提高用户,特别是驾驶员的体验,增强行车安全性。

在另一实施方式中,可以在语音控制逻辑中设置是否启用免唤醒功能的选项,若用户开启该功能,则执行上述方法,若用户关闭该功能,则使用现有技术中常用的唤醒方式,如唤醒词唤醒语音控制逻辑。通过该设置,用户可以更加灵活的根据其需要选择其语音唤醒方式。

优选地,在步骤101之前,确定用户是否开启特定条件下免唤醒的功能,若是,则执行步骤101。

在另一实施方式中,当语音控制逻辑获取用户发出的语音指令时,先对该语音指令进行识别,判断是否包含唤醒词,若是,则按现有技术中采用唤醒词唤醒语音控制逻辑的方式与语音控制逻辑进行语音交互。若不包含唤醒词,则执行该方法,判断用户的状态属性是否满足免唤醒词唤醒语音控制逻辑的条件,根据判断结果执行对应的处理。

优选地,在步骤101之前,获取用户发出的语音指令,判断所述语音指令是否包含唤醒词,若不包含唤醒词,则执行步骤101。

以上对本发明语音唤醒的方法进行了详细描述。

图2为本发明提供的语音唤醒装置的结构示意图,用于执行上述方法,如图2所示,本实施例提供的语音唤醒装置同样可应用于车载环境,包括:

确定模块,用于确定用户的状态属性;

判断模块,用于判断用户的状态属性是否满足免唤醒的条件;

激活模块,用于当判断模块的判断结果为满足条件时,激活免唤醒的功能。

用户的状态属性包括用户的情感属性、和/或用户的生理状态属性。

进一步的,当判断模块的判断结果为不满足上述条件时,激活模块不激活免唤醒功能。

当状态属性包括用户的情感属性时,确定模块具体用于确定用户的情感属性,当状态属性包括用户的生理状态属性时,确定模块具体用于确定用户的生理状态属性。

优选地,该装置还包括感测模块,用于检测用户的特征参数,从而获取到用户的特征参数,并将获取的特征参数发送给确定模块,使得确定模块根据所述特征参数确定用户的情感属性、生理状态属性;

确定模块确定用户的情感属性、生理状态属性的方式与上述方法的方式相同。

确定模块还用于对之前获取的用户的面部表情、和/或生理参数、和/或语言动作行为等特征参数进行学习,确定用户的这些特征参数对应的情感属性,建立起用户特定的情感属性模型,随着获取的用户的特征参数的样本的增加,对该模型不断的进行自学习,不断更新并进行纠错,提高识别用户情感属性的准确性,在该模型中,输入用户的特征参数,则可以得出用户专属的情感属性。其中,通过用户的相关信息,如指纹信息,头像信息,声纹信息或者其他生物特征有关的信息,或者其他可以识别用户的信息对用户进行标识。

优选地,该装置还包括存储模块,用于预先存储用户的既往病史或者高风险发作的疾病,从而使得确定模块从该存储模块获取上述存储的信息,对预先存储的疾病重点关注,当获取的特征参数满足对应的疾病特征或者较高概率引发疾病,则根据此确定用户的生理参数为身体状况异常,具体为突发高风险疾病,若检测到用户体温升高,处于发烧状态,则确定用户的生理参数为身体状况异常,具体为发烧。

优选地,存储模块中存储各类疾病与与之相关的生理参数的对应关系,为相应的参数值设置预警值,当确定模块确定的对应于某种疾病的相关生理参数值达到预警值时,则确定用户的生理参数为身体状况异常。

判断模块判断用户的状态属性是否满足免唤醒的条件与上述方法步骤102相同。

优选的,该装置还包括提醒模块,当确定满足免唤醒的条件时,根据用户的状态属性输出对应的语音提示,提示用户当前处于哪种状态,提醒其小心驾驶,告知用户激活了免唤醒功能,并根据用户的状态提出解决建议。

进一步的,该装置还包括获取模块,用于获取用户的语音指令。

该装置还包括执行模块,用于当需要响应获取模块获取的语音指令时,根据获取的语音指令执行与之对应的动作。例如需要调用其他程序或功能执行用户语音指令时,则调用其他程序或功能,并向用户反馈执行结果,当无需调用其他程序或功能时,则根据识别的语音指令与用户进行交互。优选地,提醒模块进一步通过语音的方式向用户反馈执行结果。

当用户被告知激活了免唤醒功能时,若用户不需要激活该功能,可以向语音控制逻辑发起语音指令,令其关闭该功能。获取模块获取用户向语音控制逻辑发起的该语音指令,将该语音指令发送给执行模块,执行模块根据该语音指令关闭上述功能。

优选地,提醒模块还用于向用户语音提示不满足免唤醒的理由。

进一步的,提醒模块还用于对用户的历史状态属性和用户的行为进行学习,确定在某个状态属性时,用户执行的高概率事件,该高概率事件是指当用户处于某种状态属性时,用户执行该事件的概率高于预设阈值。基于该模型确定用户的状态属性对应的高概率事件,基于确定的高概率事件向用户输出语音提示,并问询用户是否要执行该高概率事件。

进一步的,当激活模块激活免唤醒功能时,执行模块根据获取的语音指令执行与之对应的动作。当激活模块不激活免唤醒功能时,激活模块采用唤醒词唤醒语音控制逻辑,或者其他常用的唤醒语音控制逻辑的方式进行唤醒,当唤醒后执行模块根据获取的语音指令执行与之对应的动作。执行模块具体执行的方式与前面记载的方式相同。

进一步的,该装置还包括开关模块,用于用户选择开启或者关闭免唤醒功能;当用户选择开启时,则开启免唤醒功能。

进一步的,该装置还包括语音检测模块,用于判断获取的用户发出的语音指令是否包含唤醒词,若不包含唤醒词,则触发判断模块执行其功能;若包含,则触发执行模块根据语音指令执行相应的动作。

优选地,该用户为驾驶员。

本发明还提供一种语音控制逻辑,该语音控制逻辑包括上述语音唤醒装置。

本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如上所述的方法。

本发明还提供一种计算机可读存储介质,存储计算机指令,所述计算机指令用于实现如上所述的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、闪存、可擦式可编程只读存储器(eprom)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1