语音控制方法及终端与流程

文档序号:11154278阅读:645来源:国知局
语音控制方法及终端与制造工艺

本发明涉及语音控制技术,尤其涉及一种语音控制方法及终端。



背景技术:

随着多媒体和智能设备的发展,目前采用智能设备(例如智能电视机、智能手机、平板电脑、智能冰箱、智能空调等)都可以采用语音进行控制,即用户通过麦克风输入一段语音数据,智能设备通过识别这段语音数据,进而根据识别后的语音数据生成智能设备可执行的相关指令,进而执行该指令,实现智能设备的语音控制功能。

已有技术中,采用语音控制智能设备时,智能设备一般对某段语音进行语义分析,并提取关键词获取相关指令并进行执行。例如,用户说了一句:“我想看刘德华演的电影”,智能设备提取到关键词“刘德华”和“电影”,会搜索刘德华的影片展示给用户。

但是,由于不同人的语言方式不同,输入语音数据的过程中会有中断或停顿等,采用现有技术,有时候并不能准确得到用户想要的控制结果。



技术实现要素:

本发明提供一种语音控制方法及终端,用于解决现有技术中语音控制方法并不能准确得到用户想要的控制结果的问题。

本发明第一方面提供一种语音控制方法,包括:

在第一时间点接收第一语音指令,根据所述第一语音指令获取第一关键词集合;

在第二时间点接收第二语音指令,根据所述第二语音指令获取第二关键词集合;

当所述第二时间点和所述第一时间点之间的时间间隔小于预设阈值时,合并所述第一关键词集合和所述第二关键词集合,得到第三关键词集合;

根据所述第三关键词集合,生成终端设备可执行的控制指令。

本发明第二方面提供一种终端,包括:

获取模块,用于在第一时间点接收第一语音指令,根据所述第一语音指令获取第一关键词集合;在第二时间点接收第二语音指令,根据所述第二语音指令获取第二关键词集合;

合并模块,用于在所述第二时间点和所述第一时间点之间的时间间隔小于预设阈值时,合并所述第一关键词集合和所述第二关键词集合,得到第三关键词集合;

生成模块,用于根据所述第三关键词集合,生成终端设备可执行的控制指令。

本发明提供的语音控制方法及终端中,在第一时间点接收第一语音指令,根据第一语音指令获取第一关键词集合,在第二时间点接收第二语音指令,根据第二语音指令获取第二关键词集合,当第二时间点和第一时间点之间的时间间隔小于预设阈值时,合并第一关键词集合和第二关键词集合,得到第三关键词集合,根据该第三关键词集合,生成终端设备可执行的控制指令,实现了在语音指令之间间隔时间较短时,可以通过合并得到新的语音指令,根据新的语音指令再生成终端设备可执行的控制指令,使得控制指令更符合用户期望,提高了用户体验。

附图说明

图1为本发明提供的一种语音控制方法流程示意图;

图2为本发明提供的一种语音控制方法中预设关系词库示意图;

图3为本发明提供的另一种语音控制方法流程示意图;

图4为本发明提供的一种终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种语音控制方法,用于分析连续的语音输入,更好地获取关键词集合,以便更好地执行用户语音指令,得到用户期望的语音控制结果。本发明实施例适用于各种可以接收语音指令的智能终端,例如:智能电视、智能手机、平板电脑、智能冰箱、智能空调等。

图1为本发明提供的一种语音控制方法流程示意图,如图1所示,该方法包括:

S101、在第一时间点接收第一语音指令,根据第一语音指令获取第一关键词集合。

记录该第一时间点。

S102、在第二时间点接收第二语音指令,根据第二语音指令获取第二关键词集合。

记录该第二时间点。

需要说明的是,第二语音指令和第一语音指令一般是用户连续输入的两个相邻语音指令,针对相邻的语音指令进行判断。

获取到语音指令后,识别语音指令,并获取关键词集合。

可选地,可以根据语义分析,从语音指令中按照词语属性提取关键词,形成关键词集合。

例如,用户输入语音“我想看刘德华的电影”,根据词义提取出影视名词“刘德华”和“电影”。

另外,用户输入语音指令后,终端的当前显示界面可能跳转也可能不跳转,会根据具体识别的指令、以及反应时间来决定。

S103、当第二时间点和第一时间点之间的时间间隔小于预设阈值时,合并第一关键词集合和第二关键词集合,得到第三关键词集合。

S104、根据该第三关键词集合,生成终端设备可执行的控制指令。

具体地,第二语音指令在第一语音指令之后输入,可以通过第二时间点和第一时间点之间的时间间隔判断这两个语音指令的关联性,进而获取新的关键词集合。一般两个语音指令相隔很近的话,很可能是用户由于语气原因或说话习惯等把一条指令从中间断开了。

例如,先获取语音指令“刘德华”,紧接着又收到语音指令“关之琳的电影”,这两个指令之间的时间间隔小于预设阈值,从而合并后得到新的关键词集合{刘德华、关之琳、电影},可以根据新的关键词集合{刘德华、关之琳、电影}生成搜索指令,即以{刘德华、关之琳、电影}为关键词搜索多媒体资源,当然不以此为限。

本实施例中,在第一时间点接收第一语音指令,根据第一语音指令获取第一关键词集合,在第二时间点接收第二语音指令,根据第二语音指令获取第二关键词集合,当第二时间点和第一时间点之间的时间间隔小于预设阈值时,合并第一关键词集合和第二关键词集合,得到第三关键词集合,根据该第三关键词集合,生成终端设备可执行的控制指令,实现了在语音指令之间间隔时间较短时,可以通过合并得到新的语音指令,根据新的语音指令再生成终端设备可执行的控制指令,使得控制指令更符合用户期望,提高了用户体验。

可选地,当第二时间点和第一时间点之间的时间间隔小于预设阈值时,合并第一关键词集合和第二关键词集合,得到第三关键词集合,可以为:当第二时间点和第一时间点之间的时间间隔小于预设阈值时,判断当前显示界面是否与第一时间点对应的显示界面相同;若当前显示界面与第一时间点对应的显示界面相同,则合并第一关键词集合和第二关键词集合,得到第三关键词集合。

终端会根据用户的语音指令执行相应地操作,例如用户的语音指令是“搜索刘德华电影”,终端就会启动搜索,并跳转到搜索结果的界面。终端收到第二语音指令时可能已经执行了第一语音指令对应的控制指令,就无需再合并,进而再执行第二语音指令即可。

示例的,用户输入的第一语音指令是“搜索”,终端接收到该第一语音指令后,获取到第一关键词集合“搜索”,但是,终端并不能根据该第一关键词集合“搜索”生成相应的控制指令,因为该第一语音指令是不可执行的语音控制指令,所以终端接收到第一语音指令之后,其显示界面并不会发生跳转;进而当在预设的时间阈值内,终端接收到第二语音指令“刘德华的电影”时,获取到第二关键词集合“刘德华、电影”,终端将第一关键词集合“搜索”和第二关键词集合“刘德华、电影”进行合并,得到第三关键词集合“搜索、刘德华、电影”,进而根据第三关键词集合“搜索、刘德华、电影”生成相应的控制指令,终端设备根据该控制指令进行页面跳转。

因此,本实施例中,在第二时间点和第一时间点之间的时间间隔小于预设阈值时,再继续判断当前显示界面是否与第一时间点对应的显示界面相同,如果不同则说明第一时间点对应的显示界面发生了跳转,即终端已经执行了第一语音指令对应的控制操作,此时,终端就不需要合并第一关键词集合和第二关键词集合了,终端继续根据第二语音指令执行相应的操作即可。如果相同,则说明第一时间点对应的显示界面没有跳转,即终端无法根据第一语音生成相应的控制操作,此时终端需要将第一关键词集合和第二关键词集合合并,进而根据合并得到的第三关键词集合生成终端设备可执行的控制操作。通过判断当前显示界面是否与第一时间点对应的显示界面相同,进一步确定是否应该合并第一关键词集合和第二关键词集合,保证了合并第一关键词集合和第二关键词集合的动作更加符合用户的控制意图,进一步保证了语音控制结果更加符合用户的期望,提高了语音控制的用户体验性。

进一步地,若当前显示界面与第一时间点对应的显示界面相同,则合并第一关键词集合和第二关键词集合,得到第三关键词集合,可以是:若当前显示界面与第一时间点对应的显示界面相同,确定第一关键词集合中各个第一关键词与第二关键词集合中的各个第二关键词之间的关联关系;根据第一关键词与第二关键词之间的关联关系,合并第一关键词集合和第二关键词集合。

为了合并后的第三关键词集合更加合理,合并之前先考虑第一关键词与第二关键词之间的关联关系。

该关联关系可以包括:多媒体关联关系和控制关联关系,在此不作限制。

若当前显示界面与第一时间点对应的显示界面相同,确定第一关键词集合中各个第一关键词与第二关键词集合中的各个第二关键词之间的关联关系,可以是:若当前显示界面与第一时间点对应的显示界面相同,根据预设关系词库确定第一关键词集合中各个第一关键词与第二关键词集合中的各个第二关键词之间的关联关系。

可选地,预先存储好预设关系词库,本实施例中,预设关系词库可以包括:各类属性的词汇,以及这些词汇之间的关系。例如某部电影的名称,与这部电影相关的所有词汇相连,像演员名、导演名、主题曲名等,在此不作限制。

图2为本发明提供的一种语音控制方法中预设关系词库示意图,如图2所示,以电影《至尊无上》为例,相关的词汇包括:关之琳、刘德华、陈玉莲、谭咏麟、王晶等,另外,还包括这部电影的自有属性:电影和控制指令,控制指令又可以包含多个层次的词汇,如图2所示,包括:快进/快退、音量调节;快进/快退的下层又包括:时间点(时分秒)、以及快进/快退长度(时分秒)等,在此不作限制。

这样如果语音指令为“我想看刘德华的电影”,得到关键词集合{刘德华,电影},根据预设关系词库就会搜索到《至尊无上》这部电影。

多媒体关联关系可以指是否与相同或相似的多媒体资源具有关联关系,如图2所示,“关之琳”和“至尊无上”之间存在多媒体关联关系,间接地,“关之琳”和“刘德华”之间也存在多媒体关联关系。可选地,可以通过连线长度来区分多媒体关联关系的相关程度。其中,多媒体关联关系是否满足预设条件,即考虑多媒体关联关系的相关程度是否满足预设条件,例如连线长度是否小于一定阈值。

控制关联关系可以指与其中至少一个关键词可以起到控制作用,其他例如“快进”和“电影”之间存在控制关联关系,“快进”作为控制属性词汇,可以触发终端快进电影。或者,“快进”和“10分钟”之间存在控制关联关系,“快进”作为控制属性词汇,“10分钟”作为控制的目标词汇。

可选地,根据第一关键词与第二关键词之间的关联关系,合并第一关键词集合和第二关键词集合,可以是:若第一关键词集合中的第一关键词与第二关键词集合中的第二关键词之间不存在关联关系,将第一关键词集合中的多媒体属性关键词添加到第二关键词集合中,得到第三关键词集合。第三关键词集合可以包含第二关键词集合,以及第一关键词集合中的多媒体属性关键词。

其中,多媒体属性关键词可以是对多媒体属性进行描述的词汇,例如:电影、电视剧、喜剧、文艺等。其它多媒体对象的名词不属于多媒体属性关键词,多媒体对象关键词包括:刘德华(演员名)、王晶(导演名)、无间道(电影名)、匆匆那年(主题曲名)等。

例如第一关键词集合包括{孙俪、电视剧},第二关键词集合包括{陈伟霆、民国},当前显示界面与第一时间点的显示界面相同,还未跳转,第一关键词集合不存在关键词与第二关键词集合中的关键词存在多媒体关联关系,则将第一关键词集合中的“电视剧”添加到第二关键词集合中,得到第三关键词集合{陈伟霆、电视剧、民国},并根据第三关键词集合生成终端设备可执行的控制指令,例如以第三关键词集合为搜索关键词的搜索指令,这样搜索范围会更加广泛,更容易得到用户想要的内容。

或者,根据第一关键词与第二关键词之间的关联关系,合并第一关键词集合和第二关键词集合,可以是:若第一关键词集合中的第一关键词与第二关键词集合中的第二关键词之间存在多媒体关联关系,且该多媒体关联关系满足第一预设条件,将第一关键词集合与第二关键词集合合并,得到第三关键词集合。

例如第一关键词集合包括{刘德华、电影},第二关键词集合包括{关之琳},其中,刘德华与关之琳存在多媒体关联关系、电影与关之琳也存在多媒体关联关系,且多媒体关联关系都满足第一预设条件(关联性满足条件,例如可以通过预设关系词库中关键词之间的连线长度表示关联性,长度越短表示关联性越高),则得到新的关键词集合为{刘德华、关之琳、电影}。

或者,根据第一关键词与第二关键词之间的关联关系,合并第一关键词集合和第二关键词集合,可以是:若第一关键词集合中的第一关键词与第二关键词集合中的第二关键词之间存在控制关联关系,且该控制关联关系满足第二预设条件,将第二关键词作为第一关键词的控制属性形成第三关键词。

控制关联关系满足第二预设条件可以表示第一关键词与第二关键词的关联性满足条件。

例如当前用户正在观看某部电影,电影处于播放界面,不发生切换。先输入语音指令“我想快进电影”,得到关键词集合1{快进,电影}。紧接着又输入语音指令“快进5分钟”,得到关键词集合2{快进,5分钟}。

由图2所示的预设关系词库可知,关键词集合1中“快进”和关键词集合2中“5分钟”有控制关联关系。具体地,之间有连线表示存在控制关联关系,没有连线则没有控制关联关系。

进步一地,预设关系词库中还可以包括控制关联关系的具体关联性大小,具体地,可以采用连线长度表示关联性大小,连线长度满足预设阈值就表示满足预设条件。“快进”和“5分钟”之间的关联性满足预设大小时,表示他们的关联关系满足第二预设条件,将“5分钟”作为“快进”的控制属性,得到第三关键词集合{快进,电影,5分钟},进而终端会将当前正在观看的电影快进5分钟。

图3为本发明提供的另一种语音控制方法流程示意图,如图3所示,该方法包括:

S301、判断第二时间点和第一时间点之间的时间间隔是否大于预设阈值。

若时间间隔大于预设阈值,则直接将第二关键词集合作为新的关键词集合,生成对应的控制指令。若小于或等于预设阈值,则执行S302。

S302、判断当前显示界面是否与第一时间点对应的显示界面相同。

若相同则执行S303,若不相同则执行S307。

S303、根据预设关系词库确定第一关键词集合中是否有关键词与第二关键词集合中的关键词存在关联关系。

若存在则执行S304或者S305、若不存在则执行S306。

S304、第一关键词集合中的第一关键词和第二关键词集合中的第二关键词之间存在多媒体关联关系、且多媒体关联关系满足第一预设条件时,将第二关键词和第一关键词合并作为新的关键词集合。

S305、第一关键词集合中的第一关键词和第二关键词集合中的第二关键词之间存在控制关联关系、且控制关联关系满足第二预设条件时,将第二关键词作为第二关键词的控制属性形成第三关键词集合。

S306、将第一关键词集合中的多媒体属性关键词添加到第二关键词集合中,得到第三关键词集合。

S307、将第二关键词集合作为新的关键词集合。即上述第三关键词集合就是第二关键词集合。

采用上述实施例的方法,可以更好地确定用户语音命令之间的关联性,以便更好地执行命令,提高用户体验。

图4为本发明提供的一种终端的结构示意图,该终端可以是用于执行前述方法的智能终端,如图4所示,该终端包括:获取模块401、合并模块402以及生成模块403,其中:

获取模块401用于在第一时间点接收第一语音指令,根据所述第一语音指令获取第一关键词集合;在第二时间点接收第二语音指令,根据所述第二语音指令获取第二关键词集合。

合并模块402,用于在所述第二时间点和所述第一时间点之间的时间间隔小于预设阈值时,合并所述第一关键词集合和所述第二关键词集合,得到第三关键词集合。

生成模块403,用于根据所述第三关键词集合,生成终端设备可执行的控制指令。

本实施例中,在第一时间点接收第一语音指令,根据第一语音指令获取第一关键词集合,在第二时间点接收第二语音指令,根据第二语音指令获取第二关键词集合,当第二时间点和第一时间点之间的时间间隔小于预设阈值时,合并第一关键词集合和第二关键词集合,得到第三关键词集合,根据该第三关键词集合,生成终端设备可执行的控制指令,实现了在语音指令之间间隔时间较短时,可以通过合并得到新的语音指令,根据新的语音指令再生成终端设备可执行的控制指令,使得控制指令更符合用户期望,提高了用户体验。

可选地,合并模块402,具体用于在所述第二时间点和所述第一时间点之间的时间间隔小于预设阈值时,判断当前显示界面是否与所述第一时间点对应的显示界面相同;在当前显示界面与所述第一时间点的显示界面相同时,合并所述第一关键词集合和所述第二关键词集合,得到所述第三关键词集合。

进一步地,合并模块402,具体用于在当前显示界面与所述第一时间点的显示界面相同时,确定所述第一关键词集合中的各个第一关键词与所述第二关键词集合中的各个第二关键词之间的关联关系;根据所述第一关键词与所述第二关键词之间的关联关系,合并所述第一关键词集合和所述第二关键词集合,得到所述第三关键词集合。

可选地,合并模块402,在当前显示界面与所述第一时间点的显示界面相同时,根据预设关系词库确定所述第一关键词集合中的各第一关键词与所述第二关键词集合中的各第二关键词之间的关联关系,其中,所述关联关系包括多媒体关联关系和控制关联关系。

进一步地,合并模块402,具体用于在所述第一关键词集合中的第一关键词与所述第二关键词集合中的第二关键词之间不存在关联关系时,将所述第一关键词集合中的多媒体属性关键词添加到所述第二关键词集合中,得到所述第三关键词集合。

或者,在所述第一关键词集合中的第一关键词与所述第二关键词集合中的第二关键词之间存在多媒体关联关系,且所述多媒体关联关系满足第一预设条件时,将所述第一关键词集合和所述第二关键词集合合并,得到所述第三关键词集合。

或者,在所述第一关键词集合中的第一关键词与所述第二关键词集合中的第二关键词之间存在控制关联关系,且所述控制关联关系满足第二预设条件时,将所述第二关键词作为所述第一关键词的控制属性形成所述第三关键词集合。

该终端用于执行前述方法实施例,其实现原理和技术效果类似,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1