语音交互处理方法、装置、设备及操作系统与流程

文档序号:12837729阅读:281来源:国知局
语音交互处理方法、装置、设备及操作系统与流程

本申请涉及智能设备处理技术,尤其涉及一种语音交互处理方法、装置、设备及操作系统。



背景技术:

随着电子信息技术的不断发展,用户设备的功能也越来越强大。语音助手是一类可以通过语音交互来实现或替代部分用户设备功能的应用,通过语音助手可以大大提高在不同场景下操作用户设备的便利性,因此,越来越广泛地应用在各种用户设备中。

现有技术中,用户打开语音助手后,可以通过麦克风等装置输入语音信息,语音助手可以根据用户输入的语音信息进行相应的处理。当语音输入出现异常,例如,无法正确识别用户输入的语音信息时,语音助手会反馈给用户相应的应答信息,如“对不起,我没听清”,当用户多次输入的语音信息均无法被识别时,语音助手只会简单地重复该应答信息,用户只能通过其它方式来执行自己想要的操作,例如退出语音助手并在用户设备的显示菜单中查找相应的功能等,操作繁琐,效率低下,且用户体验较差。



技术实现要素:

本申请提供一种语音交互处理方法、装置、设备及操作系统,以解决现有技术中用户通过输入语音来操作用户设备效率低下的技术问题。

一个方面,本申请提供一种语音交互处理方法,包括:

采集用户从语音输入界面所输入的语音信息;

对所述语音信息进行识别得到语音识别结果;

若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

另一方面,本申请提供一种语音交互处理装置,包括:

采集模块,用于采集用户从语音输入界面所输入的语音信息;

识别模块,用于对所述语音信息进行识别得到语音识别结果;

控制模块,用于在所述语音识别结果为失败时,等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

再一方面,本申请提供一种用户设备,包括:处理器、显示设备以及语音输入设备;

所述显示设备用于向用户显示语音输入界面;

所述语音输入设备,用于采集用户从所述语音输入界面所输入的语音信息;

所述处理器,耦合到所述显示设备和所述语音输入设备,用于对所述语音信息进行识别得到语音识别结果,若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

又一方面,本申请提供一种用于交通工具的控制设备,包括;机载指令输入设备,机载处理器,机载显示设备;

所述机载显示设备用于向用户显示语音输入界面;

所述机载语音输入设备,用于采集用户从所述语音输入界面所输入的语音信息;

所述机载处理器,耦合到所述机载显示设备和所述机载语音输入设备,用于对所述语音信息进行识别得到语音识别结果,若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

再一方面,本申请提供一种车载互联网操作系统,包括:

采集控制单元,控制车载语音输入设备采集用户从语音输入界面所输入的语音信息;

识别控制单元,对所述语音信息进行识别得到语音识别结果,若所述语音识别结果为失败,则等待用户重新输入语音信息,并控制车载显示设备在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述 输入帮助信息输入语音信息。

在本申请中,通过采集用户在语音输入界面输入的语音信息,并在所述语音识别结果为失败时,等待用户重新输入语音信息,同时在所述语音输入界面上向所述用户推送输入帮助信息,使得用户可以根据所述输入帮助信息输入语音信息,提高了语音交互的效率,简化了用户的操作,提升了用户体验度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的语音交互处理方法的流程图;

图2为本申请实施例一提供的语音交互处理方法中语音输入界面的示意图;

图3为本申请实施例一提供的语音交互处理方法中在语音交互界面上显示输入帮助信息的示意图;

图4为本申请实施例二提供的语音交互处理方法的流程图;

图5为本申请实施例三提供的语音交互处理方法的流程图;

图6为本申请实施例三提供的语音交互处理方法中在语音输入界面上显示功能词的示意图;

图7为本发明实施例三提供的语音交互处理方法中在语音输入界面上显示退出信息的示意图;

图8为本发明实施例三提供的语音交互处理方法中在语音输入界面上显示文字信息的示意图;

图9为本发明实施例三提供的语音交互处理方法中在语音输入界面上显示应答结果的示意图;

图10为本申请实施例三提供的语音交互处理装置的结构框图;

图11为本申请实施例四提供的语音交互处理装置中控制模块的结构 框图;

图12为本申请实施例五提供的用户设备的框图;

图13为本申请实施例六提供的控制设备的框图;

图14为本申请实施例七提供的车载互联网操作系统的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商 品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外,在此所称的“交通工具”,包括但不限于,内燃机汽车或摩托车、电动汽车或摩托车、电动助力车、电动平衡车、遥控车辆、小型飞行器(例如,无人驾驶飞行器、有人小型飞行器、遥控飞行器)、以及各种变形。

实施例一

本申请实施例一提供一种语音交互处理方法。图1为本申请实施例一提供的语音交互处理方法的流程图。如图1所示,本实施例中的方法,可以包括:

步骤101、采集用户从语音输入界面所输入的语音信息。

具体地,本实施例中的方法可以应用在用户设备上,所述用户设备可以包括但不限于:车载终端、手机、计算机、平板设备、数字广播终端、消息收发设备、游戏控制台、医疗设备、健身设备、个人数字助理、智能家居设备等。

所述用户设备中可以设置有显示装置,如显示屏或触摸屏等,可以在所述显示装置上向用户显示所述语音输入界面。图2为本申请实施例一提供的语音交互处理方法中语音输入界面的示意图。如图2所示,当用户开启用户设备或者输入相应的指令后,可以向用户显示所述语音输入界面。

相应的,所述用户设备中还可以设置有语音采集装置,例如麦克风等,当用户进入语音输入界面后,可以通过语音采集装置输入用于表示所述用户所需执行的操作的语音信息,例如“给小王打电话”或者“空调温度设定为25℃”等。

步骤102、对所述语音信息进行识别得到语音识别结果。

在接收到用户输入的语音信息后,可以对所述语音信息进行识别,得到语音识别结果。

具体地,所述语音识别结果可以包括成功和失败两种情况。若在预设时间内未识别到用户输入语音信息,则确定语音识别结果为失败,例如,在向用户显示语音输入界面后,用户在预设时间内没有说话,则认为语音识别结 果为失败,所述预设时间可以根据实际需要来设置,例如可以为5s。

或者,若未能成功识别出所述用户输入的语音信息所表示的含义,则确定语音识别结果为失败。例如,用户输入了一段语音,但是由于环境过于嘈杂,或者用户发音不标准,可能会导致无法识别出用户输入语音信息所表示的含义,此时也认为语音识别结果为失败。

若能识别出所述用户输入的语音信息所表示的含义,则认为语音识别结果为成功。

步骤103、若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

可选的是,若所述语音识别结果为失败,则可以在语音输入界面上显示应答信息。如前所述,语音识别结果为失败,可以包括两种情况,一种是预设时间内用户未输入语音信息,另一种是无法识别出用户输入的语音信息的含义。相应的,所述应答信息也可以根据语音识别失败的原因来设置。

例如,若是因为预设时间内用户未输入语音信息,则所述应答信息可以为“请您输入语音”;若是因为无法识别用户输入的语音信息的含义,则所述应答信息可以为“对不起,我没有听清,请重新输入”。

本实施例中,在等待用户重新输入语音信息时,可以在所述语音输入界面上向用户推送输入帮助信息。所述输入帮助信息可以为引导语句或功能词。

所述引导语句可以是用于引导用户操作的一句话,例如,“今天下雨吗”“帮我导航到公司”。所述功能词可以是一个词语,用于表示用户设备所具有的功能,例如,若所述用户设备为车载终端,则所述功能词可以为“导航”、“后视镜”、“收音机”等;若所述用户设备为空调,则所述功能词可以为“风向”、“风量”、“温度”等;若所述用户设备为手机,则所述功能词可以为“电话”、“短信”等。

所述输入帮助信息可以为引导语句,也可以为功能词。所述输入帮助信息的推送方式可以有多种。本实施例中,所述在所述语音输入界面上向所述用户推送输入帮助信息,可以包括:

在所述语音输入界面上向用户显示输入帮助信息,和/或在所述语音输 入界面上向用户播放语音形式的输入帮助信息。

图3为本申请实施例一提供的语音交互处理方法中在语音交互界面上显示输入帮助信息的示意图。如图3所示,在语音输入界面上除了显示识别失败后的应答信息“我没有听清,请再说一遍”,还显示有输入帮助信息“今天下雨吗”、“帮我导航到公司”、“风量太大了”和“关闭空调”。

进一步的,在所述语音输入界面的输入帮助信息上方,还显示了提示信息“您可以这样告诉我”,以提示用户可以输入与所述输入帮助信息类似的信息。

在所述语音输入界面上显示输入帮助信息的同时,还可以播放所述输入帮助信息。或者,也可以不显示所述输入帮助信息,仅仅通过播放的形式向用户推送所述输入帮助信息。

所述输入帮助信息的个数可以为一个或多个,所述输入帮助信息可以设置在所述语音输入界面的任意的合适的位置。所述输入帮助信息的个数、位置和具体内容可以根据实际需要来设置,并不局限于图3所示的方式。

本实施例中,若用户输入的语音信息被成功识别,则可以根据所述语音信息进行相应的处理。识别成功后的处理方法属于现有技术,此处不再详述。

本实施例提供的语音交互处理方法,通过采集用户从语音输入界面所输入的语音信息,并在所述语音识别结果为失败时,等待用户重新输入语音信息,同时在所述语音输入界面上向所述用户推送输入帮助信息,使得用户可以根据所述输入帮助信息输入语音信息,提高了语音交互的效率,简化了用户的操作,提升了用户体验度。

进一步地,步骤103中的若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,可以包括:

若所述语音识别结果为失败,则确定识别用户在语音输入界面输入的语音信息已经失败的次数;

等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送与所述次数对应的输入帮助信息。

如上所述,用户在所述语音界面上多次输入的语音信息均被识别失败时, 可以根据识别失败的次数来向用户推送不同的输入帮助信息。

所述次数与所述输入帮助信息之间的对应关系可以根据实际需要预先设置。

例如,可以在第一次和第二次识别用户输入的语音信息失败时,均向用户推送引导语句,第三次及以后识别用户输入的语音信息失败时,向用户推送功能词。

或者,可以在第奇数次识别用户输入的语音信息失败时,向用户推送引导语句,第偶数次识别用户输入的语音信息失败时,向用户推送功能词。

或者,更具体地,可以设置在第一次识别用户输入的语音信息失败时,向用户推送引导语句a,第二次识别用户输入的语音信息失败时,向用户推送功能词b,第三次识别用户输入的语音信息失败时,向用户推送功能词c和d,等等。

若识别失败的次数达到预设阈值,则可以关闭语音输入界面,停止与用户的语音交互。

一旦识别用户输入的语音信息成功,则可以根据所述语音信息进行后续正常的流程操作,不再向用户推送输入帮助信息。

通过在用户在所述语音界面上多次输入的语音信息均被识别失败时,根据识别失败的次数来向用户推送不同的输入帮助信息,能够以更多的形式和内容向用户展现输入帮助信息,帮助用户更快地完成语音输入,提高了语音交互的效率。

实施例二

本申请实施例二提供一种语音交互处理方法。本实施例是在实施例一提供的技术方案的基础上,以引导语句作为输入帮助信息。图4为本申请实施例二提供的语音交互处理方法的流程图。如图4所示,本实施例中的方法,可以包括:

步骤201、采集用户从语音输入界面所输入的语音信息。

步骤202、对所述语音信息进行识别得到语音识别结果。

步骤201至步骤202与实施例一中的步骤101至步骤102的具体实现原理类似,此处不再赘述。

步骤203、若所述语音识别结果为失败,则从引导语句库中选择至少一条引导语句。

具体地,本实施例中,识别失败后语音输入界面上显示的输入帮助信息可以为引导语句。所述引导语句可以有一条或多条。

所述引导语句可以从引导语句库中选择。所述引导语句库中可以包含有涉及用户设备各项功能的多条引导语句,所述语音输入界面上显示的引导语句可以从所述引导语句库中随机或顺序选择。

步骤204、等待用户重新输入语音信息,并在所述语音输入界面上向用户显示所选择的引导语句,以便所述用户根据所述引导语句输入语音信息。

本实施例中,所述引导语句库可以通过如下方式形成:获取用户设备的功能信息;为用户设备的每一个功能信息生成多个引导语句,形成所述引导语句库。

例如,所述用户设备包括八个功能,针对每一个功能信息,都要生成一个或多个引导语句,假设根据每个功能信息生成10个对应的引导语句,则八个功能信息对应80个引导语句,这80个引导语句就形成所述引导语句库。

相应的,从引导语句库中选择至少一条引导语句,可以包括:选择所述用户设备的一个或多个功能信息;在所述引导语句库中的所述一个或多个功能信息对应的引导语句中,选择至少一个引导语句。

具体地,可以从用户设备的y个功能信息中选择n个功能信息(n≤y),再从n个功能信息对应的引导语句中分别选择x条引导语句。y、n、x可以根据实际需要来设置。

假设y、n、x分别为8、3、1,则从用户设备的八个功能信息中选择三个,并针对选中的三个功能信息,分别选择一个对应的引导语句,并在语音输入界面上显示选中的三条引导语句。

进一步地,所述语音输入界面上显示的引导语句可以每隔一定时间更换一批,例如,可以每隔2s更换一批引导语句,以向用户展示更多的引导语句,引导用户输入可识别的语音信息。

进一步地,在选择引导语句中可以遵循下述原则:尽量保证与之前显示的引导语句不相同,以尽可能多地展示不同的引导语句。

本实施例提供的语音交互处理方法,通过根据用户设备的功能在引导语句库中选择相应的引导语句,并将选定的引导语句显示在语音输入界面上,能够更加全面地向用户展示可输入的语音信息,引导用户更快速地完成自己期望的操作,进一步提高用户体验度。

在上述实施例提供的技术方案的基础上,优选的是,所述方法还可以包括:

若识别用户输入的语音信息成功,则在所述引导语句库中查找与所述语音信息对应的引导语句;

若查找到与所述语音信息对应的引导语句,则确定所述引导语句被成功识别的次数;

若次数满足预设条件,则将所述语音信息对应的引导语句从所述引导语句库中删除。

例如,若用户输入语音信息后,成功识别出用户输入的语音信息为“导航去公司”,则可以在引导语句库中查找是否有“导航去公司”这一引导语句,若查找到有“导航去公司”这一引导语句,则根据该引导语句被成功识别出的次数确定是否要在引导语句库中删除该引导语句,假设预设条件为大于五次,那么,如果用户成功地输入过六次“导航去公司”,则在引导语句库中删除这一引导语句。

若某一引导语句被成功识别的次数满足预设条件,则说明用户已经成功得多次输入该引导语句,不再需要相应的引导,因此,在引导语句库中删除该引导语句能够保证用户已经熟练运用的引导语句不会再出现在语音输入界面上,提高用户的语音输入效率。

实施例三

本申请实施例三提供一种语音交互处理方法。本实施例是在实施例一提供的技术方案的基础上,在第一次识别失败时以引导语句作为输入帮助信息,在第二次失败时以功能词作为输入帮助信息。图5为本申请实施例三提供的语音交互处理方法的流程图。如图5所示,本实施例中的方法,可以包括:

步骤301、采集用户从语音输入界面所输入的语音信息。

步骤302、对所述语音信息进行识别得到语音识别结果。

步骤303、若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送引导语句。

步骤301至步骤303的具体实现原理与前述实施例类似,此处不再赘述。

步骤304、接收用户重新输入的语音信息。

步骤305、对所述用户重新输入的语音信息进行识别得到语音识别结果。

步骤306、若语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送用户设备的功能词。

本实施例中,在第一次语音识别失败后即在步骤303中,可以在语音输入界面上向用户显示引导语句,并等待用户重新输入。在第二次语音识别失败即重新输入的语音信息还是没能成功识别时,可以在步骤306中在语音输入界面上向用户显示功能词,所述功能词可以为用户设备所具有的功能信息,如“导航”“空调”等。

步骤301中的语音输入界面可以参照图2,如图2所示,当用户开启用户设备的相应功能,进入语音输入界面时,可以在语音输入界面上向用户显示欢迎语句,如“您好!需要什么帮助”,在显示该欢迎语句的同时,还可以语音播报出该欢迎语句。

在图2所示的语音输入界面下,等待用户输入语音信息。若识别用户输入的语音信息失败,则所述语音输入界面上向所述用户推送引导语句。第一次语音信息识别失败时显示的引导语句可以参照图3。如图3所示,在语音输入界面上显示有引导语句“今天下雨吗”、“帮我导航到公司”、“风量太大了”和“关闭空调”。在向用户显示图3所示的界面时,还可以同时向用户语音播报应答信息“我没有听清,请再说一遍”等,并等待用户重新输入。

当用户第二次输入的语音信息仍不能被成功识别时,可以向用户显示用户设备对应的功能词。图6为本申请实施例三提供的语音交互处理方法中在语音输入界面上显示功能词的示意图。如图6所示,所述语音输入界面上显示的功能词包括:导航、音乐、收音机、搜索、空调、打电话、天气和屏幕 亮度。在向用户显示图6所示的界面时,还可以同时向用户语音播报应答信息“我还是没听懂,您可以参考下面的提示告诉我,也可以直接点击”等,并等待用户重新输入。

在实际应用中,当识别用户第一次输入的语音信息失败时,可以向用户显示引导语句,提示用户输入正确的语音信息,当识别用户第二次输入的语音信息失败时,可以向用户显示功能词,用于向用户提示用户设备所具有的功能,使得用户可以根据显示的功能词以更简短的语言输入正确的语音信息,提高用户体验度。

进一步地,在多次识别用户输入的语音信息失败时,可以交替显示引导语句或功能词,例如,在上述步骤的基础上,还可以在第三次失败显示引导语句,第四次失败显示功能词,第五次失败显示引导词,以此类推。当识别用户输入的语音信息失败达到一定次数时,可以退出语音输入界面。

例如,当用户第三次输入的语音信息仍不能被成功识别时,可以向用户显示退出信息,并关闭语音输入界面。图7为本发明实施例三提供的语音交互处理方法中在语音输入界面上显示退出信息的示意图。如图7所示,用户第三次输入的语音信息的识别结果仍为失败时,可以向用户显示退出信息“我听不懂您说的火星语,再见!”,在向用户显示图7所示的界面时,还可以同时向用户语音播报所述退出信息,并在播报完毕后关闭语音输入界面,或者,可以在所述退出信息显示一定时间后,关闭语音输入界面。

当识别用户输入的语音信息成功时,可以进入正常的流程操作。具体地,在识别用户输入的语音信息成功时,可以首先将所述语音信息转化为文字信息,并将所述文字信息显示在语音输入界面上。图8为本发明实施例三提供的语音交互处理方法中在语音输入界面上显示文字信息的示意图。如图8所示,若用户语音输入了“去上海交通大学最快怎么走”,则可以在识别成功后,在语音输入界面上显示文字信息“去上海交通大学最快怎么走”。

然后,可以向用户推送有关“去上海交通大学最快怎么走”的应答结果。图9为本发明实施例三提供的语音交互处理方法中在语音输入界面上显示应答结果的示意图。如图9所示,所述应答结果可以包括多个选项:“200m,上海交通大学徐汇校区”、“210m,上海交通大学医学院附属第九医院”、“13.4km,上海交通大学闵行校区”以及“13.4km,上海交通大学闵行校区 北门”,供用户进行选择。

用户可以通过点击屏幕选择其中一个选项,或者通过输入语音来选择,例如,可以语音输入“第一个”,则选中距离当前位置200m的上海交通大学徐汇校区。

当用户在图9所示的界面下输入的语音没能被成功识别时,可以向用户播报应答语音“对不起,我没听清,请再说一遍”或者“还是没听清,您可以说第几个,上一页或下一页”等。当用户多次输入的语音均没能被成功识别时,可以向用户播报退出语音“听不懂您说的火星语,再见”,然后关闭语音输入界面。

本实施例提供的语音交互处理方法,在第一次识别用户输入的语音信息失败后和第二次识别用户输入的语音信息失败后向用户推送不同的输入帮助信息,更加全面地对用户进行引导,提高了用户重新输入的成功率。

在上述实施例提供的技术方案的基础上,优选的是,在语音输入界面上向用户显示输入帮助信息之后,还可以接收用户通过点击语音输入界面选定的输入帮助信息,并根据所述用户选定的输入帮助信息进行处理。

当用户选定某一输入帮助信息时,相当于用户以语音形式输入了该输入帮助信息,例如,在语音输入界面上向用户显示了三条输入帮助信息:“导航去公司”“打开收音机”“把空调温度调高”,若用户点击了“把空调温度调高”这一引导语句,则可以根据用户的点击相应地将空调的温度提高,使得用户通过点击语音输入界面选择期望的操作与通过语音输入期望的操作具有同等的效力,使用户的输入方式更加多元化,为用户提供了便利。

在上述实施例提供的技术方案的基础上,优选的是,所述语音交互处理方法,还可以包括:

若识别用户输入的语音信息成功,则根据用户输入的语音信息以及用户属性信息进行处理;

其中,所述用户属性信息包括下述至少一项:

用户的年龄、性别、职业、住址、所在地区、喜好、历史操作记录。

具体地,在根据用户输入的语音信息以及用户属性信息进行处理之前,可以根据用户的登录信息确定所述用户账户信息,或者,根据用户的输入语音的声纹信息确定用户账户信息,并根据所述用户账户信息,确定所述用户 属性信息。

在用户设备中可以保存有用户账户信息与用户属性信息的对应关系,当用户登录或者输入语音后,可以相应的确定用户账户信息,并根据用户账户信息确定用户属性信息,或者所述用户账户信息与用户属性信息的对应关系也可以保存在服务器中,在确定用户账户信息后,通过与服务器的交互即可实现用户属性信息的获取。当前,所述用户账户信息也可以通过其它方式确定,例如通过用户的指纹确定等,此处不作限制。

当获取用户属性信息后,可以在识别用户输入的语音信息成功时,根据用户输入的语音信息以及用户属性信息进行相应的处理。针对同样的语音信息,不同的用户属性信息对应的处理方式也可能不同。

例如,所述用户属性信息用于表示用户的喜好信息,同样是输入的语音信息为“音乐”,若a用户的喜好为轻音乐,则可以直接向其播放轻音乐;若b用户的喜好为摇滚乐,则可以直接向其播放摇滚乐;若c用户的喜好为无,则可以向其发送询问信息“您想听什么音乐”。

通过在识别用户输入的语音信息成功时,根据用户输入的语音信息以及用户属性信息进行相应的处理,能够使得所进行的处理更加符合用户的自身属性,满足用户的个性化需求。

采用上述各实施例提供的语音交互处理方法,能够在用户输入的语音信息未能成功识别时及时向用户推送输入帮助信息,引导用户正确输入期望的操作信息,有效提高交互效率,尤其是当上述实施例提供的技术方案应用于交通工具中时,能够获得更加显著的效果。具体地,由于用户在驾驶或乘坐交通工具时,所处的环境比较嘈杂,用户输入的语音信息比较不容易被成功识别,且用户不方便通过靠近麦克风来增加语音信息的成功识别率,因此更适于使用本实施例提供的方法。

在实际应用中,用户驾车行驶在路上时,车内环境往往比较嘈杂,且麦克风大多设置在方向盘或中控台上,离用户有一段距离,因此,相对于其它应用场景,用户输入的语音信息更加不容易被成功识别,而且在行车过程中,出于安全考虑,用户又不方便凑近方向盘或中控台来输入语音信息,在这种情况下,可以采用上述各实施例提供的语音交互处理方法,在语音信息识别失败时向用户推送输入帮助信息,使得用户可以通过点击所述输入帮助信息 来输入期望的操作信息,无需用户一次又一次地重复输入语音信息,有效节约了用户时间,提高了用户体验度。

进一步地,当用户第一次输入的语音信息识别失败时,在语音输入界面上向用户推送输入帮助信息,若所述输入帮助信息中并没有与用户期望操作对应的内容,则用户可以重新输入语音信息,若第二次输入的语音信息仍识别失败,则可以在语音输入界面上再次向用户推送输入帮助信息,第一次向用户推送的输入帮助信息和第二次向用户推送的输入帮助信息的内容可以不同,使得用户的选择更加全面,能够引导用户更快速地完成自己期望的操作,避免用户长时间重复输入语音信息影响行车安全性。

当上述实施例提供的方法应用到其它交通工具,如飞机、轮船、火车中时,也可以获得以上类似的有益效果,为用户提供极大的便利。

以下将详细描述根据本申请的一个或多个实施例的语音交互处理装置。这些语音交互处理装置可以被实现在交通工具或移动终端的基础架构中,也可以被实现在服务器和客户端设备的交互系统中。本领域技术人员可以理解,这些语音交互处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。例如,处理器组件(或处理模块、控制模块、处理器、控制器)可以使用来自德州仪器公司、英特尔公司、arm公司、等企业的单片机、微控制器、微处理器等组件。

实施例四

本申请实施例四提供一种语音交互处理装置。图10为本申请实施例四提供的语音交互处理装置的结构框图。如图10所示,本实施例中的装置,可以包括:

采集模块401,采集用户从语音输入界面所输入的语音信息;

识别模块402,用于对所述语音信息进行识别得到语音识别结果;

控制模块403,用于在所述语音识别结果为失败时,等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

本实施例可以用于执行实施例一所述的语音交互处理方法,其具体实现原理与实施例一类似,此处不再赘述。

本实施例提供的语音交互处理装置,通过采集用户从语音输入界面所输入的语音信息,并在所述语音识别结果为失败时,等待用户重新输入语音信息,同时在所述语音输入界面上向所述用户推送输入帮助信息,使得用户可以根据所述输入帮助信息输入语音信息,提高了语音交互的效率,简化了用户的操作,提升了用户体验度。

进一步地,所述识别模块402,具体可以用于:

若在预设时间内未识别到用户输入语音信息,则确定语音识别结果为失败;

或者,

若未能成功识别出所述用户输入的语音信息所表示的含义,则确定语音识别结果为失败。

进一步地,所述控制模块403,具体可以用于:

若所述语音识别结果为失败,则确定识别用户在语音输入界面输入的语音信息已经失败的次数;

等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送与所述次数对应的输入帮助信息。

图11为本申请实施例四提供的语音交互处理装置中控制模块的结构框图。如图11所示,所述控制模块403,可以包括显示推送单元4031和/或语音推送单元4032:

所述显示推送单元4031用于在所述语音输入界面上向用户显示输入帮助信息;

所述语音推送单元4032用于在所述语音输入界面上向用户播放语音形式的输入帮助信息。

进一步地,所述显示推送单元4031,具体可以用于:

在所述语音输入界面上向用户显示至少一条引导语句。

进一步地,所述显示推送单元4031,具体可以用于:

从引导语句库中选择至少一条引导语句;

在所述语音输入界面上向用户显示所选择的引导语句。

进一步地,所述控制模块403还可以包括生成单元4033:

所述生成单元4033可以用于:在所述语音输入界面上向用户显示至少 一条引导语句之前,获取用户设备的功能信息;为用户设备的每一个功能信息生成多个引导语句,形成所述引导语句库。

进一步地,所述显示推送单元4031,具体可以用于:选择所述用户设备的一个或多个功能信息;

在所述引导语句库中的所述一个或多个功能信息对应的引导语句中,选择至少一条引导语句。

进一步地,所述生成单元4033还可以用于:

若识别用户输入的语音信息成功,则在所述引导语句库中查找与所述语音信息对应的引导语句;

若查找到与所述语音信息对应的引导语句,则确定所述引导语句被成功识别的次数;

若次数满足预设条件,则将所述语音信息对应的引导语句从所述引导语句库中删除。

进一步地,所述控制模块403还可以包括:重新输入单元4034;

所述重新输入单元4034可以用于:

在所述语音输入界面上向所述用户推送输入帮助信息之后,接收用户重新输入的语音信息;

对所述用户重新输入的语音信息进行识别得到语音识别结果;

若语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,所述输入帮助信息为用户设备的功能词。

进一步地,所述重新输入单元4034,还可以用于:

在语音输入界面上向用户显示输入帮助信息之后,接收用户通过点击语音输入界面选定的输入帮助信息;

根据所述用户选定的输入帮助信息进行处理。

进一步地,所述重新输入单元4034,还可以用于:

若识别用户输入的语音信息成功,则根据用户输入的语音信息以及用户属性信息进行处理;

其中,所述用户属性信息包括下述至少一项:

用户的年龄、性别、职业、住址、所在地区、喜好、历史操作记录。

进一步地,所述重新输入单元4034,还可以用于:

在根据用户输入的语音信息以及用户属性信息进行处理之前,根据用户的登录信息确定所述用户账户信息,或者,根据用户的输入语音的声纹信息确定用户账户信息;

根据所述用户账户信息,确定所述用户属性信息。

实施例五

本申请实施例五提供一种用户设备。图12为本申请实施例五提供的用户设备的框图。如图12所示,本实施例中的用户设备,可以包括:处理器501、显示设备502以及语音输入设备503;

所述显示设备502用于向用户显示语音输入界面;

所述语音输入设备503,用于采集用户从所述语音输入界面所输入的语音信息;

所述处理器501,耦合到所述显示设备502和所述语音输入设备503,用于对所述语音信息进行识别得到语音识别结果,若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

其中,所述用户设备可以是车载终端,移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。所述显示设备502可以为触摸显示屏、液晶显示屏等,所述语音输入设备503可以为麦克风等。

本实施例提供的用户设备可以用于执行上述各实施例所述的行车记录处理方法,其具体实现原理与前述实施例类似,此处不再赘述。

本实施例提供的用户设备,通过采集用户从语音输入界面所输入的语音信息,并在所述语音识别结果为失败时,等待用户重新输入语音信息,同时在所述语音输入界面上向所述用户推送输入帮助信息,使得用户可以根据所述输入帮助信息输入语音信息,提高了语音交互的效率,简化了用户的操作,提升了用户体验度。

进一步地,所述处理器501可以通过如下方法向用户推送输入帮助信息:控制所述显示设备502在所述语音输入界面上向用户显示输入帮助信息。

进一步地,所述用户设备还可以包括:耦合到所述处理器501的音频输出设备;所述音频输出设备可以为扬声器等。

相应的,所述处理器501可以通过如下方法向用户推送输入帮助信息:控制所述音频输出设备在所述语音输入界面上向用户播放语音形式的输入帮助信息。

进一步地,所述处理器501还可以用于:

在语音输入界面上向用户显示输入帮助信息之后,接收用户通过点击语音输入界面选定的输入帮助信息;根据所述用户选定的输入帮助信息进行处理。

进一步地,所述处理器501还可以用于:

若识别用户输入的语音信息成功,则根据用户输入的语音信息以及用户属性信息进行处理;其中,所述用户属性信息包括下述至少一项:用户的年龄、性别、职业、住址、所在地区、喜好、历史操作记录。

进一步地,所述用户设备还可以包括:耦合到所述处理器501的文字输入设备;所述文字输入设备可以为键盘、按键等。

相应的,所述处理器501还可以用于:在根据用户输入的语音信息以及用户属性信息进行处理之前,根据用户通过所述文字输入设备输入的登录信息确定所述用户账户信息,或者,根据用户通过所述语音输入设备输入的语音的声纹信息确定用户账户信息;根据所述用户账户信息,确定所述用户属性信息。

实施例六

本申请实施例六提供一种用于交通工具的控制设备。图13为本申请实施例六提供的控制设备的框图。该控制设备可以被整合在交通工具的中央控制系统中,包括但不限于:车机设备、交通工具出厂后附加的控制设备等等。该控制设备可以包括;机载处理器、机载显示设备和机载语音输入设备,以及其他附加设备。本文所述的机载处理器、机载显示设备和机载语音输入设备等机载设备,是指可以安置在交通工具上的设备,如车载显示屏、车载语音输入设备等。

参照图13,控制设备900具体可以包括以下一个或多个组件:处理组 件902,存储器904,电力组件906,多媒体组件908,音频组件910,输入/输出(i/o)的接口912,传感器组件914,以及通信组件916。

所述机载处理器可以为图13中的处理组件902,所述处理组件902通常控制所述控制设备900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述实施例一至实施例三任一所述语音交互处理方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。

取决于所安装的交通工具的类型的不同,所述处理组件902可以使用各种应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,并用于执行上述语音交互处理方法。

处理组件902可以通过车内线路或无线连接耦合到上述机载语音输入设备和机载显示设备。按照上述的方案,所述处理组件902可以用于对机载语音输入设备采集的语音信息进行识别得到语音识别结果,若所述语音识别结果为失败,则等待用户重新输入语音信息,并在语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在控制设备900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电力组件906为控制设备900的各种组件提供电力。电力组件906可以包括电源管理系统,一个或多个电源,及其他与为控制设备900生成、 管理和分配电力相关联的组件。

多媒体组件908可以包括所述机载显示设备。在一些实施例中,所述机载显示设备可以包括液晶显示器(lcd)和/或触摸面板(tp)。如果所述机载显示设备包括触摸面板,则可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。所述机载显示设备可以用于向用户显示语音输入界面。

在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如,音频组件910可以包括所述机载语音输入设备,所述机载语音输入设备可以包括以下一个或多个:安置在中控台上的麦克风或拾音器;安置在方向盘上的麦克风或拾音器;安置在操作舵上的麦克风或拾音器。所述机载语音输入设备,可以用于采集用户从所述语音输入界面所输入的语音信息。

在一些实施例中,音频组件910还可以包括耦合到所述机载处理器的机载音频输出设备;相应的,所述机载处理器可以通过如下方法向用户推送输入帮助信息:控制所述机载音频输出设备在所述语音输入界面上向用户播放语音形式的输入帮助信息。

i/o接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器,用于为控制设备900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为控制设备900的显示器和小键盘,传感器组件914还可以检测控制设备900或控制设备900一个组件的位置改变,用户与控制设备900接触的存在或不存在,控制设备900方位或加速/减速和控制设备900的温度变化。传感器组件914可以包括接 近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件916被配置为便于控制设备900和其他设备之间有线或无线方式的通信。控制设备900可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,控制设备900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

实施例七

本申请实施例七提供一种车载互联网操作系统。图14为本申请实施例七提供的车载互联网操作系统的结构框图。如图14所示,本实施例提供的操作系统可以包括:采集控制单元701和识别控制单元702。

采集控制单元701,控制车载语音输入设备采集用户从语音输入界面所输入的语音信息;

识别控制单元702,对所述语音信息进行识别得到语音识别结果,若所述语音识别结果为失败,则等待用户重新输入语音信息,并控制车载显示设备在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

本领域技术人员可以理解,该车载互联网操作系统可以管理和控制前述实施例所述的用户设备或者用于交通工具的控制设备的硬件以及本申 请所涉及的软件资源的计算机程序,是直接运行在上述用户设备或者用于交通工具的控制设备上的系统软件。该操作系统是用户与上述用户设备或控制设备的接口,也是硬件与其它软件的接口。

本申请提供的车载互联网操作系统,可以与车辆上的其他模块或功能设备进行交互,以控制相应模块或功能设备的功能。

具体地,以上述实施例中的交通工具为车辆为例,基于本申请提供的车载互联网操作系统以及车辆通信技术的发展,使得车辆不再独立于通信网络以外,车辆可以与服务端互相连接起来组成网络,从而形成车载互联网。该车载互联网系统可以提供语音通信服务、定位服务、导航服务、移动互联网接入、车辆紧急救援、车辆数据和管理服务、车载娱乐服务等。

本实施例提供的车载互联网操作系统可以通过上述的采集控制单元701和识别控制单元702,或者在上述两种单元的基础上,结合其它单元,控制相应的组件以执行上述各实施例所述的语音交互处理方法,其具体实现原理与前述实施例类似,本实施例中不再赘述。

本实施例提供的车载互联网操作系统,通过控制车载语音输入设备采集用户从语音输入界面所输入的语音信息,并在所述语音识别结果为失败时,等待用户重新输入语音信息,同时控制车载显示设备在所述语音输入界面上向所述用户推送输入帮助信息,使得用户可以根据所述输入帮助信息输入语音信息,提高了语音交互的效率,简化了用户的操作,提升了用户体验度。

实施例八

本申请实施例八提供一种计算机/处理器可读存储介质,所述存储介质中存储有程序指令,所述程序指令用于使所述计算机/处理器执行:

采集用户从语音输入界面所输入的语音信息;

对所述语音信息进行识别得到语音识别结果;

若所述语音识别结果为失败,则等待用户重新输入语音信息,并在所述语音输入界面上向所述用户推送输入帮助信息,以便所述用户根据所述输入帮助信息输入语音信息。

本实施例提供的计算机/处理器可读存储介质,可以用于执行上述各实施例所述的语音交互处理方法,其具体实现原理与前述实施例类似,此处不再赘述。

本实施例提供的计算机/处理器可读存储介质,通过采集用户从语音输入界面所输入的语音信息,并在所述语音识别结果为失败时,等待用户重新输入语音信息,同时在所述语音输入界面上向所述用户推送输入帮助信息,使得用户可以根据所述输入帮助信息输入语音信息,提高了语音交互的效率,简化了用户的操作,提升了用户体验度。

上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1