交互处理方法、装置、设备及音频设备与流程

文档序号:19017939发布日期:2019-11-01 20:10阅读:183来源:国知局
交互处理方法、装置、设备及音频设备与流程

本发明涉及交互处理技术领域,更具体地,涉及一种交互处理方法、装置、设备及音频设备。



背景技术:

近年来随着人工智能技术以及设备制造技术的发展,人工智能设备普及率大幅提高。例如,智能音箱近年来就成为许多家庭的必备家用设备,可以令用户通过自然语言交互,就能获取信息、进行娱乐、控制家电等应用服务,令用户获取全新的快捷家居体验。

但是,随着智能音箱的普及率日趋提高,用户规模也随之爆发性增长,用户群体涉及的语言体系、发音特征也日趋复杂多样化,智能音箱识别语音指令的成功率也随之受到极大影响。例如,对于老年人群体用户,发出的语音指令通常具有浓厚的方言特色,智能音箱的语音识别成功率通常降低,极大影响用户体验。



技术实现要素:

本发明的一个目的是提供一种用于处理与音频设备交互的新技术方案。

根据本发明的第一方面,提供了一种交互处理方法,通过音频设备实施,包括:

根据当前地理位置信息,获取对应的目标位置特征;

根据所述目标位置特征,确定对应的目标语音识别模式;

根据所述目标语音识别模式,识别处理用户发出的语音指令,向用户提供对所述语音指令处理得到的指令处理结果。

根据本发明的第二方面,提供一种交互处理装置,设置在音频设备侧,包括:

特征获取单元,用于根据当前地理位置信息,获取对应的目标位置特征;

模式识别单元,用于根据所述目标位置特征,确定对应的目标语音识别模式;

结果提供单元,用于根据所述目标语音识别模式,识别处理用户发出的语音指令,向用户提供对所述语音指令处理得到的指令处理结果。

根据本发明的第三方面,提供一种交互处理设备,包括:

存储器,用于存储可执行的指令;

处理器,用于根据所述可执行的指令的控制,运行所述交互处理设备,执行根据本发明的第一方面所述的任意一项交互处理方法。

根据本发明的第四方面,提供一种音频设备,包括:

如本发明的第一方面所述的交互处理装置,或者如本发明的第二方面所述的交互处理设备。

根据本公开的一个实施例,根据音频设备当前的地址位置,确定对应的目标位置特征,基于目标位置特征选取对应目标语音识别模式来处理用户发出的语音指令,提高音频设备(例如智能音箱、智能耳机等)对语音指令的识别成功率,提升用户体验。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的音频设备1000的硬件配置的例子的框图。

图2示出了本发明的实施例的交互处理方法的流程图。

图3示出了本发明的实施例的获取目标位置特征的例子的示意图。

图4示出了音频设备的数据传递风险与用户关注度之间的关系的例子的示意图。

图5示出了预设的时长指数关系的例子的示意图。

图6示出了本发明实施例的交互处理方法的例子的流程图。

图7示出了本发明实施例的交互处理装置3000的框图。

图8示出了本发明实施例的交互处理设备4000的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的音频设备1000的硬件配置的框图。

音频设备1000可以是智能音箱、智能耳机等。如图1所示,音频设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器cpu、微处理器mcu等。存储器1200例如包括rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括usb接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括wifi通信、蓝牙通信、2g/3g/4g/5g通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过麦克风1800输入语音指令,触发音频设备1000通过处理器1100根据存储器1200中存储的可执行指令的控制,运行音频设备1000处理该语音指令,将语音指令的处理结果通过扬声器1700播放给用户。

图1所示的音频设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,音频设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项交互处理方法。本领域技术人员应当理解,尽管在图1中对音频设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,音频设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。

<实施例>

在本实施例中,提供一种交互处理方法,通过音频设备实施。该音频设备是基于人工智能技术(例如智能语音技术)实现的音箱、耳机等产品,可以与用户交互提供对应的应用服务,例如接收用户的语音指令播放歌曲、购物、查询天气信息等。在一个例子中,音频设备的硬件配置可以如图1所示。

该交互处理方法,如图2所示,包括:步骤s2100-s2300。

步骤s2100,根据当前地理位置信息,获取对应的目标位置特征。

在本实施例中,音频设备可以通过基于gps(globalpositionsystem,全球定位系统)或者基于wifi的定位模块来获取当前地理位置信息。当前地理位置信息是用于描述当前地理位置的定位信息,可以是当前地理位置的经纬度等。在获取当前位置信息后,可以获取对应的目标位置特征。

目标位置特征是与音频设备所处的地理位置相关特征,可以包括方言特征、城市特征、地理区域特征等。方言特征是对应的地理位置中用户群体普遍使用语言相关的特征,可以包括方言类型、语言体系、发音特征等。城市特征是对应的地理位置所在的城市的特征。地理区域特征是对应的地理位置所在的地理区域(该地理区域范围通常比城市范围更大)的特征。

通过获取目标位置特征,可以结合后续步骤,基于目标位置特征选取对应目标语音识别模式来处理用户发出的语音指令,提高音频设备对语音指令的识别成功率,提升用户体验。

在一个例子中,根据当前地理位置信息,获取对应的目标位置特征,包括:步骤s2110-s2120。

步骤s2110,根据当前地理位置信息,获取与当前地理位置信息相关的位置相关内容。

在本例中,可以通过网络爬取、人工采集等手段收集与不同的地理位置信息相关的位置相关内容,存储在本地,在获取当前地理位置信息后,可以从本地存储的、与不同的地理位置信息相关的位置相关内容中,查询获取当前地理位置信息相关的位置相关内容,或者,可以在获取当前地理位置信息后,实时在网络上搜索可以接入的信息库,来获取与当前地理位置信息相关的位置相关内容。

与当前地理位置信息相关的位置相关内容,可以包括与当前地理位置信息所对应的当前地理位置相关的内容,具体可以包括当前地理位置所在的城市、方言、区域、占地、交通枢纽、景点、气候,等等。例如,当前地理位置信息对应的当前地理位置是山东省青岛市时,获取的位置相关内容可以如图3所示。

步骤s2120,从位置相关内容中,提取目标位置特征。

在本例中,可以对获取的位置相关内容通过语义分析常用的各种算法,进行语义分析来提取对应的目标位置特征。

例如,如图3所示的位置相关内容中,进行语义分析,可以对应提取目标位置特征包括方言特征“胶辽官话-青莱片-青岛话”、城市特征“青岛”、地理区域特征“中国华东地区-山东省”。

在本例中,通过获取当前地理位置信息相关的位置相关内容,可以从位置相关内容中,精准提取能反映当前地理位置的特征的目标位置特征,以便结合后续步骤,基于目标位置特征选取对应目标语音识别模式来处理用户发出的语音指令,有效提高音频设备对语音指令的识别成功率。

在另一个例子中,根据当前地理位置信息,获取对应的目标位置特征,可以包括:步骤s2121-s2123。

步骤s2121,获取当前的数据安全风险指数。

数据安全风险指数用于表征音频设备在当前交互环境中传递数据存在的风险。数据安全风险指数越高,对应的音频设备传递数据存在的风险越大。

获取数据安全风险指数,可以结合后续步骤,根据数据安全风险指数,控制音频设备是否向后台服务器发送当前地理位置信息,避免在不安全的环境下发送当前地理位置信息,带来隐私泄露风险。

在这个例子中,获取当前的数据安全风险指数,可以包括:步骤s21211-s21212。

步骤s21211,获取音频设备最近一次与用户完成语音交互的交互完成时刻,与当前时刻之间的静默时长。

用户与音频设备完成语音交互,可以是用户发送唤醒词,成功唤醒音频设备,或者,音频设备主动发出语音消息与用户交互,得到用户的语音响应等。在本例中,可以实时监测音频设备与用户的交互,实时记录每次音频设备与用户完成语音交互的时刻,以此获取音频设备最近一次与用户完成语音交互的交互完成时刻。

在交互完成时刻,音频设备最近一次与用户完成语音交互,也是最近一次音频设备获得用户关注。对应的,获取交互完成时刻与当前时刻之间的静默时长,通过静默时长可以表征用户对音频设备的用户关注度的变化。在本例中,认为音频设备的用户关注度与音频设备的数据传递风险呈反比,即音频设备的用户关注度越高,音频设备的数据传递风险越低,例如,如图4所示。

步骤s21212,根据静默时长以及预设的时长指数关系,确定数据安全风险指数。

预设的时长指数关系用于描述不同的静默时长与数据安全风险指数之间的对应关系。该预设的时长指数关系可以通过音频设备的历史使用数据提取,或者通过对音频设备构建的数据传递风险模型进行计算后获取。通过预设的时长指数关系,可以根据静默时长,确定对应的数据安全风险指数。静默时长反映用户关注度的变化,数据安全风险指数反映数据传递风险,静默时长越长,对应的数据安全风险指数越大。

例如,假设音频设备与用户交互包括唤醒词激活、(接收及处理)语音指令、信息播放(包括播放语音指令处理结果)等三个阶段,而用户交互时刻是最近一次音频设备被用户发送的唤醒词激活的时刻,假设当前时刻是用户交互时刻时,静默时长是0,对应的数据安全风险指数也是0,之后,随着当前时刻后移,静默时长增加,假设静默时长每增加10秒,对应的数据安全风险指数增加1,直至静默时长增加到10分钟后,数据安全风险指数对应增加到60时,可以保持不变,直至当前时刻后移到下一次音频设备被下一个唤醒词激活的用户交互时刻,对应的,预设的时长指数关系可以如图5所示。

根据静默时长以及预设的时长指数关系,确定数据安全风险指数,可以利用反映用户关注度变化的静默时长,以及预设的时长指数关系,精准地确定反映数据传递风险的数据安全风险指数,以便基于数据安全风险指数结合后续步骤,精准控制音频设备发送当前地理位置信息,避免数据发送过程中出现安全风险。

获取当前的数据安全风险指数后,进入:

步骤s2122,在数据安全风险指数属于预设的低风险指数范围时,向后台服务器发送当前地理位置信息,触发后台服务器返回目标位置特征。

预设的低风险指数范围是反映传递数据风险较低、数据安全风险指数的数值范围,可以根据具体的应用场景或者应用需求,基于数据安全风险指数的具体获取方式进行设置。

例如,数据安全风险指数是基于上例中通过静默时长,根据如图5所示的预设的时长指数关系确定的,数据安全风险指数在0-60,预设的低风险指数范围可以设置为0-30,即不小于0到不大于30之间的数据安全风险指数,反映传递数据风险较低,不会带来数据泄露。

在数据安全风险指数属于预设的低风险指数范围时,确定数据传递不存在泄露风险,对应的,向后台服务器发送当前地理位置信息,触发后台服务器返回目标位置特征,可以在保证不泄露当前地理位置信息的基础上,触发后台服务器对当前地理位置信息进行处理,返回对应的目标位置特征,无需音频设备自身进行处理,可以降低音频设备的实现复杂度。

在本例中,后台服务器可以是与音频设备通过无线或者有线网络连接的服务器,例如,云端服务器等。后台服务器对当前地理位置信息进行处理,确定对应的目标位置特征,可以如上例中的步骤s2110-s2120,在此不再赘述。

步骤s2123,在数据安全风险指数不属于预设的低风险指数范围时,向用户获取数据传递授权后,再向后台服务器发送当前地理位置信息,触发后台服务器返回所述目标位置特征。

在数据安全风险指数不属于预设的低风险指数范围时,意味着数据传递存在泄露的高风险,在向用户获取数据传递授权后,再向后台服务器发送当前地理位置信息,可以避免在用户不知情的情况下,在高风险环境中向后台服务器发送当前地理位置信息,带来隐私泄露的安全风险。

数据传递授权是用户允许音频设备传递数据给予的权限。在一个例子中,向用户获取数据传递授权,可以包括:步骤s21231-s21233。

步骤s21231,向用户发送数据传递申请。

数据传递申请用于向用户申请数据传递权限,在数据传递申请中可以包括用于指示音频设备请求数据传递权限的申请权限指示,数据传递申请还可以具体的应用需求包括其他内容。

例如,数据传递申请还可以包括音频设备传递数据所需的权限内容。比如,音频设备传递的数据是音频数据,对应的,音频设备传递数据所需的权限内容包括麦克风权限等;或者,音频设备传递的数据是视频数据,对应的,音频设备传递数据所需的权限内容包括摄像头权限等;或者,音频设备传递的数据是地理位置数据,对应的,音频设备传递数据所需的权限内容包括定位权限等。

在本例中,可以由音频设备通过语音交互,向用户发送数据传递申请,也可以由音频设备,向用户使用的、与音频设备建立连接的至少一个移动终端,发送数据传递申请。音频设备可以与用户使用的移动终端通过wifi、蓝牙或者其他无线连接等方式,进行配对建立连接。移动终端可以包括手机、平板电脑等。通过向用户使用的、与音频设备建立连接的至少一个移动终端,发送数据传递申请,可以突破音频设备的语音传输范围,以时效性更高、更为安全隐秘的方式,向用户发送数据传递申请。为了提高数据交互的安全性,还可以对音频设备与移动终端之间的连接实施加密或者数据完整性保护。

向用户发从数据传递申请后,会触发用户返回对应的数据传递响应。

步骤s21232,在用户返回的数据传递响应指示允许数据传递后,触发用户进行身份验证。

在向用户发送数据传递申请后,可以通过音频设备等待用户返回对应的数据传递响应。在数据传递响应指示允许数据传递后,可以通过发出对应的语音指令,触发用户通过音频设备进行身份验证,例如,对于用户发出的声音进行声纹验证或者要求用户提供对应的语音权限密码等。

或者,通过音频设备向与其连接的移动终端发送数据传递申请后,可以等待移动终端通过与音频设备的连接,返回对应的数据传递响应。在数据传递响应指示允许数据传递后,可以通过音频设备与移动终端建立的连接,通过发出对应的指令,触发用户通过移动终端进行身份验证。身份验证的方式可以是移动终端支持的指纹识别验证、脸部识别验证、数字密码验证、语音密码验证、手势验证等。通过移动终端来实施用户身份验证,可以直接调用移动终端现有的验证模块来实施用户身份验证,相对于通过在音频设备中设置身份验证模块进行用户身份验证,无需对音频设备进行改动,实施更为简单,实现复杂度更低,更易于推广。

应当理解的是,在数据传递响应指示不允许数据传递后,可以确定用户不给予数据传递权限,获取数据传递权限失败,将不执行本实施例后续步骤,拦截本次数据传递。或者,在向多个移动终端发送数据传递申请后,未收齐所有移动终端返回的、指示允许数据传递的数据传递响应时,可以确定用户不给予数据传递权限,获取数据传递权限失败,将不执行本实施例后续步骤,拦截本次数据传递。

步骤s21233,在获取的身份验证结果指示身份验证通过后,确定获取数据传递授权。

在身份验证结果指示身份验证通过后,表示允许数据传递的用户是合法有效的用户,对应可以确定获取数据传递授权,保证获取的数据传递授权真实、有效性,提高基于数据传递授权进行数据传递的安全性。

应当理解的是,在身份验证结果指示身份验证未通过时,可以确定用户不具有给予数据传递权限的合法身份,获取数据传递权限失败,将不执行本实施例后续步骤,拦截本次数据传递。

以上已经说明了本例中的步骤s2121-s2123,通过获取当前的数据安全风险指数,根据数据安全风险指数控制向后台服务器发送当前地理位置信息,触发后台服务器返回对应的目标位置特征,可以在有效保证当前地理位置信息的传递安全性的基础上,由后台服务器来处理获取目标位置特征,无需音频设备自身进行处理,可以降低音频设备的实现复杂度。

在获取目标位置特征之后,进入:

步骤s2200,根据目标位置特征,确定对应的目标语音识别模式。

目标语音识别模式,是与目标位置特征对应的语音识别模式。

通过与目标位置特征对应的目标语音识别模式,可以结合后续步骤,利用与用户当前所在的地理位置对应的目标位置特征,更精准地对用户的语音指令进行识别处理,提高音频设备的语音识别率,提升用户体验。

在一个例子中,根据目标位置特征,确定对应的目标语音识别模式,可以包括:

根据预先获取的、位置特征与语音识别模式的对应关系,选取与目标位置特征对应的语音识别模式,作为目标语音识别模式。

位置特征与语音识别模式的对应关系中包括不同的位置特征所对应的语音识别模式。每个位置特征,是与特定的地理位置对应的特征,可以包括该地理位置的方言特征、城市特征、区域特征等。

在本例中,可以针对不同的位置特征,设置对应的语音识别模式。该语音识别模式是可供音频设备实施来识别用户发出的语音信息(包括语音指令、唤醒词等)的运行模式,可以通过软件模块(例如语音识别模块)、可被加载的软件工具开发包、可被安装的补丁程序等形式来实现。语音识别模式可以预先设置在音频设备的本地,或者,可以保存在与音频设备建立连接的后台服务(例如云端服务模块)中,在需要使用时,由音频设备从本地或者从后台服务加载。

针对不同的位置特征,设置对应的语音识别模式时,可以对应获取位置特征与语音识别模式的对应关系,将位置特征与语音识别模式的对应关系保存在音频设备本地,在获取音频设备的当前位置,确定对应的目标位置特征后,读取位置特征与语音识别模式的对应关系,快速、精准地确定与目标位置特征对应的目标语音识别模式,无需实时根据目标位置特征在音频设备所支持的多个语音识别模式中搜索,提高处理效率。

在确定目标语音识别模式之后,进入:

步骤s2300,根据目标语音识别模式,识别处理用户发出的语音指令,向用户提供对语音指令处理得到的指令处理结果。

用户发出的语音指令,可以包括用于激活唤醒音频设备的唤醒词、用于指示音频设备进行相关操作的操作指令等。

目标语音识别模式与目标位置特征对应,而目标位置特征是与音频设备的当前地理位置对应的特征,也就是与使用音频设备的用户所处的地理位置对应的特征,通过目标语音识别模式对用户发出的语音指令进行识别处理,可以利用目标位置特征对用户发出的语音指令进行识别处理,提高音频设备对语音指令的识别成功率,提升用户体验。

在一个例子中,目标位置特征中包括方言特征、城市特征以及地理区域特征。根据目标语音识别模式,识别处理用户发出的语音指令,向用户提供对语音指令处理得到的指令处理结果,可以包括:步骤s2310-s2320。

步骤s2310,在目标语音识别模式下,根据方言特征,识别语音指令的指令内容。

方言特征是对应的地理位置中用户群体普遍使用语言相关的特征,包括方言类型、语言体系、发音特征等。在目标语音识别模式下,结合方言特征,可以更精准地识别处理当前地理位置的用户发出的语音指令,尤其适用于发出的语音指令具有浓厚方言特色的用户群体,例如老年人群体。

步骤s2320,根据指令内容,基于城市特征以及地理区域特征,对所语音指令进行处理,得到指令处理结果,提供给用户。

在结合方言特征,识别获取精准的指令内容之后,再结合城市特征、地理区域特征处理语音指令,可以得到更精准的指令处理结果,更好地满足用户的应用需求。

例如,如用户发出的语音指令是“中山公园的地址是哪里?”,假设城市特征是“青岛”,可以结合该城市特征进行信息检索,检索到青岛中山公园地址提供给用户,假设城市特征是“广州”,可以结合该城市特征进行信息检索,检索到广州中山公园地址提供给用户。类似地,在处理涉及信息检索的语音指令(如用户问天气、出行信息、地理信息)时,可以将城市特征以及地理区域特征作为优先检索指标记录下来,可以更加快捷、精准地获取指令处理结果。

以上已经结合附图说明图2所示的交互处理方法。在一个例子中,本实施例中提供的交互处理方法,除了包括如图所示的步骤外,还包括:步骤s2410-s2420。

步骤s2410,获取最近的统计周期中,根据目标语音识别模式识别处理用户发出的语音指令的语音识别率。

在本例中,可以在通过目标语音识别模式,每次识别处理用户发出的语音指令时,记录用户的识别反馈,具体的,可以根据用户是否完整收听完一条语音指令的指令处理结果来记录,例如,用户完整收听完一条语音指令的指令处理结果(即用户没有出声打断指令处理结果的播放),记录一次正反馈,反之,记录一次负反馈。将一个统计周期中记录的正反馈的总次数,除以该统计周期内通过目标语音识别模式识别处理的语音指令的数目,得到的百分比率,作为该统计周期内根据目标语音识别模式识别处理用户发出的语音指令的语音识别率,以此类推,可以获取每个统计周期内,根据目标语音识别模式识别处理用户发出的语音指令的语音识别率。

在本例中,统计周期的时间长度可以根据具体的应用场景或者应用需求设置,在此不做限定。

步骤s2420,当语音识别率低于预设的平均识别率时,将目标语音识别模式切换为通用语音识别模式,根据通用语音识别模式,识别处理用户发出的语音指令。

预设的平均识别率可以根据工程经验值或者历史统计值设置,例如,可以通过与音频设备连接的后台服务(例如云端服务模块)收集多个音频设备使用目标语音识别模式时的语音识别率,进行平均处理后得到。

通用语音识别模式是与位置特征不具有对应关系的语音识别模式。即通过通用语音识别模式对用户发出的语音指令进行识别处理时,不会利用任何位置特征来实施语音指令的识别处理。

当语音识别率低于预设的平均识别率时,意味着音频设备通过目标语音识别模式,结合位置特征识别处理用户发出的语音指令,得到的指令处理结果并不能有效满足用户的需求,语音识别成功率较低,将目标语音识别模式切换为通用语音识别模式,可以去除位置特征来识别处理用户发出的语音指令,相应地提高语音识别成功率,有效提升用户体验。

在另一个例子中,本实施例中提供的交互处理方法,除了包括如图所示的步骤外,还包括:步骤s2301-s2303。

步骤s2301,根据目标语音识别模式识别处理用户发出的语音指令之前,向用户发出提示信息,提示用户将使用所述目标语音识别模式。

提示信息是根据与目标语音识别模式对应的目标位置特征生成的。例如,目标位置特征包括方言特征、城市特征及地理区域特征,对应生成的提示信息可以是:“系统检测到当前使用地点为xx省xx市,该区域的方言为xx话,我们会使用该方言对应的语音识别模式,以提高系统使用体验,您是否同意?”

步骤s2302,在接收到用户的提示反馈中指示同意使用目标语音识别模式时,根据目标语音识别模式,识别处理用户发出的语音指令。

步骤s2303,在接收到用户的提示反馈中指示不同意使用目标语音识别模式时,根据通用语音识别模式,识别处理用户发出的语音指令。

通用语音识别模式是与位置特征不具有对应关系的语音识别模式。即通过通用语音识别模式对用户发出的语音指令进行识别处理时,不会利用任何位置特征来实施语音指令的识别处理。

在本例中,通过向用户提示将使用目标语音识别模式,触发用户选择是否选择目标语音识别模式,可以根据用户的控制,自适应地切换语音识别模式对用户发出的语音指令进行识别处理,满足用户个性化的语音识别需求。

<例子>

以下将结合图6进一步举例说明本实施例中提供的交互处理方法。

本例中的交互处理方法通过智能音箱实施,该智能音箱与云端服务建立连接。如图6所示,包括:步骤s201-s220。

s201,通过gps定位,获取当前地理位置信息。

s202,获取当前的数据安全风险指数。

s203,判断数据安全风险指数是否属于预设的低风险指数范围,如果是,进入s210,否则,进入204。

s204,向用户发送数据传递申请。

s205,接收用户返回的数据传递响应。

s206,判断数据传递响应中是否指示允许数据传递,如果是,进入s207,否则,进入s217。

s207,触发用户进行身份验证。

s208,接收身份验证结果。

s209,判断身份验证结果是否指示身份验证通过,如果是,进入s210,否则,进入s217。

s210,将当前地理位置信息发送给云端。

s211,接收云端返回的目标位置特征。

s212,根据目标位置特征,确定对应的目标语音识别模式。

s213,提示用户将使用目标语音识别模式。

s214,接收用户的提示反馈。

s215,判断用户的提示反馈中是否指示同意使用目标语音识别模式,如果是,进入s216,否则,进入s217。

s216,根据目标语音识别模式,识别处理用户发出的语音指令,进入s218。

s217,根据通用语音识别模式,识别处理用户发出的语音指令,进入s218。

s218,获取指令处理结果,提供给用户。

s219,根据用户的反馈,更新语音识别率。

s220,判断语音识别率是否大于预设的平均识别率,如果是,转回步骤s216,否则转回步骤s217。

在本例中,通过定位获取智能音箱的当前地理位置信息后,根据当前的数据安全风险指示,确定是否向云端服务发送当前地理位置信息来获取对应的目标地理位置特征,可以保证在数据传递风险较低的环境中或者在用户授权的前提下,才与云端交互,避免地理位置信息泄露的安全风险,而基于目标地理位置特征确定目标语音识别模式后,根据用户的选择才启用目标语音识别模式,可以针对用户的个性化需求来利用目标位置特征,提高语音识别率,并且,可以根据用户对指令处理结果的反馈调整切换语音识别模式,进一步提高语音识别率,提升用户体验。

<交互处理装置>

在本实施例中,还提供一种交互处理装置3000,如图7所示,包括:特征获取单元3100、模式识别单元3200以及结果提供单元3300,用于实施本实施例中提供的交互处理方法。

特征获取单元3100,用于根据当前地理位置信息,获取对应的目标位置特征。

可选地,特征获取单元3100还用于:

根据所述当前地理位置信息,获取与所述当前地理位置信息相关的位置相关内容;

从所述位置相关内容中,提取所述目标位置特征。

模式识别单元3200,用于根据所述目标位置特征,确定对应的目标语音识别模式。

可选地,模式识别单元3200用于:

根据预先获取的、位置特征与语音识别模式的对应关系,选取与所述目标位置特征对应的语音识别模式,作为所述目标语音识别模式;

其中,所述位置特征与语音识别模式的对应关系中包括不同的位置特征所对应的语音识别模式。

可选地,模式识别单元3200用于:

获取当前的数据安全风险指数;

在所述数据安全风险指数属于预设的低风险指数范围时,向所述后台服务器发送所述当前地理位置信息,触发所述后台服务器返回所述目标位置特征;

在所述数据安全风险指数不属于预设的低风险指数范围时,向用户获取数据传递授权后,再向所述后台服务器发送所述当前地理位置信息,触发所述后台服务器返回所述目标位置特征。

进一步可选地,所述获取当前的数据安全风险指数,包括:

获取所述音频设备最近一次与用户完成语音交互的交互完成时刻,与当前时刻之间的静默时长;

根据所述静默时长以及预设的时长指数关系,确定所述数据安全风险指数;

其中,所述时长指数关系用于描述不同的所述静默时长与所述数据安全风险指数之间的对应关系。

进一步可选地,向用户获取数据传递授权,包括:

向用户发送数据传递申请;

在用户返回的数据传递响应指示允许数据传递后,触发用户进行身份验证;

在获取的身份验证结果指示身份验证通过后,确定获取所述数据传递授权。

结果提供单元3300,用于根据所述目标语音识别模式,识别处理用户发出的语音指令,向用户提供对所述语音指令处理得到的指令处理结果。

可选地,所述目标位置特征中包括方言特征、城市特征以及地理区域特征;结果提供单元3300用于:

所述根据所述目标语音识别模式,识别处理用户发出的语音指令,向用户提供对所述语音指令处理得到的指令处理结果,包括:

在所述目标语音识别模式下,根据所述方言特征,识别所述语音指令的指令内容;

根据所述指令内容,基于所述城市特征以及所述地理区域特征,对所述语音指令进行处理,得到所述指令处理结果,提供给用户。

可选地,交互处理装置3000还用于:

根据所述目标语音识别模式识别处理用户发出的语音指令之前,向用户发出提示信息,提示用户将使用所述目标语音识别模式;

其中,所述提示信息是根据与所述目标语音识别模式对应的目标位置特征生成的;

在接收到用户的提示反馈中指示同意使用所述目标语音识别模式时,根据所述目标语音识别模式,识别处理用户发出的语音指令;

在接收到用户的提示反馈中指示不同意使用所述目标语音识别模式时,根据通用语音识别模式,识别处理用户发出的语音指令;

其中,所述通用语音识别模式是与所述位置特征不具有对应关系的语音识别模式。

可选地,交互处理装置3000还用于:

获取最近的统计周期中,根据所述目标语音识别模式识别处理用户发出的语音指令的语音识别率;

当所述语音识别率低于预设的平均识别率时,将所述目标语音识别模式切换为通用语音识别模式,根据所述通用语音识别模式,识别处理用户发出的语音指令;

其中,所述通用语音识别模式是与所述位置特征不具有对应关系的语音识别模式。

本领域技术人员应当明白,可以通过各种方式来实现交互处理装置3000。例如,可以通过指令配置处理器来实现交互处理装置3000。例如,可以将指令存储在rom中,并且当启动设备时,将指令从rom读取到可编程器件中来实现交互处理装置3000。例如,可以将交互处理装置3000固化到专用器件(例如asic)中。可以将交互处理装置3000分成相互独立的单元,或者可以将它们合并在一起实现。交互处理装置3000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中,交互处理装置3000设置在音频设备侧,可以是设置在音频设备中的软件模块,或者是被加载在音频设备中的补丁、嵌入件等,还可以是设置在与音频设备建立连接的设备中的应用程序。在一个例子中,交互处理装置3000还可以封装成软件开发工具包形式(例如sdk),被音频设备安装后运行。

<交互处理设备>

在本实施例中,还提供一种交互处理设备4000,如图8所示,包括:

存储器4100,用于存储可执行的指令;

处理器4200,用于根据所述可执行的指令的控制,运行所述交互处理设备4000,执行如本实施例中提供的所述的交互处理方法。

在本实施例中,交互处理设备4000可以设置在音频设备侧,可以是设置在音频设备中,也可以是与音频设备建立有线或无线连接的独立设备。

<音频设备>

在本实施例中,还提供一种音频设备5000,包括:

如图7所示的交互处理装置3000或者如图8所示的交互处理设备6000。

在本实施例中,音频设备5000的硬件配置可以如图1所示,例如,通过存储器1200存储交互处理装置3000,通过处理器1100加载交互处理装置3000,实施本实施例中的交互处理方法,或者,通过存储器1200存储可执行的指令,根据可执行的指令的控制,通过处理器1100实施本实施例中的交互处理方法。该音频设备5000可以是智能音箱、智能耳机等。

以上已经结合附图描述了本发明的实施例,根据本实施例,提供一种交互处理方法、装置、设备及音频设备,根据音频设备当前的地址位置,确定对应的目标位置特征,基于目标位置特征选取对应目标语音识别模式来处理用户发出的语音指令,提高音频设备对语音指令的识别成功率,提升用户体验。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1