人机语音交互方法、装置、电子设备及存储介质与流程

文档序号：20571407发布日期：2020-04-29 00:49阅读：132来源：国知局

本申请涉及人机交互技术领域，具体而言，本申请涉及一种人机语音交互方法、装置、电子设备及存储介质。

背景技术：

目前，现有例如银行的atm等的自助设备采用手动方式来进行操作，而对于上肢残疾、缺陷或手指残缺等的手动不便人群，并无配置相关辅助设备或措施来供使用，从而导致自助设备无法服务该类手动不便人体，另外，对于更倾向于通过语音方式来进行操作的语音偏好人群来说，现有自助设备也缺乏智能化及个性化，因此，现有自助设备不仅使手动不便人群无法正常使用，也无法向语音偏好人群提供智能化及个性化的语音自助服务。

技术实现要素：

本申请提供了一种，用于提升人机交互的便利性、智能化及个性化，本申请采用的技术方案如下：

第一方面，提供了一种人机语音交互方法，该方法包括如下步骤：获取语音输入信息；判断语音输入信息是否与语音控制识别信息相符，若是，控制进入语音操作模式且显示模块上显示语音登录界面；获取语音登录信息；判断语音登录信息是否与预存登录信息相符，若是，显示模块上显示对对应于预存登录信息的账户进行账户操作的多个语音控制编码；获取多个语音控制编码之一以控制进行对应的账户操作。

具体地，多个语音控制编码包括操作名称或操作编号。

具体地，多个语音控制编码接受的控制方式包括语音控制或触屏控制。

具体地，与预存登录信息相符的语音登录信息包括账号语音和密码语音。

进一步地，在判断出语音输入信息与语音控制识别信息相符之后且在显示模块上显示语音登录界面之前，方法还包括如下步骤：判断语音输入信息的输入语音特征是否与预存语音特征相符，预存语音特征对应于预存账号，若是，则在显示模块上显示语音登录界面的步骤中显示预存账号，且与预存登录信息相符的语音登录信息包括密码语音。

进一步地，方法还包括如下步骤：判断出语音输入信息与语音控制识别信息不相符或者语音登录信息与预存登录信息不相符，返回获取语音输入信息步骤。

第二方面，提供了一种人机语音交互装置，该装置包括，获取模块，用于获取语音输入信息和语音登录信息；判断模块，用于判断语音输入信息是否与语音控制识别信息相符以及语音登录信息是否与预存登录信息相符；存储模块，用于存储语音控制识别信息、预存登录信息和多个控制编码；显示模块，用于显示语音登录界面以及对对应于预存登录信息的账户进行账户操作的多个控制编码；控制模块，用于控制进入语音操作模式和进行账户操作。

具体地，判断模块还用于判断语音输入信息的输入语音特征与预存语音特征是否相符；存储模块还用于存储预存语音特征以及与预存语音特征对应的预存账号。

第三方面，提供了一种电子设备，该电子设备包括：一个或多个处理器；存储器；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面所示的人机语音交互方法。

第四方面，提供了一种存储介质，存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面所示的人机语音交互方法。

本申请提供了一种人机语音交互方法、装置、电子设备及存储介质，与现有技术无法向手动不便人体或语音偏好人群提供语音自助服务相比，本申请通过首先获取语音输入信息，然后判断所述语音输入信息是否与语音控制识别信息相符，若是，控制进入语音操作模式且显示模块上显示语音登录界面，再获取语音登录信息，进而判断所述语音登录信息是否与预存登录信息相符，若是，所述显示模块上显示对对应于所述预存登录信息的账户进行账户操作的多个语音控制编码，继而获取所述多个语音控制编码之一以控制进行对应的所述账户操作。即通过接收语音输入信息并在判断出该语音输入信息与语音控制识别信息相符时来触发进入语音操作模式，从而，在语音操作模式下进一步通过语音来进行账户操作，因此，实现了语音方式来自助操作，不仅方便了手动不便人群的操作，也能为语音偏好人群提供智能化及个性化的语音自助服务。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种人机语音交互方法的流程示意图；

图2为本申请实施例的一种人机语音交互装置的结构示意图；

图3为本申请实施例的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种人机语音交互方法，如图1所示，该方法可以包括以下步骤：

步骤s101，获取语音输入信息；

具体地，通过例如atm的自助设备的麦克风接收用户的语音输入信息，该用户可以是无法使用手部或上肢但视觉及语言无障碍的手动不便人群或语音偏好人群，该语音输入信息可以是用户说出的“语音操作”、“语音控制”、“语音操控”等类似触发语句，这些语句预先作为语音控制识别信息存储在存储模块中。

步骤s102，判断语音输入信息是否与语音控制识别信息相符，若是，控制进入语音操作模式且显示模块上显示语音登录界面。

具体地，对用户说出的作为语音输入信息的语句与语音控制识别信息进行比较，如果用户说出的语句与上述“语音操作”等类似触发语句相同时，则判断出用户需要进入语音操作模式，则控制进入语音操作模式，并且在例如触控显示器的显示模块上显示语音登录界面，该语音登录界面可以包括需要用户进行语音输入的账号栏和密码栏。另外，可以理解的是，当判断出用户说出的语句与上述“语音操作”等语句不相同时，则自助设备仍以默认手动操作方式运行。

步骤s103，获取语音登录信息；

具体地，自助设备的麦克风接收用户说出的例如其银行卡的账号和密码，该账号和密码可以是数字、字母或者两者的组合。

步骤s104，判断语音登录信息是否与预存登录信息相符，若是，显示模块上显示对对应于预存登录信息的账户进行账户操作的多个语音控制编码；

具体地，各个用户合法拥有的账户所对应账号和密码均以预存登录信息存储于存储模块中，举例来说，银行将其客户所对应拥有的账号和密码均以预存登录信息存储于例如本地服务器、云端服务器或atm机等的存储模块中，从而判断用户所说出的账号和密码是否与预存登录信息相符即可判断出该用户是否为合法用户进而凭借密码登录其账户，并且，在显示模块上显示能够对登录账户进行操作的多个语音控制编码，该多个语音控制编码可以是01-99的数字且对应地位于显示模块的多个可点击区域或者多个可点击图标处，多个可点击区域或者图标处的语音控制编码分别相当于对账户进行存款、取款、转账等操作的操作指令。

步骤s105，获取多个语音控制编码之一以控制进行对应的账户操作。

具体地，在用户通过语音方式成功登录其账户后，则可以说出显示模块上所显示的语音控制编码之一，这时，自助设备的麦克风接收用户所说出的上述操作指令之一，进而控制自助设备对账户进行存款、取款、转账等之一的操作。

本申请实施例提供了一种人机语音交互方法，与现有技术无法向手动不便人群或语音偏好人群提供语音自助服务相比，本申请首先获取语音输入信息，然后根据判断语音输入信息是否与语音控制识别信息相符的结果确认是否进入语音操作模式，在进入语音操作模式的情况下，显示模块上显示语音登录界面，再获取用户说出的语音登录信息，进而当判断出语音登录信息与预存登录信息相符时，在显示模块上显示对对应于预存登录信息的账户进行账户操作的多个语音控制编码，继而获取用户说出的多个语音控制编码中的一个以控制对账户进行相应的操作。因此，人机语音交互方法实现了用户通过语音方式来触发进入语音操作模式及进行后续的账户操作，不仅使手动不便人群能便利地语音自助操作，也为语音偏好人群提供智能化及个性化的语音自助服务。

本申请实施例提供了一种可能的实现方式，其中，多个语音控制编码包括操作名称或操作编号。具体来说，操作名称可以是存款、取款、转账等中文，操作编号可以是0-99的数字、a-z的字母，因此，用户只需要说出上述操作名称的中文或者操作编号的数字或字母，即可方便快捷地完成对应的账户操作。

本申请实施例提供了一种可能的实现方式，其中，多个语音控制编码接受的控制方式包括语音控制或触屏控制。具体来说，除了上述用户通过说出中文、数字或字母之外，显示模块上所对应显示多个语音控制编码的多个区域也接受触控操作，从而在手动不便人群使用过程中，相关客服人员也可帮助点击显示屏相应区域进行辅助操作，此与语音操作可并行进行，另外，当非手动不便人群不想进行语音操作或用户不愿说出相关语音控制编码而让周围人得知自己的具体操作，也可以选择进行触控操作，因此，提升了人机语音交互方法的通用性和安全性。

申请实施例提供了一种可能的实现方式，其中，与预存登录信息相符的语音登录信息包括账号语音和密码语音，由上所述，在判断语音输入信息与语音控制识别信息相符时，显示模块上显示的语音登录界面包括账号栏和密码栏，因此用户只需对各栏用语音对应输入账号和密码，则可以方便快捷地登录相应账户。

申请实施例提供了一种可能的实现方式，步骤s102包括：步骤s1021(图中未示出)，判断语音输入信息的输入语音特征是否与预存语音特征相符，预存语音特征对应于预存账号，若是，则在显示模块上显示语音登录界面的步骤中显示预存账号，且与预存登录信息相符的语音登录信息包括密码语音。其中，该步骤s1021在判断出语音输入信息与语音控制识别信息相符步骤且在显示模块上显示语音登录界面步骤之间执行。预存语音特征为存储于存储模块中的、用户被预先采集的语音所具有的独一无二的语音特征值，该语音特征值与用户账户的预存账号为一对一映射关系，因此，在判断出用户说出的语句符合上述作为语音控制识别信息的触发语句的基础上，进一步通过预存语音特征判断出该用户的账户进而在显示模块上显示该预存账号，用户只需在显示模块上显示的语音登录界面的密码栏中用语音输入密码，而无需再语音输入账号，由于不用说出冗长不易记的账号且避免了同时说出账号和密码，不仅提高了语音操作效率，还提高了安全性。

申请实施例提供了一种可能的实现方式，人机语音交互方法还包括如下步骤：判断出语音输入信息与语音控制识别信息不相符或者语音登录信息与预存登录信息不相符，返回获取语音输入信息步骤。因此，只要判断出用户所说出的语音不是上述的触发语句或者账号和密码不对应，人机语音交互方法均返回获取语音输入信息步骤，也就是说，自助设备以默认手动操作方式运行并等待获取用户的语音输入，保证了人机语音交互方法具有高度智能化。

图2为本申请实施例提供的一种人机语音交互装置，该装置20包括：获取模块201、判断模块202、存储模块203、显示模块204以及控制模块205，其中，获取模块201，用于获取语音输入信息和语音登录信息。判断模块202，用于判断语音输入信息是否与语音控制识别信息相符以及语音登录信息是否与预存登录信息相符。存储模块203，用于存储语音控制识别信息、预存登录信息和多个控制编码，该存储模块203所存储的信息和编码供判断模块202提取，另外，存储模块203可以是atm机、本地服务器或云端服务器等中的存储器。显示模块204，用于显示语音登录界面以及对对应于预存登录信息的账户进行账户操作的上述多个控制编码，显示模块优选为触控显示器。控制模块205，用于控制进入语音操作模式和进行账户操作。可以理解的是，各个模块间相互电连接，另外，装置20还可以包括通讯模块，用于与装置20外部的存储模块通讯，以供判断模块提取相应信息和编码。

申请实施例提供了一种可能的实现方式，其中，判断模块205还用于判断语音输入信息的输入语音特征与预存语音特征是否相符；存储模块203还用于存储预存语音特征以及与预存语音特征对应的预存账号。因此，装置20的判断模块205通过对用户的语音输入信息的输入语音特征与存储模块203中的预存语音特征是否相符的判断，能够在判断结果为相符的情况下控制在显示模块204上显示该用户对应于存储模块203中的预存账号，则用户只需在显示模块204上显示的语音登录界面的密码栏中用语音输入密码即可，不仅提高了装置20的语音操作效率，还提高了装置20的便利性和安全性。

本申请实施例提供了一种人机语音交互装置，与现有技术无法向手动不便人体或语音偏好人群提供语音自助服务相比，本申请实施例通过获取模块首先获取语音输入信息，然后判断模块根据判断语音输入信息是否与语音控制识别信息相符的结果确认是否进入语音操作模式，在判断模块判断进入语音操作模式的情况下，显示模块上显示语音登录界面，再获取模块获取用户说出的语音登录信息，进而当判断模块判断出语音登录信息与预存登录信息相符时，在显示模块上显示对对应于预存登录信息的账户进行账户操作的多个语音控制编码，继而获取模块获取用户说出的多个语音控制编码中的一个，且控制模块以该其中一个语音控制编码控制对账户进行相应操作。因此，人机语音交互装置能够实现用户通过语音方式来触发进入语音操作模式及进行后续的账户操作。

本实施例的人机语音交互装置可执行本申请上述实施例中提供的一种人机语音交互方法，其实现原理相类似，此处不再赘述。

本申请实施例提供了一种电子设备，如图3所示，图3所示的电子设备30包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。该电子设备30的结构并不构成对本申请实施例的限定。其中，处理器301应用于本申请实施例中，用于实现图2所示的获取模块、判断模块、控制模块的功能。

处理器301可以是cpu，通用处理器，dsp，asic，fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是pci总线或eisa总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器303可以是rom或可存储静态信息和指令的其他类型的静态存储设备，ram或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现图2所示实施例提供的人机语音交互装置的功能。

本申请实施例提供了一种电子设备适用于上述方法实施例，因此，可以获得上述方法实施例所具有任一技术效果，在此不再赘述。

本申请实施例提供了一种存储介质，该存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述实施例中所示的人机语音交互方法。

本申请实施例提供了一种存储介质适用于上述方法实施例，因此，可以获得上述方法实施例所具有任一技术效果，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马加宁
技术所有人：中国建设银行股份有限公司;建信金融科技有限责任公司
我是此专利的发明人

上一篇：旋转折叠伞的制作方法
上一篇：成分均匀可控的高熵合金薄膜的物理气相沉积制备方法与流程