一种基于声纹信息的习惯信息匹配方法及装置与流程

文档序号：13761622阅读：458来源：国知局

本发明涉及人工智能领域，更具体地说，涉及一种基于声纹信息的习惯信息匹配方法及装置。

背景技术：

随着计算机技术的发展，人工智能越来越多的应用于人们的生产生活，人机交互的方式也从传统的文字指令和按键发展为语音及图像。语音作为人们之间交流的方式，不仅能根据具体单个指令执行信息，还能通过交流逐渐了解对方，形成对对方的一定程度认知，以便根据认知更好的理解对方。

目前，在人工智能领域，语音信息多作为一种验证方式，用于用户身份的识别，且只能根据用户发出的具体指令信息进行具体的操作，属于单向指令逻辑，智能化程度不高。例如，门禁系统利用用户的声音识别用户的身份；一台具有语音识别的电视机，可根据用户的指令进行开关电视、音量调节、选择节目等，但不能通过“学习”用户的操作了解用户的使用习惯，不能根据用户的声音为用户提供个性化的服务，这大大限制了人与机器之间的交流。

技术实现要素：

本发明要解决的技术问题在于，提供一种基于声纹信息的习惯信息匹配方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种基于声纹信息的习惯信息匹配方法，所述方法包括下述步骤：

终端接收用户的用户声音，提取所述用户声音的声纹信息；

判断所述声纹信息是否符合预设声纹信息；

若是，则根据所述声纹信息在用户习惯数据库中查找与所述声纹信息对应的用户习惯信息。

优选地，本发明所述的基于声纹信息的习惯信息匹配方法，在提取所述用户声音的声纹信息的步骤之后，还包括下述步骤：

将所述声纹信息与声纹信息库进行比对，判断所述声纹信息是否已经存在已有账号；

若否，则将所述声纹信息添加至所述声纹信息库，并设置为预设声纹信息；

设置用户账户，建立所述预设声纹信息和所述用户账号的对应关系。

优选地，本发明所述的基于声纹信息的习惯信息匹配方法，若所述用户的所述声纹信息符合所述预设声纹信息，则执行下述步骤：

所述终端记录所述用户在使用所述终端过程中的操作信息；

将所述操作信息存储至所述用户对应的用户习惯数据库。

优选地，本发明所述的基于声纹信息的习惯信息匹配方法，在查找与所述声纹信息对应的用户习惯信息的步骤之后，执行下述步骤：

所述终端根据所述用户习惯信息为所述用户提供对应服务。

优选地，本发明所述的基于声纹信息的习惯信息匹配方法，若所述用户习惯信息包括多个用户习惯时，所述终端根据所述用户习惯信息为所述用户提供对应服务的步骤，具体包括下述步骤：

提供所述用户习惯数据库中的多个用户习惯选项供所述用户选择；

根据所述用户选择的所述用户习惯选项为所述用户提供对应服务。

优选地，在本发明所述的基于声纹信息的习惯信息匹配方法中，所述用户习惯信息包括：用户设置所述终端的参数、用户使用所述终端的使用参数、用户选择所述终端提供服务的种类、用户选择所述终端提供的服务的组成参数、用户使用所述终端时的环境参数。

另，本发明还公开一种基于声纹信息的习惯信息匹配装置，所述装置包括：

第一接收单元，用于终端接收用户的用户声音，提取所述用户声音的声纹信息；

判断单元，用于判断所述声纹信息是否符合预设声纹信息；

查找单元，用于若所述声纹信息是否符合预设声纹信息，则根据所述声纹信息在用户习惯数据库中查找与所述声纹信息对应的用户习惯信息。

优选地，本发明所述的基于声纹信息的习惯信息匹配装置，所述装置还包括：

第二接收单元，用于向所述终端中输入所述用户的预设用户声音；

提取单元，用于提取所述预设用户声音的预设声纹信息；

账户设置单元，用于设置用户账户，建立所述预设声纹信息和所述用户的对用关系。

优选地，本发明所述的基于声纹信息的习惯信息匹配装置，所述装置还包括：

记录单元，用于所述终端记录所述用户在使用所述终端过程中的操作信息；

存储单元，用于将所述操作信息存储至所述用户对应的用户习惯数据库。

优选地，本发明所述的基于声纹信息的习惯信息匹配装置，所述装置还包括：

执行单元，用于所述终端根据所述用户习惯信息为所述用户提供对应服务。

优选地，本发明所述的基于声纹信息的习惯信息匹配装置，所述执行单元包括：

第一选择子单元，用于提供所述用户习惯数据库中的多个用户习惯选项供所述用户选择；

执行子单元，用于根据所述用户选择的所述用户习惯选项为所述用户提供对应服务。

实施本发明的基于声纹信息的习惯信息匹配方法及装置，具有以下有益效果：本发明公开的基于声纹信息的习惯信息匹配方法包括：终端接收用户的用户声音，提取用户声音的声纹信息；判断声纹信息是否符合预设声纹信息；若声纹信息符合预设声纹信息，则根据声纹信息在用户习惯数据库中查找与声纹信息对应的用户习惯信息；终端根据用户习惯信息为用户提供对应服务。通过实施本发明，终端不仅能通过用户的声纹信息识别用户，还能通过记录用户的操作信息来不断“学习”用户的使用习惯，不断了解用户，从而根据用户的声纹信息为用户提供匹配的服务，提高用户使用体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明基于声纹信息的习惯信息匹配方法的流程示意图；

图2是本发明基于声纹信息的习惯信息匹配装置的结构示意图。

具体实施方式

如图1所示，是本发明一种基于声纹信息的习惯信息匹配方法的优选实施例。

图1示出的是基于声纹信息的习惯信息匹配方法的流程示意图。该方法用于多种智能终端中，要求智能终端具有语音接收设备，智能终端包括但不限于：电脑、智能手机、智能家电设备、智能娱乐设备等。本实施例公开的一种基于声纹信息的习惯信息匹配方法，包括下述步骤：

S101：终端接收用户的用户声音，提取用户声音的声纹信息。所谓声纹，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，每个人的语音声学特征既有相对稳定性，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。终端通过麦克风设备接收用户的语音信息，通过处理，提取用户声音中的声纹信息。终端将接收到的声纹信息存储到声纹信息库中，每个用户在声纹信息库中都有对应的用户账号，该账号可包含对应用户的多个声纹信息样本，可以理解的是，用户账户对应的声纹信息的样本越多，终端识别用户的准确率就越高。

S102：将声纹信息与声纹信息库进行比对，判断声纹信息是否已经存在已有账号。在终端接收到用户的声音后，将提取的声纹信息与终端的声纹信息库中的声纹信息进行比较。经过比较，如果声纹信息库中存在与接收到的声纹信息对应的声纹信息，则判定接收到的声纹信息对应的用户在终端中已存在用户账号；反之，如果声纹信息库中不存在与接收到的声纹信息对应的声纹信息，则判定接收到的声纹信息对应的用户在终端中不存在用户账号。可以理解，即使终端中已有用户账号，但在比较过程中，终端也很难接收到与声纹信息库中存储的声纹信息完全一样，因为用户的声音是在一定范围内变化的。因此，本实施例中比较声纹信息的相似程度，并设定声纹阈值，当终端接收到的声纹信息与声纹信息库中存储的声纹信息的相似程度达到声纹阈值时，则判定该声纹信息与声纹信息库中存储的声纹信息匹配；反之则判定为不匹配。当判定用户新输入的声纹信息与已存在的声纹信息匹配后，为增大该用户账户的样本量，将该声纹信息作为样本存储在终端的声纹信息库中。

S103：若声纹信息不存在已有账号，则将声纹信息添加至声纹信息库，并设置为预设声纹信息。通过比较，若终端接收到的声纹信息在终端中没有对应的账号，则将该声纹信息设置为预设声纹信息，该预设声纹信息用于识别与该声纹信息对应的用户。

S104：设置用户账户，建立预设声纹信息和用户账号的对应关系。当判定接收到的声纹信息在终端中不存在对应用户账号后，自动为该用户设置用户账户，并自动建立该声纹信息与该用户账户的对应关系，即自动建立用户账户与用户的对应关系。在本实施例中，当终端遇到新用户注册时，并不需要手动去添加新用户信息，终端可自动识别并建立用户账户，方便新用户注册，提高用户的使用体验。

S105：判断声纹信息是否符合预设声纹信息。终端将提取的声纹信息与预设声纹信息进行比较，本实施例中比较声纹信息的相似程度，并设定声纹阈值，当终端接收到的声纹信息与预设声纹信息的相似程度达到声纹阈值时，则判定该声纹信息与声纹信息库中存储的声纹信息匹配；反之则判定为不匹配。当判定用户新输入的声纹信息与预设声纹信息匹配后，为增大该用户账户的样本量，将该声纹信息作为样本存储在终端的声纹信息库中，作为预设声纹信息的新样本。

S106：若声纹信息符合预设声纹信息，则终端记录用户在使用终端过程中的操作信息。为使终端更加“了解”用户，在终端识别用户后，开始记录用户在使用终端过程中的操作信息，并对记录的操作信息进行分类统计分析，得出用户的使用习惯。例如，智能终端为一台智能咖啡机，用户在使用咖啡机的过程中，放糖量较大，且经常出现，通过统计，可以得出该用户喜欢放糖量大的咖啡，咖啡机则记录用户的该使用习惯，并在得到用户的使用习惯后，建立用户声纹信息与用户使用习惯之间的对应关系，根据用户不同的声纹信息对应不同的用户使用习惯。用户使用习惯信息不仅仅是用户的习惯，还包括用户在操作终端过程中的操作流程和参数设置，终端通过执行该操作流程和参数设置即可获得对应的服务。

S107：将操作信息存储至用户对应的用户习惯数据库。用户习惯数据库用于存储用户的习惯信息，终端记录用户的操作信息后，将操作信息存储至用户习惯数据库，终端的存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

S108：若声纹信息符合预设声纹信息，则根据声纹信息在用户习惯数据库中查找与声纹信息对应的用户习惯信息。用户习惯信息包括但不限于：用户设置终端的参数、用户使用终端的使用参数、用户所述终端提供服务的种类、用户选择终端提供的服务的组成参数、用户使用终端时的环境参数。例如，终端为智能咖啡机，此时用户习惯信息为用户选择咖啡的浓度、含糖量、温度、是否加奶等参数；又如，终端为智能空调，用户习惯信息为用户使用空调时选择的温度、出风量、风向、湿度等参数；又如，终端为智能电视，用户习惯信息为用户经常看收看的电视节目的频道、种类、时间等参数。

用户习惯数据库中存储有用户的使用习惯，且有用户使用习惯与用户声纹信息之间的对应关系，当终端从接收的用户声音中提取的声纹信息与预设声纹信息匹配后，终端根据该预设声纹信息与用户使用习惯之间的对应关系查找出该用户声音对应的用户习惯信息。

S109：终端根据用户习惯信息为用户提供对应服务。在根据用户声音查找到与之对应的用户习惯信息后，终端调用该使用习惯信息，并将该使用习惯信息解码成对应的终端操作流程和参数设置，终端根据该操作流程和参数设置为用户提供对应的服务。例如一台带语音控制的咖啡机，第一次根据声纹识别到一个新用户发出煮咖啡的命令，则记录这个用户的饮食习惯，例如咖啡浓度，放糖量多少。当同一个用户第二次发出煮咖啡命令，则询问用户是否要保持和上一次口味相同，如果是，则直接使用上一次的搭配。又例如，对于带语音控制的电视盒子，如果根据声纹识别出是小孩在控制打开电视，则自动进入儿童模式，推荐儿童喜好的影片。如果根据声纹识别出是老人，则推荐健康，戏曲等相关节目，并优先展示本用户上次看得视频。

优选地，本发明的基于声纹信息的习惯信息匹配方法，若用户习惯信息包括多个用户习惯时，终端根据用户习惯信息为用户提供对应服务的步骤，具体包括下述步骤：

S1091：提供用户习惯数据库中的多个用户习惯选项供用户选择；终端将该声纹信息对应的多个用户习惯按照一定的排序方式进行排序，例如用户使用过该用户习惯的次数，次数越高，排名越高。终端通过语音提示或显示屏显示多个用户习惯选项供用户选择。

S1092：根据用户选择的用户习惯选项为用户提供对应服务。用户接收到提示后，可通过语音、按键、触摸等方式对终端进行反馈，选择需要的选项，并调用该使用习惯信息，并将该使用习惯信息解码成对应的终端操作流程和参数设置，终端根据该操作流程和参数设置为用户提供对应的服务。

如图2所示，是本发明一种基于声纹信息的习惯信息匹配装置的优选实施例。

图2示出的是基于声纹信息的习惯信息匹配装置的结构示意图。该装置用于多种智能终端中，要求智能终端具有语音接收设备，智能终端包括但不限于：电脑、智能手机、智能家电设备、智能娱乐设备等。本实施例公开的一种基于声纹信息的习惯信息匹配装置，装置包括：第一接收单元201、第二接收单元202、提取单元203、账户设置单元204、判断单元205、记录单元206、存储单元207、查找单元208、执行单元209，以下分别做详细说明。

第一接收单元201，用于终端接收用户的用户声音，提取用户声音的声纹信息；终端接收用户的用户声音，提取用户声音的声纹信息。所谓声纹，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，每个人的语音声学特征既有相对稳定性，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。终端通过麦克风设备接收用户的语音信息，通过处理，提取用户声音中的声纹信息。终端将接收到的声纹信息存储到声纹信息库中，每个用户在声纹信息库中都有对应的用户账号，该账号可包含对应用户的多个声纹信息样本，可以理解的是，用户账户对应的声纹信息的样本越多，终端识别用户的准确率就越高。

第二接收单元202，用于向终端中输入用户的预设用户声音；向终端输入用户的用户声音，提取用户声音的声纹信息。终端通过麦克风设备接收用户的语音信息，通过处理，提取用户声音中的声纹信息。终端将接收到的声纹信息存储到声纹信息库中，每个用户在声纹信息库中都有对应的用户账号，该账号可包含对应用户的多个声纹信息样本，可以理解的是，用户账户对应的声纹信息的样本越多，终端识别用户的准确率就越高。

提取单元203，用于提取预设用户声音的预设声纹信息。优选地，声纹信息的提取采用特征提取方式，特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。表征一个人特点的特征应该是多层面的，包括：(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等)、鼻音、带深呼吸音、沙哑音、笑声等；(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：(1)声学特征(倒频谱)；(2)词法特征；(3)韵律特征；(4)语种、方言和口音信息；(5)通道信息(使用何种通道)。

账户设置单元204，用于设置用户账户，建立预设声纹信息和用户的对用关系。当判定接收到的声纹信息在终端中不存在对应用户账号后，自动为该用户设置用户账户，并自动建立该声纹信息与该用户账户的对应关系，即自动建立用户账户与用户的对应关系。在本实施例中，当终端遇到新用户注册时，并不需要手动去添加新用户信息，终端可自动识别并建立用户账户，方便新用户注册，提高用户的使用体验。

判断单元205，用于判断声纹信息是否符合预设声纹信息；终端将提取的声纹信息与预设声纹信息进行比较，本实施例中比较声纹信息的相似程度，并设定声纹阈值，当终端接收到的声纹信息与预设声纹信息的相似程度达到声纹阈值时，则判定该声纹信息与声纹信息库中存储的声纹信息匹配；反之则判定为不匹配。当判定用户新输入的声纹信息与预设声纹信息匹配后，为增大该用户账户的样本量，将该声纹信息作为样本存储在终端的声纹信息库中，作为预设声纹信息的新样本。将声纹信息与预设声纹信息输出至移动终端内置的主控制器或其他具有数据运算处理功能的处理器或控制器，包括但不限于微处理器、微控制器、数字信号处理器、微型计算器、中央处理器、场编程门阵列、可编程逻辑设备、状态器、逻辑电路、模拟电路、数字电路和/或任何基于操作指令操作信号(模拟和/或数字)的设备。

记录单元206，用于终端记录用户在使用终端过程中的操作信息；为使终端更加“了解”用户，在终端识别用户后，开始记录用户在使用终端过程中的操作信息，并对记录的操作信息进行分类统计分析，得出用户的使用习惯。例如，智能终端为一台智能咖啡机，用户在使用咖啡机的过程中，放糖量较大，且经常出现，通过统计，可以得出该用户喜欢放糖量大的咖啡，记录用户的该使用习惯。在得到用户的使用习惯后，建立用户声纹信息与用户使用习惯之间的对应关系，用户不同的声纹信息对应不同的用户使用习惯。用户使用习惯信息不仅仅是用户的习惯，还包括用户在操作终端过程中的操作流程和参数设置，终端通过执行该操作流程和参数设置即可获得对应的服务。

存储单元207，用于将操作信息存储至用户对应的用户习惯数据库。用户习惯数据库用于存储用户的习惯信息，终端记录用户的操作信息后，将操作信息存储至用户习惯数据库，终端的存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

查找单元208，用于若声纹信息是否符合预设声纹信息，则根据声纹信息在用户习惯数据库中查找与声纹信息对应的用户习惯信息。用户习惯数据库中存储有用户的使用习惯，且有用户使用习惯与用户声纹信息之间的对应关系，当终端从接收的用户声音中提取的声纹信息与预设声纹信息匹配后，终端根据该预设声纹信息与用户使用习惯之间的对应关系查找出该用户声音对应的用户习惯信息。

执行单元209，用于终端根据用户习惯信息为用户提供对应服务。在根据用户声音查找到与之对应的用户习惯信息后，终端调用该使用习惯信息，并将该使用习惯信息解码成对应的终端操作流程和参数设置，终端根据该操作流程和参数设置为用户提供对应的服务。例如一台带语音控制的咖啡机，第一次根据声纹识别到一个新用户发出煮咖啡的命令，则记录这个用户的饮食习惯，例如咖啡浓度，放糖量多少。当同一个用户第二次发出煮咖啡命令。则询问用户是否要保持和上一次口味相同。如果是，则直接使用上一次的搭配。又例如，对于带语音控制的电视盒子，如果根据声纹识别出是小孩在控制打开电视，则自动进入儿童模式，推荐儿童喜好的影片。如果根据声纹识别出是老人，则推荐健康，戏曲等相关节目，并优先展示本用户上次看得视频。

优选地，本发明的基于声纹信息的习惯信息匹配装置，执行单元包括：

第一选择子单元2091，用于提供用户习惯数据库中的多个用户习惯选项供用户选择；终端将该声纹信息对应的多个用户习惯按照一定的排序方式进行排序，例如用户使用过该用户习惯的次数，次数越高，排名越高。终端通过语音提示或显示屏显示多个用户习惯选项供用户选择。

执行子单元2092，用于根据用户选择的用户习惯选项为用户提供对应服务。用户接收到提示后，可通过语音、按键、触摸等方式对终端进行反馈，选择需要的选项，并调用该使用习惯信息，并将该使用习惯信息解码成对应的终端操作流程和参数设置，终端根据该操作流程和参数设置为用户提供对应的服务。

本发明实施例的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例的装置中的模块或单元或子单元可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成。

以上实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施，并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰，均应属于本发明权利要求的涵盖范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周培琪;
技术所有人：珠海市魅族科技有限公司;
我是此专利的发明人