声纹识别方法、系统、存储介质及程序产品与流程

文档序号：31832642发布日期：2022-10-18 19:22阅读：151来源：国知局

1.本发明涉及声纹识别技术领域，具体涉及基于离线自训练神经网络的声纹识别方法、系统、计算机存储介质以及计算机程序产品。

背景技术：

2.随着信息技术的发展，互联网的普及，需要用到人的身份识别的应用场合越来越多，传统的需求方面有各种网上账户的需要，在线支付、门禁等等，而随着互联网及人工智能的应用推广，根据不同的人的习惯特点需要不同的身份识别方法与系统，比如指纹、人脸、声纹识别，其中声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，可通过计算两端语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户。
3.但是由于时间、环境等因素影响，人的声纹是会发生变化的，若不及时更新，则会导致识别效率下降，从而影响通过声纹进行的个性化控制。
4.有鉴于此，本发明设计人针对声纹识别存在的问题进行深入构思，且积极研发，遂产生本案。

技术实现要素：

5.本发明的目的在于提供一种基于离线自训练神经训练网络的声纹识别方法、系统、计算机存储介质以及计算机程序产品，其通过实时更新用户声纹与其常用设置之间的关联，以提高声纹识别效率，有效提升用户的智能控制体验。
6.为实现上述目的，本发明采用的技术方案是：一种基于离线自训练神经网络的声纹识别方法，包括：s11、采集输入的语音电信号，将输入的语音电信号通过切片、mfcc处理，生成音频片段mfcc向量；s12、将音频片段mfcc向量输入到用于孤立词识别的循环神经网络中，提取孤立词，并与所需唤醒词进行比对，若比对不一致则返回s11；若比对一致则将音频片段mfcc向量输入到用于提取声纹的循环神经网络中进行声纹识别预处理并生成输入声纹特征向量；所述声纹识别方法还包括：s13、从存储的声纹特征向量中选择一个未被对比的存储声纹特征向量作为待比较的声纹特征向量，通过余弦距离公式计算出待比较的声纹特征向量与输入声纹特征向量之间的余弦距离，并进行记录；重复该步骤s13，直至存储的声纹特征向量中不存在未被比对的声纹特征向量；s14、判断所记录的最大余弦距离是否大于余弦距离采信阈值，若大于，则将所有余弦距离大于余弦距离采信阈值的存储声纹特征向量作为对照声纹特征向量，然后进入习惯预测控制参数设置子流程；否则进入s15；s15、判断所记录的最大余弦距离是否大于余弦距离拒绝阈值，若大于，则将所有
余弦距离大于余弦距离拒绝阈值的存储声纹特征向量作为对照声纹特征向量，然后进入习惯预测控制参数值设置子流程；s16、子流程结束后，将当前控制参数值与当前声纹特征向量以及当前时间进行关联，并存储；如果用户此时修改控制参数值，则额外记录该输入声纹特征向量预设值；习惯预测控制参数值设置子流程如下：s21、将输入声纹特征向量以及对应的当前时间输入到习惯分类全连接神经网络中，生成比对习惯分类向量；s22、获取所有对照声纹特征向量以及对应的向量关联时间输入到习惯分类全连接神经网络中，生成对照习惯分类向量；s23、计算比对习惯分类向量与所有的对照习惯分类向量之间的欧氏距离；s24、将当前控制参数设置为欧氏距离最小值所对应的对照声纹特征向量关联的控制参数；s25、结束；所述声纹识别方法还包括习惯分类全连接神经网络的实时训练流程，具体如下：s51、获取一部分存储声纹特征向量以及对应的关联时间作为训练集输入，其余存储声纹特征向量及其关联时间作为验证集，使用triple loss作为损失函数，使用加权求和计算两组控制参数值之间的欧式距离；s52、判断习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差是否均小于预设误差阈值，若不是，则从训练集中随机抽取一个向量a，从与其同控制参数值的向量中任取一个设为p，并从与其不同控制参数值的向量中任取一个设为n，类间距预设值为m；使用损失计算公式计算本次损失，并反向训练习惯分类全连接神经网络；损失计算如下：重复该步骤s52，直到习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差均小于预设误差阈值；s53、结束。
7.所述s15中，若所记录的最大余弦距离不大于余弦距离拒绝阈值时，进入按声纹特征向量接近性别进行控制参数值设置子流程，具体如下：s31、计算输入声纹特征向量与存储的多组男性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；s32、计算输入声纹特征向量与存储的多组女性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；s33、判断多组男性声纹特征向量余弦距离最小值是否小于多组女性声纹特征向量余弦距离最小值，若小于，则将当前控制参数设置为对应年龄男性默认控制参数值；否则，将当前控制参数设置为对应年龄女性默认控制参数值；s34、结束。
8.所述声纹识别方法还包括移除多余声纹特征向量流程，具体如下：
s41、获取所有的存储声纹特征向量与其创建时间；s42、计算每个存储声纹特征向量的重复项评分；具体地，计算该存储声纹特征向量与其余存储声纹特征向量的余弦距离，若所有余弦距离均不小于余弦距离阈值，则重复项评分为0；若存在余弦距离小于余弦距离阈值的情况，则重复项评分为负，若小于余弦距离阈值的余弦距离数量越多，重复项得分越低；s43、计算每个存储声纹特征向量的时间评分，当前时刻创建的评分为0，创建时间越早的该项评分越低；s44、计算每个存储声纹特征向量的错误项评分，若该向量预设置后被修改，则该项评分为正，未被修改则该项得分为0；s45、将每个存储声纹特征向量的重复项、时间项与错误项进行加权求和后得到该存储声纹特征向量的重要性评分；s46、从所有的存储声纹特征向量中选取重要性评分最高的前预设值的多项，并将这些声纹特征向量替换原来的存储声纹特征向量作为新的存储特征向量；s47、结束。
9.一种基于离线自训练神经网络的声纹识别系统，其包括：采集模块，用于采集输入的语音电信号；mfcc处理模块，用于将输入的语音电信号进行切片和mfcc处理，生成音频片段mfcc向量；唤醒模块，用于将音频片段mfcc向量输入到用于孤立词识别的循环神经网络中，提取孤立词并将其与所需唤醒词进行比对，若比对一致则唤醒；声纹提取模块，用于在唤醒后，将音频片段mfcc向量输入到声纹提取循环神经网络进行声纹识别预处理，生成输入声纹特征向量；所述声纹识别系统还包括：声纹比对模块，用于将所有的存储声纹特征向量与输入声纹特征向量进行比对，计算两者的余弦距离并记录；当所记录的最大余弦距离大于余弦距离采信阈值时，将所有余弦距离大于余弦距离采信阈值的存储声纹特征向量作为对照声纹特征向量；当所记录的最大余弦距离不大于余弦距离采信阈值，但大于余弦距离拒绝阈值时，将所有余弦距离大于余弦距离拒绝阈值的存储声纹特征向量作为对照声纹特征向量；习惯预测控制模块，用于在存在对照声纹特征向量时启动；该习惯预测控制模块用于将输入声纹特征向量以及相应的关联时间输入到习惯分类全连接神经网络中，生成对比习惯分类向量；还用于将对照声纹特征向量以及相应的关联时间输入到习惯分类全连接神经网络中，生成对照习惯分类向量；然后计算对比习惯分类向量与所有对照习惯分类向量之间的欧氏距离，并将当前控制参数值设置为欧氏距离最小值所对应的对照声纹特征向量；存储模块，用于将当前控制参数值与当前的输入声纹特征向量及其对应的时间进行关联并存储；习惯分类全连接神经网络实时训练模块，其用于获取存储声纹特征向量以及相应的关联时间，并进行习惯分类全连接神经网络的实时训练；具体地，获取一部分存储声纹特征向量以及对应的关联时间作为训练集输入，其余存储声纹特征向量及其关联时间作为验
证集，使用triple loss作为损失函数，使用加权求和计算两组控制参数值之间的欧式距离；并判断习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差是否均小于预设误差阈值，若不是，则从训练集中随机抽取一个向量a，从与其同控制参数值的向量中任取一个设为p，并从与其不同控制参数值的向量中任取一个设为n，类间距预设值为m；使用损失计算公式计算本次损失，并反向训练习惯分类全连接神经网络，直到习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差均小于预设误差阈值；损失计算如下：。
10.所述声纹识别系统还包括接近性别控制模块；当声纹对比模块中所记录的最大余弦距离不大于余弦距离拒绝阈值时，启动该接近性别控制模块；该接近性别控制模块用于计算输入声纹特征向量与存储的多组男性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；还用于计算输入声纹特征向量与存储的多组女性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；然后判断多组男性声纹特征向量余弦距离最小值是否小于多组女性声纹特征向量余弦距离最小值，若小于，则将当前控制参数设置为对应年龄男性默认控制参数值；否则，将当前控制参数设置为对应年龄女性默认控制参数值。
11.所述声纹识别系统还包括声纹移除模块，该声纹移除模块用于定时更新存储声纹特征向量，其包括重复项评分计算单元，用于计算每个存储声纹特征向量的重复项评分，具体地，计算该存储声纹特征向量与其余存储声纹特征向量的余弦距离，若所有余弦距离均不小于余弦距离阈值，则重复项评分为0；若存在余弦距离小于余弦距离阈值的情况，则重复项评分为负，若小于余弦距离阈值的余弦距离数量越多，重复项得分越低；时间项评分计算单元，用于计算每个存储声纹特征向量的时间评分，当前时刻创建的评分为0，创建时间越早的该项评分越低；错误项评分计算单元，用于计算每个存储声纹特征向量的错误项评分，若该向量预设置后被修改，则该项评分为正，未被修改则该项得分为0；重要性评分计算单元，将每个存储声纹特征向量的重复项、时间项与错误项进行加权求和后得到该存储声纹特征向量的重要性评分；更新单元，用于从所有的存储声纹特征向量中选取重要性评分最高的前预设值的多项，并将这些声纹特征向量替换原来的存储声纹特征向量作为新的存储特征向量。
12.一种计算机可读存储介质，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上所述的声纹识别方法。
13.一种计算机软件程序产品，所述计算机软件程序产品在终端设备上运行时，使得所述终端设备执行如上所述的声纹识别方法。
14.采用上述方案后，本发明在进行声纹特征向量比对时，通过计算输入声纹特征向
量与存储声纹特征向量之间的余弦距离，并通过设置余弦距离采信阈值和余弦距离拒绝阈值，筛选出符合条件的存储声纹特征向量作为对照声纹特征向量，然后利用习惯分类全连接神经网络将对照声纹特征向量与输入特征向量之间进行进一步比对，从而筛选出符合用户习惯的声纹特征向量，进而确定控制参数值。每次的输入声纹特征向量以及其时间均会进行存储，而本发明还设置了习惯分类全连接神经网络的实时训练流程，该流程会定期进行启动对习惯分类全连接神经网络进行训练，训练时，会根据存储的声纹特征向量（包含了用户近期的声纹特征信息）进行训练，从而有效拟合在不同时间里同一个人的不同操作习惯，提高了声纹识别的准确性，有效提升用户的智能控制体验。
15.此外，本发明会定期对存储声纹特征向量进行更新，更新时会结合每个存储声纹特征向量的重复项评分、时间项评分以及错误项评分得到一个重要性评分值，然后从中筛选出重要性评分较高的存储声纹特征向量作为新的存储数据替换原来存储的数据。通过该定期移除声纹特征向量的操作可以提高习惯分类全连接神经网络所用训练数据的准确性，进而提高声纹识别的准确性。
附图说明
16.图1为本发明的主流程图；图2为本发明的习惯预测控制参数值设置子流程图；图3为本发明按声纹特征向量接近性别进行控制参数值设置子流程图；图4为本发明的习惯分类全连接神经网络离线训练流程图；图5为本发明的声纹特征移除流程图。
具体实施方式
17.为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。
18.在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。
20.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
21.如图1-4所示，本发明揭示了一种基于离线自训练神经网络的声纹识别方法，其包括以下步骤：s11、采集输入的语音电信号，将输入的语音电信号通过切片、mfcc处理，生成音频
片段mfcc向量；s12、将音频片段mfcc向量输入到用于孤立词识别的循环神经网络中，提取孤立词，并与所需唤醒词进行比对，若比对不一致则返回s11；若比对一致则将音频片段mfcc向量输入到用于提取声纹的循环神经网络中进行声纹识别预处理并生成输入声纹特征向量；s13、从存储的声纹特征向量中选择一个未被对比的存储声纹特征向量作为待比较的声纹特征向量，通过余弦距离公式计算出待比较的声纹特征向量与输入声纹特征向量之间的余弦距离，并进行记录；重复该步骤s13，直至存储的声纹特征向量中不存在未被比对的声纹特征向量；s14、判断所记录的最大余弦距离是否大于余弦距离采信阈值，若大于，则将所有余弦距离大于余弦距离采信阈值的存储声纹特征向量作为对照声纹特征向量，然后进入习惯预测控制参数设置子流程；否则进入s15；s15、判断所记录的最大余弦距离是否大于余弦距离拒绝阈值，若大于，则将所有余弦距离大于余弦距离拒绝阈值的存储声纹特征向量作为对照声纹特征向量，然后进入习惯预测控制参数值设置子流程；s16、子流程结束后，将当前控制参数值与当前声纹特征向量以及当前时间进行关联，并存储；如果用户此时修改控制参数值，则额外记录该输入声纹特征向量预设值后被修改；习惯预测控制参数值设置子流程如下：s21、将输入声纹特征向量以及对应的当前时间输入到习惯分类全连接神经网络中，生成比对习惯分类向量；s22、获取所有对照声纹特征向量以及对应的向量关联时间输入到习惯分类全连接神经网络中，生成对照习惯分类向量；s23、计算比对习惯分类向量与所有的对照习惯分类向量之间的欧氏距离；s24、将当前控制参数设置为欧氏距离最小值所对应的对照声纹特征向量关联的控制参数；s25、结束。
22.所述s15中，若所记录的最大余弦距离不大于余弦距离拒绝阈值时，即无法识别到该用户的声纹特征向量，一般情况下可以不进行任何输出，而本发明在该情况下进入按声纹特征向量接近性别进行控制参数值设置子流程，即根据用户的声纹特征向量判断其属于男性还是女性，然后将控制参数设置为相应性别通常的设置操作。按声纹特征向量接近性别进行控制参数值设置子流程具体如下：s31、计算输入声纹特征向量与存储的多组男性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；s32、计算输入声纹特征向量与存储的多组女性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；s33、判断多组男性声纹特征向量余弦距离最小值是否小于多组女性声纹特征向量余弦距离最小值，若小于，则将当前控制参数设置为对应年龄男性默认控制参数值；否则，将当前控制参数设置为对应年龄女性默认控制参数值；s34、结束。
23.用户的声纹会受到时间和环境影响而发生变化，所以为了能提高识别的准确性，所以本发明设置了习惯分类全连接神经网络的实时训练流程并定期启动，进行实时训练。具体如下：s51、获取一部分存储声纹特征向量以及对应的关联时间作为训练集输入，其余存储声纹特征向量及其关联时间作为验证集，使用triple loss作为损失函数，使用加权求和计算两组控制参数值之间的欧式距离；s52、判断习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差是否均小于预设误差阈值，若不是，则从训练集中随机抽取一个向量a，从与其同控制参数值的向量中任取一个设为p，并从与其不同控制参数值的向量中任取一个设为n，类间距预设值为m；使用损失计算公式计算本次损失，并反向训练习惯分类全连接神经网络；损失计算如下：重复该步骤s52，直到习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差均小于预设误差阈值；s53、结束。
24.因为用户的声纹特征会随着时间的推移和环境的变化而发生变化，存储时间越近的声纹特征越有参考价值，而存储时间比较早的声纹特征向量其参考价值会越低，所以本发明增加了声纹识别方法还包括移除多余声纹特征向量流程。该移除多余声纹特征向量流程定期或者达到存储上限时启动，对存储特征进行更新，移除重要性低的声纹特征向量。如图5所示，具体如下：s41、获取所有的存储声纹特征向量与其创建时间；s42、计算每个存储声纹特征向量的重复项评分；具体地，计算该存储声纹特征向量与其余存储声纹特征向量的余弦距离，若所有余弦距离均不小于余弦距离阈值，则重复项评分为0；若存在余弦距离小于余弦距离阈值的情况，则重复项评分为负，若小于余弦距离阈值的余弦距离数量越多，重复项得分越低；s43、计算每个声纹特征向量的时间评分，当前时刻创建的评分为0，创建时间越早的该项评分越低；s44、计算每个声纹特征向量的错误项评分，若该向量预设置后被修改，则该项评分为正，未被修改则该项得分为0；s45、将每个存储声纹特征向量的重复项、时间项与错误项进行加权求和后得到该存储声纹特征向量的重要性评分；s46、从所有的存储声纹特征向量中选取重要性评分最高的前预设值的多项，并将这些声纹特征向量替换原来的存储声纹特征向量作为新的存储特征向量；s47、结束。
25.基于同一发明构思，本发明还揭示了一种基于离线自训练神经网络的声纹识别系统，其包括：采集模块，用于采集输入的语音电信号；
mfcc处理模块，用于将输入的语音电信号进行切片和mfcc处理，生成音频片段mfcc向量；唤醒模块，用于将音频片段mfcc向量输入到用于孤立词识别的循环神经网络中，提取孤立词并将其与所需唤醒词进行比对，若比对一致则唤醒；声纹提取模块，用于在唤醒后，将音频片段mfcc向量输入到声纹提取循环神经网络进行声纹识别预处理，生成输入声纹特征向量；声纹比对模块，用于将所有的存储声纹特征向量与输入声纹特征向量进行比对，计算两者的余弦距离并记录；当所记录的最大余弦距离大于余弦距离采信阈值时，将所有余弦距离大于余弦距离采信阈值的存储声纹特征向量作为对照声纹特征向量；当所记录的最大余弦距离不大于余弦距离采信阈值，但大于余弦距离拒绝阈值时，将所有余弦距离大于余弦距离拒绝阈值的存储声纹特征向量作为对照声纹特征向量；习惯预测控制模块，用于在存在对照声纹特征向量时启动；该习惯预测控制模块用于将输入声纹特征向量以及相应的关联时间输入到习惯分类全连接神经网络中，生成对比习惯分类向量；还用于将对照声纹特征向量以及相应的关联时间输入到习惯分类全连接神经网络中，生成对照习惯分类向量；然后计算对比习惯分类向量与所有对照习惯分类向量之间的欧氏距离，并将当前控制参数值设置为欧氏距离最小值所对应的对照声纹特征向量；存储模块，用于将当前控制参数值与当前的输入声纹特征向量及其对应的时间进行关联并存储；以及习惯分类全连接神经网络实时训练模块，其用于获取存储声纹特征向量以及相应的关联时间，并进行习惯分类全连接神经网络的实时训练；具体地，获取一部分存储声纹特征向量以及对应的关联时间作为训练集输入，其余存储声纹特征向量及其关联时间作为验证集，使用triple loss作为损失函数，使用加权求和计算两组控制参数值之间的欧式距离；并判断习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差是否均小于预设误差阈值，若不是，则从训练集中随机抽取一个向量a，从与其同控制参数值的向量中任取一个设为p，并从与其不同控制参数值的向量中任取一个设为n，类间距预设值为m；使用损失计算公式计算本次损失，并反向训练习惯分类全连接神经网络，直到习惯分类全连接神经网络在训练集与验证集上的预测结果平均欧式距离误差均小于预设误差阈值；损失计算如下：。
26.所述声纹识别系统还包括接近性别控制模块；当声纹对比模块中所记录的最大余弦距离不大于余弦距离拒绝阈值时，启动该接近性别控制模块；该接近性别控制模块用于计算输入声纹特征向量与存储的多组男性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；还用于计算输入声纹特征向量与存储的多组女性声纹特征向量之间的余弦距离，并输出其中的最小余弦距离以及其对应的声纹输入者的年龄；然后判断多组男性声纹特征向量余弦
距离最小值是否小于多组女性声纹特征向量余弦距离最小值，若小于，则将当前控制参数设置为对应年龄男性默认控制参数值；否则，将当前控制参数设置为对应年龄女性默认控制参数值。
27.所述声纹识别系统还包括声纹移除模块，该声纹移除模块用于定时或者达到存储上限时更新存储声纹特征向量，其包括重复项评分计算单元，用于计算每个存储声纹特征向量的重复项评分，具体地，计算该存储声纹特征向量与其余存储声纹特征向量的余弦距离，若所有余弦距离均不小于余弦距离阈值，则重复项评分为0；若存在余弦距离小于余弦距离阈值的情况，则重复项评分为负，若小于余弦距离阈值的余弦距离数量越多，重复项得分越低；时间项评分计算单元，用于计算每个存储声纹特征向量的时间评分，当前时刻创建的评分为0，创建时间越早的该项评分越低；错误项评分计算单元，用于计算每个存储声纹特征向量的错误项评分，若该向量预设置后被修改，则该项评分为正，未被修改则该项得分为0；重要性评分计算单元，将每个存储声纹特征向量的重复项、时间项与错误项进行加权求和后得到该存储声纹特征向量的重要性评分；更新单元，用于从所有的存储声纹特征向量中选取重要性评分最高的前预设值的多项，并将这些声纹特征向量替换原来的存储声纹特征向量作为新的存储特征向量。
28.本发明还揭示了一种计算机可读存储介质，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上所述的声纹识别方法。
29.本发明还揭示了一种计算机软件程序产品，所述计算机软件程序产品在终端设备上运行时，使得所述终端设备执行如上所述的声纹识别方法。
30.本发明在进行声纹特征向量比对时，通过计算输入声纹特征向量与存储声纹特征向量之间的余弦距离，并通过设置余弦距离采信阈值和余弦距离拒绝阈值，筛选出符合条件的存储声纹特征向量作为对照声纹特征向量，然后利用习惯分类全连接神经网络将对照声纹特征向量与输入特征向量之间进行进一步比对，从而筛选出符合用户习惯的声纹特征向量，进而确定控制参数值。每次的输入声纹特征向量以及其时间均会进行存储，而本发明还设置了习惯分类全连接神经网络的实时训练流程，该流程会定期进行启动对习惯分类全连接神经网络进行训练，训练时，会根据存储的声纹特征向量（包含了用户近期的声纹特征信息）进行训练，从而有效拟合在不同时间里同一个人的不同操作习惯，提高了声纹识别的准确性，有效提升用户的智能控制体验。
31.此外，本发明会定期对存储声纹特征向量进行更新，更新时会结合每个存储声纹特征向量的重复项评分、时间项评分以及错误项评分得到一个重要性评分值，然后从中筛选出重要性评分较高的存储声纹特征向量作为新的存储数据替换原来存储的数据。通过该定期移除声纹特征向量的操作可以提高习惯分类全连接神经网络所用训练数据的准确性，进而提高声纹识别的准确性。
32.本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。
33.所述服务器包括：数据库、存储器、至少一个处理器、存储在所述存储器中并可在
所述至少一个处理器上运行的计算机程序及至少一条通讯总线。所述至少一个处理器执行所述计算机程序时实现上述神经网络半监督训练方法实施例中的步骤。
34.示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述至少一个处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序34在所述服务器3中的执行过程。
35.服务器是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路 (application specific integrated circuit，asic)、可编程门阵列(field－programmable gatearray，fpga)、数字处理器(digital signal processor，dsp)、嵌入式设备等。
36.本领域技术人员可以理解，所述示意图仅是服务器的示例，并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
37.所述数据库(database)是按照数据结构来组织、存储和管理数据的建立在所述服务器上的仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。在本实施方式中，所述数据库用于存储所述样本数据等。
38.所述至少一个处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分。
39.所述存储器可用于存储所述计算机程序和/或模块/单元，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块/单元，以及调用存储在存储器内的数据，实现所述服务器的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
40.所述存储器中存储有程序代码，且所述至少一个处理器可调用所述存储器中存储的程序代码以执行相关的功能。
41.所述服务器集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬
盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
42.尽管未示出，所述服务器还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理系统与所述至少一个处理器逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述服务器还可以包括蓝牙模块、wi-fi模块等，在此不再赘述。
43.以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑智宏张隽榕林鸿剑伍玉全张静云
技术所有人：厦门中创环保科技股份有限公司
我是此专利的发明人