一种声纹识别相似度评分的方法和装置的制造方法_3

文档序号：9912686阅读：来源：国知局

身份标识信息，虚拟名片即将用户名片虚拟化信息化。则所述声纹数据为用户声纹数据，步骤S102包括如下步骤:将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。这样保存的虚拟名片信息可以用于检索，并最终可以调用到用户声纹数据和第二声纹识别得分集合，用户只需要保存对应的虚拟名片信息即可，无需保存声纹数据和第二声纹识别得分集合。
[0055]虚拟名片信息在具体应用时，用户可以输入虚拟名片信息，而后声纹识别装置可以获取虚拟名片信息，根据虚拟名片信息得到已经存储起来的用户声纹和对应的声纹识别得分集合，将对应的声纹识别得分集合作为第二声纹识别得分集合。即在步骤S102计算出用户声纹数据对应的声纹识别得分集合时，存储用户的声纹数据和该声纹识别得分集合为用户虚拟名片信息，而后在需要使用用户相关信息的时候，直接根据用户虚拟名片信息获取对应的用户声纹数据和声纹识别得分集合，则用户输入虚拟名片信息，即可以方便地得到用户声纹数据和第二识别得分集合。
[0056]其中，用户的虚拟名片信息可以存在本地或者云端，云端即远程端，如远程服务器端。当本地和云端都存储有用户的虚拟名片信息，则可以对此进行同步。一方面用户可以在本地随时更新自己的虚拟名片信息，另一方面云端可以主动更新用户本地虚拟名片信息中{Pl| i = l，2，3，...，N}数据，因为后台可以根据需要调整语料库中任意对象的声纹模型数据。
[0057]根据不同的传输需要，可以将虚拟名片信息做成特定的形式，可以做成字符串或者二维码的形式。则步骤“将用户声纹数据和第二声纹识别得分集合存储为用户的虚拟名片信息”包括步骤:将用户声纹数据和第二声纹识别得分集合存储为用户的虚拟名片字符串信息或者虚拟名片二维码信息。在具体操作时，可以对用户的声纹数据和第二声纹识别得分集合进行压缩或者加密，当然也可以压缩后同时加密。压缩方法和加密方法很多，例如:压缩方法包括字典算法，RLE算法，LZ777算法等等;加密方法包括BI owFi sh，DES等等。压缩或者加密前，不论是用户的声纹特征，还是本实施例中提到的用户的第二声纹识别得分集合，都是一长串直观看来无具体意义的数字，通过压缩、加密后，可以缩短长度，同时兼顾了安全性，最后转化为二维码和字符串形式，就成为比较具体的实体信息。实际应用中是否需要进行加密需要根据应用需求，可能应用时并不需要考虑这方面的安全性问题，则可以不进行加密。在某些具体实施例中，虚拟名片信息的形式可以是将用户的声纹特征数据和{Pl| i = l，2，3，...，N}经过压缩形成短“数字+字母”组合的字符串形式存储下来，或者生成对应二维码形式，这些保存形式下对应的信息即为虚拟名片信息，用户即可以通过提供这些信息，而后本发明方法可以利用这些信息匹配到对应的声音模型。
[0058]匹配声音模型后，本发明的方法进一步可以用作声音推荐。具体步骤为:将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型，根据最匹配的声音模型推荐歌曲或者歌曲演唱者。即取其中得分最高的Ci即语料库中第i个对象的声音模型与声纹数据最匹配，或者说最相似。根据这个声音模型可以推荐歌曲或者歌曲演唱者(歌星)，即根据用户虚拟名片信息进行精确的音乐歌曲推荐或歌星推荐等等。
[0059]以及本发明还提供一种声纹识别相似度评分装置200，声纹识别装置用于对声纹数据210进行识别操作，如图2所示，包括如下模块:声音模型训练模块201:用于将语料库中各个对象的语料子集内的音频数据训练得到对应的声音模型。在某些实施例中，也可以不包括有声音模型训练模块，只要语料库中存储有声音模型即可。第一声纹评分模块202:用于语料库中的各个对象的语料子集中挑选若干音频数据与语料库中所有的声音模型进行匹配，得到各自的第一声纹识别得分集合;第二声纹评分模块203:用于获取声纹数据，并将声纹数据与语料库中所有的声音模型进行匹配，得到第二声纹识别得分集合;第一得分系数模块204:用于根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合;第二得分系数模块205:用于根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合;最终得分计算模块206:用于根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合;相似度得分模块207:用于将最终得分集合中最高得分对应的声音模型作为声纹相似度的得分。本装置通过第一声纹识别得分和第二声纹识别得分并算上权重，对声纹识别进行综合性评定，使得评定的得分结果稳定，区分度高，可以让声纹识别的结果相对稳定，不易出现声纹识别结果相差大的问题。
[0060]其中本装置可以用于生成用户的虚拟名片信息。则所述声纹数据为用户声纹数据，第一得分系数模块还用于将用户声纹数据及对应的第二声纹识别得分集合制作为用户的虚拟名片信息并保存。保存后的虚拟名片信息可以被本装置识别，即本装置可以识别用户的虚拟名片信息，则第一得分系数模块还用于获取虚拟名片信息，根据虚拟名片信息得到用户声纹数据和对应的声纹识别得分集合，将对应的声纹识别得分集合作为第二声纹识别得分集合。根据用户的虚拟名片信息可以快速得到对应的用户声纹数据和基础声纹识别得分，而后可以根据这些信息获得最匹配的声音模型。
[0061]本发明的装置在匹配的声音模型的基础上可以进一步用于信息推荐，则本还包括如下模块:推荐模块208:将最终得分集合中最高得分对应的声音模型作为声纹数据最匹配的声音模型，用于根据最匹配的声音模型推荐歌曲或者歌曲演唱者。用户根据推荐歌曲或者歌曲演唱者可以选择对应的歌曲或者歌曲演唱者对应的歌曲进行演唱。
[0062]在某些实施例中，本装置还包括如下模块:存储模块209:用于存储用户的虚拟名片信息到本地和云端，同步本地和云端的虚拟名片信息。通过存储模块可以方便地对用户虚拟名片信息进行存储和更新。
[0063]其中，虚拟名片信息可以有多种形式，如字符串或者二维码，则第一得分系数模块还用于将用户声纹数据和对应的第二声纹识别得分集合存储为用户的虚拟名片字符串信息或者虚拟名片二维码信息。在存储的过程中可以根据需要选择压缩或者加密的方式对虚拟名片信息进行相应的操作。
[0064]需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此夕卜，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。
[0065]本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关

完整全部详细技术资料下载

当前第3页1 2 3 4