声纹判定方法、装置、系统、设备和存储介质与流程

文档序号：32350142发布日期：2022-11-26 12:41阅读：217来源：国知局

技术简介：
本专利针对语音识别传输中数据冗余导致的带宽浪费问题，提出在语音信号中嵌入预设标识的解决方案。通过识别唤醒词时间点并划分声纹判定区间，仅传输关键数据段，结合预设空包标记实现高效传输，有效降低传输数据量30%以上。该方法在保证声纹识别准确率的前提下，优化了语音信号传输效率。
关键词：声纹判定,数据传输优化

1.本公开涉及计算机技术领域，具体涉及语音识别、深度学习等技术领域，尤其涉及一种声纹判定方法、装置、系统、设备和存储介质。

背景技术：

2.语音识别(speech recognition)是指将语音转换为文本，与语音识别不同，声纹判定的目的在于辨别说话者的身份(identity)。
3.相关技术中，一般是采用专门的语音信号进行声纹判定，假设用于语音识别的语音信号称为语音识别信号，用于声纹判定的语音信号称为声纹判定信号，则客户端需要发送语音识别信号和声纹判定信号至服务端，服务端基于声纹判定信号进行声纹判定，基于语音识别信号进行语音识别。

技术实现要素：

4.本公开提供了一种声纹判定方法、装置、系统、设备和存储介质。
5.根据本公开的一方面，提供了一种声纹判定方法，包括：在语音识别信号中添加预设标识，以得到包含预设标识的语音识别信号，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定所述声纹判定部分，所述声纹判定部分包括预设内容；将所述包含预设标识的语音识别信号，发送至服务端，以使所述服务端基于声纹模型和所述包含预设标识的语音识别信号进行声纹判定，所述声纹模型基于所述预设内容建立。
6.根据本公开的另一方面，提供了一种声纹判定方法，包括：接收语音识别信号，所述语音识别信号中包含预设标识，且，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定所述声纹判定部分，所述声纹判定部分包括预设内容；基于所述预设标识，确定所述语音识别信号中的所述声纹判定部分；采用声纹模型对所述声纹判定部分进行声纹判定，所述声纹模型基于所述预设内容建立。
7.根据本公开的另一方面，提供了一种声纹判定装置，包括：添加模块，用于在语音识别信号中添加预设标识，以得到包含预设标识的语音识别信号，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定所述声纹判定部分，所述声纹判定部分包括预设内容；发送模块，用于将所述包含预设标识的语音识别信号，发送至服务端，以使所述服务端基于声纹模型和所述包含预设标识的语音识别信号进行声纹判定，所述声纹模型基于所述预设内容建立。
8.根据本公开的另一方面，提供了一种声纹判定装置，包括：接收模块，用于接收语音识别信号，所述语音识别信号中包含预设标识，且，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定所述声纹判定部分，所述声纹判定部分包括预设内容；确定模块，用于基于所述预设标识，确定所述语音识别信号中的所述声纹判定部分；判定模块，用于采用声纹模型对所述声纹判定部分进行声纹判定，所述声纹模型基
于所述预设内容建立。
9.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
10.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
11.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
12.根据本公开的技术方案，可以降低传输链路的数据量。
13.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案，不构成对本公开的限定。其中：
15.图1是根据本公开第一实施例的示意图；
16.图2是根据本公开第二实施例的示意图；
17.图3是根据本公开第三实施例的示意图；
18.图4是根据本公开第四实施例的示意图；
19.图5是根据本公开第五实施例的示意图；
20.图6是根据本公开第六实施例的示意图；
21.图7是根据本公开第七实施例的示意图；
22.图8是根据本公开第八实施例的示意图；
23.图9是用来实现本公开实施例的声纹判定方法中任一方法的电子设备的示意图。
具体实施方式
24.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
25.图1是根据本公开第一实施例的示意图。该实施例提供一种声纹判定方法，包括：
26.101、在语音识别信号中添加预设标识，以得到包含预设标识的语音识别信号，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定出所述声纹判定部分，所述声纹判定部分包括预设内容。
27.102、将所述包含预设标识的语音识别信号，发送至服务端，以使所述服务端基于声纹模型和所述包含预设标识的语音识别信号进行声纹判定，所述声纹模型基于所述预设内容建立。
28.本实施例的执行主体为客户端，客户端部署在用户设备上。用户设备的具体形式
不作限定，比如，可以是智能家居终端、以及各种移动设备，移动设备比如包括：移动电话、平板计算机、手持式计算设备、pda(个人数字助手)、便携式媒体播放器、使用头戴式受话器和耳机的设备(例如，蓝牙兼容设备)、手机平板(phablet)设备(即，组合智能电话/平板设备)、可穿戴式计算机等。智能家居终端比如为智能音箱。
29.客户端的形式也不作限定，可以由app(应用)、网页或者程序等提供。app可以显式地安装在用户设备的界面上，或者，app也可以是用户通过特定的硬件和/或软件按钮调出，本公开对此也不作限定。
30.语音识别信号是指包含唤醒词和待识别内容的语音信号，比如，语音识别信号为“小度小度，明天天气”，其中，“小度小度”为唤醒词，“明天天气”为待识别内容。
31.声纹(voiceprint)是携带语言信息的声波频谱。任何两个人的声纹特征都有差异，并且每个人的声纹特征具有相对稳定性。声纹判定有文本相关的(text-dependent)和文本无关的(text-independent)两种。文本相关的声纹判定要求用户按照预设内容发音，每个人的声纹模型逐个被精确地建立，声纹判定时也必须按预设内容发音。文本无关的声纹判定不要求用户按照预设内容发音。
32.本公开实施例以文本相关的声纹判定为例，且相关的文本，即预设内容为唤醒词，比如，“小度小度”。
33.与相关技术中需要额外发送声纹判定信号不同，本公开实施例中，不需要额外发送声纹判定信号，而是基于语音识别信号进行声纹判定。具体地，服务端可以基于预设标识在语音识别信号中确定出声纹判定部分，声纹判定部分比如为包括唤醒词的部分，再基于声纹判定部分进行声纹判定。
34.声纹判定部分是语音识别信号的一部分，该部分的两个端点可以称为声纹判定起点和声纹判定尾点。
35.一些实施例中，预设标识可以基于声纹判定部分的端点添加。比如，在所述语音识别信号中的所述声纹判定尾点之后，添加预设标识。具体地，客户端可以从声纹判定起点开始发送语音识别信号，并在声纹判定尾点之后添加预设标识，服务端接收到语音识别信号后，将预设标识之前的语音识别信号作为声纹判定部分。
36.上述以基于声纹判定尾点添加预设标识为例，还可以基于声纹判定起点添加预设标识，比如，在声纹判定起点之前添加一个预设标识，此时，客户端可以从小于或等于声纹判定起点的时间点开始发送语音识别信号，服务端接收到声纹判定起点之前的预设标识后，可以根据预先配置的长度，从该预设标识之后选取该预先配置的长度的部分作为声纹判定部分。该预先配置的长度可以与后续的第二预设时长相同。
37.另一可选方案是，客户端从声纹判定起点开始发送语音识别信号，服务端预先配置上述的长度，即第二预设时长，服务端接收到语音识别信号后，从接收的语音识别信号的起点开始，选取该预先配置的长度的部分作为声纹判定部分。此时，预设标识不限于添加的位置，即不限于基于端点进行添加，此时的预设标识可以是声纹判定的指示，即，服务端接收到语音识别信号后，基于该预设标识确定需要进行声纹判定，之后，按照上述的方式确定声纹判定部分。
38.通过基于端点添加预设标识的方式，可以便于服务端及时确定出声纹判定部分。
39.进一步地，基于声纹判定尾点添加预设标识的方式，可以不需要在服务端进行预
先配置，更易实现。
40.一些实施例中，声纹判定起点和声纹判定尾点的确定方式可以包括：确定语音识别信号中的唤醒时间点；以所述唤醒时间点为基准，向前回溯第一预设时长，确定为声纹判定起点；以所述声纹判定起点为基准，向后延时第二预设时长，确定为所述声纹判定尾点。
41.唤醒时间点是指用户设备确定成功唤醒的时间点，比如，用户设备识别出至少部分唤醒词的时间点。以唤醒词为“小度小度”为例，一般当识别到“小度小”时，用户设备可以确定成功唤醒，则可以将“小度小”对应的结束时间点作为唤醒时间点。
42.一般来讲，第一预设时长大于或等于唤醒词的时长，比如，唤醒词为“小度小度”，每个文字一般为500ms，则第一预设时长比如为2000ms。
43.第二预设时长一般大于第一预设时长，第二预设时长比如为2560ms。
44.通过上述选取方式，可以保证声纹判定起点与声纹判定尾点之间的语音内容包括完整的唤醒词，以便服务端进行基于唤醒词的声纹判定。
45.以第一预设时长为2000ms，第二预设时长为2560ms为例，唤醒时间点、声纹判定起点和声纹判定尾点的相互关系可以参见图2。
46.本实施例中，通过采用上述方式确定声纹判定起点和声纹判定尾点，可以保证声纹判定起点和声纹判定尾点之间包括完成的预设内容，以保证声纹判定的准确度。
47.相关技术中，客户端在语音识别信号之外，会再发送声纹判定信号至服务端，其中，语音识别信号和声纹判定信号中可以分别携带不同的类型标识，以进行区分，即，客户端发送给服务端的语音信号为两类，一类是语音识别信号，一类是声纹判定信号，这样会增加传输链路的负担，并且也可能对语音识别信号造成影响，影响语音识别效果。
48.本公开实施例中，不需要额外发送声纹判定信号，而是利用语音识别信号进行声纹判定，即，语音识别信号不仅用于语音识别，还用于声纹判定。
49.客户端可以在语音识别信号中添加预设标识，服务端基于包含预设标识的语音识别信号进行声纹判定。具体地，客户端可以在语音识别信号的声纹判定尾点之后添加预设标识，并从声纹判定起点开始发送语音识别信号至服务端，服务端将预设标识之前的语音识别信号作为声纹判定信号，基于预先建立的声纹模型，对声纹判定信号进行声纹判定。其中，声纹模型是基于预设内容建立的，比如，用户可以预先说多次包含“小度小度”的语音，服务端基于该多次包含唤醒词的语音信号建立声纹模型。具体建立声纹模型的方式可以采用相关技术实现，在此不做详述。
50.为了使得服务端可以基于语音识别信号进行声纹判定，则可以在语音识别信号中添加预设标识，相应地，服务端接收到包含预设标识的语音识别信号后，可以基于预设标识之前的语音识别信号进行声纹判定。
51.客户端发送语音识别信号至服务端时，可以逐个语音包的方式进行发送，即，客户端可以从所述声纹判定起点开始，将所述语音识别信号划分为语音包，并在所述声纹判定尾点之后添加预设空包，将所述语音包和所述预设空包发送至服务端。比如，每个语音包为160ms，则2560ms为16个语音包，则客户端从声纹判定起点开始，发送16个语音包之后，在第16个语音包之后发送一个空包。服务端接收到该空包后，基于空包之前的语音识别信号进行声纹判定，即依据之前的16个语音包进行声纹判定。其中，空包之前的语音识别信号是包含唤醒词的语音识别信号。
52.进一步地，作为预设标识的空包中的类别标识与正常的语音识别信号对应的语音包中的类别标识可以不同，以进行区分。
53.本实施例中，通过确定语音识别信号中的声纹判定起点和声纹判定尾点，并基于声纹判定尾点，在语音识别信号中添加预设标识，可以使得服务端基于包含预设标识的语音识别信号进行声纹判定，可以在不需要额外发送专门的声纹判定语音信号的基础上，完成声纹判定，从而降低传输链路的数据量。
54.图3是根据本公开第三实施例的示意图，本实施例提供一种声纹判定方法，本实施例以服务端执行为例，如图3所示，该方法包括：
55.301、接收语音识别信号，所述语音识别信号中包含预设标识，且，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定所述声纹判定部分，所述声纹判定部分包括预设内容。
56.302、基于所述预设标识，确定所述语音识别信号中的所述声纹判定部分。
57.303、采用声纹模型对所述声纹判定部分进行声纹判定，所述声纹模型基于所述预设内容建立。
58.一些实施例中，语音识别信号从声纹判定起点开始发送，且所述预设标识添加在声纹判定尾点之后，相应地，基于所述预设标识，确定所述语音识别信号中的所述声纹判定部分，包括：将所述语音识别信号中所述预设标识之前的部分确定为所述声纹判定部分。
59.本实施例中，通过在语音识别信号中确定声纹判定部分，并基于声纹判定部分进行声纹判定，可以在不需要额外发送专门的声纹判定语音信号的基础上，完成声纹判定，从而降低传输链路的数据量。进一步地，通过将预设标识添加在声纹判定尾点之后，可以将预设标识之前的部分作为声纹判定部分，可以高效地确定出声纹判定部分。
60.图4是根据本公开第四实施例的示意图。该实施例提供一种声纹判定方法，结合图5所示的结构，该方法包括：
61.401、客户端采集包含所述预设内容的注册语音信号。
62.注册语音信号是指用于注册声纹时的语音信号，预设内容是文本相关的声纹判定时的固定内容，预设内容比如为唤醒词。
63.客户端可以向用户提供声纹注册界面，声纹注册界面中可以包含声纹注册按钮，当用户点击声纹注册按钮后，客户端可以采集用户发出的语音信号。本公开实施例以文本相关的声纹判定为例，因此，客户端在采集用户发出的语音信号之前，还可以向用户提示发出包含唤醒词的语音信号，比如，客户端安装在智能音箱上，智能音箱可以通过屏幕以文本形式，或者智能音箱以语音形式，向用户提示“请说“小度小度
””
类似内容。相应地，用户根据提示发出的“小度小度”可以作为注册语音信号。
64.402、客户端将所述注册语音信号发送至所述服务端，以使所述服务端基于所述注册语音信号建立声纹模型。
65.如图5所示，客户端可以包括：语音采集模块、语音软件开发工具包(software development kit，sdk)和交互模块。语音sdk可以包括：缓存模块、识别模块和唤醒模块。图5中以服务端为云端为例，可以理解的是，如果语音识别是离线执行的，则服务端也可以位于用户设备上。
66.语音采集模块用于采集用户发出的语音信号，语音采集模块比如为麦克风阵列。
67.语音采集模块采集到语音信号后，可以将语音信号保存到缓存模块(buffer)中。在声纹注册时，识别模块可以从缓存模块中获取包含唤醒词的注册语音信号，并通过通信模块发送给云端。
68.进一步地，语音采集模块将语音信号(注册语音信号和/或语音识别信号)保存到缓存模块之前，还可以对语音信号进行处理，以便保存处理后的语音信号。对语音信号进行处理可以包括一般的信号处理流程，比如降噪、增强等，和/或，还可以包括对语音信号进行波束处理。可以理解的是，注册语音信号和之后用于声纹判定的语音识别信号的处理方式需要一致，比如，后续中涉及的语音识别信号为波束处理后的语音识别信号时，对于注册语音信号，也要进行波束处理，以便基于波束处理后的注册语音信号进行声纹注册。
69.本实施例中，通过客户端向服务端发送包含预设内容的注册语音信号，可以完成声纹注册，以便后续用于声纹判定。
70.403、客户端采集语音识别信号。
71.语音识别信号是指待语音识别的信号，一般包括唤醒词和待识别内容，比如，语音识别信号为“小度小度，明天天气”。可以理解的是，在实时语音识别的场景下，语音识别信号是流式的，即，并不要求用户全部说完“小度小度，明天天气”才进行处理，而是从检测到语音，如“小”就开始处理。另外，对于语音唤醒场景，“小度小度”和“明天天气”也不限定于不间断说出，即，可以是用户先说出“小度小度”，客户端或者云端识别出唤醒并执行唤醒操作后，用户再说出“明天天气”。
72.具体地，语音采集模块采集到语音识别信号后，将其保存到缓存模块中，识别模块从缓存模块中获取到语音识别模块。
73.404、客户端确定所述语音识别信号中的唤醒时间点。
74.客户端可以确定唤醒标识，所述唤醒标识包括：语音水印值；将所述语音水印值对应的语音水印所在的语音帧的尾点确定为唤醒时间点。
75.具体地，识别模块从缓存中获取语音识别信号后，可以将语音识别信号发送给唤醒模块。唤醒模块用于检测语音信号中是否包含唤醒词，唤醒模块可以采用各种相关技术实现，比如，先将语音信号划分为多帧，提取每帧语音信号的语音特征，再根据语音特征与唤醒声学模型判断该帧语音信号中是否包含唤醒词。唤醒模块在检测到语音信号中包含唤醒词后，可以向识别模块反馈唤醒标识，识别模块接收到唤醒标识后，将唤醒标识对应的时间点确定为唤醒时间点。
76.唤醒标识比如是语音水印值。
77.语音采集模块可以在采集的语音信号上添加语音水印，并将添加了语音水印的语音信号发送给唤醒模块和识别模块。语音采集模块在添加语音水印时，还可以为每个语音水印分配语音水印值，语音水印值比如从0开始依次计数，即语音水印值可以分别为0、1、2...等。语音采集模块可以采用各种相关技术在语音信号上添加语音水印，本实施例对添加语音水印的方式不作限定。
78.唤醒模块在检测唤醒词时，可以基于语音帧进行处理。即，将语音信号划分为各个语音帧，比如，每隔32ms划分为一个语音帧，在每个语音帧中检测是否包含唤醒词。当检测到唤醒词后，可以基于预先配置的协议解析包含唤醒词的语音帧上的语音水印，得到对应的语音水印值，之后将该语音水印值作为唤醒标识发送给识别模块。
79.识别模块接收到作为唤醒标识的语音水印值后，可以将所述语音水印值对应的语音水印所在的语音帧的尾点确定为唤醒时间点。
80.本实施例中，基于语音水印值确定唤醒时间点，可以保证唤醒时间点的准确度。
81.405、客户端以所述唤醒时间点为基准，向前回溯第一预设时长，确定为声纹判定起点，以及，以所述声纹判定起点为基准，向后延时第二预设时长，确定为声纹判定尾点。
82.唤醒时间点、声纹判定起点、声纹判定尾点的相互关系可以参见图2，在此不再详述。
83.406、客户端从所述声纹判定起点开始，将所述语音识别信号划分为语音包，向云端发送所述语音包，并在声纹判定尾点之后添加预设空包，并将预设空包发送至云端。
84.其中，所述语音识别信号对应的语音包包含第一类型标识，所述预设空包包含第二类型标识，所述第一类型标识和所述第二类型标识不同。
85.如图6所示，客户端可以从声纹判定起点开始，逐包发送语音包，每个语音包的时长可以为160ms，由于从声纹判定起点到声纹判定尾点之间的时长为2560ms，则可以分为16个语音包，在第16个语音包之后添加空包包。空包和语音包中都可以包含类型标识(type)，两者类型标识可以不同。如图6所示，语音包的类型标识为0x01，空包的类型标识为0x08。可以理解的是，在发送语音信号(注册语音信号和/或语音识别信号)时，还可以对语音信号进行一定的处理，比如，压缩处理。如图6所示，以opus压缩为例，经过opus压缩后，可以得到对应的语音包(package，pkg)，每个语音包可以包括长度、类型和值，并发送给云端。另外，缓存中的语音数据可以从终端的高级linux声音架构(advanced linux sound architecture，alsa)中读取(read)，读取时可以每次读取32ms的语音数据。
86.本实施例中，通过语音包和空包采用不同的类型标识，可以更好地区分语音包和空包，以保证声纹判定信号的准确度，进而保证声纹判定的准确度。
87.407、云端将预设空包之前的语音识别信号作为声纹判定部分，采用声纹模型对所述声纹判定部分进行声纹判定。
88.即，将声纹判定起点和声纹判定尾点之间的语音信号作为声纹判定部分，并采用声纹模型对声纹判定信号进行声纹判定。
89.可以理解的是，云端还可以对语音识别信号进行语音识别以及相应的处理，比如，识别出“明天天气”，之后获取明天天气，并通过客户端反馈给用户。具体地，图6的第17包可以为待识别内容对应的第一个语音包，依此类推。
90.本实施例中，通过从声纹判定起点开始向云端发送语音识别信号，并在声纹判定尾点之后添加预设空包，以指示云端对预设空包前的语音识别信号进行声纹判定，可以不需要额外传输专门用于声纹判定的语音信号，可以降低客户端与云端之间的传输链路的传输数据量，降低传输链路的负担，并避免额外传输的语音信号对语音识别信号的干扰，保证语音识别的准确度。
91.图7是根据本公开第七实施例的示意图，本实施例提供一种声纹判定装置。如图7所示，声纹判定装置700可以包括添加模块701和发送模块702。
92.添加模块701用于在语音识别信号中添加预设标识，以得到包含预设标识的语音识别信号，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定所述声纹判定部分，所述声纹判定部分包括预设内容；发送模块702用于将所述包含
预设标识的语音识别信号，发送至服务端，以使所述服务端基于声纹模型和所述包含预设标识的语音识别信号进行声纹判定，所述声纹模型基于所述预设内容建立。
93.一些实施例中，所述添加模块701具体用于：确定语音识别信号中的声纹判定部分的端点；基于所述端点，在所述语音识别信号中添加预设标识。
94.一些实施例中，所述端点包括：声纹判定尾点，所述添加模块701进一步具体用于：在所述语音识别信号中的所述声纹判定尾点之后，添加预设标识。
95.一些实施例中，所述预设内容为唤醒词，所述添加模块701进一步具体用于：确定语音识别信号中的唤醒时间点；以所述唤醒时间点为基准，向前回溯第一预设时长，确定为声纹判定起点；以所述声纹判定起点为基准，向后延时第二预设时长，确定为所述声纹判定尾点。
96.一些实施例中，所述添加模块701进一步具体用于：确定唤醒标识，所述唤醒标识包括：语音水印值；将所述语音水印值对应的语音水印所在的语音帧的尾点确定为唤醒时间点。
97.一些实施例中，所述端点包括声纹判定起点和声纹判定尾点，所述预设标识为预设空包，且所述预设空包添加在所述声纹判定尾点之后，所述发送模块702具体用于：将所述语音识别信号划分为语音包，并从所述声纹判定起点开始，将所述语音包和所述预设空包发送至服务端。
98.一些实施例中，所述语音识别信号对应的语音包包含第一类型标识，所述预设空包包含第二类型标识，所述第一类型标识和所述第二类型标识不同。
99.一些实施例中，该装置还包括：注册模块，用于采集包含所述预设内容的注册语音信号；以及，将所述注册语音信号发送至所述服务端，以使所述服务端基于所述注册语音信号建立所述声纹模型。
100.图8是根据本公开第八实施例的示意图，本实施例提供一种声纹判定装置。如图8所示，声纹判定装置800可以包括接收模块801、确定模块802和判定模块803。
101.接收模块801用于接收语音识别信号，所述语音识别信号中包含预设标识，且，所述语音识别信号包括声纹判定部分，所述预设标识用于在所述语音识别信号中确定所述声纹判定部分，所述声纹判定部分包括预设内容；确定模块802用于基于所述预设标识，确定所述语音识别信号中的所述声纹判定部分；判定模块803用于采用声纹模型对所述声纹判定部分进行声纹判定，所述声纹模型基于所述预设内容建立。
102.一些实施例中，所述声纹判定部分位于声纹判定起点和声纹判定尾点之间，所述语音识别信号从所述声纹判定起点开始发送，所述预设标识添加在所述声纹判定尾点之后，所述确定模块802具体用于：将所述预设标识之前的语音识别信号，确定为所述声纹判定部分。
103.本公开实施例中，通过确定语音识别信号中的声纹判定起点和声纹判定尾点，并基于声纹判定尾点，在语音识别信号中添加预设标识，可以使得服务端基于包含预设标识的语音识别信号进行声纹判定，可以在不需要额外发送专门的声纹判定语音信号的基础上，完成声纹判定，从而降低传输链路的数据量。
104.可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。
105.可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程
度高低、时序先后等。
106.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
107.图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
108.如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序，来执行各种适当的动作和处理。在ram 903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、rom 602以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
109.电子设备900中的多个部件连接至i/o接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
110.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如声纹判定方法。例如，在一些实施例中，声纹判定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到ram 903并由计算单元901执行时，可以执行上文描述的声纹判定方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行声纹判定方法。
111.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
112.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
113.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
114.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
115.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
116.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtual private server"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
117.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
118.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙洪菠
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人