语音处理方法、计算机可读存储介质、计算机程序和电子设备与流程

文档序号：21021290发布日期：2020-06-09 19:42阅读：149来源：国知局

本发明实施例涉及信息处理技术，尤其涉及一种语音处理方法、计算机可读存储介质、计算机程序和电子设备。

背景技术：

身份认证技术是在计算机网络中确认操作者身份的过程而产生的有效解决方法。对用户的身份认证基本方法分为三种，即基于信息密码的身份认证、基于信任物体的身份认证、基于生物特征的身份认证。其中，基于生物特征的身份认证是根据独一无二的身体特征来证明操作者身份，比如指纹、人脸等。

说话人识别是生物特征识别技术的一种，其理论基础是，每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。说话人识别技术通常用于说话人辨认和说话人确认等两种场景。

在当前的生物特征识别中，说话人身份确认技术仅成熟于1:1和小规模的情况下；人脸的辨认应用也仅取相似度前几位的候选，而指纹识别、人脸识别技术目前也仅成熟于1:1的场景下，同时还面临这各种各样的隐私及假冒的问题。在现有的说话人识别技术中对于说话人身份的辨认，由于集合大，导致识别速度慢、准确率低。

技术实现要素：

本发明实施例的目的在于，提供一种语音处理方案，以使得能够在对海量用户集合进行说话人辨认中提高命中率。

根据本发明实施例的第一方面，提供一种语音处理方法，包括：获取说话人的语音数据，所述语音数据包含所述说话人的身份标识数据；对所述语音数据进行语音识别，获得相应的识别文本数据；对所述识别文本数据进行语义分析，至少获得识别标识数据；对所述识别标识数据进行扩展处理，获得所述说话人的扩展标识数据；将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配，获得匹配的数据记录，所述数据记录至少包括所述用户身份标识数据和用户身份特征数据；对所述语音数据进行特征提取，获取所述说话人的特征数据；将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配，确定所述说话人的身份以及身份认证结果。

可选地，所述对所述识别标识数据进行扩展处理，获得所述说话人的扩展标识数据，包括：将所述识别标识数据的字符串中的字符替换为容易与所述字符混淆的替换字符，获得所述扩展标识数据；和/或，将所述识别标识数据的字符串中处于端侧的字符删除，获得所述扩展标识数据。

可选地，在对所述识别标识数据进行扩展处理，获得扩展标识数据之前，所述方法还包括：将所述识别标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配，获得匹配的数据记录；如果没有匹配得到数据记录，则执行对所述识别标识数据进行扩展处理，获得扩展标识数据的步骤；如果匹配得到数据记录，则执行对所述语音数据进行特征提取以及将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配的处理。

可选地，所述语音数据还包含所述说话人的交易数据，所述对所述识别文本数据进行语义分析，至少获得识别标识数据，包括：对所述识别文本数据进行语义分析，获得识别标识数据和识别交易数据。

可选地，在将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配，确定所述说话人的身份以及身份认证结果之后，所述方法还包括：根据所述识别交易数据，执行交易操作；提供所述交易操作的结果。

可选地，在根据所述识别交易数据，执行交易操作之前，所述方法还包括：将所述用户身份标识数据和所述识别交易数据提供给用户端进行确认；在得到所述确认后，根据所述识别交易数据，执行交易操作，并且提供所述交易操作的结果。

可选地，所述获取的特征数据和所述用户身份特征数据均为声纹特征数据。

根据本发明实施例的第二方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现任一前述语音处理方法的步骤。

根据本发明实施例的第三方面，提供一种计算机程序，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现任一前述语音处理方法的步骤。

根据本发明实施例的第四方面，提供一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如任一前述语音处理方法对应的操作。

根据本发明实施例提供的语音处理方案，在数据库中存在大量用户数据的情况下，能够对说话人讲出的包括其身份标识的语音数据进行分析和识别，对因发音错误或识别错误导致的语音识别偏差，能够通过扩展识别得到的标识数据有限地扩展搜索范围，再进行语音数据的特征提取以及与用户信息数据库中存档的用户特征数据的匹配，以确定说话人的身份以及身份认证结果，从而可控地扩大搜索范围，同时提高命中率。

附图说明

图1是示出根据本发明一些实施例的语音处理方法的流程图；

图2是示出根据本发明另一些实施例的语音处理方法的流程图；

图3是示出根据本发明一些实施例的语音处理方法的处理的示意图；

图4是示出根据本发明实施例的电子设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明实施例的示例性实施例。

在本申请中，“多个”指两个或两个以上，“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构，在没有明确限定一个的情况下，可理解为一个或多个。

如前所述，说话人识别技术是通过人说话时候的声音来验证其身份的技术。这项技术被广泛运用于各大领域。说话人识别根据应用范畴既包含了说话人身份的确认，也包含对说话人身份的辨认。说话人辨认(speakeridentification)是指待识别的语音判断为属于x个说话人中的某一位，是一个多选一的问题，即1:n的问题。

然而，说话人辨认技术因待识别集合大导致识别速度慢，精度低。说话人确认(speakerverification)是指利用一段建模语音来确认一段语音是不是来自同一个人，即1:1的问题。现有的说话人识别技术通过服务器生成密码，由客户端给出文本提示后用户读取密码，再由网络传输的方式返回服务器上进行识别，然而密码信息和语音数据的传输不仅增加服务器和手机端的信息传递数量，同时存在因密码泄露带来的安全隐患。

为解决在大规模身份认证过程中显现的问题，本发明实施例结合语音识别、说话人辨认及说话人确认技术，提出一种语音处理方法，针对大规模说话人的身份认证处理中，对在有限数据集合环境下具有典型差错概率的数据进行范围缩小处理，以控制执行说话人辨认及说话人确认的处理量。

具体地，在存在对大规模用户的身份认证的情况下，从说话人的语音内容提取有效信息，并针对有限数据集合环境下典型差错概率的数据进行搜索，缩小识别范围后进行说话人身份辨认，利用说话人身份确认技术对辨认结果进行分析，在判定说话人为本人之后实现相关操作的方法。该技术包含了语音识别、语义分析、说话人辨认、说话人确认技术，有效解决各生物特征仅成熟于1:1和小规模情况无法满足大规模身份认证时的实际应用和现有技术方案的局限性问题，防止说话人识别过程中因发生差错导致搜索不出结果从而影响方案的可操作性。另外，还能够解决对说话人身份进行辨认时待识别集合大导致识别速度慢、准确率低的问题。本发明实施例提出的技术方案在进行说话人身份确认时，无需服务器生成密码信息由客户端进行文本提示，免去了服务器和客户端之间的信息传递，从而避免了因密码泄露带来的安全隐患。

图1是示出根据本发明一些实施例的语音处理方法的流程图。

例如，当用户要登录手机银行应用，或者在手机银行应用中要进行账户余额查询或转账业务，或者在电商网站上要执行货品费用支付时，可提示用户以讲话的方式说出其身份标识(如姓名、身份证号或用户登录名等)以及意欲执行的业务操作相关的信息，由此触发以下步骤s110及后续步骤的执行。再例如，在银行网点的设备客户端，用户在服务人员的引导下，以讲话的方式讲出其身份标识，以进行身份认证、交易授权等操作，由此触发以下步骤s110及后续步骤的执行。

参照图1，在步骤s110，获取说话人的语音数据，所述语音数据至少包含所述说话人的身份标识数据。

这里，可通过在用户的手机客户端中的语音采集设备(如内置话筒)来采集用户(说话人)讲出的包括其身份标识的语音数据，或者在银行网点的设备客户端配置的录音设备来实时录制用户(说话人)讲出的包括其身份标识的语音数据。

该语音数据至少包含，但不限于，说话人的身份标识数据。说话人除了讲出其身份标识，还可以讲出与其要进行的操作相关的其他信息，如交易数据和/或交易授权所需的随机动态码等。

例如，用户(说话人)可讲出“我是李伟，身份证尾号是487021，我想取款1万元”。

在步骤s120，对所述语音数据进行语音识别，获得相应的识别文本数据。

可采用任何适用的语音分析技术对获取的语音数据进行语音识别，从而可获得讲话人讲出的内容的文本数据。

需要指出，由于环境噪音、说话人的个人发音特点(如音量、语调、语速、口音、因声带结构特殊而产生对个别音节发音不标准)或说话人发音错误等原因，识别得到的识别文本数据不一定是说话人意图讲出的准确内容，因此由说话人讲出的内容识别出的文本数据被称为识别文本数据。

在步骤s130，对所述识别文本数据进行语义分析，至少获得识别标识数据。

由于说话人通常以自然语言的形式表达其要说出的讲话内容，因此需要对在步骤s120识别出的识别文本数据进行语义分析，以获得相应的数据，例如这里的身份标识数据。通常语义分析包括断句、切词、句法分析等。

如前所述，由于环境噪音、说话人的个人发音特点或发音错误等原因，识别得到的识别文本数据不一定是说话人意图讲出的准确内容，因此在对步骤s110获取到的包括说话人的身份标识数据的语音数据进行语音识别和语义分析后，得到的身份标识数据也不一定是说话人意图确切讲出的身份标识数据，在此将经过步骤s130的语义分析得到的身份标识数据称为识别标识数据。

例如，在前述用户(说话人)讲出“我是李伟，身份证尾号是487021”的示例中，由于“7”和“1”的发音相近，容易相互混淆，因此经过步骤s110～s130的处理，获得的识别标识数据(身份证号)可能是“481021”。

在步骤s140，对所述识别标识数据进行扩展处理，获得所述说话人的扩展标识数据。

由于识别得到的识别文本数据与说话人意图讲出的准确内容不一定完全对应，由此在进行说话人辨认和确认的处理时会发生无命中或错误命中的情况，因此可对识别标识数据进行扩展处理，以有限制性地扩大说话人辨认/确认的搜索范围，提高搜索的命中率并提高匹配效率。

根据本发明的一种可选实施方式，在步骤s140，将在步骤s130获得的识别标识数据的字符串中的字符替换为容易与该字符混淆的替换字符，获得所述扩展标识数据。例如，根据“7”和“1”的发音相近，容易相互混淆的特点，可将识别标识数据的字符串中的字符“7”替换为“1”或将识别标识数据的字符串中的字符“1”替换为“7”，形成相应的扩展标识数据。再例如，根据“g”和“j”的发音相近，容易相互混淆的特点，可将识别标识数据的字符串中的字符“g”替换为“j”或将识别标识数据的字符串中的字符“j”替换为“g”，形成相应的扩展标识数据；或者，根据“p”和“t”的发音相近，容易相互混淆的特点，可将识别标识数据的字符串中的字符“p”替换为“t”或将识别标识数据的字符串中的字符“t”替换为“p”，形成相应的扩展标识数据。由此，能够有限、可控地扩大用户标识数据的搜索范围，在这种处理方式中，每替换一个字符，将搜索范围扩大了一倍。

根据本发明的另一种可选实施方式，在步骤s140，将在步骤s130获得的识别标识数据的字符串中处于端侧的字符删除，获得相应的扩展标识数据。例如，如果处于身份标识数据“487021”字头的“4”被错误地识别为“3”(识别标识数据为“387021”)，那么就无法找到该用户。这种情况下，可迭代地删除位于字头的字符，“3”、“8”、“7”，依次生成一系列扩展标识数据“87021”、“7021”和“021”来扩大搜索范围，以执行后续的操作。同理，由于处于身份标识数据“487021”字尾的“1”容易被读错，因此可迭代地删除位于字尾的字符，“1”、“2”、“0”，依次生成一系列扩展标识数据“48702”、“4870”和“4871”来扩大搜索范围，以执行后续的操作。通过这种方式，每删除一个端侧字符，将搜索范围扩大了10倍的数量级，但仍然是有限可控的范围。

根据本发明的又一种可选实施方式，在步骤s140，可结合前述两种扩展方式，先将识别标识数据的字符串中的字符替换为容易与该字符混淆的替换字符，再将识别标识数据的字符串中处于端侧的字符删除，获得一个或多个扩展标识数据；或者，将识别标识数据的字符串中处于端侧的字符删除，再将删除端侧字符后的识别标识数据的字符串中的字符替换为容易与该字符混淆的替换字符，获得一个或多个扩展标识数据。

或者，可将在步骤s130获得的识别标识数据的字符串中容易与其他字符混淆的字符、位于端侧的字符或该字符串中无法识别的部分替换为“？”、“+”、“*”等通配符，形成一个或多个扩展标识数据。

根据前述扩展方式获得的一个或多个扩展标识数据可部分或全部地用于后续包括步骤s150～s170的处理，以满足不同的应用场景、搜索范围、搜索命中率等的要求。

在步骤s150，将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配，获得匹配的数据记录，所述数据记录至少包括所述用户身份标识数据和用户身份特征数据。

在通过步骤s150的处理，获得一个或多个扩展标识数据之后，可将各个扩展标识数据分别与用户信息数据库中存有的用户身份标识数据进行标识匹配，以获得匹配的数据记录。在用户信息数据库中至少保存有用户身份标识数据(如用户姓名、用户身份证号、护照号、信用卡号、用户登录名等)以及用于对用户进行身份认证的存档身份特征数据(即用户身份特征数据)。

在通过扩展处理获得了多个扩展标识数据的情况下，可从扩展的搜索范围最小的扩展标识数据开始，依次进行与用户信息数据库中存有的用户身份标识数据进行标识匹配的操作，以有效地控制搜索匹配的处理量。具体地，可对多个扩展标识数据按照其扩展的搜索范围的数量级进行排序，从扩展的搜索范围最小的扩展标识数据开始，依次进行当前的扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配的操作，直到匹配到有效的数据记录为止，或者直到完成全部扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配的操作为止。

可以看出，由于说话人发音错误或识别错误，将扩展得到的扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配得到的一个或多个数据记录可包括说话人意图讲出的用户身份标识对应的数据记录，也可包含不是说话人意图讲出的用户身份标识对应的数据记录，但是步骤s150的处理已经有限地缩小了后续处理涉及的处理量，并且还需要进行进一步的特征匹配处理，能够提高处理效率。

在步骤s160，对所述语音数据进行特征提取，获取所述说话人的特征数据。

例如，这里获取的特征数据和用户信息数据库中的用户身份特征数据可均为声纹特征数据。这里，为了便于表达，声纹特征数据泛指声纹特征数据和声纹模型数据。

在步骤s170，将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配，确定所述说话人的身份以及身份认证结果。

具体地，根据本发明的一种可选实施方式，获取的特征数据和用户信息数据库中的用户身份特征数据可均为声纹特征数据。在步骤s170，从所述语音数据提取声纹特征数据，将所述声纹特征数据与匹配到的数据记录中的声纹特征数据进行比对，根据比对结果确定所述说话人的身份以及身份认证结果。如果比对结果不符合比对阈值的要求，则不能够由该数据记录确定所述说话人的身份。

根据本发明的另一种可选实施方式，获取的特征数据和用户信息数据库中的用户身份特征数据可均为声纹模型数据。在步骤s170，从所述语音数据提取声纹模型数据，将所述声纹模型数据与匹配到的数据记录中的声纹模型数据进行比对，根据比对结果确定所述说话人的身份以及身份认证结果。如果比对结果不符合比对阈值的要求，则不能够由该数据记录确定所述说话人的身份。

根据本发明的又一种可选实施方式，获取的特征数据为声纹特征数据，用户信息数据库中的用户身份特征数据为声纹模型数据。在步骤s170，从所述语音数据提取声纹特征数据，并将所述声纹特征数据在匹配到的数据记录中的声纹模型数据上进行打分，根据打分结果确定所述说话人的身份以及身份认证结果。如果打分结果不符合分数阈值的要求，则不能够由该数据记录确定所述说话人的身份。

在能够通过将提取的特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配，确定说话人的身份的情况下，该说话人也通过了身份认证。反之，则说话人没有通过身份认证。

由此，即使通过扩展获得不完全对应的扩展标识数据，通过步骤s170的处理，也能够有效、正确地辨认出说话人，并且确认说话人的身份，提高辨认的命中率。同时，对于错误的扩展标识数据，也能够排除错误匹配的数据记录，避免发生辨认错误。

通过前述步骤s110～s170的处理，在数据库中存在大量用户数据的情况下，能够对说话人讲出的包括其身份标识的语音数据进行分析和识别，对因发音错误或识别错误导致的语音识别偏差，能够通过扩展识别得到的标识数据有限地扩展搜索范围，再进行语音数据的特征提取以及与用户信息数据库中存档的用户特征数据的匹配，以确定说话人的身份以及身份认证结果，从而可控地扩大搜索范围，同时提高命中率。

此外，根据本发明的示例性实施方式，在执行步骤s140之前，可优先使用步骤s130识别得到的识别标识数据执行与用户信息数据库进行标识匹配的处理。具体地，将识别得到的识别标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配，获得匹配的数据记录。如果没有匹配得到数据记录，则执行步骤s140～s170的处理；如果匹配得到数据记录，则执行步骤s160和步骤s170的处理。

此外，根据本发明的另一示例性实施方式，在步骤s150，将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配，获得了一个或多个匹配的数据记录之后，可以将匹配的数据记录中的用户身份标识数据提供给用户进行确认，在得到用户确认后，再对用户确认的用户身份标识数据对应的数据记录进行步骤s160和s170的处理，以确保匹配的数据记录与用户的意图相符。

图2是示出根据本发明另一些实施例的语音处理方法的流程图。

参照图2，在步骤s210，获取说话人的语音数据，所述语音数据包含所述说话人的身份标识数据和交易数据。

例如，说话人可讲出“我是李伟，身份证尾号是487021，我想取款1万元”。

在步骤s220，对所述语音数据进行语音识别，获得相应的识别文本数据。该步骤的处理与前述步骤s120类似，在此不予赘述。

在步骤s230，对所述识别文本数据进行语义分析，至少获得识别标识数据和识别交易数据。

此后，步骤s240～s270的处理分别与步骤s140～s170的处理类似，在此不予赘述。

如果在步骤s270，确定了说话人的身份是“李伟”并且说话人通过了身份认证，则可继续执行说话人意图执行的任何操作，包括交易操作或其他操作。根据应用场景，这些操作可以是，例如查询、征信、支付、考勤、信保等。

根据本发明的一种可选实施方式，可执行步骤s280的处理，以执行交易操作：在步骤s280，根据步骤s230识别得到的识别交易数据，执行交易操作，并且提供所述交易操作的结果。

例如，对“我是李伟，身份证尾号是487021，我想取款1万元”的语音，得到交易类型为“支取”，交易金额为“1万元”的识别交易数据，则根据该识别交易数据，为说话人李伟执行支取1万元的交易操作，并且向用户提供完成该取款交易操作的结果。

根据本发明的另一种可选实施方式，在执行步骤s280的处理之前，还可以执行步骤s290的处理：在步骤s290，将匹配到的数据记录中的用户身份标识数据和所述识别交易数据提供给用户端进行确认。在得到用户对其身份标识数据和交易数据的确认后，再执行步骤s280的处理。这里，该用户端可以是执行该语音处理方法的客户端，也可以是与执行该语音处理方法的服务器交互的客户端。

通过前述步骤s210～s280的处理，在能够实现图1所示的实施例产生的效果的基础上，还能够通过对说话人用自然语言讲出的一句话或简短的几句话进行识别、语义分析，得到说话人意图执行的任何操作(如交易操作)的信息，进一步执行说话人意图执行的操作，从而为用户通过语音执行操作提供了便利。

可在能够访问用户信息数据库的服务器端或客户端执行任一前述语音处理方法的处理。

图3是示出根据本发明一些实施例的语音处理方法的处理的示意图。

首先，客户端的语音采集设备采集到用户的语音内容“我是李伟，身份证尾号是487021，我想取款1万元”，并客户端通过网络传输给服务器。

服务器端的用户信息数据库存有数量级在1亿人的海量用户集合的数据，即包括100,000,000个数据记录。通过步骤s110～s150(或s210～s250)的处理，匹配到5个数据记录，也就是说获得了5个待识别用户。此后，通过步骤s160～s170的处理，进行说话人辨认和确认，辨认得到1个用户。服务器还可将说话人辨认结果及操作结果反馈给客户端，并通过客户端的语音播放设备进行语音提示和确认。由此，可以看出，针对海量用户集合，通过本发明实施例的处理，有效地缩小了进行说话人辨认/确认的处理量，提高了辨认的命中率，且大大地提高了处理效率。

本发明实施例还提供一种存储有执行前述任一语音处理方法的步骤的计算机可读存储介质。

此外，本发明实施例还提供一种包括至少一个可执行指令的计算机程序产品，所述可执行指令被处理器执行时用于实现前述任一语音处理方法。

本发明实施例还提供了一种电子设备。图4是示出根据就本发明实施例的电子设备400的结构示意图。该电子设备400可以是例如移动终端、个人计算机(pc)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本发明实施例的电子设备400的结构示意图：如图4所示，电子设备400可以包括存储器和处理器。具体地，电子设备400包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(cpu)401，和/或一个或多个图像处理器(gpu)413等，处理器可以根据存储在只读存储器(rom)402中的可执行指令或者从存储部分408加载到随机访问存储器(ram)403中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件412和/或通信接口409。其中，通信组件412可包括但不限于网卡，所述网卡可包括但不限于ib(infiniband)网卡，通信接口409包括诸如lan卡、调制解调器等的网络接口卡的通信接口，通信接口409经由诸如因特网的网络执行通信处理。

处理器可与只读存储器402和/或随机访问存储器403中通信以执行可执行指令，通过通信总线404与通信组件412相连、并经通信组件412与其他目标设备通信，从而完成本发明实施例提供的任一项基于广播的防丢检测方法对应的操作，例如，获取说话人的语音数据，所述语音数据包含所述说话人的身份标识数据；对所述语音数据进行语音识别，获得相应的识别文本数据；对所述识别文本数据进行语义分析，至少获得识别标识数据；对所述识别标识数据进行扩展处理，获得所述说话人的扩展标识数据；将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配，获得匹配的数据记录，所述数据记录至少包括所述用户身份标识数据和用户身份特征数据；对所述语音数据进行特征提取，获取所述说话人的特征数据；将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配，确定所述说话人的身份以及身份认证结果。

此外，在ram403中，还可存储有装置操作所需的各种程序和数据。cpu401或gpu413、rom402以及ram403通过通信总线404彼此相连。在有ram403的情况下，rom402为可选模块。ram403存储可执行指令，或在运行时向rom402中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(i/o)接口405也连接至通信总线404。通信组件412可以集成设置，也可以设置为具有多个子模块(例如多个ib网卡)，并在通信总线链接上。

以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信接口409。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的是，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如gpu和cpu可分离设置或者可将gpu集成在cpu上，通信元件可分离设置，也可集成设置在cpu或gpu上，等等。这些可替换的实施方式均落入本公开的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，用于获取说话人的语音数据的可执行代码，所述语音数据包含所述说话人的身份标识数据；用于对所述语音数据进行语音识别，获得相应的识别文本数据的可执行代码；用于对所述识别文本数据进行语义分析，至少获得识别标识数据的可执行代码；用于对所述识别标识数据进行扩展处理，获得所述说话人的扩展标识数据的可执行代码；用于将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配，获得匹配的数据记录的可执行代码，所述数据记录至少包括所述用户身份标识数据和用户身份特征数据；用于对所述语音数据进行特征提取，获取所述说话人的特征数据；用于将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配，确定所述说话人的身份以及身份认证结果的可执行代码。

在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时，执行本发明实施例的方法中限定的上述功能。

本发明实施例的电子设备可以用于实现上述实施例中相应的语音处理方法，该电子设备中的各个器件可以用于执行上述方法实施例中的各个步骤，例如，上文中描述的语音处理方法或语音处理方法可以通过电子设备的处理器调用存储器存储的相关指令来实现，为了简洁，在此不再赘述。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

可能以许多方式来实现本公开的方法和装置、电子设备和存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、电子设备和存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑方;邬晓钧;向银杉;张慧;方亚南
技术所有人：北京得意音通技术有限责任公司;贵州得意音通技术有限责任公司
我是此专利的发明人

上一篇：一种金属剪切装置的制作方法
上一篇：一种衣物处理剂投放装置、洗衣机及其控制方法与流程