语音数据检测方法、装置、计算机设备及存储介质与流程

文档序号：22248144发布日期：2020-09-18 12:18阅读：171来源：国知局

本发明涉及语音语义领域，尤其涉及一种语音数据检测方法、装置、计算机设备及存储介质。

背景技术：

语音检测在对语音内容进行质量管理与检测过程中起着重要的作用。目前，市面上大部分质检系统都是采用人工方式完成，即通过专门的质检人员按照预设的质检规范对语音数据进行质检。然而，人工语音检测方式在面对大量语音数据时，不仅需要耗费大量的人力，导致检测效率很低，并且人工质检受到人的干扰因素较大，经常出现检测结果不准确的现象。

技术实现要素：

本发明实施例提供一种语音数据检测方法、装置、计算机设备及存储介质，以解决语音检测结果不准确的问题。

一种语音数据检测方法，包括：

接收语音检测触发指令，所述语音检测触发指令包括检测类型信息；

若所述检测类型信息为第一类型信息，则采用第一监测策略对客户端的目标语音数据进行实时检测，其中，所述第一类型信息指示检测类型为实时监测，所述第一监测策略包括风险监测项和质量监测项；

在所述目标语音数据触发所述风险监测项中的预警条件时，发送提示信息至所述客户端的监控端；

在对所述客户端的所述目标语音数据的实时检测结束后，输出所述质量检测项的检测结果信息；

若所述检测类型信息为第二类型信息，则采用第二监测策略对客户端的目标语音数据进行离线检测，其中，所述第二类型信息指示检测类型为离线检测；

在对所述客户端的所述目标语音数据的离线检测结束后，输出所述第二监测策略的检测结果信息。

一种语音数据检测装置，包括：

语音检测触发指令接收模块，用于接收语音检测触发指令，所述语音检测触发指令包括检测类型信息；

实时检测模块，用于在所述检测类型信息为第一类型信息时，采用第一监测策略对客户端的目标语音数据进行实时检测，其中，所述第一类型信息指示检测类型为实时监测，所述第一监测策略包括风险监测项和质量监测项；

第一发送模块，用于在所述目标语音数据触发所述风险监测项中的预警条件时，发送提示信息至所述客户端的监控端；

第一输出模块，用于在对所述客户端的所述目标语音数据的实时检测结束后，输出所述质量检测项的检测结果信息；

离线检测模块，用于在所述检测类型信息为第二类型信息时，采用第二监测策略对客户端的目标语音数据进行离线检测，其中，所述第二类型信息指示检测类型为离线检测；

第二输出模块，用于在对所述客户端的所述目标语音数据的离线检测结束后，输出所述第二监测策略的检测结果信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音数据检测方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音数据检测方法。

上述语音数据检测方法、装置、计算机设备及存储介质，通过接收语音检测触发指令，语音检测触发指令包括检测类型信息；若检测类型信息为第一类型信息，则采用第一监测策略对客户端的目标语音数据进行实时检测，其中，第一类型信息指示检测类型为实时监测，第一监测策略包括风险监测项和质量监测项；在目标语音数据触发风险监测项中的预设预警条件时，发送提示信息至客户端的监控端；在对客户端的目标语音数据的实时检测结束后，输出质量检测项的检测结果信息；若检测类型信息为第二类型信息，则采用第二监测策略对客户端的目标语音数据进行离线检测，其中，第二类型信息指示检测类型为离线检测；在对客户端的目标语音数据的离线检测结束后，输出第二监测策略的检测结果信息；本方案通过结合实时检测和离线检测对目标语音数据进行检测，显著的减少了人工质检的时间投入和人工复检的时间投入，从而提高了语音数据的质检效率。另外在对目标语音数据进行实时检测的过程中，当目标语音数据触发风险监测项中的预设预警条件时，及时发送提示信息至客户端的监控端，从而进一步提高对语音数据进行质检的有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音数据检测方法的一应用环境示意图；

图2是本发明一实施例中语音数据检测方法的一流程图；

图3是本发明一实施例中语音数据检测方法的另一流程图；

图4是本发明一实施例中语音数据检测方法的另一流程图；

图5是本发明一实施例中语音数据检测方法的另一流程图；

图6是本发明一实施例中语音数据检测方法的另一流程图；

图7是本发明一实施例中语音数据检测方法的另一流程图；

图8是本发明一实施例中语音数据检测方法的另一流程图；

图9是本发明一实施例中语音数据检测装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音数据检测方法，该语音数据检测方法可应用如图1所示的应用环境中。具体地，该语音数据检测方法应用在语音数据检测系统中，该语音数据检测系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决语音检测结果不准确的问题。其中，客户端又称为用户端，是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音数据检测方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

s10：接收语音检测触发指令，语音检测触发指令包括检测类型信息。

其中，语音检测触发指令是指用于触发对语音数据进行检测的指令。具体地，语音检测触发指令可以通过用户在客户端页面执行语音检测的页面操作行为后触发生成，客户端在生成语音检测触发指令之后，将该语音检测触发指令发送至服务端，服务端即可接收语音检测触发指令。在一具体应用场景中，在上传待检测的语音数据至客户端的语音质检系统之后，客户端的语音质检系统显示界面上设置有语音检测触发按钮，当用户点击该语音检测触发按钮之后，客户端响应该点击操作行为，生成语音检测触发指令发送至服务端，服务端接收语音检测触发指令。语音检测触发指令包括检测类型信息。其中，检测类型信息是指对语音数据进行检测的检测类型。例如：检测类型信息可以为实时检测、定时检测或者离线检测等。

s20：若检测类型信息为第一类型信息，则采用第一监测策略对客户端的目标语音数据进行实时检测，其中，第一类型信息指示检测类型为实时监测，第一监测策略包括风险监测项和质量监测项。

其中，目标语音数据指待进行检测的语音数据。目标语音数据包括客服语音数据和客户语音数据。在接收到语音检测触发指令所携带检测类型信息之后，对检测类型信息进行识别，若检测类型信息为第一类型信息，则采用第一监测策略对客户端的目标语音数据进行实时检测。在本实施例中，对目标语音数据进行实时检测主要包括对目标语音数据进行风险检测和质量检测。其中，第一类型信息指示检测类型为实时监测，第一监测策略包括风险监测项和质量监测项。可选地，风险监测项主要包括情绪分析项和关键词及敏感词检测项。质量监测项主要包括意图识别项、语速及静音分析项、语音交叉分析项和质检规则匹配项。可选地，在采用第一监测策略对客户端的目标语音数据进行实时检测的过程中，可以先采用风险监测项对目标语音数据进行实时检测，然后再采用质量监测项对目标语音数据进行实时检测；也可以先采用质量监测项对目标语音数据进行实时检测，再采用风险监测项对目标语音数据进行实时检测，从而分别得到风险监测项所对应的风险监测结果，以及质量监测项所对应的质量检测结果。

优选地，在本实施例中，在采用第一监测策略对客户端的目标语音数据进行实时检测的过程中，先采用风险监测项对目标语音数据进行实时检测，得到风险监测项所对应的风险监测结果，再采用风险监测项对目标语音数据进行实时检测，得到质量监测项所对应的质量检测结果。

具体地，采用风险监测项对目标语音数据进行实时检测主要包括：对目标语音数据进行情绪分析和关键词及敏感词检测。对目标语音数据进行情绪分析可以先将该目标语音数据转化成对应的目标文字数据，然后采用聚类算法(比如：均值聚类算法)对该目标文字数据进行识别，判断该目标文字数据是偏向于负面(比如：愤怒)还是正面情绪(比如：高兴)，从而得到情绪分析项所对应的检测结果。对目标语音数据进行关键词及敏感词检测可以通过对目标语音数据转化成的目标文字数据进行分词处理，得到目标关键词，然后将该目标关键词与预设关键词及敏感词进行匹配，判断是否存在与预设关键词或敏感词相同的关键词，从而得到关键词及敏感词项所对应的检测结果。

具体地，采用质量监测项对目标语音数据进行检测主要包括对目标语音数据进行意图识别、语速及静音分析、语音交叉分析和质检规则匹配等。对目标语音数据进行意图识别可以通过对目标语音数据转化成的目标文字数据进行分词处理，得到目标关键词；然后采用相似度算法及聚类算法对目标关键词进行识别，得到意图信息；最后对意图信息进行归类，从而判断目标语音数据的意图。例如：目标语音数据的意图为“开通会员”。

进一步地，对目标语音数据进行语速及静音分析，即检测目标语音数据的语音速度和静默时间，由于目标语音数据包括客服语音数据和客户语音数据，因此，对目标语音数据进行音速度语速及静音分析主要是对客服语音数据的语语音速度和静默时间进行检测。优选地，可以采用语音检测模块对客服语音数据的语音速度和静默时间进行检测，判断客服的语音数据的速度是否会出现过快或者过慢的现象，以及会不会出现静默时间过长的现象。

进一步地，再对目标语音数据进行语音交叉分析，检测客服语音数据和客户语音数据在同一时间是否存在太多语音交叉的时候。最后对目标语音数据的语音时间维度进行质检规则匹配，判断目标语音数据度是否满足预设要求。

s30：在目标语音数据触发风险监测项中的预警条件时，发送提示信息至客户端的监控端。

其中，预警条件指预先设定的用于触发对目标语音数据进行报警的条件。具体地，预警条件可以为目标语音数据中出现敏感词，即目标语音数据中包含脏话等负面关键词时；也可以为当目标语音数据中情绪分析项所对应的检测结果为负面(愤怒)情绪时。具体地，在根据步骤s20采用风险监测项对目标语音数据进行实时检测之后，会得到一个对应的风险检测结果，然后判断该风险检测结果是否触发预警条件，若该风险检测结果触发风险监测项中的预警条件，即检测到目标语音数据中出现敏感词，或者，检测到目标语音数据中客服说话的情绪为负面(愤怒)情绪时，发送提示信息至客户端的监控端。其中，提示信息指用于提示监控人员客户端的目标语音数据出现违规现象的信息。具体地，提示信息中记录有目标语音数据中触发预警条件所对应的具体语音数据以及对应的触发时间。例如：目标语音数据中哪些语音数据中出现有预警关键词，以及该预警关键词出现的时间。监控端是指有权限对客户端的目标语音数据进行监控的终端。

在一具体实施例中，每一客户端预先与对应的监控端建立关联。在目标语音数据触发风险监测项中的预警条件时，服务端可直接发送提示信息至与该客户端预先关联的监控端，以便对客户端的目标语音数据进行监控和干预。

s40：在对客户端的目标语音数据的实时检测结束后，输出质量检测项的检测结果信息。

其中，质量检测项的检测结果信息为通过采用质量监测项对目标语音数据进行检测后所生成的结果。检测结果信息包括质量检测项中每一维度的检测项所对应的检测结果。优选地，在本实施例中，质量检测项中每一维度的检测项所对应的检测结果可以通过一具体的分数值来体现。具体地，在对客户端的目标语音数据的实时检测结束后，输出质量检测项中每一维度的检测项所对应的检测结果。

s50：若检测类型信息为第二类型信息，则采用第二监测策略对客户端的目标语音数据进行离线检测，其中，第二类型信息指示检测类型为离线检测。

其中，目标语音数据可以是完整的通话录音文件，也可以是按照一定的规则要求筛选出的部分通话录音文件。例如，只检测某一时段、某一个客服的通话录音。可选地，可以按照相应的规则要求筛选出部分录音文件作为目标语音数据进行离线检测。具体地，若检测类型信息为第二类型信息，则采用第二监测策略对客户端的目标语音数据进行离线检测。其中，第二类型信息指示检测类型为离线检测监测。

在一具体实施例中，在采用第二监测策略对客户端的目标语音数据进行离线检测之前，可以预先设定获取目标语音数据进行语音检测的时间频率，然后根据该时间频率从客户端获取对应的目标语音数据进行离线检测。具体地，在采用第二监测策略对目标语音数据进行离线检测的过程中，也包括对获取的客户端的目标语音数据的风险检测和质量检测，即也需对目标语音数据进行情绪分析、关键词及敏感词检测、意图识别、语速及静音分析、语音交叉分析和质检规则匹配等，从而得到第二监测策略对应的检测结果信息。本步骤中对获取的客户端的目标语音数据进行风险检测和质量检测的具体方法和过程，与步骤s20采用第一监测策略对客户端的目标语音数据进行实时检测的具体方法和过程相同，在此不做冗余赘述。

s60：在对客户端的目标语音数据的离线检测结束后，输出第二监测策略的检测结果信息。

其中，第二监测策略的检测结果信息为通过采用第二监测策略对目标语音数据进行检测后所生成的结果。具体地，第二监测策略的检测结果信息包括：风险检测项中每一维度的检测项(情绪分析项和关键词及敏感词检测)所对应的检测结果，以及质量检测中每一维度的检测项(意图识别项、语速及静音分析项、语音交叉分析项和质检规则匹配项)所对应的检测结果。优选地，在本实施例中，第二监测策略的检测结果信息也可以通过一具体的分数值来体现。具体地，在对客户端的目标语音数据的离线检测结束后，输出第二监测策略的检测结果信息。

在本实施例中，接收语音检测触发指令，语音检测触发指令包括检测类型信息；若检测类型信息为第一类型信息，则采用第一监测策略对客户端的目标语音数据进行实时检测，其中，第一类型信息指示检测类型为实时监测，第一监测策略包括风险监测项和质量监测项；在目标语音数据触发风险监测项中的预设预警条件时，发送提示信息至客户端的监控端；在对客户端的目标语音数据的实时检测结束后，输出质量检测项的检测结果信息；若检测类型信息为第二类型信息，则采用第二监测策略对客户端的目标语音数据进行离线检测，其中，第二类型信息指示检测类型为离线检测；在对客户端的目标语音数据的离线检测结束后，输出第二监测策略的检测结果信息；本方案通过结合实时检测和离线检测对目标语音数据进行检测，显著的减少了人工质检的时间投入和人工复检的时间投入，从而提高了语音数据的质检效率。另外在对目标语音数据进行实时检测的过程中，当目标语音数据触发风险监测项中的预设预警条件时，及时发送提示信息至客户端的监控端，从而进一步提高对语音数据进行质检的有效性。

在一实施例中，如图3所示，第二监测策略的检测结果信息包括检测项和每一检测项对应的检测分值；在输出第二监测策略的检测结果信息之后，该语音数据检测方法，还具体包括如下步骤：

s61：将目标语音数据和第二监测策略的检测结果信息添加至预设的检测策略数据库中，检测策略数据库用于存储检测完成之后的检测结果信息。

其中，检测策略数据库是指预先设定的用于存储检测完成之后的检测结果信息的数据库。具体地，在输出第二监测策略的检测结果信息之后，将目标语音数据和对应的第二监测策略的检测结果信息进行关联，并添加存储至预设的检测策略数据库中，以便后续对检测结果信息进行数据分析，以调整第二监测策略。

s62：对检测策略数据库中的存储的样本检测数据进行统计，确定第二监测策略中每一检测项的平均分值占比，样本检测数据为完成检测之后并存储至检测策略数据库中的数据。

其中，样本检测数据为完成检测之后并存储至检测策略数据库中的数据。样本检测数据包括语音数据和对应的第二监测策略的检测结果信息。由步骤s50可知在采用第二监测策略对目标语音数据进行检测的过程中，是根据第二监测策略中的每一检测项对目标语音数据进行检测，因此得到的检测结果信息包括每一检测项所对应的检测结果。在本实施例中，第二监测策略中的检测项包括：情绪分析项、关键词及敏感词检测、意图识别项、语速及静音分析项、语音交叉分析项和质检规则匹配项。在本实施例中，每一检测项所对应的检测结果优选为根据预设的评分策略对目标语音数据进行质检评分后所生成的分数。预设的评分策略为按照质检方案配置质检项时的扣分或加分的规则策略。优选地，在本实施例中，对目标语音数据进行质检评分采用扣分制，每一个检测项都对应有一个初始分数，并且每一个检测项对应的初始分数的所占比例由质检需求方根据不同的业务类型和相应的质检要求进行设置，不同的机构、不同的质检项目均会有所差异；例如，某小贷公司的电话催收项目对催收人员情绪状态、关键词及敏感词检测较为严格，故对这2个维度可设置较高的分数比例，假设质检总分置为100分，可设置语速及静音分析评分对应的初始分数为5分，情绪分析评分对应的初始分数为30分，关键词及敏感词检测评分对应的初始分数为50分，质检规则匹配评分对应的初始分数为15分。

具体地，对检测策略数据库中的存储的样本检测数据进行统计包括：对目标语音数据对应的检测结果信息中每一检测项所对应的所有检测得分结果进行统计，然后对每一检测项所对应的所有检测得分结果进行求和取平均值，从而得到每一检测项的平均分值；最后根据每一检测项的平均分值，确定每一检测项在第二监测策略中的平均分值占比。

示例性地，若第二监测策略中包括3个检测项，分别为检测项a,检测项b和检测项c；检测项a对应的初始分数为15,检测项b对应的初始分数为30，检测项c对应的初始分数为55，样本检测数据包括目标语音数据a、目标语音数据b和目标语音数据c；根据扣分制对每一检测项所对应的目标语音数据进行减分。例如：若检测项a中目标语音数据a的检测得分结果为10,目标语音数据b的检测得分结果为6，目标语音数据c的检测得分结果为8；检测项b中目标语音数据a的检测得分结果为20,目标语音数据b的检测得分结果为10，目标语音数据c的检测得分结果为18；检测项c中目标语音数据a的检测得分结果为40,目标语音数据b的检测得分结果为31，目标语音数据c的检测得分结果为28；总平均分值为57；对样本检测数据中检测项a所对应的所有检测得分结果进行求和取平均值后得到检测项a的平均分值为8分，对检测项b所对应的所有检测得分结果进行求和取平均值后得到检测项b的平均分值为16分；对检测项c所对应的所有检测得分结果进行求和取平均值后得到检测项c的平均分值为33分；则检测项a的平均分值占比8/57；检测项b的平均分值占比16/57；检测项的平均分值占比33/57。

s63：发送每一检测项的平均分值占比至客户端，接收客户端返回的每一检测项的调整因子。

其中，检测项的调整因子是指对每一检测项在第二监测策略中的权重值进行调整的因子。具体地，在确定了每一检测项的平均分值占之后，将每一检测项的平均分值占比发送至客户端，用户在通过客户端接收到每一检测项的平均分值占比之后，根据预设策略对每一检测项的权重值重新进行调整，从而得到每一检测项的调整因子；最后通过客户端将每一检测项的调整因子发送至服务端，服务端即可接收客户端返回的每一检测项的调整因子。可以理解地，调整因子为每一检测项的原权重值与当前权重值的比值。例如：检测项a的原始权重值为3，经过调整后的当前权重值为5，则检测项a的调整因子为5/3。

s64：根据调整因子调整第二监测策略。

具体地，在确定了每一检测项的调整因子之后，根据每一检测项的调整因子对第二监测策略中每一检测项的权重值重新进行调整，即根据每一检测项的调整因子对每一检测的初始分数在质检总分中的占比进行重新调整。

在本实施例中，将目标语音数据和第二监测策略的检测结果信息添加至预设的检测策略数据库中，检测策略数据库用于存储检测完成之后的检测结果信息；对检测策略数据库中的存储的样本检测数据进行统计，确定第二监测策略中每一检测项的平均分值占比，样本检测数据为完成检测之后并存储至检测策略数据库中的数据；发送每一检测项的平均分值占比至客户端，接收客户端返回的每一检测项的调整因子；根据调整因子调整第二监测策略；通过质检项的自动调节，简化通过人工的方式对质检项进行调整，提高质检项及质检项条件项优化的命中率，减少无用的、反复的调节。

在一实施例中，如图4所示，第一监测策略包括风险监测项和质量监测项，采用第一监测策略对客户端的目标语音数据进行实时检测，具体包括如下步骤：

s201：对目标语音数据进行处理，将目标语音数据转换为目标文本数据。

具体地，由于目标语音数据包括有客服语音数据和客户语音数据，因此，在将目标语音数据转换为目标文本数据之前，先对目标语音数据进行分离处理，即将目标语音数据按照客服与客户进行分离筛选处理，从而获取客服语音数据。进一步地，再将客服语音数据转化成文本格式的数据，再对生成的文本格式文件进行中文切词、词性标注等处理操作，从而将非结构化的目标语音数据转化成结构化的目标文本数据。具体地，可以采用预设的语音识别模型将客服语音数据转化成文本格式的数据，即将客服语音数据输入预设的语音识别模型，通过该语音识别模型对语音数据进行语音识别，输出客服语音数据对应的文本内容。其中，预设的语音识别模型具体可以采用基于隐马尔可夫模型((hiddenmarkovmodel,hmm)的语音识别算法，还可以采用基于由高斯混合模型(gaussianmixedmodel，gmm)和隐马尔可夫模型组合而成的gmm-hmm模型的语音识别算法，但并不限于此，在本实施例对语音识别模型的具体实现算法不做限制。

s202：根据风险监测项对目标语音数据和目标文本数据进行实时检测，获取每一风险监测项对应的风险结果信息，其中，风险监测项包括情绪分析项和关键词及敏感词检测项。

其中，每一个风险监测项所对应的风险结果信息包括：情绪分析项所对应的风险结果信息和敏感词检测项所对应的风险结果信息。具体的，预先设置了情绪分析和关键词及敏感词检测这2个维度的风险监测项，并针对每一个风险监测项设置了相应的检测策略，在得到目标文本数据之后，结合目标语音数据和目标文本数据，根据每一个风险监测项及其对应的风险检测策略进行实时检测，相应获得每一个风险监测项所对应的风险结果信息。

其中，情绪分析项的检测策略可以为采用聚类算法(比如：均值聚类算法)对该目标文本数据进行识别，判断该目标文本数据是偏向于负面(比如：愤怒)还是正面情绪(比如：高兴)。关键词及敏感词检测项的检测策略可以为对目标文本数据进行分词处理，得到目标关键词，然后将该目标关键词与预设关键词及敏感词进行匹配，判断是否存在与预设关键词或敏感词相同的关键词。

s203：根据质量监测项对目标语音数据和目标文本数据进行实时检测，获取每一质量监测项对应的质量结果信息，其中，质量监测项包括意图识别项、语速及静音分析项、语音交叉分析项和质检规则匹配项。

其中，每一个质量监测项所对应的质量结果信息包括：意图识别项所对应的质量结果信息、语速及静音分析项所对应的质量结果信息、语音交叉分析项所对应的质量结果信息和质检规则匹配项所对应的质量结果信息。具体的，预先设置了意图识别、语速及静音分析、语音交叉分析和质检规则匹配这4个维度的质量监测项，并针对每一个质量监测项设置了相应的检测策略，在得到目标文本数据之后，结合目标语音数据和目标文本数据，根据每一个风险监测项及其对应的质量检测策略进行实时检测，相应获得每一个质量监测项所对应的质量结果信息。

其中，意图识别项的检测策略可以为通过对目标文本数据进行分词处理，得到目标关键词；然后采用相似度算法及聚类算法对目标关键词进行识别，得到意图信息；最后对意图信息进行归类，从而判断目标语音数据的意图。语速及静音分析项的检测策略可以为采用语音检测模块对客服语音数据的语音速度和静默时间进行检测，判断客服的语音数据的速度是否会出现过快或者过慢的现象，以及会不会出现静默时间过长的现象。语音交叉分析的检测策略可以为通过采用语音识别方法检测客服语音数据和客户语音数据在同一时间是否存在太多语音交叉的现象。质检规则匹配项的检测策略可以为对目标语音数据的语音时间维度进行质检规则匹配，从而判断目标语音数据是否满足要求。

在本实施例中，对目标语音数据进行处理，将目标语音数据转换为目标文本数据；根据风险监测项对目标语音数据和目标文本数据进行实时检测，获取每一风险监测项对应的风险结果信息，其中，风险监测项包括情绪分析项和关键词及敏感词检测项；根据质量监测项对目标语音数据和目标文本数据进行实时检测，获取每一质量监测项对应的质量结果信息，其中，质量监测项包括意图识别项、语速及静音分析项、语音交叉分析项和质检规则匹配项；从而减少了质检任务受质检员人为因素的影响，减少了因质检员的心情波动等因素影响质检的效果，使得质检的得分更客观的反映坐席的真实水平。

在一实施例中，如图5所示，根据风险监测项对目标语音数据和目标文本数据进行实时检测，获取每一风险监测项对应的风险结果信息，具体包括如下步骤：

s2021：根据预设的第一评分策略对目标语音数据和目标文本数据进行情绪分析评分，获取情绪分析项对应的分数。

其中，第一评分策略是指对目标语音数据和目标文本数据进行情绪分析评分的策略。具体地，第一评分策略可以为首先从目标语音数据中获取客服人员的语气信息和语调信息；然后对目标文本数据进行语气词及敏感词检测；再根据客服人员的语气信息和语调信息，以及对目标文本数据进行语气词及敏感词检测的检测结果，判断客服人员的情绪状态；最后根据得到的情绪状态和预设的评分规则获得情绪分析评分对应的分数；其中，预设的评分规则为预先根据不同的情绪状态对应设置不同的分数的规则。在一具体实施例中，通过目标语音数据中客服人员的语气信息和语调信息等信息，并结合目标文本数据进行语气词及敏感词检测，从而实现对客服人员情绪状态的识别，根据情绪状态的不同程度，设置不同的分数。其中，语气是说话时所持的态度，例如陈述、疑问、感叹等，语调是语气外在的快慢、高低、长短、强弱等形式，语气是通过语调表现的，不同的语调表示不同的语气，在情绪分析评分时，通过识别语气和语调，并结合相关语气词、敏感词判断客服人员的情绪状态。

s2022：根据预设的第二评分策略对目标文本数据进行关键词及敏感词检测评分，获得关键词及敏感词检测项对应的分数。

其中，第二评分策略是指对目标文本数据进行进行关键词及敏感词检测评分的策略。具体地，第二评分策略可以为首先将目标文本数据与预设的关键词词库和敏感词词库中的字符进行自动匹配；其中，关键词词库和敏感词词库预先根据实际场景和话术要求进行建立的。具体地，当未匹配到关键词时，根据预设的第一评分子规则进行扣分处理，获得相应的关键词分数；当匹配到敏感词时，根据匹配结果和预设的第二评分子规则进行扣分处理，获得相应的敏感词分数。其中，第一评分子规则为根据不同的关键词类型对应设置不同的扣分规则。第二评分子规则为根据不同的敏感词类型对应设置不同的扣分规则；最后根据述关键词分数和敏感词分数获得关键词及敏感词检测评分对应的分数。在一具体实施例中，根据实际场景及话术要求，预先建立关键词词库和敏感词词库，然后将目标文本数据分别与建立的关键词词库和敏感词词库中的字符进行自动匹配，检查是否包含设定的字符，对于关键词，若未检测到则根据预设的评分规则扣分，相应获得关键词分数。对于敏感词，则根据匹配结果中不同的敏感词类型和预设的评分规则进行扣分处理，相应获得敏感词分数；将关键词分数和敏感词分数相加，获得关键词及敏感词检测评分对应的分数。优选地，在进行关键词或敏感词匹配时，将目标文本数据中的数据进行拼音转写，配合同义词库及同音词库，可以提高关键词或敏感词匹配识别的鲁棒性。

在本实施例中，根据预设的第一评分策略对目标语音数据和目标文本数据进行情绪分析评分，获取情绪分析项对应的分数；根据预设的第二评分策略对目标文本数据进行关键词及敏感词检测评分，获得关键词及敏感词检测项对应的分数；从而大大减少了质检所消耗的时间，从而提高了质检效率，并且质检结果不受人为因素的影响，能够客观反映客服人员的服务质量，从而提高了质检准确率。

在一实施例中，如图6所示，根据风险监测项对目标语音数据和目标文本数据进行实时检测，获取每一风险监测项对应的风险结果信息，具体包括如下步骤：

s2031：根据预设的第三评分策略对目标文本数据进行意图识别评分，获取意图识别项对应的分数。

其中，第三评分策略是指预先设定的对目标文本数据进行意图识别评分的策略。具体地，第三评分策略首先目标文字数据进行分词处理，得到目标关键词，再采用相似度算法及聚类算法对目标关键词进行识别，得到意图信息，最后对意图信息进行归类，从而判断目标语音数据的意图。例如：目标语音数据的意图状态为“可以开通会员”。最后根据得到的意图状态和预设的意图评分规则获得意图识别项对应的分数；其中，预设的评分规则为预先根据不同的意图状态对应设置不同的分数的规则。

s2032：根据预设的第四评分策略对目标语音数据进行语速及静音分析评分，获取语速及静音分析项对应的分数。

其中，第四评分策略是指预先设定的对目标语音数据进行语速及静音分析评分的策略。具体地，第四评分策略可以为首先计算目标语音数据中的句子的语速；根据预设的第一评分子规则对所语速不在预设的语速阈值范围内的句子进行扣分处理，获得相应的语速分数；其中，语速阈值范围根据预设时间段内包含的字数进行设置；再统计所述目标语音数据中的中的静音时长；当所述静音时长在预设的时长阈值范围内时，根据预设的第二评分子规则进行扣分处理，获得相应的静音分数；最后根据语速分数和静音分数获得所述语速及静音分析评分对应的分数。

在一具体实施例中，对目标语音数据进行语速分析，获得语速分数，对目标语音数据进行静音分析，获得静音分数，将语速分数和静音分数相加，获得语速及静音分析评分对应的分数；其中，语速分析是根据业务要求，预先设定客服人员应答的语速阈值范围，以达到客户舒适的目的，客服人员的应答语速在语速阈值范围内则不扣分，超出阈值则根据预设的评分规则进行扣分；静音分析是通过统计客服人员的静音时长、有效通话时长、通话起止时间等信息，分析出客服人员的业务熟练程度、及时应答程度、服务态度等，并据此进行评分；例如，假设语速及静音分析评分对应的初始分数为5分，设置语速阈值范围为110字/分钟～120字/分钟，按句子测算语速，待质检语音文件中的某个句子的语速不在110字/分钟～120字/分钟范围内，则扣1分，设置静音时长在10s～30s内时扣1分，在30s～60s内时扣2分，累计扣分，扣完为止。

s2033：根据预设的第五评分策略对目标语音数据进行语音交叉分析评分，获取语音交叉分析项对应的分数。

其中，第五评分策略是指预先设定的对述目标语音数据进行质检规则匹配评分的策略。具体地，第五评分策略可以为首先对目标语音数据进行识别分析，从中确定客服和客户在同时说话的次数和每一次的时间长短，然后根据预设的第五评分子规则对客服和客户在同时说话的次数超过阈值次数，以及同时说话的时间长短超过阈值时间的语音数据进行扣分处理，从而获得语音交叉分析项对应的分数。

s2034：根据预设的第六评分策略对目标文本数据进行质检规则匹配评分，获取质检规则匹配项对应的分数，其中，质检规则包括预先根据质检内容设置的文本匹配规则集，文本匹配规则集包括词语规则、短语规则和脚本规则。

其中，第六评分策略是指预先设定的对目标文本数据进行质检规则匹配评分的策略。第六评分策略可以为首先根据文本匹配规则集将目标文本数据中的目标词组合成规则表达式。其中，目标词包括关键词；然后将规则表达式与质检规则进行自动匹配；当规则表达式与质检规则不匹配时，根据第四评分规则进行扣分处理，从而获得所述质检规则匹配评分对应的分数。在一具体实施例中，预先将人工质检的规则转化成计算机可以识别的语言，即质检规则，质检规则能够全面覆盖并反映服务流程质检、服务忌语质检、服务标准术语质检等方面，质检规则包括词语规则、短语规则和脚本规则3个层级定义的文本匹配规则集，将结构化文本文件中的目标词(例如关键词、敏感词、禁忌词等)依据一定的文本匹配规则集组合成规则表达式，可根据规则表达式检测话语表达逻辑、服务流程或话术相关的内容；将规则表达式与质检规则中的词语规则、短语规则和脚本规则进行自动匹配，若规则表达式至少匹配上一个词语且至少匹配上一个短语且至少匹配上一个脚本，则表示该规则表达式命中质检规则和匹配成功，否则表示未命中和匹配失败，匹配失败则根据预设的评分规则进行扣分处理，获得质检规则匹配评分对应的分数。

在本实施例中，根据预设的第三评分策略对所述目标文本数据进行意图识别评分，获取意图识别项对应的分数；根据预设的第四评分策略对目标语音数据进行语速及静音分析评分，获得语速及静音分析项对应的分数；根据预设的第五评分策略对目标语音数据进行语音交叉分析评分，获取语音交叉分析项对应的分数；根据预设的第六评分策略对目标文本数据进行质检规则匹配评分，获得质检规则匹配项对应的分数；其中，质检规则包括预先根据质检内容设置的文本匹配规则集；文本匹配规则集包括词语规则、短语规则和脚本规则；从而大大减少了质检所消耗的时间，从而提高了质检效率，并且质检结果不受人为因素的影响，能够客观反映客服人员的服务质量，从而提高了质检准确率。

在一具体实施例中，如图7所示，在目标语音数据触发风险监测项中的预警条件之后，以及在发送提示信息至客户端的监控端之前，该语音数据检测方法还具体包括如下步骤：

s31:根据预先建立的神经网络模型，对触发风险监测项中的预警条件的目标语音数据进行基于注意力机制的不良语音识别，获得目标语音数据的文字序号分布和语音分类结果；其中，神经网络模型包含预设的文字库，文字库中每一个文字均对应有唯一的文字序号，所述目标语音数据的文字序号分布由若干个所述文字序号组成。

其中，神经网络模型为可以对目标语音数据进行不良语音识别的模型。该神经网络模型包括主干网络、语音识别网络和基于注意力机制建立的不良语音分类网络。

具体地，获取触发风险监测项中的预警条件的目标语音数据，提取该目标语音数据的语音特征；根据该目标语音数据的语音特征，对该目标语音数据进行识别，获得该目标语音数据的文字序号分布，该文字序号分布为该目标语音数据中所有文字在文字库对应的文字序号按照时间顺序的依次排布获得的序号分布，例如该目标语音数据中依次包括文字“可以开通会员”，其中在文字库中“可”字的文字序号为10，“以”字的文字序号为11，“开”字的文字序号为12，“通”字的文字序号为13，“会”字的文字序号为14，“员”字的文字序号为15，则此该目标语音数据的文字序号分布为“101112131415”，或者当文字库的文字较多时，可以在每一个文字之间增加间隔符号来区分每一个文字的文字序号，例如间隔符号为“*”，则此目标语音数据的文字序号分布为“10*11*12*13*14*15”。

进一步地，再根据神经网络模型，对目标语音数据进行基于注意力机制的不良语音识别，获得目标语音数据的语音分类结果，语音分类结果是针对目标语音数据的语音发音情况来获得的，而语音发音情况既包括了文字的发音，还包括各种语气等无具体对应文字的发音。具体地，先对触发所述风险监测项中的预警条件的目标语音数据进行特征提取，确定所述目标语音数据的频谱特征，然后根据神经网络模型的主干网络和目标语音数据的频谱特征，提取出目标语音数据的序列特征；再将目标语音数据的序列特征输入语音识别网络，获得目标语音数据的文字序号分布；最后将序列特征输入不良语音分类网络，获得目标语音数据的发音分类结果。

s32:根据所述文字序号分布和预设的不良关键词字典，确定所述目标语音数据中存在不良关键词的起始位置和终止位置；其中，所述不良关键词字典存储有预先收集的若干个不良关键词样本。

具体地，先根据文字序号分布和预设的不良关键词字典，检测目标语音数据中是否存在不良关键词，然后根据文字序号分布确定目标语音数据中存在不良关键词的起始位置和终止位置。其中，不良关键词的起始位置和终止位置为不良关键词在目标语音数据中的位置信息。具体的，可以是将文字序号分布转换成语音文字后，将语音文字与不良关键词字典中存储的不良关键词样本进行匹配，有匹配成功的不良关键词样本，则说明目标语音数据中存在不良关键词，在确定了目标语音数据中存在不良关键词之后，跟根据文字序号分布确定目标语音数据中存在不良关键词的起始位置和终止位置。例如：若不良关键词的文字序号分布为“10*11*12*13*14*15”，则所述目标语音数据中存在不良关键词的起始位置为10和终止位置为15。

需要说明的是，基于注意力机制的不良语音识别中，能够通过注意力机制，调整获得目标语音数据中不同时间段的语音区域的注意力分值，根据注意力分值可以获得最需要关注的语音段。注意力机制也被证明在时间序列数据的分类中具有很好的效果，可以提升分类结果的准确度，且注意力分值大的时间段能够将模型关注的区域可视化，在模型正式使用前，可以简便地判断出模型的有效性。例如若模型关注的区域与不良语音的训练语音的不良语音段重合，说明模型效果好、准确。

在本实施例中，根据目标语音数据和预先建立的神经网络模型，对触发风险监测项中的预警条件的目标语音数据进行基于注意力机制的不良语音识别，获得目标语音数据的文字序号分布和语音分类结果；其中，神经网络模型包含预设的文字库，文字库中每一个文字均对应有唯一的文字序号，根据所述文字序号分布和预设的不良关键词字典，检测所述目标语音数据中存在不良关键词的起始位置和终止位置；其中，所述不良关键词字典存储有预先收集的若干个不良关键词样本，本实施例根据目标语音数据的发音特征获取语音分类结果，并联合目标语音数据的文字信息和语音分类结果检测出待检测语音的起始位置和终止位置。本实施例抓住目标语音数据的文字信息和发音特征，识别出目标语音数据的文字信息和各种语气信息，既能够检测出语音语义不良的不良语音，又能够检测出不具有具体语音文字的不良语音或者语音对应的文字携带有不良语气的不良语音，提高不良语音检测的准确度。同时，本申请通过语音识别的约束联合基于注意力机制的不良发音识别，能够提高不良语音的识别精度，进一步提高不良语音检测准确度。

在一具体实施例中，如图8所示，神经网络模型包括主干网络、语音识别网络和基于注意力机制建立的不良语音分类网络，根据预先建立的神经网络模型，对触发风险监测项中的预警条件的目标语音数据进行基于注意力机制的不良语音识别，具体包括如下步骤：

s311:对触发风险监测项中的预警条件的目标语音数据进行特征提取，确定所述目标语音数据的频谱特征。

s312:根据主干网络和目标语音数据的频谱特征，提取出目标语音数据的序列特征。

s313:将目标语音数据的序列特征输入语音识别网络中，获得目标语音数据的文字序号分布。

s314:将目标语音数据的序列特征输入不良语音分类网络中，获得目标语音数据的发音分类结果。

在本实施例中，通过对触发风险监测项中的预警条件的目标语音数据进行特征提取，确定所述目标语音数据的频谱特征；根据主干网络和目标语音数据的频谱特征，提取出目标语音数据的序列特征；将目标语音数据的序列特征输入语音识别网络中，获得目标语音数据的文字序号分布；将目标语音数据的序列特征输入不良语音分类网络中，获得目标语音数据的发音分类结果；从而进一步提高了获得的目标语音数据的文字序号分布和语音分类结果的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音数据检测装置，该语音数据检测装置与上述实施例中语音数据检测方法一一对应。如图9所示，该语音数据检测装置包括语音检测触发指令接收模块10、实时检测模块20、第一发送模块30、第一输出模块40、离线检测模块50和第二输出模块60。各功能模块详细说明如下：

语音检测触发指令接收模块10，用于接收语音检测触发指令，语音检测触发指令包括检测类型信息；

实时检测模块20，用于在检测类型信息为第一类型信息时，采用第一监测策略对客户端的目标语音数据进行实时检测，其中，第一类型信息指示检测类型为实时监测，第一监测策略包括风险监测项和质量监测项；

第一发送模块30，用于在目标语音数据触发风险监测项中的预警条件时，发送提示信息至客户端的监控端；

第一输出模块40，用于在对客户端的目标语音数据的实时检测结束后，输出质量检测项的检测结果信息；

离线检测模块50，用于在检测类型信息为第二类型信息时，采用第二监测策略对客户端的目标语音数据进行离线检测，其中，第二类型信息指示检测类型为离线检测；

第二输出模块60，用于在对客户端的目标语音数据的离线检测结束后，输出第二监测策略的检测结果信息。

优选地，语音数据检测装置，还包括：

添加模块61，用于将目标语音数据和第二监测策略的检测结果信息添加至预设的检测策略数据库中，检测策略数据库用于存储检测完成之后的检测结果信息；

统计模块62，用于对检测策略数据库中存储的样本检测数据进行统计，确定第二监测策略中每一检测项的平均分值占比，样本检测数据为完成检测之后并存储至检测策略数据库中的数据；

第二发送模块63，用于发送每一检测项的平均分值占比至客户端，接收客户端返回的每一检测项的调整因子；

调整模块64，用于根据调整因子调整第二监测策略。

优选地，实时检测模块20，包括：

转换单元201，用于对目标语音数据进行处理，将目标语音数据转换为目标文本数据；

第一实时检测单元202，用于根据风险监测项对目标语音数据和目标文本数据进行实时检测，获取每一风险监测项对应的风险结果信息，其中，风险监测项包括情绪分析项和关键词及敏感词检测项；

第二实时检测单元203，用于根据质量监测项对目标语音数据和目标文本数据进行实时检测，获取每一质量监测项对应的质量结果信息，其中，质量监测项包括意图识别项、语速及静音分析项、语音交叉分析项和质检规则匹配项。

优选地，第一实时检测单元202，包括：

第一评分子单元，用于根据预设的第一评分策略对目标语音数据和目标文本数据进行情绪分析评分，获取情绪分析项对应的分数；

第二评分子单元，用于根据预设的第二评分策略对目标文本数据进行关键词及敏感词检测评分，获得关键词及敏感词检测项对应的分数。

优选地，第二实时检测单元203，包括：

第三评分子单元，用于根据预设的第三评分策略对目标文本数据进行意图识别评分，获取意图识别项对应的分数；

第四评分子单元，用于根据预设的第四评分策略对目标语音数据进行语速及静音分析评分，获得语速及静音分析项对应的分数；

第五评分子单元，用于根据预设的第五评分策略对目标语音数据进行语音交叉分析评分，获取语音交叉分析项对应的分数；

第六评分子单元，用于根据预设的第六评分策略对目标文本数据进行质检规则匹配评分，获得质检规则匹配项对应的分数，其中，质检规则包括预先根据质检内容设置的文本匹配规则集，文本匹配规则集包括词语规则、短语规则和脚本规则。

关于语音数据检测装置的具体限定可以参见上文中对于语音数据检测方法的限定，在此不再赘述。上述语音数据检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中的语音数据检测方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据检测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的语音数据检测方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的语音数据检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张山
技术所有人：深圳壹账通智能科技有限公司
我是此专利的发明人

上一篇：一种微生物发酵鸭饲料及其制备方法与流程
上一篇：一种自行车多功能轮的制作方法