语音检测分析方法、装置、计算机设备及存储介质与流程

文档序号：16188552发布日期：2018-12-08 05:27阅读：180来源：国知局

本发明实施例涉及语音检测领域，尤其涉及一种语音检测分析方法、装置、计算机设备及存储介质。

背景技术

为了提升服务质量和业绩，银行、保险、电信、交通等行业的呼叫中心或者客服中心会对坐席或者客户经理的客服工作、营销工作等业务场景的对话语音进行质量检查，以检查坐席或者客户经理的讲话内容和方式是否符合单位规定和要求。

目前，现有的语音质检方法包括人工质检方式和基于人工智能技术的语音质检系统。

其中，人工质检方式主要是通过质检员调听通话录音进行人工检测。这种方式是目前应用最普遍的方式，它具有技术壁垒低、识别准确率较高等优点，但是其缺点也很明显，包括质检工作量大、需要设置大量质检人员、处理效率低且覆盖率低，常常只能抽查小部分对话语音，难以有效评价整体服务质量。

而通过人工智能等技术先将语音数据转换为文本数据，然后利用预设的关键词等搜索条件，让计算机对这些文本数据进行分析评测。但检测模型通常采用正则表达式、或数据库结构化查询语言sql语句的表达式等专业技术语言来描述质检条件，这通常需要有计算机编程背景的技术人员才能完成，普通业务人员无从下手，而且维护成本高、难度大。

技术实现要素：

本发明实施例提供了一种语音检测分析方法、装置、计算机设备及存储介质，可以加强语音质量检测的灵活性，降低语音质量检测的实现成本和复杂性。

第一方面，本发明实施例提供了一种语音检测分析方法，包括：

获取待分析语音；

根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则；

针对每个与所述待分析语音匹配的语音检测模型，根据所述待分析语音中说话人类别、内容信息、各所述检测规则的规则类型、运算符、以及设定检测条件，确定各所述检测规则的运算结果，其中，所述运算结果包括真、假结论以及评分结果；

根据各所述检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

第二方面，本发明实施例还提供了一种语音检测分析装置，包括：

语音获取模块，用于获取待分析语音；

语音检测模型确定模块，用于根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则；

模型分析模块，用于针对每个与所述待分析语音匹配的语音检测模型，根据所述待分析语音中说话人类别、内容信息、各所述检测规则的规则类型、运算符、以及设定检测条件，确定各所述检测规则的运算结果，其中，所述运算结果包括真、假结论以及评分结果；

语音评价模块，用于根据各所述检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的语音检测分析方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的语音检测分析方法。

在本发明实施例中，通过根据语音检测模型中包含的检测规则的规则类型、运算符、设定检测条件，对待分析语音进行评估，解决了现有技术中普通人员难以根据专业技术语言描述的检测规则实现语音质检的问题，可以加强语音质量检测的灵活性，降低语音质量检测的实现成本和复杂性，提高用户体验。

附图说明

图1a是本发明实施例一提供的一种语音检测分析方法的流程图；

图1b是本发明实施例一提供的一种语音检测过程的流程图；

图2是本发明实施例二提供的一种语音检测分析方法的流程图；

图3a是本发明实施例三提供的一种语音检测分析方法的流程图；

图3b是本发明实施例三提供的一种语音检测模型的树形图；

图4是本发明实施例四提供的一种语音检测分析装置的结构示意图；

图5是本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1a为本发明实施例一提供的一种语音检测分析方法的流程图，本实施例可适用于评价语音是否符合规定的情形，尤其适用于业务通话语音进行质检的情况，一般来说，语音质量检测可以是检查业务人员(如坐席或者客户经理等)的讲话内容和方式是否符合单位规定和要求，包括礼貌语、开场白等用语是否出现，脏话、粗鲁言语等禁忌用语是否出现，需要进行身份核实的业务是否完成了身份核实，讲话顺序是否符合话术要求，语速是否恰当等要求。又或者是在营销过程中业务人员应当询问的内容是否出现，如需要向用户询问的与产品有关的内容，同时客户回答的内容是否符合产品的要求等。

该方法可以由本发明实施例提供的语音检测分析装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中。本实施例的方法具体包括：

s110，获取待分析语音。

在本实施例中，待分析语音可以包括业务通话语音、会议录音或服务场所的录音，其获取方式可以是从录制的视频中进行识别获取，或者直接根据录音获取。在获取录音之后可以先对该语音进行预处理，如将语音转换为语音文本，截取需要的语音部分(如根据说话人的身份进行截取)等处理，并可以将语音文本以及语音部分作为待分析语音。其中，在本实施例中，需要将待分析语音转换为语音文本形式，在获取多个音频文件之后，逐个将每个音频文件里面的录音进行文本识别，按照时间、说话人、说话内容等信息存储，其主要存储格式可以参照微信聊天记录。

s120，根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则。

在本实施例中，语音检测模型可以是用于对语音进行质检的模型；检测规则可以是语音检测模型中设定的具体的检测任务或检测内容。

其中，用户可以根据获取的待分析语音，分析确定待分析语音的类型，根据该类型确定至少一个语音检测模型，并将待分析语音输入到至少一个语音检测模型中进行检测，待分析语音的类型可以是待分析语音所属的行业领域，如金融领域、通信领域或交通领域等；语音类型也可以是行业下的细分领域，如客服类语音、营销类语音等等。在检测过程中，多个语音检测模型可以同时或者依次对待分析语音进行检测。

s130，针对每个与所述待分析语音匹配的语音检测模型，根据所述待分析语音中说话人类别、内容信息、各所述检测规则的规则类型、运算符、以及设定检测条件，确定各所述检测规则的运算结果，其中，所述运算结果包括真、假结论以及评分结果。

在本实施例中，说话人的类别可以包括不限用户(不区分说话的用户)、提问用户或应答用户等，还可以是不同场景下的不同用户，例如，在银行业务中，可以包括客户和坐席(客服)等。可以采用声纹识别方式识别待分析语音中各个说话人，从而确定待分析语音中的说话人的类别，并确定各个说话人在待分析语音中对应的语音。运算符可以包括比较运算符(如大于)和逻辑运算符(如且)等。设定检测条件可以包括关键词、阈值和检测规则等。输出结果可以包括评分结果和布尔值(即真、假结论)等。其中，检测规则的运算符和设定检测条件均为普通业务人员容易理解的语言，并非是专业技术语言(如c语言、sql语言、正则表达式)，从而可以降低语音检测模型的使用难度，利于普及语音检测模型的应用。

具体的，所述检测规则中包含的设定检测条件的数目范围是1～2，检测规则中的所述设定检测条件包括：数值、文本、语音附加属性参数或其他检测规则对应的运算结果，其中，所述语音附加属性参数包括说话人的工号、证件号、姓名、手机号、或所述待分析语音的归属单位。

其中，待分析语音的归属单位可以是指提交待分析语音的单位，例如，待分析语音是北京移动通信业务的电话录音，待分析语音的归属单位即为中国移动北京分部。待分析语音中可能会存在动态数据，例如说话人的工号、证件号、姓名、手机号、或待分析语音的归属单位等，在不同的待分析语音中相应的，这些数据是不同的。在使用用于检测语音附加属性参数的检测规则对待分析语音进行检测分析时，需要判断是否待分析语音中出现这些动态数据，从而需要将这些动态数据提取出来，与在提交待分析语音时提供的信息进行比对，如果相同，则确定该待分析语音符合该检测规则。

进一步可以根据待分析语音中说话人类别、内容信息、各检测规则的规则类型、运算符、以及设定检测条件，确定各检测规则的运算结果。在获取检测规则对应的输出结果之后，可以根据各检测规则对应的输出结果确定语音检测模型的输出结果。具体的，可以将所有检测规则对应的输出结果中的评分相加，并将总和作为语音检测模型的输出结果；此外，若有任何一个检测规则对应的输出结果中的真假结论为真结论，也即布尔值为真，则将真结论作为语音检测模型的输出结果，否则，将假结论作为语音检测模型的输出结果。

在一个具体的例子中，设定检测规则是针对待分析语音中的客服发出的语音，判断客服是否说出设定检测条件中设定的词语(如您好)。可以根据待分析语音中的客服的语音，判断该语音转换的语音文本中是否包含了该设定词语，如果是，则输出结果为真；否则，输出结果为假。

由此，根据由用户确定的每一个语音检测模型中的每一条检测规则对待分析语音进行分析，可以针对待分析语音的多个方面进行评估，同时还可以根据不同检测目标，灵活选择语音检测模型中的检测规则，使待分析语音的检测更加全面，同时可以由用户掌握检测的角度，提高语音质检的灵活性。

s140，根据各所述检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

在本实施例中，可以根据至少一个语音检测模型的远算结果评估待分析语音的质量，具体实现方式可以是，将各个语音检测模型输出的分数相加，将总和作为待分析语音的分数，或者还可以对各个语音检测模型设置权重，计算全部语音检测模型的加权和，并将该加权和作为待分析语音的分数。其中，每个语音检测模型的检测内容不同，从而可以根据各个语音检测模型的输出结果，从多个角度对待分析语音的质量进行评估。

在一个具体的例子中，待分析语音是客服帮助客户解决业务问题的语音，其中，静音模型对应的分数高于设定阈值，表明在客服能够及时并成功解答客户的问题，同时，客户没有因为难以理解客服说的话而产生较长时间的沉默情况；禁止用语模型对应的布尔值为假，表明客服说话的内容不包含脏话、粗鲁用语等词语，从而，可以表明待分析语音中，客服为客户提供了良好的服务，并符合服务规定。

可选的，汇总各所述语音检测模型的总评分；当所述总评分低于预设评分阈值，或者所述待分析语音命中有直接预警标志的语音检测模型时，确定所述待分析语音为问题语音。

具体的，一旦待分析语音符合一个语音检测模型中的一条检测规则，即确定待分析语音命中该语音检测模型。若语音检测模型的直接预警标志信息为有，确定待分析语音命中有直接预警标志的语音模型，其中，语音检测模型的直接预警标志信息为有，表示该语音检测模块中的检测规则需要重点审核，即若待分析语音符合其中一条检测规则，确定该待分析语音为问题语音。而且如果语音检测模型对应的运算结果最终为分数，且该分数低于设定阈值，表示该对话语音很可能为问题语音，需要对待分析语音进行人工复核以确定是否做相应整改处理。

本实施例提供一种语音检测分析方法的检测流程图，如图1b所示，从监控资源101(如视频、录音等)中获取语音文件102，采用语音识别技术将语音文件102转换为语音文本103，并将语音文本103输入到语音质检系统104中获取语音的综合评分作为语音评分105，其中，语音质检系统104包括多个语音检测模型。若语音评分105低于设定分数阈值，确定该语音为问题语音，需要通过人工复核106进行最终判定，并获取处理结果，最后将处理结果与该语音存入知识库107中，便于后续语音数据统计。通常，语音质检的处理结果包括：提醒改正、下线培训、退出项目、未发现问题等，如果一个语音确定为问题语音，则该问题语音经过复核后的处理结果可以包括：可疑(检查不通过)、不可疑(检查通过)。

实施例二

图2为本发明实施例二提供的一种语音检测分析方法的流程图，本实施例是上述实施例的具体化。将检测规则具体化为多个不同类型的检测规则对待分析语音进行检测。具体如图2所示，本实施例的方法具体包括：

s201，获取待分析语音。

s202，根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则。

在本实施例中，关键词规则可以指定要求待分析语音转换的语音文本中包含关键词或者排除(不能出现)关键词，这些关键词可以通过至少一个设定检测条件进行设定，同时，一个设定检测条件中可以同时设定多个关键词，关键词之间用中英文分号、逗号、冒号或顿号等符号隔开。具体检测方法可以是从待分析语音转换的语音文本所包含的语句中查询是否存在关键词规则中的一个设定检测条件所限定的至少一个关键词，并将存在的关键词作为检测数据。

此外，还可以是从待分析语音转换的语音文本所包含的语句中找出关键词出现的位置，并形成关键词的位置集合，并将该位置集合作为检测数据。

s203，针对每个与所述待分析语音匹配的语音检测模型，若所述检测规则的规则类型为关键词规则，根据所述关键词规则中设定的说话人类别、设定检测条件中的关键词取值范围以及在语音中的出现位置要求分析所述待分析语音，确定所述待分析语音中的关键词，并将确定的所述关键词作为所述待分析语音的第一检测数据。

s204，根据所述第一检测数据以及所述关键词规则的运算符确定所述关键词规则对应的输出结果。

在本实施中，运算符可以包括包含或排除。若运算符是包含，且检测数据存在至少一个关键词，也就是说待分析语音中包含限定的关键词，确定该待分析语音符合该关键词规则，从而确定运算结果为真，若检测数据不存在任何一个关键词，也就是说待分析语音中不包含限定的所有关键词，确定该待分析语音不符合该关键词规则，从而确定运算结果为假；若运算符是排除，运算结果与运算符为包含时的运算结果相反。

需要说明的是，关键词规则中还支持动态代入，具体可以动态代入工号、姓氏等信息，例如将关键词规则的设定检测条件设为“您好，工号{工号}为您服务”，即动态代入业务人员的工号信息。

在一个具体的例子中，如表1所示，关键词规则1的名称是身份核实规则，说话人的类别是坐席，且没有标记直接预警标志，该关键词规则用于检测待分析语音中是否包含“请您报一下”或“麻烦您报一下”的关键词，若是，确定该身份核实规则的评分为0；若否，无评分。

表1关键词规则

需要说明的是，由于后续多个检测规则可能会嵌套关键词规则，而且在确定关键词的同时需要确定关键词的位置，从而在应用关键词规则计算时，可以提前确定关键词在待分析语音中的位置，为后续检测规则计算铺垫，避免重复计算，节省资源，提高检测规则的计算效率。

s205，若检测规则的规则类型为距离规则，根据所述距离规则中包含的两个所述关键词规则确定分别符合所述两个关键词规则的关键词，并对应生成两个关键词集合，其中，所述距离规则的设定检测条件包含两个所述关键词规则。

在本实施例中，距离规则可以用于检测符合第一关键词规则的关键词文本和符合第二关键词规则的关键词文本在说话人整个语音文本中出现位置的最小距离，其中标点符号不计算在内。其中，关键词规则可以在距离规则中的设定检测条件中限定。通过在设定检测条件中限定其他检测规则，可以建立检测规则与其他检测规则之间的逻辑关系，从而实现复杂多样的检测规则，提高检测待分析语音的灵活性。

s206，将一个关键词集合中的每个关键词分别与另一个关键词集合中的每个关键词进行组合，形成多个关键词对。

在本实施例中，可以将待分析语音转换的语音文本中满足第一关键词规则的关键词组成一个关键词集合x，满足第二关键词规则的关键词组成一个关键词集合y，分别从x、y集合中取出一个关键词x、y，组成一对关键词(x，y)，遍历x、y中的元素，形成多个关键词对。

s207，针对每个关键词对，基于如下公式确定所述关键词对中的两个关键词在所述待分析语音转换的语音文本中的间距，并将所有关键词对对应的间距作为所述待分析语音的第二检测数据：

dis(x,y)＝max({max({xb,yb})-min({xe,ye}),0})

其中，关键词x代表关键词对中的第一个关键词，关键词y代表关键词对中的第二个关键词，dis(x,y)代表关键词x和关键词y的间距，xb代表关键词x的开始位置，xe代表关键词x的结束位置，yb代表关键词y的开始位置，ye代表关键词y的结束位置，min代表取最小者，max代表取最大者。

在本实施例中，计算每对关键词之间的距离，若任意一对关键词的距离满足该距离规则，该距离规则的运算结果为真，否则为假。其中，开始位置是指关键词中第一个字符在语音文本中的字符序号，结束位置指关键词最后一个字符在语音文本中的字符序号，其中标点符号不计算在内。min代表取集合中的最小者，max代表取集合中的最大者。其中，可以将文本的字符按照语序标记序号，字符序号可以是一个字符在文本中的位置对应的序号。

在一个具体的例子中，语音文本设定为“你好吗？”，则“你”“好”“吗”对应的字符序号分别为1、2、3。

s208，根据所述第二检测数据、所述距离规则的运算符、设定检测条件中的距离值确定所述距离规则对应的输出结果，所述输出结果还包括当所述距离规则的运算结果为真时对应的关键词对。

在本实施例中，如果待分析语音不满足至少一个关键词规则，也即若存在一个关键词规则在待分析语音中转换的文本中没有查询到该关键词规则中限定的任意一个关键词，那么该距离规则的运算结果为假。

其中，距离规则的第一设定检测条件可以限定距离值，第二设定检测条件可以限定两条检测规则的规则编号，具体实现方式可以是以下拉列表的方式供用户选择输入。此外，关键词的距离可以根据业务场景灵活调整，而不用类似near一样的模糊不清的关键词。

在一个具体的例子中，设定关键词规则1的设定检测条件是“请您报一下；麻烦您报一下；是多少”，关键词规则2的设定检测条件是“身份证号末4位；身份证号后4位；出生日期”，距离规则3的运算符是“小于等于”，设定检测条件是“1”。也就是说该距离规则3用于检测待分析语音中包含的“请您报一下”、“麻烦您报一下”或“是多少”的关键词与“身份证号后4位”、“身份证号末4位”或“出生日期”的关键词之间的距离是否小于等于1，若是，确定该身份核实规则的运算结果为真，且给语音的评分为2；若否，该身份核实规则的运算结果为假，无评分。例如，针对待分析语音“请您报一下身份证号末4位”，其关键词距离为

max(max(1,6)-min(5,12),0)＝max(6-5,0)＝max(1,0)＝1。

即该关键词距离等于1，则待分析语音“请您报一下身份证号末4位”符合距离规则3，其对应的评分为2。

s209，若检测规则的规则类型为时序规则，且所述时序规则中包含两个所述关键词规则，根据两个所述关键词规则确定分别符合所述两个关键词规则的关键词，并对应生成两个关键词集合，其中，所述时序规则的设定检测条件中包含两个所述关键词规则。

s210，若检测规则的规则类型为时序规则，且所述时序规则中包含一个所述距离规则，将所述距离规则的输出结果中的每个关键词对拆分为两个关键词，并对应生成两个关键词集合。

s211，分别从所述两个关键词集合中选择关键词，确定关键词在待分析语音转换的语音文本中的开始位置和结束位置作为所述待分析语音的第三检测数据。

s212，根据所述第三检测数据以及所述时序规则的运算符确定所述时序规则对应的输出结果。

在本实施例中，时序类规则可以用于检测第一设定检测条件对应的关键词规则中包含的关键词在待分析语音转换的语音文本中首次出现的位置以及末次出现的位置，与第二设定检测条件对应的关键词规则中包含的关键词在待分析语音转换的语音文本中出现的首次出现的位置以及末次出现的位置之间的先后顺序是否满足运算符限定的关系，如果是，则待分析语音符合该时序规则，即计算结果为真。其中，运算符可以包括早于、晚于等，首次出现的位置作为开始位置，末次出现的位置作为结束位置。运算符为早于时，比较两个开始位置，如果第一个关键词规则对应的开始位置早于第二个关键词规则对应的开始位置，则规则运算结果为真，反之为假。运算符为晚于时，比较两个关键词规则分别对应的结束位置，如果第一个关键词规则对应的结束位置晚于第二个关键词规则对应的结束位置，则规则运算结果为真，反之为假。

在本实施例中，时序类规则还可以用于检测第一设定检测条件为距离规则的情况，先将距离规则输出结果中包含的每对关键词对拆分为两个关键词集合，并判断第一个关键词集合中的关键词在待分析语音转换的语音文本中开始位置(首次出现的位置)以及结束位置(末次出现的位置)，与第二个关键词集合中的关键词在待分析语音转换的语音文本中出现的开始位置以及结束位置之间的先后顺序是否满足运算符限定的关系，如果是，则待分析语音符合该时序规则，即运算结果为真。其中，运算符可以包括早于、晚于。运算符为早于时，比较两个关键词规则分别对应的开始位置，如果第一个关键词集合对应的开始位置早于第二个关键词集合对应的开始位置，则规则运算结果为真，反之为假。运算符为晚于时，比较两个关键词规则分别对应的结束位置，如果第一个关键词集合对应的结束位置晚于第二个关键词集合对应的结束位置，则规则运算结果为真，反之为假。

s213，根据各所述检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

一般来说，语音质量检测至少还包括：静音检测，用于对业务人员是否及时应答、语音停顿时间长短来检测分析该业务人员的业务熟练情况、服务态度等；语速检测，用于检测业务人员语速，以帮助业务人员控制语速快慢，以达到令客户舒适的应答语速，通常以每分钟多少字来表示；平均语速，用于计算用户(业务人员或者客户)在一次通话中的平均讲话语速；瞬时语速，用于计算用户所说的一句话的讲话语速。

在上述实施例的基础上，针对不同类型的检测规则确定各个检测规则对应的输出结果还可以是：

例如，若检测规则的规则类型为静音规则，根据所述待分析语音中说话人的类别，将所述待分析语音拆分成多个分句，并分别计算各个相邻分句之间的时间间隔，并确定最大时间间隔；将所述最大时间间隔作为所述待分析语音的第四检测数据；根据所述第四检测数据、所述静音规则的运算符、以及静音的设定检测条件确定与所述静音规则对应的输出结果。

具体的，静音规则可以用于分析最大静音时长是否符合规定。具体可以根据待分析语音计算其中各个相邻分句之间的时间间隔，将最大时间间隔作为最大静音时长，判断最大静音时长是否符合规定，如果是，那么该静音规则运算结果为真，否则为假。其中，最大静音时长的计算方法可以是，将待分析语音中语句的开始时间减去相邻上句的结束时间，获取该语句与相邻上句的时间间隔，获取待分析语音中所有相邻分句之间的时间间隔，并从中选择最大的时间间隔作为最大静音时长。

在一个具体的例子中，如表2所示，静音规则1表示若待分析语音中最大静音时长大于等于10秒且小于30秒时，确定评分为-2；静音规则2表示若待分析语音中最大静音时长大于30秒时，确定评分为-5。表2所示的静音检测模型可以用于判断通话中双方都不说话的情况，当最大静音时长超过30秒时扣5分，当最大静音时长不足30秒超过10秒时扣2分。

表2静音检测规则

需要说明的是，在应用语速类检测规则计算时，需要对待分析语音进行分句，从而，可以在对待分析语音进行预处理时，提前将待分析语音拆分成多个分句。

又如，若检测规则的规则类型为瞬时语速规则，根据说话人类别将所述待分析语音拆分成多个分句，分别计算各个分句的语速；根据所述待分析语音中说话人的类别，确定与所述说话人的类别对应分句的最大语速和最小语速；将所述最大语速和所述最小语速作为所述待分析语音的第五检测数据；根据所述第五检测数据、所述瞬时语速规则的运算符、以及瞬时语速的设定检测条件确定与所述瞬时语速规则对应的输出结果。

具体的，瞬时语速规则可以用于检测说话人在待分析语音中的最大语速或最小语速是否符合规定，如果符合，那么该规则运算结果为真，否则为假。其中，语句的语速可以等于语句包含的字数除以该语句的持续时间，获取待分析语句中的各个分句的语速，可以从中确定最大语速和最小语速。

又如，若检测规则的规则类型为平均语速规则，根据说话人类别将所述待分析语音拆分成多个分句，分别计算各个分句的语速；根据所述待分析语音中说话人的类别以及所述各个分句的语速，确定与所述说话人的类别对应的所有分句的平均语速；并将所述平均语速作为所述待分析语音的第六检测数据；根据所述第六检测数据、所述平均语速规则的运算符、以及平均语速的设定检测条件确定所述平均语速规则对应的输出结果。

具体的，平均语速规则可以用于检测说话人在待分析语音中的平均语速是否符合规定，如果符合，那么该规则运算结果为真，否则为假。其中，平均语速可以等于待分析语音中说话人对应的全部分句的瞬时语速的平均值。

又如，若检测规则的规则类型为关系规则，且所述关系规则的设定检测条件中包含检测规则，根据所述检测规则对应的输出结果以及所述关系规则的运算符，确定所述检测规则对应的输出结果。

具体的，关系规则用于判断关系规则的设定检测条件中包含至少一个检测规则是否符合规定。运算符可以包括与(并且)、或(或者)和非(不是)。当运算符为并且时，只有在两个检测规则对应的输出结果均为真时，该关系规则对应的输出结果才为真。当运算符为或者时，如果任意一个检测规则的输出结果为真，则该关系规则对应的输出结果为真。当运算符为非时，一般一个关系规则只包括一个设定检测条件，且一个设定检测条件中只包含一个检测规则，如果该检测规则对应的输出结果为真，则该关系规则对应的输出结果为假，否则，为真。

又如，若检测规则的规则类型为情绪规则，根据所述情绪规则设定检测条件、运算符，确定所述情绪规则对应的输出结果。

具体的，预设检测条件可以是用于表示情绪的文本，例如愤怒、正常和高兴等；运算符包括“包含”和“排除”等。可以通过计算待分析语音的语音分贝值，以及语音分贝值与情绪的对应关系，确定待分析语音对应的情绪。在一个具体的例子中，若预设检测条件为愤怒，运算符为包含，且计算待分析语音的分贝值为80，可以确定情绪为愤怒，从而确定该情绪规则对应的运算结果为真。

还需要说明的是，检测规则对应的输出结果可以是布尔值，若检测规则中存在评分标准，可以根据布尔值与评分之间的对应关系，以及检测规则对应的布尔值，确定该检测规则的评分。

本发明实施例通过根据不同的规则类型，可以针对不同的检测内容对待分析语音进行评估，同时设定检测条件可以设置为检测规则，实现灵活组建检测规则之间的逻辑运算关系，满足语音质检的要求。

在上述规则的基础上可以实现不同的检测目标。

在一个具体的例子中，需要检测待分析语音中是否包含“需要核实用户的身份证号末4位或出生日期”的内容。考虑到说话人可以灵活表达，比如可以说“请您报一下身份证号末4位”，也可以说“身份证号末4位，请您报一下”，还可以说“身份证号末4位是多少”，因此可以设计支持多种可能性的分析模型如表3所示的身份核实模型。例如，坐席说“请您报一下身份证号末4位”或者“麻烦您报一下身份证号后4位”或者“身份证号末4位是多少”或者“身份证号后4位是多少”或者“请您报一下出生日期”，那么该模型的3条规则的运算结果都为真，对应的该身份核实模型的输出结果为2分。

表3身份核实模型

若待分析语音是“请您报一下身份证号末4位”，身份核实模型中的检测规则对应的输出结果如表4所示。

表4身份核实模型中的检测规则对应的输出结果

若坐席的说话内容为“请您报一下手机号”，各条检测规则对应的输出结果如表5所示。其中，身份核实规则2中的关键词均未在“请您报一下手机号”中出现，从而，该身份核实规则2对应的输出结果为假，确定该距离规则对应的输出结果为假。只有在该距离规则中的设定检测条件引用的任意一个检测规则对应的输出结果均为真时，才会根据其设定检测条件中的检测规则，确定关键词之间的距离。

表5身份核实模型中的检测规则对应的输出结果

若坐席的说话内容为“您的出生日期是哪天，麻烦您报一下”，各条检测规则对应的输出结果如表6所示。其中，核实完成规则3计算得到的距离为4大于1，所以该核实完成规则对应的输出结果为假。

表6身份核实模型中的检测规则对应的输出结果

在另一个具体的例子中，可以建立一个禁止用语模型，具体如表7所示。检测规则要求包括禁止说以下话语：嘴巴干净一点、这又不是我的错。如果坐席的语音中包括“嘴巴干净一点”，则关键词规则1对应的输出结果为-3，如果坐席的语音中包括“这又不是我的错”，则关键词规则2对应的输出结果为-3。

表7禁止用语模型

实施例三

图3a为本发明实施例三提供的一种语音检测分析方法的流程图，本实施例以上述实施例为基础进行进一步优化，在本实施例中，在获取待分析语音之前，还包括：建立语音检测模型以及对应的检测规则。如图3a所示，本实施例的方法具体包括：

s310，根据用户输入的模型参数信息建立语音检测模型，所述模型参数信息包括语音检测模型的直接预警标志信息和检测的待分析语音的语音类型信息。

在本实施例中，待分析语音的直接预警标志信息可以是指当该语音检测模型的直接预警标志为“有”时，且待分析语音满足了该语音检测模型中的任意一条检测规则时，该待分析语音会被列为问题通话并被重点审核。一般标记直接预警标志的语音检测模型用于检测待分析语音中是否出现了不符合规定的用语。检测的待分析语音类型信息可以是该语音检测模型适用于检测哪个领域的语音，如银行业务的语音、通信业务的语音等，进一步地，还可以细分为客服类语音、营销类语音等。

通过为语音检测模型设置直接预警标志，可以从不符合规定的角度对语音进行检测，实现多方面调整语音检测的具体内容，提高语音检测的灵活性。

此外，模型参数还可以包括模型的名称、编号以及该语音检测模型的检测目标等信息。

s320，根据所述用户输入的检测参数信息，在所述检测模型中生成至少一个检测规则，所述检测参数信息包括规则类型、说话人的类别、运算符和检测条件。

在本实施例中，检测规则包含的信息还可以包括：规则编号、规则名称、所属模型编号、规则序号、语音位置要求、评分或启用状态等。其中，语音位置要求可以是用户选取的语音片段在待分析语音中的时间节点、或者是用户选取的语音文本片段在待分析语音转换的语音文本中的位置。启用状态可以是检测规则是否处于使用的状态。其中，用户可以根据输入或者下拉菜单的选项建立检测规则，而且针对不同类型的规则，下拉菜单的可选项的具体内容不同。

由此，通过非专业人员容易理解的可视化的方法建立检测规则以及语音检测模型，大大降低了实现语音检测的难度。

s330，获取待分析语音。

s340，根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则。

s350，针对每个与所述待分析语音匹配的语音检测模型，根据所述待分析语音中说话人类别、内容信息、各所述检测规则的规则类型、运算符、以及设定检测条件，确定各所述检测规则的运算结果，其中，所述运算结果包括真、假结论以及评分结果。

s360，根据各所述检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

可选的，本实施例构建的模型还可以采用树形结构展现，如图3b所示，树上的每个节点对应一个检测规则，具体的，可以先建立树根节点，对应一个语音检测模型的名称，例如，身份核实模型301；然后将该语音检测模型下的检测规则按检测规则序号从大到小排序，逐条检测规则作为节点挂载到树上，序号最大的规则先挂在根节点下，如核实完成规则302；排在后面的检测规则，如果出现在树上已有节点对应的检测规则的设定检测条件里面，那么则将此检测规则作为一个节点挂载到该节点下，如第一身份核实规则303和第二身份核实规则304，其中，如果某个检测规则存在于树上已有的多个节点的设定检测条件里面，那么就添加多个节点。该树形展示可以便于用户更为直观的理解模型的涵义，帮助非专业人员容易读懂模型要表达的涵义。

在本发明实施例中，通过根据用户输入的参数信息，分别生成自定义语音检测模型以及各个语音检测模型中的检测规则，并采用构建的语音检测模型以及检测规则对待分析语音进行质检，简化了建立语音检测模型以及检测规则的过程，实现非专业人员建立语音检测模型，降低语音检测的难度和复杂度，同时增加语音质检的灵活性。

实施例四

图4为本发明实施例四提供的一种语音检测分析装置的结构示意图。如图4所示，所述装置包括：

语音获取模块410，用于获取待分析语音；

语音检测模型确定模块420，用于根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则；

模型分析模块430，用于针对每个与所述待分析语音匹配的语音检测模型，根据所述待分析语音中说话人类别、内容信息、各所述检测规则的规则类型、运算符、以及设定检测条件，确定各所述检测规则的运算结果，其中，所述运算结果包括真、假结论以及评分结果；

语音评价模块440，用于根据各所述检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

在本发明实施例中，通过根据语音检测模型中包含的检测规则的运算符、设定检测条件，对待分析语音进行评估，解决了现有技术中普通人员难以根据专业语言描述的检测规则实现语音质检的问题，可以加强语音质量检测的灵活性，降低语音质量检测的实现成本和复杂性，提高用户体验。

进一步的，所述语音评价模块440，具体用于：汇总各所述语音检测模型的总评分；当所述总评分低于预设评分阈值，或者所述待分析语音命中有直接预警标志的语音检测模型时，确定所述待分析语音为问题语音。

进一步的，所述装置，包括：所述检测规则中包含的设定检测条件的数目范围是1～2，所述检测规则中的所述设定检测条件包括：数值、文本、语音附加属性参数或其他检测规则对应的运算结果，其中，所述语音附加属性参数包括说话人的工号、证件号、姓名、手机号、或所述待分析语音的归属单位。

进一步的，所述模型分析模块430，具体用于：若所述检测规则的规则类型为关键词规则，根据所述关键词规则中设定的说话人类别、设定检测条件中的关键词取值范围以及在语音中的出现位置要求分析所述待分析语音，确定所述待分析语音中的关键词，并将确定的所述关键词作为所述待分析语音的第一检测数据；根据所述第一检测数据以及所述关键词规则的运算符确定所述关键词规则对应的输出结果；若检测规则的规则类型为距离规则，根据所述距离规则中包含的两个所述关键词规则确定分别符合所述两个关键词规则的关键词，并对应生成两个关键词集合，其中，所述距离规则的设定检测条件包含两个所述关键词规则；将一个关键词集合中的每个关键词分别与另一个关键词集合中的每个关键词进行组合，形成多个关键词对；针对每个关键词对，基于如下公式确定所述关键词对中的两个关键词在所述待分析语音转换的语音文本中的间距，并将所有关键词对对应的间距作为所述待分析语音的第二检测数据：

dis(x,y)＝max({max({xb,yb})-min({xe,ye}),0})

其中，关键词x代表关键词对中的第一个关键词，关键词y代表关键词对中的第二个关键词，dis(x,y)代表关键词x和关键词y的间距，xb代表关键词x的开始位置，xe代表关键词x的结束位置，yb代表关键词y的开始位置，ye代表关键词y的结束位置，min代表取最小者，max代表取最大者；根据所述第二检测数据、所述距离规则的运算符、设定检测条件中的距离值确定所述距离规则对应的输出结果，所述输出结果还包括当所述距离规则的运算结果为真时对应的关键词对；若检测规则的规则类型为时序规则，且所述时序规则中包含两个所述关键词规则，根据两个所述关键词规则确定分别符合所述两个关键词规则的关键词，并对应生成两个关键词集合，其中，所述时序规则的设定检测条件中包含两个所述关键词规则；若检测规则的规则类型为时序规则，且所述时序规则中包含一个所述距离规则，将所述距离规则的输出结果中的每个关键词对拆分为两个关键词，并对应生成两个关键词集合；分别从所述两个关键词集合中选择关键词，确定关键词在待分析语音转换的语音文本中的开始位置和结束位置作为所述待分析语音的第三检测数据；根据所述第三检测数据以及所述时序规则的运算符确定所述时序规则对应的输出结果。

进一步的，所述模型分析模块430，具体用于：若检测规则的规则类型为静音规则，根据所述待分析语音中说话人的类别，将所述待分析语音拆分成多个分句，并分别计算各个相邻分句之间的时间间隔，并确定最大时间间隔；将所述最大时间间隔作为所述待分析语音的第四检测数据；根据所述第四检测数据、所述静音规则的运算符、以及静音的设定检测条件确定与所述静音规则对应的输出结果；若检测规则的规则类型为瞬时语速规则，根据说话人类别将所述待分析语音拆分成多个分句，分别计算各个分句的语速；根据所述待分析语音中说话人的类别，确定与所述说话人的类别对应分句的最大语速和最小语速；将所述最大语速和所述最小语速作为所述待分析语音的第五检测数据；根据所述第五检测数据、所述瞬时语速规则的运算符、以及瞬时语速的设定检测条件确定与所述瞬时语速规则对应的输出结果；若检测规则的规则类型为平均语速规则，根据说话人类别将所述待分析语音拆分成多个分句，分别计算各个分句的语速；根据所述待分析语音中说话人的类别以及所述各个分句的语速，确定与所述说话人的类别对应的所有分句的平均语速；并将所述平均语速作为所述待分析语音的第六检测数据；根据所述第六检测数据、所述平均语速规则的运算符、以及平均语速的设定检测条件确定所述平均语速规则对应的输出结果。

进一步的，所述模型分析模块430，具体用于：若检测规则的规则类型为关系规则，且所述关系规则的设定检测条件中包含检测规则，根据所述检测规则对应的输出结果以及所述关系规则的运算符，确定所述检测规则对应的输出结果。

进一步的，所述装置具体用于：根据用户输入的模型参数信息建立语音检测模型，所述模型参数信息包括语音检测模型的直接预警标志信息和检测的待分析语音的语音类型信息；根据所述用户输入的检测参数信息，在所述检测模型中生成至少一个检测规则，所述检测参数信息包括规则类型、说话人的类别、运算符和检测条件。

上述语音检测分析装置可执行本发明任意实施例所提供的语音检测分析方法，具备执行的语音检测分析方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备501的框图。图5显示的计算机设备501仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备501以通用计算设备的形式表现。计算机设备501的组件可以包括但不限于：一个或者多个处理器或者处理单元502，系统存储器503，连接不同系统组件(包括系统存储器503和处理单元502)的总线504。

总线504表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture，isa)总线，微通道体系结构(microchannelarchitecture，mca)总线，增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation，vesa)局域总线以及外围组件互连(peripheralcomponentinterconnect，pci)总线。

计算机设备501典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备501访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器503可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(randomaccessmemory，ram)505和/或高速缓存存储器506。计算机设备501可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统507可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未视出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(compactdiscread-onlymemory，cd-rom)，数字视盘(digitalvideodisc-readonlymemory，dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线504相连。系统存储器503可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块508的程序/实用工具509，可以存储在例如系统存储器503中，这样的程序模块508包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块508通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备501也可以与一个或多个外部设备510(例如键盘、指向设备、显示器511等)通信，还可与一个或者多个使得用户能与该计算机设备501交互的设备通信，和/或与使得该计算机设备501能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(input/output，i/o)接口512进行。并且，计算机设备501还可以通过网络适配器513与一个或者多个网络(例如局域网(localareanetwork，lan)，广域网(wideareanetwork，wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器513通过总线504与计算机设备501的其它模块通信。应当明白，尽管图5中未视出，可以结合计算机设备501使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(redundantarraysofinexpensivedisks，raid)系统、磁带驱动器以及数据备份存储系统等。

处理单元502通过运行存储在系统系统存储器503中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种语音检测分析方法。

也即，所述处理单元执行所述程序时实现：获取待分析语音；根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则；针对每个与所述待分析语音匹配的语音检测模型，根据所述待分析语音中说话人类别、内容信息、各所述检测规则的规则类型、运算符、以及设定检测条件，确定各所述检测规则的运算结果，其中，所述运算结果包括真、假结论以及评分结果；根据检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的语音检测分析方法：获取待分析语音；根据所述待分析语音的类型和语音检测模型的检测语音类型信息，确定至少一个与所述待分析语音匹配的语音检测模型，其中，所述语音检测模型中包含至少一个检测规则；针对每个与所述待分析语音匹配的语音检测模型，根据所述待分析语音中说话人类别、内容信息、各所述检测规则的规则类型、运算符、以及设定检测条件，确定各所述检测规则的运算结果，其中，所述运算结果包括真、假结论以及评分结果；根据检测规则的运算结果确定各所述语音检测模型的运算结果，并根据各所述语音检测模型的运算结果评价所述待分析语音。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、ram、只读存储器(readonlymemory，rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory，eprom)、闪存、光纤、便携式cd-rom、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、无线电频率(radiofrequency，rf)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++、python、scala，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括lan或wan——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高昊江;孙刚;杨飞
技术所有人：京北方信息技术股份有限公司
我是此专利的发明人