语音处理方法、存储介质和装置与流程

文档序号：17442126发布日期：2019-04-17 04:54阅读：149来源：国知局

本发明涉及计算机领域，特别涉及一种语音数据处理方法、存储介质和装置。

背景技术：

工程结构物(桥梁、隧道、大坝、港口码头及各种大型建筑物)通常需要定期进行检测(或检查，下同)，经常需要进行野外作业并记录检测信息，手持设备用于检测记录已经逐渐得到应用，以桥梁检测终端为例，普通的桥梁检测检测终端一般是安装于平板电脑或者手机的app，主要输入方式是结构化软件界面，如图1所示，检测人员记录检测发现的缺陷数据时，需要较多的屏幕点选操作和借助软键盘完成逐个控件的输入与切换操作来完成各个缺陷属性数据的输入，因此一条检测记录所需要记录的数据多达十多个甚至更多，在现场，通过移动设备的触摸屏进行输入，其输入效率较低。当需要记录的信息较多时，会严重影响检测作业进度。

为了使野外作业时，工程人员可以方便快捷的记录检测信息，避免记录检测数据时低效率的频繁触控操作，急需开发一种效率更高的记录检测数据的技术方案。

技术实现要素：

有鉴于此，本发明提供一种语音数据处理方法、存储介质和装置，以解决如何将语音数据自动转成检测记录的问题。

本发明提供一种语音数据处理方法，该方法包括：

步骤11：获取跟检测记录相关联的待分析录音数据；

步骤13：基于具有工程检测专业词汇识别能力的语音识别模型，将待分析语音数据转换为识别结果文本；

步骤15：按预设信息提取规则，从识别结果文本中提取检测记录属性信息。

本发明还提供一种非瞬时计算机可读存储介质，非瞬时计算机可读存储介质存储指令，指令在由处理器执行时使得处理器执行上述的语音数据处理方法中的步骤。

本发明还提供一种语音处理装置，包括处理器和上述的非瞬时计算机可读存储介质。

基于本发明的方法，增设了步骤15，可以将语音数据的识别结果文本自动转换为检测记录的属性信息，该方法不仅提高识别结果文本的使用价值，减少了工程人员的文本编辑工作量，且极大地减轻了野外作业时，工程人员记录检测信息的工作负担。

附图说明

图1为现有桥梁检测记录终端的用户记录交互界面；

图2为本发明语音数据处理方法的流程图；

图3为本发明语音数据处理方法的一个实施例；

图4为本发明语音数据处理装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图2为本发明的语音数据处理方法，包括

步骤11(s11)：获取跟检测记录相关联的待分析录音数据；

步骤13(s13)：基于具有工程检测专业词汇识别能力的语音识别模型，将待分析语音数据转换为识别结果文本；

步骤15(s15)：按预设信息提取规则，从识别结果文本中提取检测记录属性信息。

检测记录属性信息既可以用结构化方式存储，也可以用非结构化的方式存储(例如逐条存储检测记录)，但为了便于后期深度开发，优选用结构化方式存储。

检测记录属性信息可用于后续的统计分析与报表，例如用于生成检测记录、检测报告、查询统计各类病害的数量和病害的分布情况等。

检测记录的重要记录对象是检测过程发现的各种构件的缺陷，为了使记录的缺陷信息支持统计分析与报表输出，通常需要采用结构化数据的方式来描述缺陷的属性(即提取检测记录属性信息，并以结构化保存)，仅仅存储识别结果文本，而没有将这些文本中包含的缺陷描述属性信息提取并存储到对应的缺陷属性，则无法对这些缺陷信息进行快速准确的统计分析与输出报表。

以桥梁检测为例，典型的缺陷包含的属性包括：

缺陷类型

所属构件编号

缺陷位置

缺陷描述

上述属性还可以进行进一步拆分，包括属性的属性信息(子属性)，例如：缺陷描述属性可以进一步包括子属性。以对一个“裂缝”类型的缺陷描述属性为例，其还可包括以下子属性：

裂缝缺陷描述：

走向

缝长

缝宽

现有工程检测终端，以常见的桥梁定期检测记录终端为例，通常为桥梁缺陷设计面向其属性的数据结构和交互式输入界面，如图1所示，该界面要求用户逐个利用界面控件输入相关属性，需要用户输入大量文本信息，其输入效率较低。

本发明通过语音输入，用户可以直接用连续的自然语音播报病害描述，通过语音识别模型得到识别结果文本后，按预设信息提取规则，提取识别结果文本中的检测记录属性信息，直接得到识别结果文本中包括的多个检测记录的属性信息(通常为缺陷属性信息)，无需用户在用户界面上点选，获取的信息可以以语音识别结果文本形式显示，也可以将提取的检测记录属性信息用对应的界面控件来显示，但内部存储则包含一份支持快速查询统计的检测记录属性信息数据，通常是结构化数据，存储形式优选数据库。

通过本方案，将原本需要逐个控件进行录入的检测数据录入过程简化为语音播报，并且达到所录入检测数据能够进行统计分析和输出检测报告的目标，大幅度减少了操作的复杂性，并极大提高了检测记录的录入效率和数据处理效率。

用户录入的缺陷描述，最终目标是要用于生成检测记录、检测报告、查询统计等，通常，这些用于统计的属性仅仅存储语音识别结果文本本身并不能支持快速方便的统计与报表应用，因此，需要在进行统计前从识别结果文本中提取所需信息，将提取的信息存储到检测记录数据库。提取的信息通常包括缺陷的属性信息，也包括其他必要的信息。

可选地，检测报告也可以用户自行编辑生成，此时，本申请方法支持用户任意调用或使用待分析语音数据以及后续的识别结果文本和检测记录属性信息。

检测记录属性可以包括：编号、缺陷位置和缺陷描述，相应地，预设信息提取规则至少包括：

提取规则1：定义构件编号提取规则，用于将识别结果文本中的“第一编号表达”提取为“第二编号表达”；

例如，定义提取规则1-1：$编号$构件类别＝【构件编号】，$关键字代表一类预设关键字或者一类符合预设规则的字符，“＝”关键字表示“＝”号前面提取的信息直接被设置为“＝”号后面对象【构件编号】中的变量。如“1-2#梁”，【构件编号】被设为“1-2#梁”。

提取规则2：定义缺陷位置提取规则，用于将识别结果文本中的“第一位置表达”提取为“第二位置表达”；

例如，定义提取规则2-1：<％|的>【位置】<发现|有>，％表示后面的字符关键字可以空缺，下同。如“的底部发现”，则对象【位置】中的变量被设为“底部”。

提取规则3：定义缺陷描述提取规则，用于将提取结果文本中的“第一缺陷描述”提取为“第二缺陷描述”。

缺陷描述中通常包括多个属性信息，如对于裂缝，可能包括的子属性为：裂缝的类型，走向，长度，宽度等，对于混凝土剥落，可能包括的属性为：剥落面积。

例如，定义缺陷描述类型提取规则3-1(含数量)：【数量】$缺陷类型，如“1条纵向裂缝”，则对象【数量】中的变量被设为“1条”。

缺陷描述类型提取规则(不含数量)3-2：$缺陷类型＝【缺陷类型】，如“1条纵向裂缝”，则对象【缺陷类型】中的变量被设为“裂缝”。

缺陷描述属性提取规则3-3：<缝长|长度|长><％|为|是>【缝长】<m|cm>，<缝宽|宽度><％|为|是>【缝宽】<mm>，<纵向|横向>＝【走向】，“|”号代表并列的提取关键词。

按照以上规则，用户的识别结果文本中的“在1-2#梁的底部发现纵向裂缝1条，缝长1m，缝宽0.03mm”，则可以提取出如下检测记录属性信息：

编号：1-2#梁

缺陷描述：

缺陷类型：裂缝

数量：1(条)

走向：纵向

缝长：1(m)

缝宽：0.03(mm)

以上规则只是示例，可以设定不同规则以支持不同表达习惯下的属性信息提取和存储方式，同时也可以结合多个识别结果文本提取属性信息。

可选的，将从一条语音数据中提取的多个检测记录属性逐条显示到用户界面的的对应控件中。如，以上提取的属性，每条检测记录的“数量”、“走向”“缝长”“缝宽”等属性的值被分别显示到该检测记录的“数量”编辑控件，“类型”编辑控件，“走向”编辑控件，“缝长”编辑控件，“缝宽”编辑控件。

如图3所示，在图1的步骤13之后以及步骤15之前还包括：

步骤14：基于预设转换规则，将识别结果文本转换为符合工程检测用语规范的识别结果文本。

以下对于步骤14进行进一步说明。

以桥梁检测为例，，工程检测专业词汇包括：构件名称、(构件)编号、缺陷位置、缺陷描述等检测记录属性相关的专有词汇。

具有工程检测专业词汇识别能力的语音识别模型需要在进行识别前建立，或基于已有识别模型进行完善，其建立或完善过程包括：构建工程检测专业词汇库，将工程专业词汇库输入语音识别引擎(语音识别模型的核心组件)进行建模训练，使语音识别引擎具有工程检测专业词汇识别能力。

构建专业词汇包括在词库中加入代用词，代用词被用于语音识别引擎输出的识别结果文本，再供后续转换步骤14对代用词进行识别转换。

对于工程检测的语音识别来说，难点在于符合行业表达习惯的识别结果无法通过语音识别引擎便捷的得到，需要通过人工编辑调整，效率低。

例如，语音识别引擎会对构件编号的识别不准，而构件编号识别不准，将导致后续的构件类型无法判断，进而导致跟构件类型相关数据也无法过滤加载。工程检测的构件编号，通常为：构件序号+构件类别组成，例如“1-2#梁”，“1-2”是梁的序号，表示第一跨第2片梁(计数起点与规则自行约定)，特殊情况还会加上分幅标识，例如“l1-2#梁”表示左幅“第一跨第2片梁”。利用现有语音输入法，构件编号的识别准确率非常低，用户需要进行大量修改，因此不具备实用价值。“1-2#梁”被识别为“一杠二好靓”，“l1-2#梁”被识别为“挨了一钢二好靓”，“10-10#梁”被识别为“石岗石浩良”(语音识别引擎推测”石浩良”为人名)，为解决该问题提出针对编号词库进行优化设置，包括：

采用穷举法将可能用到的构件编号纳入词库，如：1号跨到40号跨，1-1号梁到40-40号梁，1-1-1号支座到40-40-2号支座......考虑桥型，构件类型，跨数，编号的级数，各种组合将是海量的，词库维护修改麻烦，适应能力差，识别效率低，各种组合的长词较多，也会导致其识别准确率降低。

本发明通过在词库中加入“一杠”“一杠二”类似词条，对语音识别引擎进行训练以后，可以使语音识别引擎可以优选输出“一杠二”，再通过预设转换规则将“一杠二”转换为预期的“1-2”。同样，对于输入编号“s1-2#梁”代表上行线1-2号梁，编号中的s用语音输入时识别结果不可靠，可直接设置“上行线”词条，输入编号时播报“上行线一杠二号梁”，识别结果输出后，再通过预设转换规则将“上行线一杠二号梁”转换为预期的“s1-2#梁”。

一种优选方案是，将构件编号相关语音识别用基础词条加入词库，基础词条至少包括数字、“-”、“构件类别”词条或其代用词的2种以上的组合。

基础词条包括：

a、数字+“-”，例如：1-、2-...n-。

b、数字+“-”+数字，例如：1-1、1-2、...n-n。

c、“-”+数字，例如：-1、-2、...-n。

d、“-”+数字+“#”，例如：-1#、-2#、...-n#。

e、数字+“#”，例如：1#、2#、...n#。

f、号+构件类别，例如：#梁、#支座、...。

设置构件编号识别所需的基础词条后，可以大幅度提高各种由相关基础词条组合而成的复合编号的识别准确率。

但是，由于语音识别引擎对于数字和符号的发音不标准不统一，也可能导致识别结果不可靠，例如“1#”该如何发音才能被语音识别引擎识别？“1井”？“一井号”？“一号”？事实上，按照行业习惯，该“#”号对应发音为“号”，只有发音“一号”才符合用户认知，但识别引擎显然无法得知这种行业习惯，会优先输出包括“一号”在内的各种同音候选结果。对用户要求一些识别引擎并不支持数字和符号加入用户自定义词库。为解决该问题，本方案提出代用词+转换方案：

将对语音识别引擎没有歧义的代用词条作为所需基础词条加入词库，用户只需要按照代用词条录入语音，待语音识别引擎输出相关包含代用词条，例如，识别结果文本为“上行线一杠二号梁”，则执行步骤14之后的识别结果文本为“s1-2#梁”。

代用词条并不只局限于编号，也可以用于其他场景。

以下给出编号相关代用词条示例：

一维前导序号：一杠、二杠...。

二维前导序号：一杠一、一杠二、...二十杠四十。

一维后缀：杠一、杠二、...杠四十。

一维后缀+号：杠一号、杠二号、...杠四十号。

构件类别名称：跨、台、桥台、梁、支座、..。.

号+构件类别：号跨、号台、号梁、号支座、...。

通过以上词库建模并导入语音识别引擎进行训练以后，语音识别引擎输出的编号准确率将大大提升，且可以适应各种编号播报习惯，如整体连读“一杠二杠三号支座”，语音识别引擎自动分词时自定义词库可以覆盖多种分词方式，如：

一杠，二杠，三号，支座

一杠二，杠三号，支座

一杠，二杠三，号支座

一杠二，杠三，号支座

...

由此可见，经过以上语音识别模型的词库建模，构件编号对于语音识别引擎来说已经不是问题，人工播报时，根据自己的习惯进行停顿分词也没有问题，人工停顿跟上述分词组合类似。将包含工程检测专业词汇发音的待分析录音数据输入完成训练的语音识别引擎进行识别，即可将语音数据转换为包含工程检测专业词汇的识别结果文本。

语音识别引擎可以是在线云识别引擎，也可以是本地识别引擎。在网络条件较好时，在线识别准确率更高，无网络时，本地识别可作为备用方案，也可以将本地识别和联网识别结合起来应用以平衡识别准确率和效率。

以下对于步骤14进行进一步说明。

通过专业词库训练好语音识别模型的语音识别引擎可以解决专用名词的识别成功率低的问题，但无法解决行业表达习惯问题。例如：训练好的识别引擎，可以避免将“支座”识别为“制作”，识别出编号“一杠二号支座”，对语音识别模型而言，这已经是正确的结果，而按照工程检测行业标准，这样的描述方式是不符合要求的，不能用于检测报告。根据相关行业标准、惯例、用户要求，“一杠二号支座”对应的习惯表达为“1-2#支座”，“上行线1-2号梁”对应的习惯表达为“s1-2#梁”；语音识别模型识别错误的“零点吧平米”也需要纠正为“0.8m²”“三点一米乘以0.8米”这种中英文混合表达需要转换为“3.1m*0.8m”，

对于缺陷位置描述，跟跨径有关如“1/4l处”这样的描述，发音为“四分之一l处”，识别结果也就为“四分之一l处”，也可能被识别为“四分之一二处”，准确识别有一定难度。

因此，为解决类似问题，提出相应转换处理方案，包括若干预设转换规则。

本发明采用先识别出过渡词条，再对过渡词条进行转换的方式来实现输出符合预期的最终结果。

通过定义预设转换规则，按预设转换规则对识别结果文本进行数字、固定表达习惯等进行处理，从而使得输出的结果符合工程规范标准要求，大量减少人工修改量。

在步骤14中，如图3所示，预设转换规则至少包括：

转换规则1：将“第一表达”转换为“第二表达”。其中转换规则1包括转换规则2、转换规则3和/或转换规则4，以及其他自定义的转换规则。

转换规则2：将中文数字转换为阿拉伯数字；

例如，将“零点九”转换为0.9，同音字的“凌殿久”也需要转换为0.9，可选的一种实现方式为：先把识别结果转换为拼音，找出和数字同音的连续多个字，转换为数字，如lingdianjiu，三个拼音都属于数字的拼音，应该转换为数字0.9。

数字(包括0-9和小数点“.”)的同音字符可用通配符$pnum来表示，转换规则2的细则举例如下:

$pnum$pnum＝$1$2//将相邻2个数字同音字符，纠正为2个数字

$pnum$数字＝$1$2//将数字同音字符+数字，纠正为2个数字

$数字$pnum＝$1$2//将数字+数字同音字符，纠正为2个数字

两个，两处＝2$1

$pnum$计量单位＝$1$2//将数字同音字符+计量单位，纠正为数字+计量单位

以上规则，将数字和读音与数字相同的2个字符转换为2个数字，循环调用即可将连续的数字读音字符转为数字，如可将“一点衣2”这样的结果转换为正确的数字“1.12”。

转换规则3：将文字编号标识转换为预设符号，预设符号包括：半角或全角字符的“-”、“#”或“～”。

在语音播报构件编号时，通常是数字序号+“#”+构件类别，如“1-2#梁”，也在编号中用“～”号连接起止数字序号来表示多个连续构件，例如“1-2～4#支座”，代表1-2#支座、1-3#支座、1-4#支座，共3个构件编号。编号中的“-”、“#”、“～”符号，一般的语音输入法没有标准读法，很难识别正确，按照工程检测现场播报习惯，“-”读音同“杠”，“#”读音同“号”，“～”读音同“至”，同时，识别结果也相应的为文字“杠”、“号”、“至”或其同音字，这种识别结果对于用户来讲，需要手工修改，效率低。本发明提供的解决方案是通过设置编号标识转换规则来处理，包括：

$数字gang＝$1-//将数字+读音为“gang”的字符，纠正为数字+“-”

gang$数字＝-$1//将读音为“gang”的字符+数字，纠正为“-”+数字

$数字hao＝$1#//将数字+读音为“hao”的字符，纠正为数字+“#”

$数字zhi＝$1～//将数字+读音为“zhi”的字符，纠正为数字+“～”

$数字zi＝$1～//将数字+读音为“zi”的字符，纠正为数字+“～”，兼顾zh和z发音不标准的使用者

通过以上转换规则，如“1钢2号梁”“1-2号梁”、“1-2好梁”均能够被正确处理成符合行业表达惯例的“1-2#梁”，“1-2质4号支座”、“1-2质4号支座”也能够被正确处理成符合行业表达惯例的“1-2～4#支座”。

本实施例中的转换规则表达方法仅为示例，不做约束，其他规则类同。

转换规则4：将中文计量单位转换为国际单位制的英文字母表达；

工程检测中，通常需要测量缺陷的几何属性，如长度，宽度，面积等，这些属性一般都有特定单位，如“米”“毫米”“平方米”等，用中文读音播报时，语音识别引擎返回的度量单位一般都是中文，例如，“1米”“2平方米”等，用户需要将其修改为符合要求的国际单位制的英文字母表达，如需要将其中的“米”修改为“m”，将“平方米”修改为“m²”，依靠人工处理语音识别结果，效率低下。

本发明通过设置单位转换规则，对识别结果文本执行相关转换，可以大幅度提高用户通过语音输入计量单位的可行性。

为了避免转换错误，通常转换规则中可加入上下文约束，如将字符组合为“数字+中文计量单位”的字符转换为“数字+国际单位制的英文字母”，转换规则类似：

$数字平方米＝$1m²

$数字毫米＝$1mm

此外，预设转换规则还可以包括：其他转换表达式、转换字典、或约定需要转换的词条和转换后的词条，可以包括代表特定字符的通配符。例如，这在混凝土的缺陷描述中大量使用，例如用户输入描述，测量人员播报“剥落露筋，面积零点八乘零点六平米”，记录人员记录的文本通常为：“剥落露筋，s:0.8×0.6m²”，s代表面积。用语音识别输入播报内容时，s等字母的发音通常可能识别错误，而直接用“面积”进行发音，通过前面的转换规则2-4处理后，语音处理后输出的识别结果文本“剥落露筋，面积0.8×0.6m²”中的面积被替换为“s:”。构件编号中，通常用“l”代表“左幅”，用“r”代表“右幅”，用“s”代表“上行线”，“x”代表下行线，这些符号，直接用英文字母发音时，识别结果不可靠，如“x”直接按惯例发音可能识别为“埃克斯”，可以约定代用词，定义转换规则来将代用词转换为目标字符，例如：

面积＝s:

上行线＝s

下行线＝x

左幅＝l

右幅＝r

如此，可以用约定的读音输入所需的符号，包括各种特殊字符。为了避免转换错误，转换规则可根据需求场景进行分类管理和运用，如特定规则只在构件编号识别时适用，在进行缺陷描述识别时不适应。也可在转换规则的定义或执行时进行上下文判断来减少错误。

同样，转换表达式也可以用于特定属性的常见错误识别结果强制纠正，例如对于构件编号中，识别出的“制作”实际上肯定是“支座”，通过维护转换规则并在构件编号识别处理时应用该规则来实现纠错：

制作＝支座

以下规则为转换规则1的一些示例，但不仅限于此。

规则1-1：建立“$数字米乘以＝$1m×”，表示将类似于“3米乘以”转换为“3m×”；

规则1-2：“^两米＝2米”，表示把两米替换为2米

规则1-3：“$数字米＝$1m”，表示把数字+米纠正为数字+m，如2米转换为2m。

对于识别结果文本中的“三米乘以两米”，依次调用以上转换规则的结果如下：

规则1-1执行后转换为“3m×两米”

继续执行规则1-2，转换为“3m×2米”

继续执行规则1-3，转换为“3m×2m”，得到符合规范要求的最终结果。

假设“识别结果文本”具有属性或者能进行属性切分，属性包括构件“编号”、“缺陷位置”、“缺陷描述”等，可为不同的属性建立专属转换规则，不同属性的识别结果文本应用不同的转换规则进行转换。同样的识别结果文本，属于不同属性时，其转换结果取决于所采用的转换规则，转换规则不同其转换结果也可能不同。例如，对于编号，可以通过转换规则将“1-2号风”中的风”纠正为“缝”，但不能将缺陷描述中的“风化”中的“风”纠正为“缝”。

如图3所示，预设转换规则还可以包括：用户纠错字典，用户纠错字典记录用户对识别结果文本的修改替换操作后获取的纠错词条，用于将“修改前表达”转换为“修改后表达”。

例如，提供界面供用户对“识别结果文本”进行编辑，将编辑前后的内容进行比对，识别出用户修改前的词条和修改后的词条的对应关系，将修改前的词条和修改后的词条对应关系作为转换规则加入预设转换规则，用于步骤14的转换过程。

用户纠错词典也可以按照“检测记录”的属性进行区分设置，假设“检测记录”的待分析录音数据或“识别结果文本”具有属性或者能进行属性切分，属性包括构件“编号”和“缺陷描述”等，则不同属性可生成不同的纠错词典，对应用于不同属性的识别结果文本转换。

用户纠错词典还可以为不同用户进行身份管理以设置个性化的纠错词典，用于纠正个人发音特点所致的识别错误。

例如，用户语音输入后，步骤13调用语音识别模型返回识别结果文本为“风场一米疯狂零点一毫米”，经14步骤转换后结果为“风场1m疯狂0.1mm”，用户核验发现结果不正确，将其修改为“缝长1m缝宽0.1mm”，通过比较确定用户修改前后的词条对应关系，如通过文本编辑距离等算法不难找出用户将“缝长”改为了“风场”，“疯狂”改为了“缝宽”，将修改前的词条和修改后的词条对应关系加入纠错词典和“预设转换规则”：

风场＝缝长

疯狂＝缝宽

新增的转换规则可被用于后续的步骤14。当下一次语音识别模型返回识别结果文本“风场一米”时，经步骤14应用该条转换规则处理后，“风场”将被替换为“缝长”，继续执行其他转换规则后，“一米”被转换为“1m”，最终输出符合用户预期的正确结果“缝长1m”，不断增补预设转换规则，可以将语音识别模型输出的具有识别错误以及不符合表达规范的结果一次性转换成了正确合规的文本。

进一步，为了减少“预设转换规则”识别错误，可以加入修改内容前后的上下文识别，形成更可靠更稳定的预设转换规则，如上述示例中，被修改词条后紧跟的数字，将该数字特征加入转换规则库：

风场$num＝缝长$1

疯狂$num＝缝宽$1

这样，当遇到“风场”的后续字符不是数字时，则不会进行替换，“风场较大”就不会被替换为“缝长较大”，而“风场2m”则会被转换为“缝长2m”。

具体设计和应用转换规则时，并不是简单的见到中文数字就替换为数字，例如“八字墙”的“八”就不应该替换，“四周”的“四”也不应该转换，通过在约定规则时考虑上下文的组合特征，可以减少错误的转换，同时，对于不能转换错误的重点词条，还可以设置排除清单，或者设置逆转换规则，逆转换规则，例如：

4周＝四周

8字墙＝八字墙

逆转换规则在预设转换规则的最后执行，将那些可能被错误转换的固定表达方式转换为正确的表达方式。

基于本发明的方法，增设了步骤14，可以提高工程检测领域语音数据的识别结果输出的准确性、表达方式的严谨性，使输出文本符合工程规范，大幅度减少了人工对文本进行编辑调整的工作量，提高了语音输入识别结果的实用价值。

根据权利要求1所述的方法，其特征在于，所述步骤15之后还包括：

步骤16：基于检测记录属性信息，生成检测报告和/或查询统计报表

本发明不限定步骤11、13、14、15和16的执行终端，任一步骤的执行终端既可以是移动终端，也可以是pc或者服务器。

以上方法中的步骤11的待分析录音数据可以是历史数据，也可以是任一录制设备生成的即时语音数据。

可选，图1的步骤14之后还可以包括：

步骤141：将已转换识别结果文本更新为检测记录的显示内容。

其中，应用程序的显示界面将显示内容的展示给用户，便于用户查阅和编辑，一般为逐条展示检测记录，如果显示内容具有相应的格式要求，则也需将已转换识别结果文本的格式做相应调整后再显示。

假设当前检测记录包括不同的n个可编辑属性，n≥1；则在语音数据的录制界面对应设置的n个录音子按钮，分别用于当前检测记录的每个属性的录制，即录音子按钮与可编辑属性一一对应。同时每个属性可以根据自身的特点设置专用的预设转换子规则和预设信息提取子规则，相比混合在一起处理，细化分对象的处理可以避免各个对象处理方法的彼此干扰，减少错误，确保获得更为精确的文本处理结果和检测记录属性信息提取结果。

基于该设计，步骤14中的“基于预设转换规则，”可调整为：基于属性对应的预设转换子规则。

同样地，步骤13中的“按预设信息提取规则”调整为：按属性对应的预设信息提取子规则。

进一步地，为n个录音子按钮设置一共用的父按钮，该父按钮用于控制子按钮的整体显示与隐藏和/或位置调整。也可以为该父按钮的特定交互动作设置录音功能，如长按录制照片备注，或者通用的缺陷播报语音。

例如当前检测记录的可编辑属性包括“编号”、“缺陷位置”和“缺陷描述”，则为“编号”设置独立录音子按钮，为“缺陷位置”设置独立录音子按钮，为“缺陷描述”设置独立录音子按钮。再设置一个父录音按钮，通过该父录音按钮控制其显示的2个以上子录音按钮，子录音按钮分别对应于当前检测记录的不同属性，通过子录音按钮录制的语音数据被存储到与该子录音按钮对应的检测记录保存区域。

子录音按钮与属性的对应关系通过可视化标识来表示，如相同的颜色、文字标题。例如缺陷位置录音子按钮增加标题“缺陷位置”，构件编号的录音子按钮增加标题“编号”。

进一步地，在步骤11之前还包括：

步骤10：任一录音子按钮生成当前检测记录对应属性的待分析录音数据。

其中步骤10可设置为生成待分析录音数据后立即执行图1的方法，另一方面任一录音子按钮生成的历史待分析录音数据也随时可以触发执行图1的方法，重新进行识别和提取。

基于上述录音子按钮的设计，步骤14还可以包括：根据已转换识别结果文本设置待分析录音数据的图标或文字标签。

如果已转换识别结果文本的内容较少，可以将已转换识别结果文本全部都设置为待分析录音数据的图标或文字标签。如果已转换识别结果文本的内容较多，则考虑显示的空间有限，可以将已转换识别结果文本中的关键内容设置为待分析录音数据的图标或文字标签。

如此，具有图标或文字标签待分析录音数据就可以在语音数据的录制界面同步显示，便于用户直观了解已转换识别结果文本内容或者已转换识别结果文本内容中的关键内容，待分析录音数据保存后，可根据用户指令对待分析录音数据进行回放校对和重新识别转换。

如某一待分析录音数据对应的“已转换识别结果文本”为“1-2#梁”，则该待分析录音数据文字标签显示为“1-2#梁”。如另一待分析录音数据对应的“已转换识别结果文本”为“1条纵向裂缝，缝长1m”，其标签文本可以设置为“1条纵向裂缝”或者“裂缝，缝长1m”。

录音子按钮生成待分析录音数据后，保存待分析录音数据和/或该待分析录音数据关联的已转换识别结果文本，并将该待分析录音数据和/或关联的已转换识别结果文本与当前检测记录的对应属性关联。同步保存语音数据和该语音数据对应的已转换识别结果文本，可以方便用户对已转换识别结果文本进行复核校对或者重新识别，在现场不便于进行识别时，保存的录音可用于后期进行语音识别。

传统的讯飞、百度等标准语音输入法输入语音数据进行识别，由于没有保存录音数据，如果录音质量有问题或者识别结果有误，后期靠回忆是很难纠错的，这也是语音识别输入技术在检测领域应用受限的重要原因之一。本发明将录音数据与检测记录(已转换识别结果文本)关联存储，方便后期回放校对与重新识别，这能够大幅度提高语音识别的容错性和可靠性。

本发明的识别过程、检测记录属性提取、语音回放校对、转换、过程，可以在检测移动终端实施，也可以在服务端和pc端实施。

属性“编号”用以描述检测记录的构件序号和类别，为了便于用户操作，当已转换识别结果文本对应属性为编号时，识别该已转换识别结果文本中的构件类别，查找构件类别对应的缺陷位置模板以及缺陷描述模板，在用户录制缺陷位置和缺陷描述时显示对应的模板。

提供模板可以帮助用户采用统一的表达方式播报语音，避免识别结果的随意性，也有助于提高识别的准确度，提高检测单位相关检测记录的规范性、统一性。

所显示的模板可作为用户播报语音时参考，也可以支持用户进行点选模板进行输入。

通过缺陷描述录音子按钮录制语音时，显示出所选缺陷类型的缺陷描述模板以方便新用户规范表达方式，改进检测记录的规范性。

例如：用户输入“1-2#梁”，判断出构件类型为“梁”。

缺陷位置模板筛选：

筛选出跟梁相关的缺陷位置模板，如：

“距大桩号方向梁端*m，距下游侧*m底面”

“梁底面1/4l处”等；

缺陷描述模板筛选：

筛选出梁的缺陷类型及其描述模板，如:

裂缝:

1条纵向裂缝，缝长4m，缝宽0.03mm

1处网状裂缝，面积1.5m*1.2m

蜂窝麻面：

蜂窝麻面，面积0.8㎡

...

模板可以是具体的文本，也可以包括通配符，例如：

蜂窝麻面，面积$num㎡

模板中的$num代表数字。

可以为不同的模板设置对应的输入界面。

缺陷位置模板在用户录制缺陷位置语音时显示出来，缺陷描述模板在用户录制缺陷描述语音时显示出来(例如按下相应录音子按钮)，以提示用户按照建议的方式播报，以保障记录的标准化,显示方式和内容根据需要设计。

为了便于用户直观了解检测记录对应的文本信息，步骤14之后还包括：

步骤17：显示每个检测记录各属性关联的待分析录音数据和待分析录音数据的图标或文字标签内容；在检测记录的编辑页面对应显示各属性关联的待分析录音数据的已转换识别结果文本；响应用户拖动调整任一待分析录音数据的位置的命令，对应调整对象属性的编辑页面中任一待分析录音数据关联的已转换识别结果文本的位置。

在对象属性的编辑页面，如果同一对象同一属性包含至少2个已转换识别结果文本，在已转换识别结果文本之间插入分隔符。

检测记录的每个属性可以录制和保存多段语音，对应显示多个语音标签，响应用户对语音标签的触摸拖动操作，将用户所选语音标签移动到新的目标位置，同时调整其他受影响的语音标签的顺序，根据属性下语音标签顺序重新组合显示已转换识别结果文本。

如，在对缺陷描述属性，录入的缺陷描述语音图标1的文本标签显示为“剥落露筋”，缺陷描述语音图标2的文本标签显示为“s＝0.5㎡”，组合成连续的记录文本“剥落露筋，s＝0.5㎡”。当用户将语音标签“s＝0.5㎡”拖到“剥落露筋”前面时，语音标签交换显示顺序，对应的组合记录文本也变为“s＝0.5㎡，剥落露筋”

优先采用分段录音的原因在于：现场检测时，缺陷的几何特征需要分别进行测量，通常不能一次性播报缺陷的几个属性，甚至还需要进行计算或者估算后播报。例如首先发现“剥落露筋”缺陷，先进行播报，播报“剥落露筋”后再估测其面积，然后播报“s＝0.5㎡”，已转换识别结果文本被组合起来显示以方便用户修改文本，不同属性之间往往需要用“，”号隔开，“，”可以自动添加，也可以根据需要设置添加“，”的规则。

综上，本发明方法支持如下操作：

i.语音片段(待分析录音数据)可根据需要设置是否进行语音处理(图1的方法)或者语音处理(图1的方法)结果是否需用于更新当前检测记录或当前检测记录的属性；

ii.为语音片段(待分析录音数据)生成一个与已转换识别结果文本相关的图标或文字标签；

iii.语音片段(待分析录音数据)支持拖动操作，根据拖动的方向、距离、结束位置对语音片段进行操作，包括：调整顺序，调整对应属性，删除等；

1.当将图标进行上下拖动，拖动的距离超过预设阈值后或者拖动结束的位置满足预设条件时，例如，拖动时，界面上显示垃圾桶图标，将该语音片段拖动到垃圾桶图标上释放则删除该语音片段；对语音片段的操作支持撤销重做；

2.当图标进行水平拖动时，通过拖动的距离大小以及和其他同域内图标的位置关系，进行标点符号的增删或语音片段的顺序调整；

向右拖动一个图标，当其左侧有图标时，如果拖动的距离在预设阈值范围内时，如果该图标左侧没有“，”号，在该图标左侧增加“，”号。

语音片段(待分析录音数据)拖动顺序调整后，与其对应的已转换识别结果文本根据语音段的顺序进行重新组合显示。

本发明还提供一种语音处理装置以及包含该装置的系统，包括处理器和上述的非瞬时计算机可读存储介质。

如图4所示，语音处理装置包括：

语音获取模块：获取跟检测记录相关联的待分析录音数据；

语音识别模块：基于具有工程检测专业词汇识别能力的语音识别模型，将待分析语音数据转换为识别结果文本；

提取模块：按预设信息提取规则，从识别结果文本中提取检测记录属性信息。

可选地，在语音识别模块之后以及提取模块之前还包括：

文本转换模块模块：基于预设转换规则，将识别结果文本转换为符合工程检测用语规范的识别结果文本。

可选地，在提取模块之后还包括：

检测报告生成模块：基于检测记录属性信息，生成检测报告和/或查询统计报表。

可选地，在文本转换模块中的预设转换规则至少包括：

转换规则1：将“第一表达”转换为“第二表达”。

而转换规则1可以包括转换规则2、转换规则3和/或转换规则4：

转换规则2：将中文数字转换为阿拉伯数字；

转换规则3：将文字编号标识转换为预设符号，所述预设符号包括：半角或全角字符的“-”、“#”或“～”。

转换规则4：将中文计量单位转换为国际单位制的英文字母表达。

进一步，预设转换规则还包括用户纠错字典，用户纠错字典记录用户对已转换识别结果文本的修改替换操作后获取的纠错词条，用于将“修改前表达”转换为“修改后表达”。

可选地，上述预设信息提取规则至少包括：

提取规则1：定义构件编号提取规则，用于将识别结果文本中的“第一编号表达”提取为“第二编号表达”；

提取规则2：定义缺陷位置提取规则，用于将识别结果文本中的“第一位置表达”提取为“第二位置表达”；

提取规则3：定义缺陷描述提取规则，用于将识别结果文本中的“第一缺陷描述”提取为“第二缺陷描述”。

可选地，当前检测记录包括不同的n个可编辑属性，n≥1；该装置还包括与当前检测记录的属性对应设置的n个录音子按钮；以及为n个录音子按钮设置一共用的父按钮，父按钮用于控制子按钮的整体显示与隐藏和/或位置调整；该装置还包括：

录制模块：任一录音子按钮生成当前检测记录对应属性的待分析录音数据。录音子按钮和父按钮均设置在录制模块上。

可选地，文本转换模块还包括：根据已转换识别结果文本内容设置待分析录音数据的图标或文字标签。

进一地：录制模块保存待分析录音数据，并将该待分析录音数据与当前检测记录的对应属性关联。文本转换模块保存已转换识别结果文本，并将该已转换识别结果文本与当前检测记录的对应属性关联。

可选地，属性至少包括编号、缺陷位置和缺陷描述，编号用以描述检测记录的构件类别和序号，文本转换模块还包括：

当已转换识别结果文本对应属性为编号时，识别已转换识别结果文本中的构件类别，查找构件类别对应的缺陷位置模板以及缺陷描述模板，在用户录制缺陷位置或缺陷描述时触发录制模块显示对应的模板。

可选地，该装置还包括：

显示模块：显示每个检测记录各属性关联的待分析录音数据和待分析录音数据的图标或文字标签内容；在检测记录的编辑页面对应显示各属性关联的待分析录音数据的已转换识别结果文本；响应用户拖动调整任一待分析录音数据的位置的命令，对应调整对象属性的编辑页面中任一待分析录音数据关联的已转换识别结果文本的位置。

进一步地，在对象属性的编辑页面，如果同一对象同一属性包含至少2个已转换识别结果文本，在已转换识别结果文本之间插入分隔符。

进一步地，预设转换规则包括与n个属性对应的n个预设转换子规则；

基于预设转换子规则调整为：基于属性对应的预设转换子规则。

进一步地，预设信息提取规则包括与n个属性对应的n个预设信息提取子规则；相应地，按预设信息提取规则调整为：按属性对应的预设信息提取子规则。

在上述模块之外，该装置还可以包括：

检测记录管理模块：用于管理历史检测记录，支持检测记录的更新、删除、位置调整等操作。需要说明的是，本发明的语音数据处理装置的实施例，与语音数据处理方法的实施例原理相同，相关之处可以互相参照。

需要说明的是，本发明实施例以桥梁为例，具体应用时，也适用于于隧道，港口码头，大坝，房屋建筑等的工程检测，此外本发明的语音数据处理装置的实施例，与语音数据处理方法的实施例原理相同，相关之处可以互相参照。

以上所述仅为本发明的较佳实施例而已，并不用以限定本发明的包含范围，凡在本发明技术方案的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘炳林;程勇;孔浩
技术所有人：重庆海特科技发展有限公司
我是此专利的发明人

上一篇：罐式车辆的制作方法
上一篇：调度侧链路资源的请求方法、装置及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。