一种语音数据采集和识别方法及装置与流程

文档序号：32691516发布日期：2022-12-27 18:36阅读：47来源：国知局

1.本发明涉及语音处理领域，具体涉及一种语音数据采集和识别方法及装置。

背景技术：

2.随着计算机技术和通信技术的快速发展，机器学习越来越多地应用到人们的生活中，在人与计算机的交互，促使了语音识别技术的迅猛发展，而在语音识别模型训练中，如何快速的获取到这种高质量、多样性的数据是一个挑战。
3.而在语音识别技术发展的过程中，需要大规模的对语音数据进行采集和处理，现有的语音处理技术，是将语音数据的采集和处理分开完成，而且在语音采集时无法实现音频的自动分割，这导致后期对语音数据的处理变得复杂，从而使语音处理的成本变高但效率却比较低。
4.因此，如何对语音数据进行高效的处理成为目前亟待解决的问题。

技术实现要素：

5.因此，本发明要解决的技术问题在于克服现有技术中的语音处理成本高效率低的缺陷，从而提供一种语音数据采集和识别方法及装置。
6.第一方面，本发明提供了一种语音数据采集方法，该方法由终端设备执行，包括：根据第一操作指令，展示预设应用程序的操作页面；获取被采集对象在操作页面输入的属性信息；根据第二操作指令，在预设应用程序的操作页面逐条展示预配置的词条文本标签，以便被采集对象读取词条文本标签后，生成与词条文本标签对应的语音数据；当确定词条文本标签录制完成后，生成与词条文本标签对应的语音文件；将语音文件和属性信息上传至服务器，以便服务器根据语音文件识别语音文件对应的文本数据，并验证词条文本标签与文本数据之间的一致性。
7.通过获取被采集对象的属性信息，便于完整保存被采集对象的个人信息，方便后续按人员信息选取对应的语音数据；获取到第二操作指令后，被采集对象根据操作页面显示的预配置好的词条文本标签进行语音录制，当录制完成后，终端设备获取录制完的语音数据，并生成与词条文本标签对应的语音文件，并将语音文件和属性信息上传至服务器，以便于服务器对语音文件进行识别；通过此方法便于逐条录制语音数据，解决了现有技术中无法实现音频自动分割的缺陷，降低了后期语音处理的人工成本，提高了处理效率。
8.结合第一方面，在第一方面的第一实施例中，在预设应用程序的操作页面展示预配置的词条文本标签之前，包括：获取被采集对象在操作页面选择的录制项目；基于录制项目确定录制项目对应的至少一个词条文本标签。
9.通过获取被采集对象选择的录制项目，终端将根据该录制项目确定该项目对应的至少一个词条文本标签，以便于在被采集对象开始录制后将词条文本标签逐一在操作页面显示。
10.结合第一方面，在第一方面的第二实施例中，操作页面还用于展示当前已经录制
完成的词条数目，未完成录制的词条数目，以及词条总数目。
11.通过在操作页面展示已完成录制词条数目、未完成词条数目以及词条总数目，便于被采集对象根据操作页面所显示的信息进行合理的时间安排，给用户提供了良好的体验感。
12.结合第一方面，在第一方面的第三实施例中，该方法还包括：获取目标对象在操作页面执行的第三操作指令；根据第三操作指令，控制操作页面执行更换词条文本标签展示动作，用以展示与第三操作指令对应的词条文本标签，其中第三操作指令用以指示展示当前词条文本标签的前一个词条文本标签，或者展示当前词条文本标签的下一个词条文本标签。
13.通过第三操作指令，可以灵活展示当前词条的前一个词条和下一个词条，便于用户根据当前词条的录制完成情况进行灵活切换，不仅能够为用户节约录制时间，还可以在前一个词条文本标签没录好的情况下重新进行录制，进而提高语音采集的效率。
14.结合第一方面，在第一方面的第四实施例中，该方法还包括：操作页面还用于展示录制时间进度条，时间进度条与当前词条文本标签的文本长度相对应，用以提示当前词条文本标签的录制进度；当根据时间进度条，确定当前词条文本标签被录制完成后，切换下一个词条文本标签，并在操作页面进行展示。
15.通过操作页面的进度条提示，能够让被采集对象根据当前进度条的位置灵活控制录制过程的语速，以便在合理时间内完成录制；并且当时间进度条确定当前词条文本标签录制完成后，自动切换至下一个词条，避免了由于当前词条的录制时间太长而导致语音采集效率变低，从而提高了语音采集的效率。
16.第二方面，本发明提供了一种语音数据识别方法，方法由服务器端执行，包括：获取被采集对象的属性信息和语音文件；对语音文件进行首次识别，生成第一文本数据，根据第一文本数据与预存储的语音文件对应的词条文本标签确定第一识别结果；当第一识别结果为识别失败时，对语音文件进行二次识别，生成第二文本数据，基于第二文本数据与预存储的语音文件对应的词条文本标签确定第二识别结果；当第一识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置；或者，当第一识别结果为识别失败，且第二识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
17.通过对获取的语音文件进行首次识别，将首次识别失败的语音文件进行二次识别，最终将首次识别成功或者首次识别失败但二次识别成功的语音文件存储至第一存储位置，将首次识别成功或者首次识别失败但二次识别成功的语音文件对应的被采集对象的属性信息存储至第二存储位置，对语音文件和被采集对象的属性信息进行存储便于后期对语音文件或被采集对象属性信息的获取。结合第二方面，在第二方面的第一实施例中，根据第一文本数据与语音文件对应的词条文本标签确定第一识别结果，包括：当第一文本数据与词条文本标签一致时，则确定第一识别结果为识别成功；或者，当第一文本数据与词条文本标签不一致时，则确定第一识别结果为识别失败。
18.通过第一文本数据和对应词条文本标签的一致性判断第一识别结果是否成功，通过对第一识别结果的判断决定了是否要对当前语音文件进行二次识别。
19.结合第二方面，在第二方面的第二实施例中，还包括：当第一识别结果为识别失败
时，则获取人工识别结果；当人工识别结果为识别成功时，将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
20.通过获取人工识别的结果确定语音文件是否需要存储，当人工识别结果为识别成功时，则可将识别成功的语音文件和对应的被采集对象的属性信息进行存储，提高了语音识别的准确度。
21.第三方面，本发明提供了一种语音数据采集装置，包括：第一展示模块，用于根据第一操作指令，展示预设应用程序的操作页面；第一获取模块，用于获取被采集对象在操作页面输入的属性信息；第一生成模块，用于根据第二操作指令，在预设应用程序的操作页面逐条展示预配置的词条文本标签，以便被采集对象读取词条文本标签后，生成与词条文本标签对应的语音数据；第二生成模块，用于当确定词条文本标签录制完成后，生成与词条文本标签对应的语音文件；上传模块，用于将语音文件和属性信息上传至服务器，以便服务器根据语音文件识别语音文件对应的文本数据，并验证词条文本标签与文本数据之间的一致性。
22.第四方面，本发明提供了一种语音数据识别装置，包括：第一获取模块，用于获取被采集对象的属性信息和语音文件；第一确定模块，用于对语音文件进行首次识别，生成第一文本数据，根据第一文本数据与预存储的语音文件对应的词条文本标签确定第一识别结果；第二确定模块，用于当第一识别结果为识别失败时，对语音文件进行二次识别，生成第二文本数据，基于第二文本数据与预存储的语音文件对应的词条文本标签确定第二识别结果；第一存储模块，用于当第一识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置；第二存储模块，用于当第一识别结果为识别失败，且第二识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
附图说明
23.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
24.图1为本发明实施例提供的语音数据采集方法的流程图；
25.图2为本发明实施例提供的操作页面示意图；
26.图3为本发明实施例提供的语音数据识别方法的流程图；
27.图4为本发明实施例提供的语音数据采集装置连接图；
28.图5为本发明实施例提供的语音数据识别装置连接图；
29.图6为本发明实施例提供的语音数据识别交互图；
30.图7为本发明实施例提供的用于语音数据采集的计算机设备连接图；
31.图8为本发明实施例提供的用于语音数据识别的计算机设备连接图。
具体实施方式
32.下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施
例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
33.本发明公开了一种语音数据采集方法，该方法由终端设备执行，如图1所示，具体包括如下步骤：
34.步骤s11：根据第一操作指令，展示预设应用程序的操作页面。
35.具体的，第一操作指令可以为设备启动指令，也可以是某一个触发指令等，终端设备接收到第一操作指令后，在终端设备上展示采集的操作页面，该操作页面上可以包含被采集人信息，录制项目，词条文本标签等任何可用于提示语音采集的信息，操作页面示意图如图2所示。
36.具体的，该方法可在手机和pc端，方式可通过微信小程序，应用程序，web浏览器或者用于语音数据采集的软件中进行操作。
37.步骤s12：获取被采集对象在操作页面输入的属性信息。
38.具体的，终端设备获取被采集对象根据操作页面的提示键入的属性信息，该属性信息可以是被采集对象的用户名，性别，年龄，出生地，方言等信息，该属性信息是被采集对象主动自愿提供的，且该属性信息并不涉及个人隐私等敏感信息。
39.步骤s13：根据第二操作指令，在预设应用程序的操作页面逐条展示预配置的词条文本标签，以便被采集对象读取词条文本标签后，生成与词条文本标签对应的语音数据。
40.具体的，被采集对象触发第二操作指令，根据操作页面逐条显示的词条文本标签逐条进行读取，终端设备根据被采集对象录制的内容生成该词条文本标签对应的语音数据，其中第二操作指令可以是用于触发终端设备开始采集语音数据的指令。
41.步骤s14：当确定词条文本标签录制完成后，生成与词条文本标签对应的语音文件。
42.具体的，当当前词条文本标签录制完成后，可以将语音数据与该语音数据对应的词条文本标签绑定生成语音文件，该语音文件可以录制时间，录制项目或者对应的词条文本标签等信息命名，以便后期需要查找该语音文件时，可以根据唯一标识的信息对语音文件进行查找。
43.步骤s15：将语音文件和属性信息上传至服务器，以便服务器根据语音文件识别语音文件对应的文本数据，并验证词条文本标签与文本数据之间的一致性。
44.具体的，终端设备可将一个语音文件和该语音文件对应的被采集对象的属性信息上传至服务器，也可在一个录制项目中的所有词条文本标签全部录制结束后，将多个词条文本标签对应的多个语音文件和被采集对象的属性信息一起上传至服务器中。
45.通过获取被采集对象的属性信息，便于完整保存被采集对象的个人信息，方便后续按人员信息选取对应的语音数据；获取到第二操作指令后，被采集对象根据操作页面显示的预配置好的词条文本标签进行语音录制，当录制完成后，终端设备获取录制完的语音数据，并生成与词条文本标签对应的语音文件，并将语音文件和属性信息上传至服务器，以便于服务器对语音文件进行识别；通过此方法便于逐条录制语音数据，解决了现有技术中无法实现音频自动分割的缺陷，降低了后期语音处理的人工成本，提高了处理效率。
46.在一可选实施例中，在预设应用程序的操作页面展示预配置的词条文本标签之前，包括：获取被采集对象在操作页面选择的录制项目；基于录制项目确定录制项目对应的
至少一个词条文本标签。
47.示例性地，被采集对象在操作页面完成个人信息的录入之后，可在操作页面选择一项录制项目，终端设备可根据用户端所选择的录制项目从数据库中获取该录制项目对应的至少一个词条文本标签并将该项目对应的词条文本标签存储至缓冲区等便于直接取用的地方；如当前项目中，项目3为快速用粤语讲话，那么终端设备会根据所选择的项目3从数据库词条存储的位置中获取项目3对应的词条文本标签，并根据特定的指令或者特定的时间间隔将词条文本标签逐一显示于操作页面上。
48.示例性地，在该录制项目中，不仅可以规定录制的语言和语速，还可以对录制的环境进行设定，比如某项目为在有音乐的房间用粤语快速讲话，终端设备会根据所选择的项目从数据库中词条的存储位置获取该项目对应的全部词条文本标签，并将该项目对应的全部词条文本标签调用至缓存区或者数据库中的某一预设位置，并且终端设备根据该项目中对录制环境的要求进行音频的调用，如当前项目的录制环境是有音乐的房间，那么此时从数据库中调用“有音乐”的音频，此声音是提前配置好并且存放于数据库的预设位置中，当获取到第二操作指令时，那么终端设备调用该项目的词条文本标签显示于操作页面，同时调用该项目对应的环境要求中的声音进行循环播放。
49.通过获取被采集对象选择的录制项目，终端将根据该录制项目确定该项目对应的至少一个词条文本标签，以便于在被采集对象开始录制后将词条文本标签逐一在操作页面显示。
50.在一可选实施例中，操作页面还用于展示当前已经录制完成的词条数目，未完成录制的词条数目，以及词条总数目。
51.示例性地，如图2所示，终端设备可根据被采集对象选择的录制项目调用预存储于数据库中的该项目对应的词条文本标签，并将词条文本标签的数量显示于操作页面上，并根据当前的录制情况将已完成录制的词条数目和未完成录制的词条数目均显示于操作页面上。
52.通过在操作页面展示已完成录制词条数目、未完成词条数目以及词条总数目，便于被采集对象根据操作页面所显示的信息进行合理的时间安排，给用户提供了良好的体验感。
53.在一可选实施例中，该方法还包括：获取目标对象在操作页面执行的第三操作指令；根据第三操作指令，控制操作页面执行更换词条文本标签展示动作，用以展示与第三操作指令对应的词条文本标签，其中第三操作指令用以指示展示当前词条文本标签的前一个词条文本标签，或者展示当前词条文本标签的下一个词条文本标签。
54.示例性地，第三操作指令可以是操作页面中的上一条和下一条的触发指令，当被采集对象录制完当前词条文本标签时，可以手动点击操作页面上的“下一条”，那么终端设备收到“下一条”的触发指令时，会调用当前词条文本标签的下一条词条文本标签，并将下一条词条文本标签显示于操作页面上；当被采集对象感觉上一条词条文本标签对应的语音没录制好，想要重新录制时，可点击操作页面上的“上一条”，那么终端设备收到“上一条”的触发指令时，会调用当前词条文本标签的上一条词条文本标签，并将其显示于操作页面上。
55.通过第三操作指令，可以灵活展示当前词条的前一个词条和下一个词条，便于用户根据当前词条的录制完成情况进行灵活切换，不仅能够为用户节约录制时间，还可以对
词条文本标签进行重新录制，进而提高语音采集的效率和用户的体验感。
56.在一可选实施例中，该方法还包括：操作页面还用于展示录制时间进度条，时间进度条与当前词条文本标签的文本长度相对应，用以提示当前词条文本标签的录制进度；当根据时间进度条，确定当前词条文本标签被录制完成后，切换下一个词条文本标签，并在操作页面进行展示。
57.示例性地，在操作页面上还可显示有进度条，该进度条用以提示当前词条文本标签的录制情况，该时间进度条的时长设置与当前词条文本标签的文本长度有关，例如，可根据正常情况下，正常人以正常速度讲话，可以在一秒钟之内读取3个字，那么终端设备会根据当前词条文本标签的长度进行时间的计算，并在计算结果的基础上增加3-5秒的弹性时长作为最后时间进度条的时长，以保证正常情况下能在给定时间进度条的时长内完成语音数据的采集；或者可根据词条文本标签的字节长度，根据预设好的规则进行时间进度条时长的确定等。
58.示例性地，终端设备将词条文本标签显示于操作页面可根据上述“上一条”或“下一条”的触发指令进行来回切换，也可根据时间进度条的时长进行切换；在当前时间进度条结束之前，如果终端设备没有获取到“上一条”或者“下一条”的触发指令，则会在时间进度条结束的时刻自动切换至下一条词条文本标签；即当被采集对象在时间进度条结束前已经读取完显示于操作页面的词条文本标签时，可以按“下一条”进行下一条词条文本标签的读取；或者被采集对象可以等时间进度条结束后自动切换至“下一条”进行下一条词条文本标签的读取。
59.通过操作页面的进度条提示，能够让被采集对象根据当前进度条的位置灵活控制录制过程的语速，以便在合理时间内完成录制；并且当时间进度条确定当前词条文本标签录制完成后，自动切换至下一个词条，避免了由于当前词条的录制时间太长而导致语音采集效率变低，从而提高了语音采集的效率。
60.本发明公开了一种语音数据识别方法，方法由服务器端执行，如图3所示，具体包括如下步骤：
61.步骤s31：获取被采集对象的属性信息和语音文件。
62.具体的，服务器从终端设备中获取被采集对象的属性信息和语音文件，获取时可以获取一条语音文件和该条语音文件对应的属性信息，也可以同时获取多条语音文件和多条语音文件对应的属性信息。
63.步骤s52：对语音文件进行首次识别，生成第一文本数据，根据第一文本数据与预存储的语音文件对应的词条文本标签确定第一识别结果。
64.具体的，在获取语音文件和属性信息后，调用第一识别引擎对语音文件进行首次识别，第一识别引擎可以是任意一个智能识别引擎，识别时，第一识别引擎会将语音文件转换为文本数据，文本数据可以是识别到的文字内容，也可以是识别到的发音对应的字符串，该字符串可以是根据语音数据识别的拼音；服务器将识别后生成的文本数据与词条文本标签进行一致性比对，从而根据文本数据与词条文本标签的一致性生成首次识别的结果即第一识别结果，词条文本标签可以是预先存储于服务器数据库中，可以通过语音文件与对应词条文本标签相关联的标识从数据库中进行调用，或者，当语音文件中包含语音数据和词条文本标签时，直接可以进行一致性比对等；此处第一识别引擎中的“第一”仅用于区分两
次识别，并无其它实质性含义。
65.步骤s53：当第一识别结果为识别失败时，对语音文件进行二次识别，生成第二文本数据，基于第二文本数据与预存储的语音文件对应的词条文本标签确定第二识别结果。
66.具体的，在首次识别失败后，为提高识别的精确程度，会进行二次识别时，故此处调用区别于第一识别引擎的第二识别引擎对语音文件进行二次识别；二次识别后，生成对应的第二文本数据，第二文本数据也可以是识别到的文字内容或识别到的字符串，服务器会将第二文本数据与词条文本标签进行一致性比对，根据比对的结果确定二次识别的结果。
67.步骤s54：当第一识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
68.具体的，当首次识别成功时，将识别成功的语音文件上传至数据库中的第一存储位置，第一存储位置可用于存储识别成功的语音文件，将识别成功的语音文件对应的被采集对象的属性信息存储于第二存储位置，第二存储位置用于存储识别成功的语音文件对应的被采集对象的属性信息，便于后期对有效的语音文件或者有效语音文件对应的被采集对象的属性信息进行查找。
69.步骤s55：或者，当第一识别结果为识别失败，且第二识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
70.具体的，当首次识别失败时，对语音文件进行二次识别，将二次识别成功的语音文件存储于第一存储位置，将该条语音文件对应的被采集对象的属性信息存储于第二存储位置。
71.具体的，在对语音文件进行首次识别或者二次识别后，可将识别结果返回至终端设备
72.通过对获取的语音文件进行首次识别，将首次识别失败的语音文件进行二次识别，最终将首次识别成功或者首次识别失败但二次识别成功的语音文件存储至第一存储位置，将首次识别成功或者首次识别失败但二次识别成功的语音文件对应的被采集对象的属性信息存储至第二存储位置，对语音文件和被采集对象的属性信息进行存储便于后期对语音文件或被采集对象属性信息的获取，具体过程如图4所示。
73.在一可选实施例中，根据第一文本数据与语音文件对应的词条文本标签确定第一识别结果，包括：当第一文本数据与词条文本标签一致时，则确定第一识别结果为识别成功；或者，当第一文本数据与词条文本标签不一致时，则确定第一识别结果为识别失败。
74.示例性地，服务器通过第一文本数据和词条文本标签的一致性比对确定第一识别结果，如果第一文本数据和词条文本标签一致，则说明识别成功，如果第一文本数据和词条文本标签不一致，则说明识别失败。
75.如果第一文本数据为文字内容，那么需要将文字内容与词条文本标签的文字内容进行比对；如果第一文本数据为拼音字符串，那么需要将拼音字符串与词条文本标签的拼音字符串进行比对。
76.通过第一文本数据和对应词条文本标签的一致性判断第一识别结果是否成功，通过对第一识别结果的判断决定了是否要对当前语音文件进行二次识别。
77.在一可选实施例中，还包括：当第一识别结果为识别失败时，则获取人工识别结
果；当人工识别结果为识别成功时，将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
78.示例性地，在首次识别失败后，为提高识别精确度，也可以利用人工识别进行再次识别，服务器会获取人工识别的结果，当人工识别结果是识别成功时，则将识别成功的语音文件存储至第一存储位置，将识别成功的语音文件对应的被采集对象的属性信息存储至第二存储位置。
79.示例性地，人工识别结果为识别成功可以包括两种情况，一种情况为，人工识别后的文本数据与词条文本标签一致时，则确定人工识别结果为成功；另一情况为，语音数据人工识别后的文本数据与词条文本标签不一致，但识别人员识别到当前语音数据发音标准清晰时，则可人为判断文本数据与词条文本标签不一致的情况是被采集人的口误导致的，此时该条语音数据依然是有效数据，可用于语音训练，所以此时会将词条文本标签修改为与人工识别的文本数据一致的内容。如：词条文本标签为：“打开空调”，但在人工识别时识别到的文本数据是“关闭空调”，虽然词条文本标签和识别到的文本数据不一致，但识别人员在识别过程中发现该条语音数据发音标准清晰，则判断该条语音数据是被采集对象在录制过程中发生口误而导致的，所以该语音数据为有效数据，此时会将词条文本标签“打开空调”修改为与人工识别的文本数据一致的内容即“关闭空调”，此时词条文本数据与文本数据一致，均为“关闭空调”，故将人工识别结果视为成功，当人工识别结果为成功时，即可对识别成功的语音数据进行存储。
80.通过获取人工识别的结果确定语音文件是否需要存储，当人工识别结果为识别成功时，则可将识别成功的语音文件和对应的被采集对象的属性信息进行存储，提高了语音识别的准确度。
81.本发明公开了一种语音数据采集装置，如图5所示，具体包括如下模块：
82.第一展示模块51，用于根据第一操作指令，展示预设应用程序的操作页面。
83.第一获取模块52，用于获取被采集对象在操作页面输入的属性信息。
84.第一生成模块53，用于根据第二操作指令，在预设应用程序的操作页面逐条展示预配置的词条文本标签，以便被采集对象读取词条文本标签后，生成与词条文本标签对应的语音数据。
85.第二生成模块54，用于当确定词条文本标签录制完成后，生成与词条文本标签对应的语音文件。
86.上传模块55，用于将语音文件和属性信息上传至服务器，以便服务器根据语音文件识别语音文件对应的文本数据，并验证词条文本标签与文本数据之间的一致性。
87.在一可选实施例中，在展示模块之前，包括：第二获取模块，用于获取被采集对象在操作页面选择的录制项目；确定模块，用于基于录制项目确定录制项目对应的至少一个词条文本标签。
88.在一可选实施例中，操作页面还用于展示当前已经录制完成的词条数目，未完成录制的词条数目，以及词条总数目。
89.在一可选实施例中，装置还包括：第三获取模块，用于获取目标对象在操作页面执行的第三操作指令；控制模块，用于根据第三操作指令，控制操作页面执行更换词条文本标签展示动作，用以展示与第三操作指令对应的词条文本标签，其中第三操作指令用以指示
展示当前词条文本标签的前一个词条文本标签，或者展示当前词条文本标签的下一个词条文本标签。
90.在一可选实施例中，装置还包括：第二展示模块，操作页面还用于展示录制时间进度条，时间进度条与当前词条文本标签的文本长度相对应，用以提示当前词条文本标签的录制进度；切换模块，用于当根据时间进度条，确定当前词条文本标签被录制完成后，切换下一个词条文本标签，并在操作页面进行展示。
91.本发明公开了一种语音数据识别装置，如图6所示，具体包括如下模块：
92.第一获取模块61，用于获取被采集对象的属性信息和语音文件；
93.第一确定模块62，用于对语音文件进行首次识别，生成第一文本数据，根据第一文本数据与预存储的语音文件对应的词条文本标签确定第一识别结果；
94.第二确定模块63，用于当第一识别结果为识别失败时，对语音文件进行二次识别，生成第二文本数据，基于第二文本数据与预存储的语音文件对应的词条文本标签确定第二识别结果；
95.第一存储模块64，用于当第一识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置；
96.第二存储模块65，用于当第一识别结果为识别失败，且第二识别结果为识别成功时，则将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
97.在一可选实施例中，第一确定模块，包括：第一确定子模块，用于当第一文本数据与词条文本标签一致时，则确定第一识别结果为识别成功；第二确定子模块，用于当第一文本数据与词条文本标签不一致时，则确定第一识别结果为识别失败。
98.在一可选实施例中，还包括：第二获取模块，用于当第一识别结果为识别失败时，则获取人工识别结果；第三存储模块，用于当人工识别结果为识别成功时，将语音文件存储至第一存储位置，将语音文件对应的属性信息存储至第二存储位置。
99.本实施例提供一种服务器，如图7所示，该服务器用于数据采集，可以包括至少一个处理器71、至少一个通信接口72、至少一个通信总线73和至少一个存储器74，其中，通信接口72可以包括显示屏(display)、键盘(keyboard)，可选通信接口72还可以包括标准的有线接口、无线接口。存储器74可以是高速ram存储器(random access memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图7所描述的装置，存储器74中存储应用程序，且处理器71调用存储器74中存储的程序代码，以用于执行上述终端设备端任意方法实施例的语音数据采集方法的步骤。
100.其中，通信总线73可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。通信总线73可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
101.其中，存储器74可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：ram)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：hdd)或固态硬盘(英文：solid-state drive，缩写：ssd)；存储器74还可以包括
上述种类的存储器的组合。
102.其中，处理器71可以是中央处理器(英文：central processing unit，缩写：cpu)，网络处理器(英文：network processor，缩写：np)或者cpu和np的组合。
103.其中，处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：asic)，可编程逻辑器件(英文：programmable logic device，缩写：pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：cpld)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：fpga)，通用阵列逻辑(英文：generic array logic,缩写：gal)或其任意组合。可选地，存储器74还用于存储程序指令。处理器71可以调用程序指令，实现本发明任一终端设备端实施例中的语音数据采集方法。
104.本实施例提供一种服务器，如图8所示，该服务器用于语音数据识别，可以包括至少一个处理器81、至少一个通信接口82、至少一个通信总线83和至少一个存储器84，其中，通信接口82可以包括显示屏(display)、键盘(keyboard)，可选通信接口82还可以包括标准的有线接口、无线接口。存储器84可以是高速ram存储器(random access memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器84可选的还可以是至少一个位于远离前述处理器81的存储装置。其中处理器81可以结合图8所描述的装置，存储器84中存储应用程序，且处理器81调用存储器84中存储的程序代码，以用于执行上述语音数据识别方法的步骤。
105.其中，通信总线83可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。通信总线83可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
106.其中，存储器84可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：ram)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：hdd)或固态硬盘(英文：solid-state drive，缩写：ssd)；存储器84还可以包括上述种类的存储器的组合。
107.其中，处理器81可以是中央处理器(英文：central processing unit，缩写：cpu)，网络处理器(英文：network processor，缩写：np)或者cpu和np的组合。
108.其中，处理器81还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：asic)，可编程逻辑器件(英文：programmable logic device，缩写：pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：cpld)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：fpga)，通用阵列逻辑(英文：generic array logic,缩写：gal)或其任意组合。可选地，存储器84还用于存储程序指令。处理器81可以调用程序指令，实现本发明任一语音数据识别方法。
109.本实施例提供一种计算机可读存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述搜索引擎端对应的任意方法实施例中的语音数据采集方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)、随机存储
记忆体(random access memory，ram)、快闪存储器(flash memory)、硬盘(hard disk drive，缩写：hdd)或固态硬盘(solid-state drive，ssd)等；存储介质还可以包括上述种类的存储器的组合。
110.本实施例提供一种计算机可读存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述应用系统端对应的任意方法实施例中的语音数据识别方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)、随机存储记忆体(random access memory，ram)、快闪存储器(flash memory)、硬盘(hard disk drive，缩写：hdd)或固态硬盘(solid-state drive，ssd)等；存储介质还可以包括上述种类的存储器的组合。
111.显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄启洲
技术所有人：北京探境科技有限公司
我是此专利的发明人

上一篇：故障点距离测量方法及装置与流程
上一篇：同步发电机励磁回路及其控制方法、装置和同步发电机与流程