一种基于验证码的语音数据样本采集系统及其方法与流程

文档序号：17735270发布日期：2019-05-22 03:08阅读：398来源：国知局

本发明涉及一种语音数据采集技术，特别是一种基于验证码的语音数据样本采集系统及其方法。

背景技术：

随着大数据产业与人工智能深度学习的迅猛发展，对数据样本的需求呈指数级增长。因为不管是人工智能还是大数据都是需要基于前端数据获取的基础上才能进行下一步的数据处理，而不同领域和不同功能的应用场景对于数据样本的采集区别较大，尤其是涉及人体本身的生物特征的采集。例如人脸识别、图像识别、语音识别、语音翻译等，由于采集的数据样本涉及不同人群的指纹、脸部图像、声音等人本身特有生物特征，因此需要采集大量的数据样本。现有技术中，对于语音数据样本的采集一般是通过人工录入而进行的采集，耗费人力资源大，造成数据采集成本提高。

验证码(captcha)是“completelyautomatedpublicturingtesttotellcomputersandhumansapart”(全自动区分计算机和人类的图灵测试)的缩写，是一种区分用户是计算机还是人的公共全自动程序。用户在第三平台上使用时可防止：恶意破解密码、刷票、论坛灌水、身份核实等功能，验证码已成为很多网站/平台通行的方式。因此，基于第三平台并通过验证码技术实现语音数据样本的采集成为数据采集领域的一大挑战。

技术实现要素：

本发明的发明目的是，针对上述问题，提供一种基于验证码的语音数据样本采集系统，本发明基于为第三方平台提供验证码服务的途径，并利用用户在验证码服务中的广泛参与，顺利且快捷完成语音数据样本的采集，有效节约数据采集的成本。

为达到上述目的，本发明所采用的技术方案是：

一种基于验证码的语音数据样本采集系统，包括用户终端和语音验证及采集模块，所述用户终端与语音验证及采集模块连接，用以向语音验证及采集模块发起校验请求，用户根据语音验证及采集模块发来的指令朗读文字样本数据中的文字内容，并对应生成语音样本，所述语音样本由用户终端发送给语音验证及采集模块，所述文字样本数据包括文字样本和编号；

所述语音验证及采集模块，用以接收用户终端的校验请求，并根据校验请求向用户终端发送待识别的文字样本数据，同时接收用户终端发来的语音样本且将该语音样本进行语音转文字的处理后，得到即时文字样本数据，然后将即时文字样本数据与语音验证及采集模块内存储的标准文字样本数据进行校验对比，通过校验对比的结果来确定是否采集该语音样本。

作为优选实施方式，所述语音验证及采集模块包括样本采集服务器、样本数据库、呼叫终端和语音转文字服务器，

所述用户终端与样本采集服务器连接，用于与样本采集服务器进行信息交互并向样本采集服务器发起验证请求；所述用户终端还与呼叫终端连接，用以接收呼叫终端发来的话路呼叫，并根据话路呼叫朗读文字样本数据，以向呼叫终端输出文字样本数据对应的语音样本；

所述样本采集服务器，用以向用户终端提供验证服务；所述样本采集服务器还与样本数据库连接，用于调取样本数据库中存储的文字样本数据；所述样本采集服务器还与呼叫终端连接，用于控制呼叫终端向用户终端发起呼叫验证；

所述样本数据库与样本采集服务器连接，用于向样本采集服务器提供文字样本的编号以及存储识别的样本标签；所述样本数据库还与呼叫终端连接，用于存储呼叫终端发来的语音样本；

所述呼叫终端与样本采集服务器连接，用于接收样本采集服务器的呼叫控制请求；所述呼叫终端与用户终端连接，用于向用户终端发起呼叫；所述呼叫终端还与语音转文字服务器连接，用于控制语音转文字服务器将语音样本转成文字样本；所述呼叫终端还与样本数据库连接，用于将语音样本与文字样本进行关联存储；

所述语音转文字服务器与呼叫终端连接，用于响应来自呼叫终端的控制，以将语音样本转成文字样本。

上述方案中，优选地，所述语音验证及采集模块还包括第三方平台，所述第三方平台与样本采集服务器连接，用以接收样本采集服务器对语音样本的验证结果；第三方平台与用户终端连接。

上述方案中，优选地，所述样本数据库将每一次识别成功的文字样本按顺序添加至语音采集样本堆栈中，所述堆栈中存放经过样本采集服务器校验成功后的语音样本数据。

上述方案中，优选地，所述数据样本包括文字样本数据和语音样本数据。

本发明还提供一种基于验证码的语音数据样本采集方法，包括如下步骤：

s1、所述样本采集服务器为用户与第三方平台之间的信息互交提供验证服务，用户通过用户终端向所述样本采集服务器发送校验请求；

s2、所述样本采集服务器收到来自用户终端的校验请求后，向所述样本数据库中发送调取数据样本数据的请求，得到样本数据库的响应后，获得含有待识别的文字样本数据；

s3、所述样本采集服务器将步骤s2得到的文字样本数据中的文字样本和编号，作为数据样本与存储在所述样本采集服务器内的有效校验码进行绑定整合后，对应生成一校验码，并将该校验码发送给用户终端，同时提醒用户接听呼叫终端的电话呼叫，所述数据样本包括数据样本编号和文字样本数据；

s4、所述样本采集服务器向呼叫终端发起呼叫请求，并发送步骤s3得到的数据样本编号；

s5、所述呼叫终端收到步骤s4发来的呼叫请求后，向用户终端发起呼叫；

s6、用户振铃并摘机；

s7、所述呼叫终端向用户终端播放朗读文字样本内容的语音提示；

s8、用户听到朗读开始的语音提示音后，开始朗读步骤s3中的文字样本的文字内容，结束后挂机，生成与文字内容相对应的语音样本；

s9、所述呼叫终端将步骤s8得到的语音样本进行缓存，同时向语音转文字服务器发送语音转文字的请求；

s10、所述语音转文字服务器将步骤s8得到的语音样本进行语音转文字处理，得到语音转文字结果，所述语音转文字结果为即时文字样本，并将该即时文字样本返回给呼叫终端；

s11、所述呼叫终端将即时文字样本发送给所述样本采集服务器进行结果比对；

s12、所述样本采集服务器通过步骤s3得到的校验码将即时文字样本与样本采集服务器内存储的标准文字样本进行比对；

s13、若匹配成功，则向呼叫终端发送存储语音样本的请求，并向用户终端反馈验证成功的消息，同时向第三方平台推送用户验证成功的通知，所述呼叫终端收到存入语音样本的请求后，将语音样本存入样本数据库的文字样本对应的堆栈中；

s14、若匹配失败，则向呼叫终端发送丢弃该语音样本的指令，并向用户终端发送验证失败的消息，同时向第三方平台推送用户验证失败的通知，呼叫终端收到丢弃语音样本的通知后，将该语音样本的数据清除。

由于采用上述技术方案，本发明具有以下有益效果：

1.用户通过用户终端与语音验证及采集模块连接，实现两者之间的信息互交，用户通过用户终端发起校验请求，通过主要由样本采集服务器、样本数据库、呼叫终端和语音转文字服务器构成所述语音验证及采集模块为用户终端提供验证服务，本发明在使用时，语音验证及采集模块根据校验请求发出文字样本数据，用户根据指令通过用户终端朗读标准文字样本数据的文字内容，得到语音样本；语音验证及采集模块对该语音样本进行语音转文字的处理，得到即时文字样本，基于校验码再将即时文字样本和内部存储的标准文字样本数据进行验证对比，对比成功则采集该语音样本，否则丢弃。整个过程，只需用户验证参与即可，无需现场采集，与传统人工录入的做法相比，语音样本采集工作量少、采样成本的投入更低。

2.本发明对于语音样本的采集方法充分利用了用户在验证码服务中的广泛参与，来完成语音数据样本的采集，不仅大量节约成本，还可以通过设置或改良系统中所述样本采集服务器中存储的标准文字样本数据和完善语音转文字服务器的功能来提高语音样本采集的准确性，并且通过文字转语音-语音转文字和文字与文字对比的校验方式，不会受个人的方言口音、发音标准等因素的影响，能够大大提高语音采集的规范性。

附图说明

图1是本发明一种基于验证码的语音数据样本采集系统的系统组成框图。

图2是本发明一种基于验证码的语音数据样本采集方法的时序图。

具体实施方式

以下结合附图对发明的具体实施进一步说明。

如图1所示，所述语音验证及采集模块包括样本采集服务器、样本数据库、呼叫终端、语音转文字服务器和第三方平台。

所述用户终端与样本采集服务器，用于与样本采集服务器进行信息交互并向样本采集服务器发起验证请求；所述用户终端还与呼叫终端连接，用以接收呼叫终端发来的话路呼叫，并根据话路呼叫朗读文字样本数据，以向呼叫终端输出文字样本数据对应的语音样本。

所述用户终端具体为具有联网、显示、音频输入输出功能的设备，例如智能手机、平板电脑或带有音响的平板电脑等。

所述样本采集服务器，用以向用户终端提供验证服务。所述样本采集服务器还与样本数据库连接，用于调取样本数据库中存储的文字样本数据。所述样本采集服务器还与呼叫终端连接，用于控制呼叫终端向用户终端发起呼叫验证。

所述样本数据库与样本采集服务器连接，用于向样本采集服务器提供文字样本的编号以及存储识别的样本标签。所述样本数据库还与呼叫终端连接，用于存储呼叫终端发来的语音样本。

所述呼叫终端与样本采集服务器连接，用于接收样本采集服务器的呼叫控制请求；所述呼叫终端与用户终端连接，用于向用户终端发起呼叫。所述呼叫终端还与语音转文字服务器连接，用于控制语音转文字服务器将语音样本转成文字样本；所述呼叫终端还与样本数据库连接，用于将语音样本与文字样本进行关联存储。所述呼叫终端具体可以为呼叫平台或呼叫服务器。

所述语音转文字服务器与呼叫终端连接，用于响应来自呼叫终端的控制，以将语音样本转成文字样本。

所述第三方平台与样本采集服务器连接，用以接收样本采集服务器对语音样本的验证结果；第三方平台与用户终端连接。所述第三方平台具体是本语音数据样本采集系统服务的第三方公司或者机构。本语音数据样本采集系统可为第三方平台提供验证服务。

所述样本数据库将每一次识别成功的文字样本按顺序添加至语音采集样本堆栈中，所述堆栈中存放经过样本采集服务器校验成功后的语音样本数据。

所述数据样本包括文字样本数据和语音样本数据。

如图2所示，本发明提供一种基于验证码的语音数据样本采集方法，包括如下步骤：

s1、所述样本采集服务器为用户与第三方平台之间的信息互交提供验证服务，用户通过用户终端向所述样本采集服务器发送校验请求；

s4、所述样本采集服务器向呼叫终端发起呼叫请求，并发送步骤s3得到的数据样本编号；

s5、所述呼叫终端收到步骤s4发来的呼叫请求后，向用户终端发起呼叫；

s6、用户振铃并摘机；

s7、所述呼叫终端向用户终端播放朗读文字样本内容的语音提示；

s8、用户听到朗读开始的语音提示音后，开始朗读步骤s3中的文字样本的文字内容，结束后挂机，生成与文字内容相对应的语音样本；

s9、所述呼叫终端将步骤s8得到的语音样本进行缓存，同时向语音转文字服务器发送语音转文字的请求；

s11、所述呼叫终端将即时文字样本发送给所述样本采集服务器进行结果比对；

s12、所述样本采集服务器通过步骤s3得到的校验码将即时文字样本与样本采集服务器内存储的标准文字样本进行比对；

即本发明的语音数据样本的采集原理是：文字转语音(通过用户朗读文字样本，进而得到语音样本)→语音转文字(语音转文字服务器将语音样本进行语音转文字处理)→文字与文字对比的校验(样本采集服务器进行校验比对)，上述识别采集过程不会受个人的口音、个人发音或方言等因素的影响，能够大大提高语音采集的规范性。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘作;陈杨;罗一鸣;张强;黄忠山;郭夏杰
技术所有人：中国—东盟信息港股份有限公司
我是此专利的发明人

上一篇：一种纳米级绝缘薄膜电压-电流特性测量系统的制作方法
上一篇：把持工具以及把持系统的制作方法