一种用说话人识别技术监控人机分离体系的制作方法

文档序号：8473815阅读：384来源：国知局

一种用说话人识别技术监控人机分离体系的制作方法
【技术领域】
[0001]本发明涉及一种用说话人识别技术监控人机分离体系，具体地说一种符合管理行业长远发展需求的IT技术手段。
【背景技术】
[0002]发明人研究表明，科学技术的发展与机器的进化是同步进行的，机器是科技被应用到现实生活中的产物，展望未来，随着计算机影响力扩大，人与计算机的工作关系越来越密切，在不同的行业背景下，人机关系体现出不同的工作内容。
[0003]在某些场景中，人员需要与某种能够被监测到的设备实时结合在一起，并且不能人机分离，目前部分场景示例如下:
[0004]?司法局需要监测社区校正状态的服刑人员在限定范围内活动；
[0005]?企业需要根据员工地位位置实时调度员工，如快递公司调度快递收派人员，开锁公司调度开锁人员，货运公司调度货运卡车，石油公司监控在野外巡视油井的石油工人，甚至边防部队监控在边境线上巡视的边防军人；
[0006]在这些情况下，组织(司法局、企业、边防部队)需要手段防止人机分离的发生。语音识别中的说话人识别技术，因为能够有效地监控到人机分离的现象，可以在预防人机分离方面起到重要作用。

【发明内容】

[0007]本发明的任务是，提供一种用说话人识别技术监控人机分离体系，所述具体内容是，说话人识别是根据语音波形中反映说话人生理和行为的特征的语音参数，自动识别说话人身份的技术，是语音识别技术的一个分支。主要的原理是人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官一舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。
[0008]目前说话人识别技术有两种应用类型，一种是说话人随意说，一种是说话人在某些选定的发音中进行组合(如念阿拉伯数字)，显然后面一种类型识别准确性将大幅提升，因为说话人识别软件可以提前将说话对象的这些基础发音(如对10个基本阿拉伯数字)提前录入，本实现方法采用阿拉伯数字组合，以提高识别准确率。
【具体实施方式】
[0009]监控人机分离采用如下的步骤:
[0010]1、基础设施:
[0011]建设一个云计算网站，该网站能够接收说话人的语音文件，进行声纹分析，识别出说话人；
[0012]被监控者需要持有智能手机(苹果手机，或基于Android的智能机)，该手机上提前安装有一个APP应用程序；
[0013]智能手机使用3G或者4G通讯网络，既能够通话，也能够实现数据通讯。监控者通过通讯网络能够实现对智能手机的实时GIS定位；
[0014]2、向被监控人的应用程序发送一个随机数字(同时提醒被监控人进行处理)，请被监控人在三分钟内读出这个随机数字，应用程序录下这段录音，传输给网站。
[0015]如果被监控人在一段时间内(如三分钟内)不能完成朗读和传输，这段随机数字作废，本次监控没有通过，此时还可以有一个补救措施，在十分钟内，被监控人实时请网站再发送一个新随机数字，完成朗读和传输，如果被监控人补救措施也没有完成，则本次监控没有通过。
[0016]3、网站接收语音文件，进行比对:
[0017]比对是否为被监控人的发音，从而判断是否是被监控人本人；
[0018]对比从语音文件翻译出来的文字是否与随机数字相符，避免是被监控人的提前录好的录音，而非实时读出来的；
[0019]上述两个比对内容均通过，才认为比对成功(监控通过)，否则认为比对失败(监控没有通过)；
[0020]4、网站在监控时间段内，发起一定次数的监控，如果监控没有通过超过一定比例，则进行报警，提醒管理人员介入。例如司法局每天抽查社区校正人员3次，如果失败率超过50%,则非常值得关注，需要进一步介入。
[0021]说明:
[0022]1、上述步骤二设计了一个补救措施，充分考虑了任何人都有可能疏忽，错过电话的可能；
[0023]2、上述过程全程自动化:网站自动发随机数，自动接收语音文件，自动比对，自动进行GIS定位，自动统计，自动报警；
[0024]3、上述监控方法中，被监控人在一种情况下可以实现人机分离:被监控人A将手机交给B，自己离开；B接到网站的随机数检测后，三分钟内拨通A的另外一部电话，请A在电话中对这部智能手机读出随机数。此时A能够实现人机分离，但是需要B实时配合，从经济学的角度来说，成本很高，A人机分离所得到的收益，大多数情况下，未必高过请B来实时配合所花的成本(无论是金钱或者感情)。所以这种情况下的人机分离在实际项目中可以认为不影响整个监控项目的运转。
【主权项】
1.一种用说话人识别技术监控人机分离体系，其特征在于，所述一种用说话人识别技术监控人机分离体系的构成条件:是建设一个云计算网站，该网站能够接收说话人的语音文件，进行声纹分析，识别出说话人；被监控者需要持有智能手机(苹果手机，或基于Android的智能机)，该手机上提前安装有一个APP应用程序。
2.根据权利要求所述的一种用说话人识别技术监控人机分离体系，其特征在于，所述的云计算网站向被监控人的应用程序发送一个随机数字(同时提醒被监控人进行处理)，请被监控人在三分钟内读出这个随机数字，应用程序录下这段录音，传输给网站。如果被监控人在一段时间内(如三分钟内)不能完成朗读和传输，这段随机数字作废，本次监控没有通过，此时还可以有一个补救措施，在十分钟内，被监控人实时请网站再发送一个新随机数字，完成朗读和传输，如果被监控人补救措施也没有完成，则本次监控没有通过。网站接收语音文件，进行比对:比对是否为被监控人的发音，从而判断是否是被监控人本人；对比从语音文件翻译出来的文字是否与随机数字相符，避免是被监控人的提前录好的录音，而非实时读出来的；上述两个比对内容均通过，才认为比对成功(监控通过)，否则认为比对失败(监控没有通过)；网站在监控时间段内，发起一定次数的监控，如果监控没有通过超过一定比例，则进行报警，提醒管理人员介入。例如司法局每天抽查社区校正人员3次，如果失败率超过50%，则非常值得关注，需要进一步介入。
3.根据权利要求所述的一种用说话人识别技术监控人机分离体系，其特征在于，所述的智能手机使用3G或者4G通讯网络，既能够通话，也能够实现数据通讯。监控者通过通讯网络能够实现对智能手机的实时GIS定位。
【专利摘要】本发明涉及一种用说话人识别技术监控人机分离体系。本发明设计了一种机制，能够有效地防止人机分离，最后达到了通过对机器设备的监控实现对人的监控。本发明用到了如下技术：云计算、特定语声纹识别、智能手机(苹果或者Android)、移动互联技术(3G或者4G)，蒙特卡洛随机数生成器，统计学。本发明设计了一整套流程，将上述技术做了有机整合，实现了对人机分离情况的发现和预警。
【IPC分类】G10L17-00, G10L17-24
【公开号】CN104795070
【申请号】CN201410028154
【发明人】张潮泽, 范华云
【申请人】中安特保（北京）国际贸易有限公司
【公开日】2015年7月22日
【申请日】2014年1月21日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张潮泽;范华云;
技术所有人：中安特保(北京)国际贸易有限公司;
我是此专利的发明人

上一篇：一种盲音频水印嵌入及水印提取的处理方法
上一篇：语音识别方法和服务器的制造方法