一种用于保护汉语语音私密度的掩蔽信号的生成方法

文档序号：8320294阅读：269来源：国知局

一种用于保护汉语语音私密度的掩蔽信号的生成方法
【技术领域】
[0001] 本发明涉及一种用于保护汉语语音私密度的掩蔽信号的生成方法，更具体的说，尤其涉及一种可形成无实际意义的、与正常说话语音极其相似的、减小了听觉上负面影响的用于保护汉语语音私密度的掩蔽信号的生成方法。
【背景技术】
[0002] 会议室保密涉及到国家、商业、科技等机密信息的保护，属于信息安全领域，从国家安全到商业应用都有迫切的需求，商业窃听每年给国家造成的经济损失可达数百亿元。作为保密会议室最基本的信息形式，声音是需要保护的重点。保密会议室中声音信息的泄露主要有两种方式：主动泄露和无意识泄露。主动泄露指的是通过在会议室内部安装窃听设备所造成的泄露，而无意识泄露指的是会议召开期间，声音通过空气传声、固体传声等方式泄露，而被非授权人员听到。具体而言，声音信号无意识泄露的通道主要包括：门、窗、墙体以及各种管道等。本文所提出的方法主要针对声音信号的无意识泄露。目前，针对声音信号的无意识泄露，大都采用声掩蔽技术进行防护。具体而言，就是在可能存在声音泄露的位置、途径上布设干扰源，产生干扰信号，从而掩蔽有用的语音信号，从而达到声音泄露防护的作用。上述干扰信号被称为掩蔽信号。
[0003] 掩蔽信号的选择要考虑两个方面的因素，一是掩蔽效果，二是掩蔽信号对人的心理和生理影响。目前常见的掩蔽信号主要有白噪声、粉噪声、暖通空调噪声等。白噪声和粉噪声，通常具有比较稳定的统计特性，但掩蔽效率较低。而暖通空调噪声信号本身具有不连续、不稳定、分布不均或是声音级过高，有时候反而成为噪声源，对人的心理和生理影响比较大，负面效应明显。

【发明内容】

[0004] 本发明的主要目的是利用汉语发音的特点，包括字、词、句的各项统计特性，合成一种新的掩蔽信号，由于其与正常发音的统计特性类似，因而不容易被破解，掩蔽效果好，同时会降低掩蔽信号对人心理和生理的影响，兼具一定的迷惑性。
[0005] 本发明的用于保护汉语语音私密度的掩蔽信号的生成方法，其特别之处在于，通过以下步骤来实现： a) .统计语句概率表，以具有代表性的汉语语料库为统计样本，对语料库中每个段落所包含的语句数进行统计，获得组成段落的语句数的概率表
[心J2, ,简称语句概率表，其中Ji表示语句数目为：的段落占所有段落的百分比， I ； b) .统计句段概率表，对语料库中所有语句所包含的句段数进行统计，获得语句的句段数的概率表A ···，A],简称句段概率表，其中A表示句段数目为I的语句占所有语句的百分比，1彡i ; C).统计词组概率表，对语料库中所有句段所包含的词组数进行统计，获得句段的词组数的概率表j，简称词组概率表,其中Ci表示词组数目为|的句段占所有句段的百分比，1彡i彡分； d) .统计汉字概率表，对语料库中所有词组所包含的汉字数进行统计，获得词组的汉字数的概率表,简称汉字概率表，其中4表示汉字数目为i的词组占所有词组的百分比，I P ; e) .统计音节概率表，首先按照字母顺序对音节进行排序，记为把A2, A…為, 然后根据各音节在日常用语中出现的概率，获得音节概率表(A11A2.?…,?]，简称音节概率表，其中&表示音节乓在日常用语中出现的频率，I Si ； f) .生成文本信息，按照如下步骤生成语音对应的文本信息： f-Ι).确定自然段的语句数，在区间范围
【主权项】
1. 一种用于保护汉语语音私密度的掩蔽信号的生成方法，其特征在于，通过以下步骤来实现： a) .统计语句概率表，以具有代表性的汉语语料库为统计样本，对语料库中每个段落所包含的语句数进行统计，获得组成段落的语句数的概率表匕，J2, J3简称语句概率表，其中Ji表示语句数目为S的段落占所有段落的百分比， I ； b) .统计句段概率表，对语料库中所有语句所包含的句段数进行统计，获得语句的句段数的概率表，A ··、A],简称句段概率表，其中A表示句段数目为：的语句占所有语句的百分比，1彡：彡/ ; C).统计词组概率表，对语料库中所有句段所包含的词组数进行统计，获得句段的词组数的概率表1cl.C2,C3 ···.〇; j，简称词组概率表,其中q表示词组数目为i的句段占所有句段的百分比，1彡?彡分； d) .统计汉字概率表，对语料库中所有词组所包含的汉字数进行统计，获得词组的汉字数的概率表_!,简称汉字概率表，其中Zi表示汉字数目为^的词组占所有词组的百分比，I P ; e) .统计音节概率表，首先按照字母顺序对音节进行排序，记为[At1A2,瑪-,圮], 然后根据各音节在日常用语中出现的概率，获得音节概率表(?,?,?，简称音节概率表，其中4表示音节乓在日常用语中出现的频率，1 是； f) .生成文本信息，按照如下步骤生成语音对应的文本信息： f-Ι).确定自然段的语句数，在区间范目
内产生随机数并判断随机数q所
属区间；如果在区间则得出自然段中所包含的语句数为，其中，1 rI 彡J0=O ;通过步骤f-2)确定出自然段中的每个语句；
f-2).确定语句中的句段数，在区间；内产生随机数^，并判断随机数 rI q所属区间；如果q在区丨1勾，则得出语句中所包含的句段数为μ，其中， 1彡《2彡i, A = 〇 ;通过步骤卜3)
确定出每个语句中的句段； f_3).确定句段中的词组数，在区间范目
内产生随机数并判断随机数 &所属区间；如果&在区间
内，则得出句段中所包含的词组数为其中， 1彡《3彡, Q = O ;通过步骤f-4)确定每个句段中的词组； f_4).确定词组中的汉字数，在区间范围
内产生随机数q，并判断随机数
所属区间；如果q在区I 内，则得出词组中所包含的汉字数为，汉字数即音 4 ?4 节数，每个汉字对应一个音节，其中，I , 2〇 = 〇 ;通过步骤f_5)确定每个汉字的音节； f_5).确定音节，在区间范围
~产生随机数&，并判断随机数5所属区间；如果q在区间
内，则得出汉字的音节为,其中，1彡》5彡无，& = 〇 ;直至词组中所有汉字的音节确定完毕；按照步骤f-Ι)至f-5)生成自然段的文本信息，直至所生成的自然段数目满足要求； g).语音合成，利用与每个音节的发音相对应的语音库，将步骤f)中获取的自然段的文本信息中的音节，与语音库中的发音一一对应形成相应的语音数据，通过在保密会议中的声音泄漏位置播放该语音数据，即可形成与正常发音的统计特性类似、掩蔽性好、对会议人员影响小的语音掩蔽信号。
2. 根据权利要求1所述的用于保护汉语语音私密度的掩蔽信号的生成方法，其特征在于：步骤f)在语音文本信息的生成过程中，语句末的符号为句号、问号或感叹号，句段末的符号为冒号、逗号或分号，段末的符号为回车或换行符；在文本信息生成发音数据的过程中，自然段之间、各语句之间以及各句段之间均加入静音段。
3. 根据权利要求1或2所述的用于保护汉语语音私密度的掩蔽信号的生成方法，其特征在于：步骤a)、b)、c)、d)中语句概率、句段概率、词组概率、汉字概率均精确至0. 01，步骤 e)中的音节概率精确至0.0001。
4. 根据权利要求1或2所述的用于保护汉语语音私密度的掩蔽信号的生成方法，其特征在于：步骤a)中所述的语料库为国家语委立项建设的现代汉语通用平衡语料库。
【专利摘要】本发明的用于保护汉语语音私密度的掩蔽信号的生成方包括a).统计语句概率表；b).统计句段概率表；c).统计词组概率表；d).统计汉字概率表；e).统计音节概率表；f).按照确定自然段的语句数、语句中的句段数、句段中的词组数、词组中的汉字数、汉字的音节生成文本信息；g).语音合成。本发明的掩蔽信号的生成方法，充分考虑了会议室声音掩蔽的需求及汉语语音的特点，摒弃了采用稳态噪声等掩蔽信号的传统方式，基于汉语语言中字、词、句的各项统计特性，利用人类发声语音库，生成一种无实际意义的、与正常说话语音极其相似的掩蔽信号。这种掩蔽信号相比传统的掩蔽噪声，大大减弱了听觉上的各种负面影响，提高了声音掩蔽效果。
【IPC分类】G10L19-018
【公开号】CN104637485
【申请号】CN201510094030
【发明人】李晔, 马晓凤, 郝秋赟, 樊燕红, 姜竞赛, 张鹏
【申请人】山东省计算中心（国家超级计算济南中心）
【公开日】2015年5月20日
【申请日】2015年3月3日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晔;马晓凤;郝秋赟;樊燕红;姜竞赛;张鹏;
技术所有人：山东省计算中心(国家超级计算济南中心);
我是此专利的发明人

上一篇：一种数据帧的内插方法及装置的制造方法
上一篇：一种基于共生矩阵分析的mp3音频隐写检测方法