一种用于保护汉语语音私密度的掩蔽信号的生成方法

文档序号:8320294阅读:269来源:国知局
一种用于保护汉语语音私密度的掩蔽信号的生成方法
【技术领域】
[0001] 本发明涉及一种用于保护汉语语音私密度的掩蔽信号的生成方法,更具体的说, 尤其涉及一种可形成无实际意义的、与正常说话语音极其相似的、减小了听觉上负面影响 的用于保护汉语语音私密度的掩蔽信号的生成方法。
【背景技术】
[0002] 会议室保密涉及到国家、商业、科技等机密信息的保护,属于信息安全领域,从国 家安全到商业应用都有迫切的需求,商业窃听每年给国家造成的经济损失可达数百亿元。 作为保密会议室最基本的信息形式,声音是需要保护的重点。保密会议室中声音信息的泄 露主要有两种方式:主动泄露和无意识泄露。主动泄露指的是通过在会议室内部安装窃听 设备所造成的泄露,而无意识泄露指的是会议召开期间,声音通过空气传声、固体传声等方 式泄露,而被非授权人员听到。具体而言,声音信号无意识泄露的通道主要包括:门、窗、墙 体以及各种管道等。本文所提出的方法主要针对声音信号的无意识泄露。目前,针对声音 信号的无意识泄露,大都采用声掩蔽技术进行防护。具体而言,就是在可能存在声音泄露的 位置、途径上布设干扰源,产生干扰信号,从而掩蔽有用的语音信号,从而达到声音泄露防 护的作用。上述干扰信号被称为掩蔽信号。
[0003] 掩蔽信号的选择要考虑两个方面的因素,一是掩蔽效果,二是掩蔽信号对人的心 理和生理影响。目前常见的掩蔽信号主要有白噪声、粉噪声、暖通空调噪声等。白噪声和粉 噪声,通常具有比较稳定的统计特性,但掩蔽效率较低。而暖通空调噪声信号本身具有不连 续、不稳定、分布不均或是声音级过高,有时候反而成为噪声源,对人的心理和生理影响比 较大,负面效应明显。

【发明内容】

[0004] 本发明的主要目的是利用汉语发音的特点,包括字、词、句的各项统计特性,合成 一种新的掩蔽信号,由于其与正常发音的统计特性类似,因而不容易被破解,掩蔽效果好, 同时会降低掩蔽信号对人心理和生理的影响,兼具一定的迷惑性。
[0005] 本发明的用于保护汉语语音私密度的掩蔽信号的生成方法,其特别之处在于,通 过以下步骤来实现: a) .统计语句概率表,以具有代表性的汉语语料库为统计样本,对语料 库中每个段落所包含的语句数进行统计,获得组成段落的语句数的概率表
[心J2, ,简称语句概率表,其中Ji表示语句数目为:的段落占所有段落的百分比, I ; b) .统计句段概率表,对语料库中所有语句所包含的句段数进行统计,获得语句的句段 数的概率表A ···,A],简称句段概率表,其中A表示句段数目为I的语句占所有语 句的百分比,1彡i ; C).统计词组概率表,对语料库中所有句段所包含的词组数进行统计,获得句段的词组 数的概率表j,简称词组概率表,其中Ci表示词组数目为|的句段占所有句 段的百分比,1彡i彡分; d) .统计汉字概率表,对语料库中所有词组所包含的汉字数进行统计,获得词组的汉字 数的概率表,简称汉字概率表,其中4表示汉字数目为i的词组占所有词 组的百分比,I P ; e) .统计音节概率表,首先按照字母顺序对音节进行排序,记为把A2, A…為, 然后根据各音节在日常用语中出现的概率,获得音节概率表(A11A2.?…,?],简称音节概率 表,其中&表示音节乓在日常用语中出现的频率,I Si ; f) .生成文本信息,按照如下步骤生成语音对应的文本信息: f-Ι).确定自然段的语句数,在区间范围
【主权项】
1. 一种用于保护汉语语音私密度的掩蔽信号的生成方法,其特征在于,通过以下步骤 来实现: a) .统计语句概率表,以具有代表性的汉语语料库为统计样本,对语料 库中每个段落所包含的语句数进行统计,获得组成段落的语句数的概率表 匕,J2, J3简称语句概率表,其中Ji表示语句数目为S的段落占所有段落的百分比, I ; b) .统计句段概率表,对语料库中所有语句所包含的句段数进行统计,获得语句的句段 数的概率表,A ··、A],简称句段概率表,其中A表示句段数目为:的语句占所有语 句的百分比,1彡:彡/ ; C).统计词组概率表,对语料库中所有句段所包含的词组数进行统计,获得句段的词组 数的概率表1cl.C2,C3 ···.〇; j,简称词组概率表,其中q表示词组数目为i的句段占所有句 段的百分比,1彡?彡分; d) .统计汉字概率表,对语料库中所有词组所包含的汉字数进行统计,获得词组的汉字 数的概率表_!,简称汉字概率表,其中Zi表示汉字数目为^的词组占所有词 组的百分比,I P ; e) .统计音节概率表,首先按照字母顺序对音节进行排序,记为[At1A2,瑪-,圮], 然后根据各音节在日常用语中出现的概率,获得音节概率表(?,?,?,简称音节概率 表,其中4表示音节乓在日常用语中出现的频率,1 是; f) .生成文本信息,按照如下步骤生成语音对应的文本信息: f-Ι).确定自然段的语句数,在区间范目
内产生随机数并判断随机数q所
属区间;如果在区间 则得出自然段中所包含的语句数为,其中,1 rI 彡J0=O ;通过步骤f-2)确定出自然段中的每个语句;
f-2).确定语句中的句段数,在区间; 内产生随机数^,并判断随机数 rI q所属区间;如果q在区丨1勾,则得出语句中所包含的句段数为μ,其中, 1彡《2彡i, A = 〇 ;通过步骤卜3)
确定出每个语句中的句段; f_3).确定句段中的词组数,在区间范目
内产生随机数并判断随机数 &所属区间;如果&在区间
内,则得出句段中所包含的词组数为其中, 1彡《3彡, Q = O ;通过步骤f-4)确定每个句段中的词组; f_4).确定词组中的汉字数,在区间范围
内产生随机数q,并判断随机数
所属区间;如果q在区I 内,则得出词组中所包含的汉字数为,汉字数即音 4 ?4 节数,每个汉字对应一个音节,其中,I , 2〇 = 〇 ;通过步骤f_5)确定每个汉字的 音节; f_5).确定音节,在区间范围
~产生随机数&,并判断随机数5所属区间;如 果q在区间
内,则得出汉字的音节为,其中,1彡》5彡无,& = 〇 ;直至词组 中所有汉字的音节确定完毕; 按照步骤f-Ι)至f-5)生成自然段的文本信息,直至所生成的自然段数目满足要求; g).语音合成,利用与每个音节的发音相对应的语音库,将步骤f)中获取的自然段的 文本信息中的音节,与语音库中的发音一一对应形成相应的语音数据,通过在保密会议中 的声音泄漏位置播放该语音数据,即可形成与正常发音的统计特性类似、掩蔽性好、对会议 人员影响小的语音掩蔽信号。
2. 根据权利要求1所述的用于保护汉语语音私密度的掩蔽信号的生成方法,其特征 在于:步骤f)在语音文本信息的生成过程中,语句末的符号为句号、问号或感叹号,句段末 的符号为冒号、逗号或分号,段末的符号为回车或换行符;在文本信息生成发音数据的过程 中,自然段之间、各语句之间以及各句段之间均加入静音段。
3. 根据权利要求1或2所述的用于保护汉语语音私密度的掩蔽信号的生成方法,其特 征在于:步骤a)、b)、c)、d)中语句概率、句段概率、词组概率、汉字概率均精确至0. 01,步骤 e)中的音节概率精确至0.0001。
4. 根据权利要求1或2所述的用于保护汉语语音私密度的掩蔽信号的生成方法,其特 征在于:步骤a)中所述的语料库为国家语委立项建设的现代汉语通用平衡语料库。
【专利摘要】本发明的用于保护汉语语音私密度的掩蔽信号的生成方包括a).统计语句概率表;b).统计句段概率表;c).统计词组概率表;d).统计汉字概率表;e).统计音节概率表;f).按照确定自然段的语句数、语句中的句段数、句段中的词组数、词组中的汉字数、汉字的音节生成文本信息;g).语音合成。本发明的掩蔽信号的生成方法,充分考虑了会议室声音掩蔽的需求及汉语语音的特点,摒弃了采用稳态噪声等掩蔽信号的传统方式,基于汉语语言中字、词、句的各项统计特性,利用人类发声语音库,生成一种无实际意义的、与正常说话语音极其相似的掩蔽信号。这种掩蔽信号相比传统的掩蔽噪声,大大减弱了听觉上的各种负面影响,提高了声音掩蔽效果。
【IPC分类】G10L19-018
【公开号】CN104637485
【申请号】CN201510094030
【发明人】李晔, 马晓凤, 郝秋赟, 樊燕红, 姜竞赛, 张鹏
【申请人】山东省计算中心(国家超级计算济南中心)
【公开日】2015年5月20日
【申请日】2015年3月3日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1