一种基于统计语言模型的加密方法

文档序号：34137993发布日期：2023-05-12 19:38阅读：37来源：国知局

本发明涉及语言加密，特别涉及一种基于统计语言模型的加密方法。

背景技术：

1、随着社会文明的进步，越来越多的人开始重视个人隐私的保护，对个人隐私数据进行加密便是隐私保护技术手段之一。就当下计算机技术而言，绝大多数数据都可以转换为文本进行存储，主流的数据加密方式依然为建立密钥，根据密钥对化为文本的隐私数据进行加密，获得加密数据信息。这种加密方式具备着加密简单及加密速度较快的优点，但其缺陷同样明显，那就是加密后的数据通常为乱码，容易被察觉数据的加密痕迹，进而导致加密数据信息被不法分子作为攻击焦点，隐私数据的泄露风险提高。

技术实现思路

1、本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种基于统计语言模型的加密方法，旨在于将可读的数据信息，伪装加密为另一种无关的可读的数据信息，降低加密数据被破解的风险，提高数据安全性。

2、为达到上述目的，本发明实施例提出了一种基于统计语言模型的加密方法，包括：

3、建立基础统计语言模型；

4、获取包含若干语言资料的语言资料集；

5、将所述语言资料集作为训练数据对所述基础统计语言模型进行训练，得到目标统计语言模型；

6、根据所述目标统计语言模型对待加密的文本进行加密。

7、优选的，在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前，包括：

8、获取所述语言资料集中每个语言资料的类型信息；

9、根据所述类型信息将所述语言资料集划分为若干个语言资料子集，并对所述语言资料子集的类型信息进行标注。

10、优选的，在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前，还包括：对所述语言资料集中的语言资料进行筛选。

11、优选的，得到目标统计语言模型的方法，包括：

12、获取所述语言资料集中的语言资料子集的数量n；

13、复制所述基础统计语言模型，获得n个基础统计语言模型；

14、将所述语言资料子集与所述基础统计语言模型进行一对一映射；

15、将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练，获得类别统计语言模型，并根据所述语言资料子集的类型信息对所述类别统计语言模型进行标注；

16、重复以上方法，获得n个不同的类别统计语言模型，并将所述n个不同的类别统计语言模型组合为目标统计语言模型。

17、优选的，将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练，获得类别统计语言模型，包括：

18、基于贪婪算法建立语言资料拆分算法；

19、根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元，并根据所述语言资料单元建立语言资料单元集；所述语言资料为文字信息或可以转换为文字信息的数据资料，所述语言资料单元为字或词语；

20、在所述语言资料单元集中第一次选择任意种语言资料单元，作为前置资料单元；在所述语言资料单元集中第二次选择任意种语言资料单元，作为后置资料单元；

21、有序连接所述前置资料单元与所述后置资料单元，得到关联单元；

22、统计所述前置资料单元在所述语言资料集中的第一相对频率；统计所述后置资料单元在所述语言资料集中的第二相对频率；

23、将所述第一相对频率及第二相对频率代入关联度计算公式，得到所述后置资料单元与所述前置资料单元的关联度；

24、重复以上方法，计算每种前置资料单元与每种后置资料单元之间的关联度，得到语言资料单元之间的关联度行列表；

25、将所述关联度行列表植入所述基础统计语言模型中，获得类别统计语言模型。

26、优选的，在根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元后，包括：

27、获取所述语言资料单元的词性信息；

28、获取词性信息为专有名词的语言资料单元，并对其进行通用性修正；所述通用性修正包括名词拆分、字段替换及名词重组。

29、优选的，根据所述目标统计语言模型对待加密文本进行加密，包括：

30、将所述待加密文本拆分为若干个待加密文本关联单元；所述待加密文本关联单元中包含若干个待加密文本单元；

31、根据所述待加密文本关联单元建立待加密文本关联单元集；

32、将所述待加密文本关联单元集输入所述目标统计语言模型集，所述目标统计语言模型集根据所述关联度行列表，得到所述待加密文本关联单元的目标关联度；

33、所述目标统计语言模型集根据所述目标关联度获得若干个目标关联单元；

34、根据自然语言的语法规则将待加密文本关联单元替换为所述目标关联单元；

35、将所述待加密文本关联单元进行连接，获得目标加密文本。

36、优选的，在将所述待加密文本关联单元集输入所述目标统计语言模型集前，还包括：对所述目标统计语言模型集进行修正；

37、对所述目标统计语言模型集进行修正，包括：

38、获取所述待加密文本单元集的属性信息；所述属性信息包括待加密文本单元的种类及每种待加密文本单元的数量；

39、根据所述属性信息分别计算所述待加密文本单元集与所述目标统计语言模型中每个类别统计语言模型的适配度，并与预设适配度作比较；

40、筛选出适配度小于所述预设适配度的类别统计语言模型，作为待屏蔽类别统计语言模型；

41、对所述待屏蔽类别统计语言模型进行屏蔽操作，得到修正后的目标统计语言模型集。

42、优选的，所述统计语言模型的用途还包括：

43、获取待加密的目标语音资料；

44、对所述目标语音资料进行解码，得到原始语音数字信号；

45、利用语音端点检测技术将所述原始语音数字信号划分为有效语音信号及无效语音信号；

46、对所述有效语音信号进行声学处理，得到处理语音信号；所述声学处理包括高频分量振幅补偿、重叠分帧及信号加窗；

47、根据语音特征提取算法提取所述处理语音信号的语音特征；

48、根据所述语音特征中的共振峰分布信息将所述处理语音信号进行纵向切分，并记录切分方式；

49、根据所述切分方式将所述原始语音数字信号纵向切分为若干个音素信号，并确定每个音素信号对应的音素字母；

50、根据音素字母拼读规则将每个音素信号对应的音素字母进行组合，得到若干个音素字母组；

51、获取每个所述语言资料单元对应的音素字母组，作为标准音素字母组；

52、将所述音素字母组与所述标准音素字母组进行匹配关联，得到第一关联关系表；

53、根据所述第一关联关系表确定所述音素字母组与所述语言资料单元的第二关联关系表；

54、根据所述第二关联关系表及所述关联度行列表对所述原始语音数字信号中的音素信号进行重新排序，得到加密语音数字信号；

55、对所述加密语音数字信号进行音频预处理，获得所述目标语音资料对应的加密语音资料。

56、优选的，所述音频预处理包括音频编码处理。

57、与现有技术相比，本发明的有益效果是：

58、1、将待加密的数据信息伪装加密为可读的无关信息，降低因加密后的数据文件变成乱码导致被不法分子当作破解焦点导致的数据泄露风险，提高数据安全性。

59、2、基于统计语言模型对数据进行加密，尤其是文本数据进行加密，能提高加密数据的逻辑性与通顺性，进一步提高加密数据的欺骗性，强化数据安全性。

60、3、本发明给出的统计语言模型还可以用于对可转换为文本的音频信息进行加密，应用范围较广。

61、本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

62、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李超王亚东
技术所有人：南京邮电大学盐城大数据研究院有限公司
我是此专利的发明人

上一篇：基于星型结构的基础数据管控系统和方法与流程
上一篇：一种基于被动双目的高反光物体抓取方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。