一种模拟神经网络的文本过滤方法

文档序号：8543748阅读：400来源：国知局

一种模拟神经网络的文本过滤方法
【技术领域】
[0001]本发明涉及一种文字处理方法，特别是一种模拟神经网络的文本过滤方法。
【背景技术】
[0002]目前网络作为传播信息的主要工具，不仅提供了人们所需要的资源，还充斥着大量的垃圾信息，为了防止这些垃圾信息通传播，实现网络信息安全，最有效的解决方法就是对这些内容信息进行关键词过滤，但垃圾信息的表现形式、内容、以及范围每时每刻都在不断变化，如何应对这种不断变化的垃圾信息、敏感词汇成为了亟待解决的难题。

【发明内容】

[0003]本发明的目的在于提供一种模拟神经网络的文本过滤方法，采用本方法对文本信息进行过滤，可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。
[0004]实现本发明目的的技术方案是:一种模拟神经网络的文本过滤方法，其特征在于:包含以下步骤:
1.1.输入待过滤的文本信息，启动过滤功能模块；
1.2.通过逐一比对字符，清除不属于UTF8国际字符集标准汉字的字符，得到汉语字串;
1.3.加载神经网络，将汉语字串通过神经网络输入端输入；
1.4.待过滤的汉语字串从左到右排成一行，由于存在换行的因而形成多行，从而构成二维平面结构；
1.5.神经网络由大量神经节点组成，每个神经节点互相联通，形成网状结构，在计算机中，由大型数组模拟神经连接，每个数组元素表示某神经单元与另一神经单元的激活阈值，初始系统完全由随机数填充所有数组，当汉语字串输入时，每一层神经网络通过加权获得计算其是否激活，加权计算公式为:
xl*wl+x2*w2+......+xn*wn>t 则输出 I，否则输出 O
其中xn代表η个输入端的输入信号wn为神经元关联权重，t为阈值；
1.6.程序的计算结果返回一组二进制数字，这组二进制数字串每一位都对应一个敏感词，用“O”代表没发现该敏感词，用“ I”代表发现该敏感词；
1.7.将敏感词汇集合返回并显示到页面结果窗口。
[0005]而且神经网络需要经过大量的训练才能达到识别的要求，训练时首先初始化各层连接权值，初始化使用随机算法，每个节点的权值随机生成，而后输入大量无意义汉字，这其中隐藏了一个至多个预先设定的敏感词汇，通过程序计算后得到的结果，与已知的结果进行比较后，根据误差调整上述各节点权值，直到神经网络可以轻易的识别敏感词汇为止，使用大量已知敏感词汇进行训练，使得神经网络可以识别大量敏感词汇。
[0006]本发明的优点在于:1.可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。2.采用二维平面结构来表现汉语字串，不单能识别普通的垃圾信息，也能识别采用竖行或斜行书写的“藏头”垃圾信息。
【附图说明】
[0007]图1是本方法的逻辑步骤图。
【具体实施方式】
[0008]参见图1，以下将结合实施例对本发明做进一步说明。
[0009]本发明涉及一种文字处理方法，特别是一种模拟神经网络的文本过滤方法，其特征在于:包含以下步骤:
1.1.输入待过滤的文本信息，启动过滤功能模块；
1.2.通过逐一比对字符，清除不属于UTF8国际字符集标准汉字的字符，得到汉语字串;
1.3.加载神经网络，将汉语字串通过神经网络输入端输入；
1.4.待过滤的汉语字串从左到右排成一行，由于存在换行的因而形成多行，从而构成二维平面结构；
1.5.神经网络由大量神经节点组成，每个神经节点互相联通，形成网状结构，在计算机中，由大型数组模拟神经连接，每个数组元素表示某神经单元与另一神经单元的激活阈值，初始系统完全由随机数填充所有数组，当汉语字串输入时，每一层神经网络通过加权获得计算其是否激活，加权计算公式为:
xl*wl+x2*w2+......+xn*wn>t 则输出 I，否则输出 O
其中xn代表η个输入端的输入信号wn为神经元关联权重，t为阈值；
1.6.程序的计算结果返回一组二进制数字，这组二进制数字串每一位都对应一个敏感词，用“O”代表没发现该敏感词，用“ I”代表发现该敏感词；
1.7.将敏感词汇集合返回并显示到页面结果窗口。
[0010]文章的字符，从左到右排成一行，因为换行的原因，形成多行，于是形成二维平面结构，而普通的文章过滤，是基于阅读顺序，把文章理解为一排字符，所以只是一维。以二维的方式进行过滤，就能发现竖排，或斜方向的关键词。
[0011]而且神经网络需要经过大量的训练才能达到识别的要求，训练时首先初始化各层连接权值，初始化使用随机算法，每个节点的权值随机生成，而后输入大量无意义汉字，这其中隐藏了一个至多个预先设定的敏感词汇，通过程序计算后得到的结果，与已知的结果进行比较后，根据误差调整上述各节点权值，直到神经网络可以轻易的识别敏感词汇为止，使用大量已知敏感词汇进行训练，使得神经网络可以识别大量敏感词汇。
[0012]通过输入最新的垃圾信息、敏感词汇来训练神经网络，达到其自我学习的目的，从而不断更新其数据库，以识别不断变化的垃圾信息。
【主权项】
1.一种模拟神经网络的文本过滤方法，其特征在于:包含以下步骤: 1.1.输入待过滤的文本信息，启动过滤功能模块； 1.2.通过逐一比对字符，清除不属于UTF8国际字符集标准汉字的字符，得到汉语字串; 1.3.加载神经网络，将汉语字串通过神经网络输入端输入； 1.4.待过滤的汉语字串从左到右排成一行，由于存在换行的因而形成多行，从而构成二维平面结构； 1.5.神经网络由大量神经节点组成，每个神经节点互相联通，形成网状结构，在计算机中，由大型数组模拟神经连接，每个数组元素表示某神经单元与另一神经单元的激活阈值，初始系统完全由随机数填充所有数组，当汉语字串输入时，每一层神经网络通过加权获得计算其是否激活，加权计算公式为: xl*wl+x2*w2+......+xn*wn>t 则输出 I，否则输出 O 其中xn代表η个输入端的输入信号wn为神经元关联权重，t为阈值； 1.6.程序的计算结果返回一组二进制数字，这组二进制数字串每一位都对应一个敏感词，用“O”代表没发现该敏感词，用“ I”代表发现该敏感词； 1.7.将敏感词汇集合返回并显示到页面结果窗口。
2.根据权利要求书I中所述的一种模拟神经网络的文本过滤方法，其特征在于:神经网络需要经过大量的训练才能达到识别的要求，训练时首先初始化各层连接权值，初始化使用随机算法，每个节点的权值随机生成，而后输入大量无意义汉字，这其中隐藏了一个至多个预先设定的敏感词汇，通过程序计算后得到的结果，与已知的结果进行比较后，根据误差调整上述各节点权值，直到神经网络可以轻易的识别敏感词汇为止，使用大量已知敏感词汇进行训练，使得神经网络可以识别大量敏感词汇。
【专利摘要】本发明涉及一种文字处理方法，特别是一种模拟神经网络的文本过滤方法，本发明的独到之处在于：采用本方法对文本信息进行过滤，可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。
【IPC分类】G06F17-30, G06N3-02
【公开号】CN104866550
【申请号】CN201510238616
【发明人】蒋大可, 何俊, 莫燕峰
【申请人】湖北光谷天下传媒股份有限公司
【公开日】2015年8月26日
【申请日】2015年5月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋大可;何俊;莫燕峰;
技术所有人：湖北光谷天下传媒股份有限公司;
我是此专利的发明人

上一篇：异构数据源实时同步系统及方法
上一篇：一种适于多智能体仿真的地形环境数据库系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。