一种模拟神经网络的文本过滤方法

文档序号:8543748阅读:400来源:国知局
一种模拟神经网络的文本过滤方法
【技术领域】
[0001]本发明涉及一种文字处理方法,特别是一种模拟神经网络的文本过滤方法。
【背景技术】
[0002]目前网络作为传播信息的主要工具,不仅提供了人们所需要的资源,还充斥着大量的垃圾信息,为了防止这些垃圾信息通传播,实现网络信息安全,最有效的解决方法就是对这些内容信息进行关键词过滤,但垃圾信息的表现形式、内容、以及范围每时每刻都在不断变化,如何应对这种不断变化的垃圾信息、敏感词汇成为了亟待解决的难题。

【发明内容】

[0003]本发明的目的在于提供一种模拟神经网络的文本过滤方法,采用本方法对文本信息进行过滤,可进行自我学习,不断更新其数据库,以识别不断变化的垃圾信息。
[0004]实现本发明目的的技术方案是:一种模拟神经网络的文本过滤方法,其特征在于:包含以下步骤:
1.1.输入待过滤的文本信息,启动过滤功能模块;
1.2.通过逐一比对字符,清除不属于UTF8国际字符集标准汉字的字符,得到汉语字串;
1.3.加载神经网络,将汉语字串通过神经网络输入端输入;
1.4.待过滤的汉语字串从左到右排成一行,由于存在换行的因而形成多行,从而构成二维平面结构;
1.5.神经网络由大量神经节点组成,每个神经节点互相联通,形成网状结构,在计算机中,由大型数组模拟神经连接,每个数组元素表示某神经单元与另一神经单元的激活阈值,初始系统完全由随机数填充所有数组,当汉语字串输入时,每一层神经网络通过加权获得计算其是否激活,加权计算公式为:
xl*wl+x2*w2+......+xn*wn>t 则输出 I,否则输出 O
其中xn代表η个输入端的输入信号wn为神经元关联权重,t为阈值;
1.6.程序的计算结果返回一组二进制数字,这组二进制数字串每一位都对应一个敏感词,用“O”代表没发现该敏感词,用“ I”代表发现该敏感词;
1.7.将敏感词汇集合返回并显示到页面结果窗口。
[0005]而且神经网络需要经过大量的训练才能达到识别的要求,训练时首先初始化各层连接权值,初始化使用随机算法,每个节点的权值随机生成,而后输入大量无意义汉字,这其中隐藏了一个至多个预先设定的敏感词汇,通过程序计算后得到的结果,与已知的结果进行比较后,根据误差调整上述各节点权值,直到神经网络可以轻易的识别敏感词汇为止,使用大量已知敏感词汇进行训练,使得神经网络可以识别大量敏感词汇。
[0006]本发明的优点在于:1.可进行自我学习,不断更新其数据库,以识别不断变化的垃圾信息。2.采用二维平面结构来表现汉语字串,不单能识别普通的垃圾信息,也能识别采用竖行或斜行书写的“藏头”垃圾信息。
【附图说明】
[0007]图1是本方法的逻辑步骤图。
【具体实施方式】
[0008]参见图1,以下将结合实施例对本发明做进一步说明。
[0009]本发明涉及一种文字处理方法,特别是一种模拟神经网络的文本过滤方法,其特征在于:包含以下步骤:
1.1.输入待过滤的文本信息,启动过滤功能模块;
1.2.通过逐一比对字符,清除不属于UTF8国际字符集标准汉字的字符,得到汉语字串;
1.3.加载神经网络,将汉语字串通过神经网络输入端输入;
1.4.待过滤的汉语字串从左到右排成一行,由于存在换行的因而形成多行,从而构成二维平面结构;
1.5.神经网络由大量神经节点组成,每个神经节点互相联通,形成网状结构,在计算机中,由大型数组模拟神经连接,每个数组元素表示某神经单元与另一神经单元的激活阈值,初始系统完全由随机数填充所有数组,当汉语字串输入时,每一层神经网络通过加权获得计算其是否激活,加权计算公式为:
xl*wl+x2*w2+......+xn*wn>t 则输出 I,否则输出 O
其中xn代表η个输入端的输入信号wn为神经元关联权重,t为阈值;
1.6.程序的计算结果返回一组二进制数字,这组二进制数字串每一位都对应一个敏感词,用“O”代表没发现该敏感词,用“ I”代表发现该敏感词;
1.7.将敏感词汇集合返回并显示到页面结果窗口。
[0010]文章的字符,从左到右排成一行,因为换行的原因,形成多行,于是形成二维平面结构,而普通的文章过滤,是基于阅读顺序,把文章理解为一排字符,所以只是一维。以二维的方式进行过滤,就能发现竖排,或斜方向的关键词。
[0011]而且神经网络需要经过大量的训练才能达到识别的要求,训练时首先初始化各层连接权值,初始化使用随机算法,每个节点的权值随机生成,而后输入大量无意义汉字,这其中隐藏了一个至多个预先设定的敏感词汇,通过程序计算后得到的结果,与已知的结果进行比较后,根据误差调整上述各节点权值,直到神经网络可以轻易的识别敏感词汇为止,使用大量已知敏感词汇进行训练,使得神经网络可以识别大量敏感词汇。
[0012]通过输入最新的垃圾信息、敏感词汇来训练神经网络,达到其自我学习的目的,从而不断更新其数据库,以识别不断变化的垃圾信息。
【主权项】
1.一种模拟神经网络的文本过滤方法,其特征在于:包含以下步骤: 1.1.输入待过滤的文本信息,启动过滤功能模块; 1.2.通过逐一比对字符,清除不属于UTF8国际字符集标准汉字的字符,得到汉语字串; 1.3.加载神经网络,将汉语字串通过神经网络输入端输入; 1.4.待过滤的汉语字串从左到右排成一行,由于存在换行的因而形成多行,从而构成二维平面结构; 1.5.神经网络由大量神经节点组成,每个神经节点互相联通,形成网状结构,在计算机中,由大型数组模拟神经连接,每个数组元素表示某神经单元与另一神经单元的激活阈值,初始系统完全由随机数填充所有数组,当汉语字串输入时,每一层神经网络通过加权获得计算其是否激活,加权计算公式为: xl*wl+x2*w2+......+xn*wn>t 则输出 I,否则输出 O 其中xn代表η个输入端的输入信号wn为神经元关联权重,t为阈值; 1.6.程序的计算结果返回一组二进制数字,这组二进制数字串每一位都对应一个敏感词,用“O”代表没发现该敏感词,用“ I”代表发现该敏感词; 1.7.将敏感词汇集合返回并显示到页面结果窗口。
2.根据权利要求书I中所述的一种模拟神经网络的文本过滤方法,其特征在于:神经网络需要经过大量的训练才能达到识别的要求,训练时首先初始化各层连接权值,初始化使用随机算法,每个节点的权值随机生成,而后输入大量无意义汉字,这其中隐藏了一个至多个预先设定的敏感词汇,通过程序计算后得到的结果,与已知的结果进行比较后,根据误差调整上述各节点权值,直到神经网络可以轻易的识别敏感词汇为止,使用大量已知敏感词汇进行训练,使得神经网络可以识别大量敏感词汇。
【专利摘要】本发明涉及一种文字处理方法,特别是一种模拟神经网络的文本过滤方法,本发明的独到之处在于:采用本方法对文本信息进行过滤,可进行自我学习,不断更新其数据库,以识别不断变化的垃圾信息。
【IPC分类】G06F17-30, G06N3-02
【公开号】CN104866550
【申请号】CN201510238616
【发明人】蒋大可, 何俊, 莫燕峰
【申请人】湖北光谷天下传媒股份有限公司
【公开日】2015年8月26日
【申请日】2015年5月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1