文本中不良文字信息的过滤方法及过滤系统的制作方法_3

文档序号:9708285阅读:来源:国知局
16]例如:
[0117]文本内容:秀90是继YY、六间房之后的一家大型网络娱乐视频网站。
[0118]分词结果:秀/90/是/继/YY/六间/房/之后/的/一家/大型/网络/娱乐/的/视频/网站
[0119]分词的结果把我们不想分开的“秀90”、“六间房”均分开了。为避免这种情况,可以在自定义词库中加入我们想要的词汇。添加“秀90”、“六间房”之后分词结果:
[0120]秀90/是/继/YY/六间房/之后/的/一家/大型/网络/娱乐/视频/网站
[0121]如果将YY、六间房加入敏感词汇中,
[0122]文本内容:YY、六间房美女众多
[0123]输出结果:林、*林美女众多
[0124]这样就达到我们的文本过滤的目的。
[0125]步骤104,将输出的未记录词串添加到词典中。
[0126]该步骤可以添加在分词后的任一步骤中,由于现有词汇量追日增加,各种新词层出不穷,为了适应这种情况,词典的词汇量需要不断更新,比如:在对文本进行切分时,一旦遇到未出现在词典中的词,则可以放置于词典中,以达到更新的目的。方便后续切分时使用
[0127]为执行上述过滤方法,还提供了文本中不良文字信息的过滤系统,该系统可以加载于硬件中执行,也可以构建软件系统运行。其包括:
[0128]提取模块,用于提取待过滤文本;
[0129]分词模块,用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对待过滤文本进行分词;
[0130]过滤模块,用于循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换敏感词汇后,输出替换敏感词汇后的文本。
[0131]其中,分词模块包括:
[0132]英文分词单元,若待过滤文本中包含英文是,用于将英文按英文字符串分词;
[0133]数字分词单元,若待过滤文本中包含数字,用于将数字按数字字符串分词;
[0134]提取单元,用于从待过滤文本中提取不包含英文和数字的待分词字符串;
[0135]动态分词单元,用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mex len对待分词字符串进行分词。
[0136]动态分词单元执行的分词程序为:
[0137]01)为待分词字符串S1赋初值;
[0138]02)判断待分词字符串S1是否为空;如果未空,输出分词后的词串,及输出未记录词串;
[0139]03)如果待分词字符串S1不为空,判断待分词字符串S1是否为单字,如果是单字,直接分出单字;
[0140]04)如果不是单字,取待分词字符串S1左边第一个字W,通过词典中哈希表找到对应第一个字W的词长度WLen;
[0141]05)判断待分词字符串的长度是否小于词长度WLen,如果小于,则进入07);
[0142]06)如果不小于,取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当字串与某一词条匹配,输出该字串;
[0143]07)如果未匹配,判断WLen是否为2,如果不是,PLen++,转04)
[0144]08)如果07)的结果为是,将字串输出为未记录词串。
[0145]以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种文本中不良文字信息的过滤方法,其特征在于,包括: 步骤1,提取待过滤文本; 步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待过滤文本进行分词; 步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。2.如权利要求1所述的文本中不良文字信息的过滤方法,其特征在于,所述步骤2包括: 若所述待过滤文本中包含英文,则将所述英文按英文字符串分词; 若所述待过滤文本中包含数字,则将所述数字按数字字符串分词; 从所述待过滤文本中提取不包含英文和数字的待分词字符串; 利用词典中词条长度动态确定最大匹配算法中词长Max 1 en的值,通过Mex 1 en对所述待分词字符串进行分词。3.如权利要求2所述的文本中不良文字信息的过滤方法,其特征在于,所述利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待分词字符串进行分词包括: 01)为待分词字符串S1赋初值; 02)判断待分词字符串S1是否为空;如果未空,输出分词后的词串,及输出未记录词串; 03)如果待分词字符串S1不为空,判断待分词字符串S1是否为单字,如果是单字,直接分出单字; 04)如果不是单字,取待分词字符串S1左边第一个字W,通过词典中哈希表找到对应所述第一个字W的词长度WLen; 05)判断所述待分词字符串的长度是否小于词长度WLen,如果小于,则进入07); 06)如果不小于,取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当所述字串与某一词条匹配,输出该字串; 07)如果未匹配,判断WLen是否为2,如果不是,PLen++,转04) 08)如果07)的结果为是,将所述字串输出为未记录词串。4.如权利要求3所述的文本中不良文字信息的过滤方法,其特征在于,步骤3包括: 加载敏感词汇库; 将所有分词后的词串依次在所述敏感词汇库中匹配,若匹配成功,则屏蔽匹配成功的词串; 采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。5.如权利要求4所述的文本中不良文字信息的过滤方法,其特征在于,若匹配不成功,则直接输出文本。6.如权利要求3所述的文本中不良文字信息的过滤方法,其特征在于,在步骤2和步骤3之间,还包括:将输出的未记录词串添加到词典中。7.—种文本中不良文字信息的过滤系统,其特征在于,包括: 提取模块,用于提取待过滤文本; 分词模块,用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待过滤文本进行分词; 过滤模块,用于循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。8.如权利要求7所述的文本中不良文字信息的过滤系统,其特征在于,所述分词模块包括: 英文分词单元,若所述待过滤文本中包含英文是,用于将所述英文按英文字符串分词; 数字分词单元,若所述待过滤文本中包含数字,用于将所述数字按数字字符串分词; 提取单元,用于从所述待过滤文本中提取不包含英文和数字的待分词字符串; 动态分词单元,用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待分词字符串进行分词。9.如权利要求8所述的文本中不良文字信息的过滤系统,其特征在于,所述动态分词单元执行的分词程序为: 01)为待分词字符串S1赋初值; 02)判断待分词字符串S1是否为空;如果未空,输出分词后的词串,及输出未记录词串; 03)如果待分词字符串S1不为空,判断待分词字符串S1是否为单字,如果是单字,直接分出单字; 04)如果不是单字,取待分词字符串S1左边第一个字W,通过词典中哈希表找到对应所述第一个字W的词长度WLen; 05)判断所述待分词字符串的长度是否小于词长度WLen,如果小于,则进入07); 06)如果不小于,取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当所述字串与某一词条匹配,输出该字串; 07)如果未匹配,判断WLen是否为2,如果不是,PLen++,转04) 08)如果07)的结果为是,将所述字串输出为未记录词串。
【专利摘要】本发明涉及文本处理技术领域,具体涉及文本中不良文字信息的过滤方法及过滤系统。该过滤方法包括:步骤1,提取待过滤文本;步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对待过滤文本进行分词;步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换敏感词汇后,输出替换敏感词汇后的文本。本发明解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断,并根据判断结果输出文本。由于采用了改进的分词方式,因此提高了整体过滤速度和过滤准确度。
【IPC分类】G06F17/27
【公开号】CN105468584
【申请号】CN201511027950
【发明人】高玉环, 喻西香, 朱山, 朱光喜
【申请人】武汉鸿瑞达信息技术有限公司
【公开日】2016年4月6日
【申请日】2015年12月31日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1