文本中不良文字信息的过滤方法及过滤系统的制作方法_3

文档序号：9708285阅读：来源：国知局

16]例如:
[0117]文本内容:秀90是继YY、六间房之后的一家大型网络娱乐视频网站。
[0118]分词结果:秀/90/是/继/YY/六间/房/之后/的/一家/大型/网络/娱乐/的/视频/网站
[0119]分词的结果把我们不想分开的“秀90”、“六间房”均分开了。为避免这种情况，可以在自定义词库中加入我们想要的词汇。添加“秀90”、“六间房”之后分词结果:
[0120]秀90/是/继/YY/六间房/之后/的/一家/大型/网络/娱乐/视频/网站
[0121]如果将YY、六间房加入敏感词汇中，
[0122]文本内容:YY、六间房美女众多
[0123]输出结果:林、*林美女众多
[0124]这样就达到我们的文本过滤的目的。
[0125]步骤104，将输出的未记录词串添加到词典中。
[0126]该步骤可以添加在分词后的任一步骤中，由于现有词汇量追日增加，各种新词层出不穷，为了适应这种情况，词典的词汇量需要不断更新，比如:在对文本进行切分时，一旦遇到未出现在词典中的词，则可以放置于词典中，以达到更新的目的。方便后续切分时使用
[0127]为执行上述过滤方法，还提供了文本中不良文字信息的过滤系统，该系统可以加载于硬件中执行，也可以构建软件系统运行。其包括:
[0128]提取模块，用于提取待过滤文本；
[0129]分词模块，用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对待过滤文本进行分词；
[0130]过滤模块，用于循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换敏感词汇后，输出替换敏感词汇后的文本。
[0131]其中，分词模块包括:
[0132]英文分词单元，若待过滤文本中包含英文是，用于将英文按英文字符串分词；
[0133]数字分词单元，若待过滤文本中包含数字，用于将数字按数字字符串分词；
[0134]提取单元，用于从待过滤文本中提取不包含英文和数字的待分词字符串；
[0135]动态分词单元，用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mex len对待分词字符串进行分词。
[0136]动态分词单元执行的分词程序为:
[0137]01)为待分词字符串S1赋初值；
[0138]02)判断待分词字符串S1是否为空；如果未空，输出分词后的词串，及输出未记录词串；
[0139]03)如果待分词字符串S1不为空，判断待分词字符串S1是否为单字，如果是单字，直接分出单字；
[0140]04)如果不是单字，取待分词字符串S1左边第一个字W，通过词典中哈希表找到对应第一个字W的词长度WLen;
[0141]05)判断待分词字符串的长度是否小于词长度WLen，如果小于，则进入07);
[0142]06)如果不小于，取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当字串与某一词条匹配，输出该字串；
[0143]07)如果未匹配，判断WLen是否为2，如果不是，PLen++，转04)
[0144]08)如果07)的结果为是，将字串输出为未记录词串。
[0145]以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1.一种文本中不良文字信息的过滤方法，其特征在于，包括: 步骤1，提取待过滤文本；步骤2，利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对所述待过滤文本进行分词；步骤3，循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换所述敏感词汇后，输出替换敏感词汇后的文本。2.如权利要求1所述的文本中不良文字信息的过滤方法，其特征在于，所述步骤2包括: 若所述待过滤文本中包含英文，则将所述英文按英文字符串分词；若所述待过滤文本中包含数字，则将所述数字按数字字符串分词；从所述待过滤文本中提取不包含英文和数字的待分词字符串；利用词典中词条长度动态确定最大匹配算法中词长Max 1 en的值，通过Mex 1 en对所述待分词字符串进行分词。3.如权利要求2所述的文本中不良文字信息的过滤方法，其特征在于，所述利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对所述待分词字符串进行分词包括: 01)为待分词字符串S1赋初值； 02)判断待分词字符串S1是否为空;如果未空，输出分词后的词串，及输出未记录词串； 03)如果待分词字符串S1不为空，判断待分词字符串S1是否为单字，如果是单字，直接分出单字； 04)如果不是单字，取待分词字符串S1左边第一个字W，通过词典中哈希表找到对应所述第一个字W的词长度WLen; 05)判断所述待分词字符串的长度是否小于词长度WLen，如果小于，则进入07); 06)如果不小于，取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当所述字串与某一词条匹配，输出该字串； 07)如果未匹配，判断WLen是否为2，如果不是，PLen++，转04) 08)如果07)的结果为是，将所述字串输出为未记录词串。4.如权利要求3所述的文本中不良文字信息的过滤方法，其特征在于，步骤3包括: 加载敏感词汇库；将所有分词后的词串依次在所述敏感词汇库中匹配，若匹配成功，则屏蔽匹配成功的词串；采用非敏感词汇替换所述敏感词汇后，输出替换敏感词汇后的文本。5.如权利要求4所述的文本中不良文字信息的过滤方法，其特征在于，若匹配不成功，则直接输出文本。6.如权利要求3所述的文本中不良文字信息的过滤方法，其特征在于，在步骤2和步骤3之间，还包括:将输出的未记录词串添加到词典中。7.—种文本中不良文字信息的过滤系统，其特征在于，包括: 提取模块，用于提取待过滤文本；分词模块，用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对所述待过滤文本进行分词；过滤模块，用于循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换所述敏感词汇后，输出替换敏感词汇后的文本。8.如权利要求7所述的文本中不良文字信息的过滤系统，其特征在于，所述分词模块包括: 英文分词单元，若所述待过滤文本中包含英文是，用于将所述英文按英文字符串分词；数字分词单元，若所述待过滤文本中包含数字，用于将所述数字按数字字符串分词；提取单元，用于从所述待过滤文本中提取不包含英文和数字的待分词字符串；动态分词单元，用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对所述待分词字符串进行分词。9.如权利要求8所述的文本中不良文字信息的过滤系统，其特征在于，所述动态分词单元执行的分词程序为: 01)为待分词字符串S1赋初值； 02)判断待分词字符串S1是否为空;如果未空，输出分词后的词串，及输出未记录词串； 03)如果待分词字符串S1不为空，判断待分词字符串S1是否为单字，如果是单字，直接分出单字； 04)如果不是单字，取待分词字符串S1左边第一个字W，通过词典中哈希表找到对应所述第一个字W的词长度WLen; 05)判断所述待分词字符串的长度是否小于词长度WLen，如果小于，则进入07); 06)如果不小于，取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当所述字串与某一词条匹配，输出该字串； 07)如果未匹配，判断WLen是否为2，如果不是，PLen++，转04) 08)如果07)的结果为是，将所述字串输出为未记录词串。
【专利摘要】本发明涉及文本处理技术领域，具体涉及文本中不良文字信息的过滤方法及过滤系统。该过滤方法包括：步骤1，提取待过滤文本；步骤2，利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对待过滤文本进行分词；步骤3，循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换敏感词汇后，输出替换敏感词汇后的文本。本发明解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断，并根据判断结果输出文本。由于采用了改进的分词方式，因此提高了整体过滤速度和过滤准确度。
【IPC分类】G06F17/27
【公开号】CN105468584
【申请号】CN201511027950
【发明人】高玉环, 喻西香, 朱山, 朱光喜
【申请人】武汉鸿瑞达信息技术有限公司
【公开日】2016年4月6日
【申请日】2015年12月31日

完整全部详细技术资料下载

当前第3页1 2 3