主题词抗干扰提取方法

文档序号:6564853阅读:320来源:国知局
专利名称:主题词抗干扰提取方法
技术领域
本发明涉及一种过滤方法,尤其是一种过滤器中的主题词抗干扰提取方法,属于计算机技术领域。
本发明的内容是这样实现的一种主题词抗干扰提取方法,它包括如下步骤步骤1在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;步骤2判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;步骤3在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
所述的步骤1可直接为在两个相邻的中文标点符号之间查找指定的字符串。
所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。
依据上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有了一定的智能识别能力,保障了信息传递和管理的要求。
特定类型文本的主题词集可以人工指定也可以自动获取,其获取方法与本专利无关。
参见

图1,本发明的主题词抗干扰提取方法为设某一主题词W=a1a2…an,其中a1…an为主题词中的顺序排列的字符。在扫描文本S时,如果发现a1∈S,a2∈S,…an∈S,且满足a1<a2<…<an,a1和an之间的字符数小于抗干扰距离D,a1和an之间不包含标点符号则认为a1和an之间是一个被干扰的主题词。每发现一个这样的词串,记该词侯选频度F′(W)++。如果F′(W)达到某一预定阈值F0,则认为文本中所有这些被干扰的词串为主题词W,并在计算相应主题词信息时增加F′(W)的影响。
其中“<”表示顺序优先关系(不一定相邻)。
内容过滤器设定的抗干扰距离D=5,干扰词频度阈值F0=3。
某文本i中存在主题词S,S=a1a2a3a4a5,经初步分析,在文本i的两个邻近的标点符号之间发现字符串S’S’=a1xa2xa3a4xa5其中,x是除标点符号外的任意字符,根据抗干扰规则考查字符串S’和S的关系,存在a1<a2<a3<a4<a5,a1和a5之间的字符数为3,小于抗干扰距离D=5,a1和a5之间不包括标点符号则,条件成立,所以,有S’=S成立,S’被认为是文本i的一个候选主题词。接着,若在文本中发现3处以上S’以及干扰字符x位置发生变化的S’的变形,则有S‘为S的干扰词。也就是,干扰词S的频度F′(S)≥阈值F0成立,故经过主题词抗干扰处理,S’被认为与文本i的主题词S一致,在内容过滤器中作为一个主题词处理。
权利要求
1.一种主题词抗干扰提取方法,其特征在于它包括如下步骤步骤1在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;步骤2判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;步骤3在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
2.根据权利要求1所述的主题词抗干扰提取方法,其特征在于它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
3.根据权利要求1所述的主题词抗干扰提取方法,其特征在于所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。
4.根据权利要求1所述的主题词抗干扰提取方法,其特征在于所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。
全文摘要
一种主题词抗干扰提取方法,在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序;判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,该待选被干扰的主题词设为过滤器的关键词;上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有智能识别能力,保障了信息传递和管理的要求。
文档编号G06F17/40GK1403965SQ0113117
公开日2003年3月19日 申请日期2001年9月5日 优先权日2001年9月5日
发明者肖航, 高建忠, 王江, 诸光, 王楠, 何燕 申请人:联想(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1