一种关键词组合匹配方法

文档序号:6594919阅读:702来源:国知局
专利名称:一种关键词组合匹配方法
技术领域
本发明涉及一种关键词组合匹配方法,属于数据识别技术领域。
背景技术
在internet日益普及的今天,人们在享受信息获取便利的同时,也遭受着各种垃圾信息的骚扰,如恶意攻击、黄色暴力信息等,对这些信息的分析,可以通过对其中关键词的匹配程度进行识别。目前,对目标文本中匹配单个关键词,已经有很多有效的方法,如ac_bm算法搜索,可以先用需要匹配的关键词构建一棵ac_bm树,然后再进行匹配,只要需要匹配的关键词在目标文本中出现,就会被匹配到。在实际需求中,还经常会需要这些关键词的组合信息,如分析某个文本内容是否暴力信息时,定义一个值“power”用于统计,它的值越大,表示为暴力信息的可能性越大,当出现“打架”、“斗殴”关键词时,分别让“power”值加1,当同时出现“打架”、“斗殴”时,让“power”值加10,这样使匹配的结果更精确。

发明内容
有鉴于此,本发明的主要目的是提供一种关键词组合匹配的方法,旨在使匹配的结果更加准确,具体步骤如下:
1、设需要匹配的关键词:A,B,D,E ;
设需要匹配的关键词组合:A&B,A&D&E, B&E, B&D&E。
2、为每个关键词设置所属组合属性:
A:{(0,2),(1,4), (-1,-1)}
B:{(0,1),(2,2), (3,4), (-1,-1)}
c:{(-1,-1)}
D:{(1,2),(3,1), (-1,-1)}
E:{(1,1),(2,1), (3,1), (-1,-1)}
“ H ”中表示该关键词所属的全部组合,“ O ”中第一个数表示所属组合的index,第二个数转换成二进制时,“I”的位置表示在所属组合中的位置,比如B-> (3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置。
3、定义数组intcombine [4], combine [4]数组各成员值用二进制表示为:
权利要求
1.一种关键词组合匹配方法,其特征在于,包含以下步骤: 步骤1、设需要匹配的关键词:A,B, D,E,设需要匹配的关键词组合:A&B,A&D&E,B&E,B&D&E ; 步骤2、为每个关键词设置所属组合属性:A:{(0,2),(1,4), (-1,-1)}B:{(0,1),(2,2), (3,4), (-1,-1)}C:{(_1,-1)}D:{(1,2),(3,1), (-1,-1)}E:{(1,1),(2,1), (3,1), (-1,-1)} “ H ”中表示该关键词所属的全部组合,“ O ”中第一个数表示所属组合的index,第二个数转换成二进制时,“I”的位置表示在所属组合中的位置,比如B-> (3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置; 步骤3、定义数组int combine [4], combine [4]数组各成员值用二进制表示为:
全文摘要
本发明涉及一种关键词组合匹配方法。针对目前互联网上垃圾信息的骚扰,提出通过关键词组合匹配的方法进行分析识别这些信息,如分析某个文本内容是否暴力信息时,通过定义一个值进行统计,当出现相关词时,这个值增加,这样能够使匹配的结果更加准确。
文档编号G06F17/30GK103198160SQ20131015416
公开日2013年7月10日 申请日期2013年4月28日 优先权日2013年4月28日
发明者田永根, 陈稳, 郭铁 申请人:南京安讯科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1