一种关键词组合匹配方法

文档序号：6594919阅读：702来源：国知局

专利名称：一种关键词组合匹配方法
技术领域：
本发明涉及一种关键词组合匹配方法，属于数据识别技术领域。
背景技术：
在internet日益普及的今天，人们在享受信息获取便利的同时，也遭受着各种垃圾信息的骚扰，如恶意攻击、黄色暴力信息等，对这些信息的分析，可以通过对其中关键词的匹配程度进行识别。目前，对目标文本中匹配单个关键词，已经有很多有效的方法，如ac_bm算法搜索，可以先用需要匹配的关键词构建一棵ac_bm树，然后再进行匹配，只要需要匹配的关键词在目标文本中出现，就会被匹配到。在实际需求中，还经常会需要这些关键词的组合信息，如分析某个文本内容是否暴力信息时，定义一个值“power”用于统计，它的值越大，表示为暴力信息的可能性越大，当出现“打架”、“斗殴”关键词时，分别让“power”值加1，当同时出现“打架”、“斗殴”时，让“power”值加10,这样使匹配的结果更精确。

发明内容
有鉴于此，本发明的主要目的是提供一种关键词组合匹配的方法，旨在使匹配的结果更加准确，具体步骤如下:
1、设需要匹配的关键词:A,B，D，E ;
设需要匹配的关键词组合:A&B，A&D&E, B&E, B&D&E。
2、为每个关键词设置所属组合属性:
A:{(0，2)，(1,4), (-1，-1)}
B:{(0，1)，(2,2), (3,4), (-1，-1)}
c:{(-1，-1)}
D:{(1，2)，(3,1), (-1，-1)}
E:{(1，1)，(2,1), (3,1), (-1，-1)}
“ H ”中表示该关键词所属的全部组合，“ O ”中第一个数表示所属组合的index，第二个数转换成二进制时，“I”的位置表示在所属组合中的位置，比如B-> (3，4)，即(3，00000100)，表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置。
3、定义数组intcombine [4], combine [4]数组各成员值用二进制表示为:
权利要求
1.一种关键词组合匹配方法，其特征在于，包含以下步骤: 步骤1、设需要匹配的关键词:A，B, D，E，设需要匹配的关键词组合:A&B，A&D&E，B&E，B&D&E ；步骤2、为每个关键词设置所属组合属性:A:{(0，2)，(1,4), (-1，-1)}B:{(0，1)，(2,2), (3,4), (-1，-1)}C:{(_1，-1)}D:{(1，2)，(3,1), (-1，-1)}E:{(1，1)，(2,1), (3,1), (-1，-1)} “ H ”中表示该关键词所属的全部组合，“ O ”中第一个数表示所属组合的index，第二个数转换成二进制时，“I”的位置表示在所属组合中的位置，比如B-> (3，4)，即(3，00000100)，表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置；步骤3、定义数组int combine [4], combine [4]数组各成员值用二进制表示为:
全文摘要
本发明涉及一种关键词组合匹配方法。针对目前互联网上垃圾信息的骚扰，提出通过关键词组合匹配的方法进行分析识别这些信息，如分析某个文本内容是否暴力信息时，通过定义一个值进行统计，当出现相关词时，这个值增加，这样能够使匹配的结果更加准确。
文档编号G06F17/30GK103198160SQ20131015416
公开日2013年7月10日申请日期2013年4月28日优先权日2013年4月28日
发明者田永根, 陈稳, 郭铁申请人:南京安讯科技有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田永根;陈稳;郭铁
技术所有人：南京安讯科技有限责任公司
我是此专利的发明人

上一篇：一种精确计算双各向异性介质球电磁散射的方法
上一篇：自动并行化多级并行代价评估方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。