舆情信息的告警方法及装置的制造方法_5

文档序号:9579310阅读:来源:国知局
字段是10101111 ,01010011,01001010, 10101010, 10101010, 01110101,10111101,00001111 为例。在已告警 舆情信息集合中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字 段的相似度小于等于第一预定阈值时,则在未告警舆情信息集合(例如,R集合)中根据第 一特征字段10101111进行查找,然后依次在不同特征字段对应的特征集合中进行查找,并 得到在未告警的舆情信息对应的特征字段中与待检测舆情信息对应的特征字段的相似度 小于等于第二预定阈值的未告警的舆情信息的数量。
[0150] 通过本申请提供的实施例,通过与未告警的舆情信息进行比较,判断与待检测舆 情信息的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈 值,从而在上述数量大于第三预定阈值时,判断出对上述待检测舆情信息进行告警,实现对 待检测舆情信息的准确告警。
[0151] 作为一种可选的方案,第一查找模块包括:第一查找子模块,用于分别根据待检测 舆情信息对应的特征字段中的每一个待检测特征字段在已告警的舆情信息对应的特征字 段中进行查找,得到与每一个待检测特征字段对应的特征集合;第一比较子模块,用于按照 预定的顺序将每一个待检测特征字段对应的特征集合中的已告警的舆情信息对应的特征 字段与待检测舆情信息对应的特征字段进行比较,判断已告警的舆情信息对应的特征字段 与待检测舆情信息对应的特征字段的相似度是否小于等于第一预定阈值;
[0152] 上述第一判断模块包括:第一判断子模块,用于只要查找到一条已告警的舆情信 息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时, 判断出待检测舆情信息为已告警的舆情信息,待检测舆情信息不满足告警条件。
[0153] 具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101 111,01010011,01001010, 10101010, 10101010, 01110101,10111101,00001111,相似度用海 明距离标识,第一预定阈值为7,已告警的舆情信息对应的特征字段包括但不限于以下字 段:
[0154] 1) 10101110, 01010000, 01001011,10101011,10101011,01110101,10111101,0000 1101 ;
[0155] 2) 10101001,01010101,01001010, 10101010, 10101010, 01000101,10110001,0110 1111 ;
[0156] 3) 10101111,01010000, 01001010, 10101010, 10101010, 01110101,10100101,0011 0011 ;
[0157] 4) 10101111,01010011,01010010, 10111010, 10101010, 01110101,10000110, 1111 0000 ;
[0158] 5) 10101111,01010001,01001010, 10101010, 10101010, 01110101,10111101,0000 1111。
[0159] 根据待检测舆情信息的第一特征字段在已告警舆情信息集合(S集合)中查找,得 到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
[0160] 3) 10101111,01010000, 01001010, 10101010, 10101010, 01110101,10100101,0011 0011;(相似度为8)
[0161] 4)10101111,01010011,01010010, 10111010, 10101010, 01110101,10000110, 1111 0000;(相似度为12)
[0162] 5) 10101111,01010001,01001010, 10101010, 10101010, 01110101,10111101,0000 1111。(相似度为1)
[0163] 再将上述第一特征集合中每一个已告警的舆情信息对应的特征字段与待检测舆 情信息的特征字段进行比较,判断二者之间的相似度。经判断第五个特征字段与待检测舆 情信息对应的特征字段的相似度小于第一预定阈值7,则可判断出上述待检测舆情信息不 满足告警条件,无需进行告警。
[0164] 通过本申请提供的实施例,通过分别根据不同的特征字段在已告警的舆情信息中 查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查 找到一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于 第一预定阈值时,则可得出上述待检测舆情信息为已告警的舆情信息,并不满足告警条件, 进一步,无需继续在已告警的舆情信息中进行查找或相似度比较,从而实现及时对待检测 舆情信息进行判断,缩短了舆情信息的告警周期。
[0165] 作为一种可选的方案,第三查找模块包括:第二查找子模块,用于分别根据待检测 舆情信息对应的特征字段中的每一个待检测特征字段在未告警的舆情信息对应的特征字 段中进行查找,得到与每一个待检测特征字段对应的特征集合;第二比较子模块,用于按照 预定的顺序将每一个待检测特征字段对应的特征集合中的未告警的舆情信息对应的特征 字段与待检测舆情信息对应的特征字段进行比较,判断未告警的舆情信息对应的特征字段 与待检测舆情信息对应的特征字段的相似度是否小于等于第二预定阈值;计数子模块,用 于将查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告 警的舆情信息计数;
[0166] 上述第二判断模块包括:告警子模块,用于在查找到的与待检测舆情信息对应的 特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值 时,判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
[0167] 具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101 111,01010011,01001010, 10101010, 10101010, 01110101,10111101,00001111,相似度用海 明距离标识,第二预定阈值为7,第三预定阈值为2,未告警的舆情信息对应的特征字段包 括但不限于以下字段 :
[0168] 1) 10101110, 01010000, 01001011,10101011,10101011,01110101,10111101,0000 1101;
[0169] 2) 10101111,01010011,01001010, 10101010, 10101010, 01110101,10111101,1100 1001 ;
[0170] 3) 10101111,01010000, 01001010, 10101010, 10101010, 01110101,10100101,0011 0011 ;
[0171] 4)10101111,01010011,01010010, 10111010, 10101010, 01110101,10000110, 1111 0000 ;
[0172] 5) 10101111,01010001,01001010, 10101010, 10101010, 01110101,10111101,0000 1111。
[0173] 根据待检测舆情信息的第一特征字段在未告警舆情信息集合(R集合)中查找,得 到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
[0174] 2) 10101111,01010011,01001010, 10101010, 10101010, 01110101,10111101,1100 1001;(相似度为4)
[0175] 3) 10101111,01010000, 01001010, 10101010, 10101010, 01110101,10100101,0011 0011 ;(相似度为8)
[0176] 4)10101111,01010011,01010010, 10111010, 10101010, 01110101,10000110, 1111 0000 ;(相似度为12)
[0177] 5) 10101111,01010001,01001010, 10101010, 10101010, 01110101,10111101,0000 1111。(相似度为1)
[0178] 再将上述第一特征集合中每一个未告警的舆情信息对应的特征字段与待检测舆 情信息的特征字段进行比较,判断二者之间的相似度。经判断第2个特征字段及第5个特 征字段与待检测舆情信息对应的特征字段的相似度小于第二预定阈值7,上述相似度小于 等于第二预定阈值的未告警的舆情信息的数量已经达到第三预定阈值2时,则可以判断出 上述待检测舆情信息满足告警条件,需要对上述待检测舆情信息进行告警。
[0179] 通过本申请提供的实施例,通过分别根据不同的特征字段在未告警的舆情信息中 查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查 找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情 信息的数量达到第三预定阈值时,则需要对上述待检测舆情信息进行告警。进一步,当查找 到的未告警的舆情信息的数量达到第三预定阈值时,无需继续在未告警的舆情信息中进行 查找或相似度比较,也可判断出待检测舆情信息需要进行告警,从而实现及时对待检测舆 情信息进行告警,缩短了舆情信息的告警周期。
[0180] 作为一种可选的方案,对预处理单元504包括:
[0181] 1)提取模块,用于提取待检测舆情信息的主题;
[0182] 2)转码模块,用于对主题进行哈希转码操作得到预定码长的哈希码;
[0183] 3)划分模块,用于将哈希码划分为多个特征字段。
[0184] 可选地,在本实施例中,划分为多个特征字段进行查找的方式包括但不限于:假设 多个特征字段个数为N,则当相似度比较的第一预定阈值为小于等于N-1时,则当上述相似 度(例如,海明距离)中不同的比特码在不同的特征字段时,至少还有一个特征字段中的比 特码是与其他舆情信息对应的特征字段完全相同的,则基于上述多个特征字段中的每一个 特征字段分别进行查找,得到与上述每一个特征字段对应的特征集合,再基于上述特征集 合进行相似度比较时,很大程度上减小了相似度比较的数量,从而提高舆情信息告警判断 的效率,使得舆情信息告警更加及时有效。
[0185] 具体结合以下示例进行说明,例如,通过爬虫抓取微博,对微博中带有特殊符号标 识"##"的话题进行识别,得到待检测舆情信息,然后将上述待检测舆情信息进行如图3所 示的Simhash转码,得到一个64位二进制码。然后将上述二进制码划分为如表2所示的8 段特征字段,并倒序存储,以用于之后的特征字段的相似度比较。
[0186] 通过本申请提供的实施例,通过对待检测舆情信息进行提取、转码、划分特征字段 的预处理后,得到用于查找的多个特征字段,利用与多个特征字段对应的特征集合与待检 测舆情信息的特征字段进行相似度比较,达到及时对需要告警的舆情信息进行准确告警, 提供了告警的效率,缩短了舆情信息的告警周期。
[0187] 本发明提供了一种优选的实施例来进一步对本发明进行解释,但是值得注意的 是,该优选实施例只是为了更好的描述本发明,并不构成对本发明不当的限定。
[0188] 从以上的描述中,可以看出,通过将从网络信息中识别出的待检测舆情信息进行 预处理后,至少根据预处理后的上述待检测舆情信息对应的特征字段
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1