舆情信息的告警方法及装置的制造方法_2

文档序号:9579310阅读:来源:国知局
阈值时,对待检测舆情信息进行告警,以克 服现有技术中无法对舆情信息进行准确告警的问题。此外,通过利用与多个特征字段中的 每一个特征字段对应的特征集合进行查找,实现了对舆情信息的及时告警,缩短了舆情信 息的告警周期。
【附图说明】
[0023] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0024] 图1是根据本发明实施例的一种可选的舆情信息的告警方法的流程示意图;
[0025] 图2是根据本发明实施例的一种可选的舆情信息的告警方法的应用场景示意图;
[0026] 图3是根据本发明实施例的一种可选的舆情信息的告警方法中Simhash示意图;
[0027] 图4是根据本发明实施例的另一种可选的舆情信息的告警方法的流程示意图;以 及
[0028] 图5是根据本发明实施例的一种可选的舆情信息的告警装置的示意图。
【具体实施方式】
[0029] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0030] 实施例1
[0031] 根据本发明实施例,提供了一种舆情信息的告警方法,如图1所示,在本实施例 中,该方法包括:
[0032]S102,从网络信息中识别出待检测舆情信息;
[0033]S104,对待检测舆情信息进行预处理,将预处理后的待检测舆情信息划分为多个 特征字段;
[0034] S106,至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息 对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;
[0035]S108,若满足告警条件,则对待检测舆情信息进行告警;
[0036] S110,若不满足告警条件,则不对待检测舆情信息进行告警。
[0037] 可选地,在本实施例中,上述舆情信息的告警方法可以应用于对网络舆情的控制 过程中,假设如图2所示,网络中包括终端202-1至终端202-5,上述终端将对某一产品的 评论看法通过网络发送至服务器204中,以使服务器204从多个终端中获得的网络信息中 识别出待检测舆情信息。可选地,在本实施例中,待检测舆情信息可以但不限于负面舆情信 息,其中,上述负面舆情信息可以包括网络信息中对产品的负面评论及看法,例如,恶意评 论,这些负面舆情信息会给产品带来消极的市场影响。上述仅是一种示例,本实施例对此不 做任何限定。
[0038] 可选地,在本实施例中,从网络信息识别出待检测舆情信息的方式可以包括以下 至少之一 :1)通过贝叶斯分类判断识别出所述待检测舆情信息;或者,2)通过支持向量机 SVM分类判断识别出所述待检测舆情信息。通过上述方式对舆情信息进行判断识别,以得到 待检测舆情信息。例如,以贝叶斯分类识别为例,若从网络中接收到的舆情信息通过贝叶斯 判断属于负面舆情信息的概率大于预定阈值,则可以判断识别出上述获取到的舆情信息为 负面舆情信息。
[0039] 可选地,在本实施例中,对待检测舆情信息进行预处理包括:
[0040] S1,提取待检测舆情信息的主题;
[0041]S2,对主题进哈希转码操作得到预定码长的哈希码;
[0042]S3,将哈希码划分为多个特征字段。
[0043] 可选地,在本实施例中,上述主题可以来源于但不限于以下之一:标题、特殊符号 标识的话题。例如,若接收到新闻信息,或论坛中的帖子,则将根据新闻或帖子的标题来提 取主题;若接收到微博中的信息,则可以对带有特殊符号标识的话题,例如,对带有"【】"、 " 的话题来提取主题。
[0044] 可选地,在本实施例中,上述哈希转码操作可以但不限于Simhash转码,其中, Simhash是指将N维向量转换成hash码,进而通过比较两段哈希码来衡量两段舆情信息的 文本相似度。
[0045] 具体结合以下示例进行说明,假设服务器204从网络信息中识别出待检测舆情信 息,提取出主题"错误登录,尽快修改密码",上述主题对应的ID为76,再经过Simhash转码 操作后得到64位的二进制哈希码,例如,待检测舆情信息对应的特征字段为10101111,01 010011,01001010, 10101010, 10101010, 01110101,10111101,00001111,然后将上述哈希码 化分为8个特征字段进行存储,如表1所示。
[0046]表 1
[00471
[0048] 根据表1所示的8个特征字段与已告警的舆情信息对应的特征字段比较后得到相 似度(例如,相似度为3),则进一步根据上述相似度判断上述待检测舆情信息是否满足告 警条件,例如,判断上述相似度是否小于等于预定阈值,来判断上述待检测舆情信息是否已 经告警过。
[0049] 可选地,在本实施例中,已告警的舆情信息可以但不限于保存在一个已告警舆情 信息集合中,用S集合标识。当识别出待检测舆情信息,则可以将上述待检测舆情信息对应 的特征字段与S集合中已告警的舆情信息进行相似度比对。可选地,在本实施例中,上述相 似度可以但不限于用海明距离来衡量,其中,上述海明距离为两个码字的对应比特取值不 同的比特数。
[0050] 具体结合以下示例进行说明,假设相似度预定阈值设定为6,待检测舆情信息对应 的特征字段为 10101111,01010011,01001010,10101010,10101010, 01110101,10111101,〇〇 001111,与已告警舆情信息集合中对应的所有特征字段的相似度分别为1至5中任意值,均 小于相似度预定阈值6,则可以判断出上述待检测舆情信息还未告警,需要进一步判断是否 对该待检测舆情信息进行告警。
[0051] 通过本申请提供的实施例,通过将识别出的待检测舆情信息进行预处理,并将经 过预处理后得到的待检测舆情信息对应的特征字段,与已告警的舆情信息对应的特征字段 进行比较,比较二者的相似度,进而判断上述待检测舆情信息是否满足告警条件,对判断出 满足告警条件的待检测舆情信息进行告警。从而克服了现有技术无法对舆情信息准确告警 的问题,通过比对特征字段的相似度,达到了对识别出的待检测舆情信息进行准确告警的 效果。
[0052] 作为一种可选的方案,至少根据预处理后的待检测舆情信息对应的特征字段与已 告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件包括:
[0053] S1,在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应 的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
[0054] S2,若在已告警的舆情信息对应的特征字段中查找到至少包括一条舆情信息对应 的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则判断出 待检测舆情信息不满足告警条件。
[0055] 可选地,在本实施例中,在已告警的舆情信息中查找一条舆情信息对应的特征字 段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值的方式可以包括但 不限于:在已告警舆情信息集合(例如,S集合)中分别根据待检测舆情信息对应的特征字 段中的每一个特征字段进行查找。
[0056] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111 ,01010011,01001010, 10101010, 10101010, 01110101,10111101,00001111 为例。在已告警 舆情信息集合(例如,S集合)中根据第一特征字段10101111进行查找,将已告警舆情信 息集合中第一特征字段与待检测舆情信息的第一特征字段相同的已告警的舆情信息作为 第一特征集合,在该集合中比较待检测舆情信息与已告警的舆情信息的相似度,若未查找 至IJ相似度小于等于第一预定阈值的舆情信息,则将根据待检测舆情信息的第二特征字段继 续进行查找,在第二特征字段对应的第二特征集合中进行相似度比较,依次在待检测舆情 信息对应的特征字段中进行查找。若查找到一条已告警的舆情信息对应的特征字段与待检 测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出上述待检测舆情 信息已经告警过,无需继续进行查找。
[0057] 通过本申请提供的实施例,通过与已告警的舆情信息进行比较,判断待检测舆情 信息是否至少与一条已告警的舆情信息的相似度满足小于等于第一预定阈值的条件,若满 足则表示上述待检测舆情信息已告警过,无需对上述待检测舆情进行重复告警,从而实现 了提高对舆情信息进行告警的准确性。
[0058] 作为一种可选的方案,至少根据预处理后的待检测舆情信息对应的特征字段与已 告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件包括:
[0059]S1,在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应 的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
[0060] S2,若在已告警的舆情信息对应的特征字段中未查找出一条舆情信息对应的特征 字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则在未告警的舆 情信息对应的特征字段中查找满足与待检测舆情信息对应的特征字段的相似度小于等于 第二预定阈值的条件的未告警的舆情信息对应的特征字段,判断满足上述条件的未告警的 舆情信息的数量是否大于等于第三预定阈值;
[0061] S3,若满足上述条件的未告警的舆情信息的数量大于等于第三预定阈值,则判断 出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
[0062] 可选地,在本实施例中,第一预定阈值、第二预定阈值及第三预定阈值可以但不限 于根据不同的应用场景取相同或不同的数值,本实施例对此不做任何限定。
[0063] 可选地,在本实施例中,未告警的舆情信息可以但不限于保存在一个未告警舆情 信息集合中,用R集合标识,将上述待检测舆情信息对应的特征字段与R集合中已告警的舆 情信息进行相似度比对。
[0064] 可选地,在本实施例中,在未告警的舆情信息对应的特征字段中查找与待检测舆 情信息对应的特征字段的相似度小于等于第二预定阈值的方式可以包括但不限于:在未告 警舆情信息集合(例如,R集合)中分别根据待检测舆情信息对应的特征字段中的每一个 特征字段进行查找。
[0065] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111 ,01010011,01001010, 10101010, 10101010, 01110101,10111101,00001111 为例。在已告警 舆情信息集合中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字 段的相似度小于等于第一预定阈值时,则在未告警舆情信息集合(例如,R集合)中根据第 一特征字段10101111进行查找,然后依次在不同特征字段对应的特征集合中进行查找,并 得到在未告警的舆情信息对应的特征字段中与待检测舆情信息对应的特征字段的相似度 小于等于第二预定阈值的未告警的舆情信息的数量。
[0066] 通过本申请提供的实施例,通过与未告警的舆情信息进行比较,判断与待检测舆 情信息的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈 值,从而在上述数量大于第三预定阈值时,判断出对上述待检测舆情信息进行告警,实现对 待检测舆情信息的准确告警。
[0067] 作为一种可选的方案,上述在已告警的舆情信息对应的特征字段中查找是否至少 包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于 第一预定阈值包括:S1,分别根据待检测舆情信息对应的特征字段中的每一个待
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1