舆情信息的告警方法及装置的制造方法_4

文档序号:9579310阅读:来源:国知局
待检测舆情信息转换得 到的η维向量落在上述η维向量的不同空间,则可判断出上述待检测舆情信息是属于"负面 舆情信息"还是"正面舆情信息"。
[0110] 通过本申请提供的实施例,通过获取到的网络信息识别出待检测的舆情信息,例 如负面舆情信息,从而克服了现有技术中无法对舆情信息进行告警的问题,实现了提高对 舆情信息进行告警的准确性。
[0111] 具体结合图4中S402至S418所示进行描述,从网络中获取网络信息,然后对识别 出的待检测舆情信息执行预处理,如步骤S406-S410,对预处理后的待检测舆情信息继续之 后的告警判断步骤,如步骤S412-S414,并对识别出是待检测舆情信息的执行步骤S416,进 行舆情信息的告警;对识别出不是待检测舆情信息的执行步骤S418,不进行舆情信息的告 警;进一步,对识别出的待检测舆情信息执行的预处理至少包括:执行抽取主题、Simhash 转码、划分多个特征字段,对预处理后的待检测舆情信息执行步骤S412,判断上述预处理后 的待检测舆情信息是否已经告警过,若判断出上述待检测舆情信息已经告警过,不满足告 警条件,则执行步骤S418,不进行舆情信息的告警,若判断出上述待检测舆情信息还未告警 过,则执行步骤S414,查找满足与待检测舆情信息对应的特征字段的相似度小于等于第二 预定阈值的条件的未告警的舆情信息对应的特征字段,判断满足上述条件的未告警的舆情 信息的数量是否达到第三预定阈值,若达到则执行步骤S416,对待检测舆情信息进行告警, 否则执行步骤S418,不进行舆情信息的告警。
[0112] 本发明提供了一种优选的实施例来进一步对本发明进行解释,但是值得注意的 是,该优选实施例只是为了更好的描述本发明,并不构成对本发明不当的限定。
[0113] 实施例2
[0114]根据本发明实施例,还提供了一种舆情信息告警装置,如图5所示,该装置包括:
[0115] 1)识别单元502,用于从网络信息中识别出待检测舆情信息;
[0116] 2)预处理单元504,用于对待检测舆情信息进行预处理,将预处理后的待检测舆 情信息划分为多个特征字段;
[0117] 3)判断单元506,用于至少根据预处理后的待检测舆情信息对应的特征字段与已 告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;
[0118] 4)告警单元508,用于在满足告警条件时,对待检测舆情信息进行告警。
[0119] 可选地,在本实施例中,上述舆情信息的告警方法可以应用于对网络舆情的控制 过程中,假设如图2所示,网络中包括终端202-1至终端202-5,上述终端将对某一产品的评 论看法通过网络发送至服务器204中,以使服务器204从多个终端中获得的网络信息中识 别出待检测舆情信息。可选地,在本实施例中,待检测舆情信息可以但不限于是负面舆情信 息,其中,上述负面舆情信息可以包括网络信息中对产品的负面评论及看法,例如,恶意评 论,这些负面舆情信息会给产品带来消极的市场影响。上述仅是一种示例,本实施例对此不 做任何限定。
[0120] 可选地,在本实施例中,从网络信息识别出待检测舆情信息的方式可以包括以下 至少之一 :1)通过贝叶斯分类判断识别出所述待检测舆情信息;或者,2)通过支持向量机 SVM分类判断识别出所述待检测舆情信息。通过上述方式对舆情信息进行判断识别,以得到 待检测舆情信息。例如,以贝叶斯分类识别为例,若从网络中接收到的舆情信息通过贝叶斯 判断属于负面舆情信息的概率大于预定阈值,则可以判断识别出上述获取到的舆情信息为 负面舆情信息。
[0121] 可选地,在本实施例中,对待检测舆情信息进行预处理包括:
[0122] S1,提取待检测舆情信息的主题;
[0123]S2,对主题进哈希转码操作得到预定码长的哈希码;
[0124]S3,将哈希码划分为多个特征字段。
[0125] 可选地,在本实施例中,上述主题可以来源于但不限于以下之一:标题、特殊符号 标识的话题。例如,若接收到新闻信息,或论坛中的帖子,则将根据新闻或帖子的标题来提 取主题;若接收到微博中的信息,则可以对带有特殊符号标识的话题,例如,对带有"【】"、 " 的话题来提取主题。
[0126] 可选地,在本实施例中,上述哈希转码操作可以但不限于Simhash转码,其中, Simhash是指将N维向量转换成hash码,进而通过比较两段哈希码来衡量两段舆情信息的 文本相似度。
[0127]可选地,在本实施例中,上述舆情信息告警装置还包括:存储单元(图中未示出), 其中,上述存储单元可以但不限于用于存储上述分段后得到的特征字段。可选地,在本实施 例中,上述分段后得到的特征字段也可以但不限于存储在上述舆情信息告警装置之外的第 三方装置的存储单元中。
[0128] 可选地,在本实施例中,上述存储单元(图中未示出)可以但不限于与上述舆情信 息告警装置中的预处理单元504和判断单元506连接。
[0129] 具体结合以下示例进行说明,假设服务器204从网络信息中识别出待检测舆情信 息,提取出主题"错误登录,尽快修改密码",上述主题对应的ID为76,再经过Simhash转码 操作后得到64位的二进制哈希码,例如,待检测舆情信息对应的特征字段为10101111,01 010011,01001010, 10101010, 10101010, 01110101,10111101,00001111,然后将上述哈希码 化分为8个特征字段进行存储,如表2所示。
[0130]表 2
[0131]
[0132] 根据表2所示的8个特征字段与已告警的舆情信息对应的特征字段比较后得到相 似度(例如,相似度为3),则进一步根据上述相似度判断上述待检测舆情信息是否满足告 警条件,例如,判断上述相似度是否小于等于预定阈值,来判断上述待检测舆情信息是否已 经告警过。
[0133] 可选地,在本实施例中,已告警的舆情信息可以但不限于保存在一个已告警舆情 信息集合中,用S集合标识。可选地,在本实施例中,上述已告警舆情信息集合可以但不限 于存储在上述舆情信息告警装置中的存储单元(图中未示出)中,也可以但不限于存储在 上述舆情信息告警装置之外的第三方装置的存储单元中。当识别出待检测舆情信息,则可 以将上述待检测舆情信息对应的特征字段与S集合中已告警的舆情信息进行相似度比对。 可选地,在本实施例中,上述相似度可以但不限于用海明距离来衡量,其中,上述海明距离 为两个码字的对应比特取值不同的比特数。
[0134] 具体结合以下示例进行说明,假设相似度预定阈值设定为6,待检测舆情信息对应 的特征字段为 10101111,01010011,01001010,10101010,10101010, 01110101,10111101,〇〇 001111,与已告警舆情信息集合中对应的所有特征字段的相似度分别为1至5中任意值,均 小于相似度预定阈值6,则可以判断出上述待检测舆情信息还未告警,需要进一步判断是否 对该待检测舆情信息进行告警。
[0135] 在本申请提供的实施例中,通过将识别出的待检测舆情信息进行预处理,并将经 过预处理后得到的待检测舆情信息对应的特征字段,与已告警的舆情信息对应的特征字段 进行比较,比较二者的相似度,进而判断上述待检测舆情信息是否满足告警条件,对判断出 满足告警条件的待检测舆情信息进行告警。从而克服了现有技术无法对舆情信息准确告警 的问题,通过比对特征字段的相似度,达到了对识别出的待检测舆情信息进行准确告警的 效果。
[0136] 作为一种可选的方案,上述判断单元506包括:
[0137] 1)第一查找模块,用于在已告警的舆情信息对应的特征字段中查找是否至少包括 一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一 预定阈值;
[0138] 2)第一判断模块,用于在已告警的舆情信息对应的特征字段中查找到至少包括一 条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预 定阈值时,判断出待检测舆情信息不满足告警条件。
[0139] 可选地,在本实施例中,在已告警的舆情信息中查找一条舆情信息对应的特征字 段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值的方式可以包括但 不限于:在已告警舆情信息集合(例如,S集合)中分别根据待检测舆情信息对应的特征字 段中的每一个特征字段进行查找。
[0140] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111 ,01010011,01001010, 10101010, 10101010, 01110101,10111101,00001111 为例。在已告警 舆情信息集合(例如,S集合)中根据第一特征字段10101111进行查找,将已告警舆情信 息集合中第一特征字段与待检测舆情信息的第一特征字段相同的已告警的舆情信息作为 第一特征集合,在该集合中比较待检测舆情信息与已告警的舆情信息的相似度,若未查找 至IJ相似度小于等于第一预定阈值的舆情信息,则将根据待检测舆情信息的第二特征字段继 续进行查找,在第二特征字段对应的第二特征集合中进行相似度比较,依次在待检测舆情 信息对应的特征字段中进行查找。若查找到一条已告警的舆情信息对应的特征字段与待检 测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出上述待检测舆情 信息已经告警过,无需继续进行查找。
[0141] 通过本申请提供的实施例,通过与已告警的舆情信息进行比较,判断待检测舆情 信息是否至少与一条已告警的舆情信息的相似度满足小于等于第一预定阈值的条件,若满 足则表示上述待检测舆情信息已告警过,无需对上述待检测舆情进行重复告警,从而实现 了提高对舆情信息进行告警的准确性。
[0142] 作为一种可选的方案,上述判断单元506包括:
[0143] 1)第二查找模块,用于在已告警的舆情信息对应的特征字段中查找是否至少包括 一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一 预定阈值;
[0144] 2)第三查找模块,用于在已告警的舆情信息对应的特征字段中未查找出一条舆情 信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值 时,在未告警的舆情信息对应的特征字段中查找满足与待检测舆情信息对应的特征字段的 相似度小于等于第二预定阈值的条件的未告警的舆情信息对应的特征字段时,判断满足上 述条件的未告警的舆情信息的数量是否大于第三预定阈值;
[0145] 3)第二判断模块,用于在满足上述条件的未告警的舆情信息的数量大于第三预定 阈值时,判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
[0146] 可选地,在本实施例中,第一预定阈值、第二预定阈值及第三预定阈值可以但不限 于根据不同的应用场景取相同或不同的数值,本实施例对此不做任何限定。
[0147] 可选地,在本实施例中,未告警的舆情信息可以但不限于保存在一个未告警舆情 信息集合中,用R集合标识。可选地,在本实施例中,上述未告警舆情信息集合可以但不限 于存储在上述舆情信息告警装置中的存储单元(图中未示出)中,也可以但不限于存储在 上述舆情信息告警装置之外的第三方装置的存储单元中。将上述待检测舆情信息对应的特 征字段与R集合中已告警的舆情信息进行相似度比对。
[0148] 可选地,在本实施例中,在未告警的舆情信息对应的特征字段中查找与待检测舆 情信息对应的特征字段的相似度小于等于第二预定阈值的方式可以包括但不限于:在未告 警舆情信息集合(例如,R集合)中分别根据待检测舆情信息对应的特征字段中的每一个 特征字段进行查找。
[0149] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1