舆情信息的告警方法及装置的制造方法_3

文档序号：9579310阅读：来源：国知局

检测特征字段在已告警的舆情信息对应的特征字段中进行查找，得到与每一个待检测特征字段对应的特征集合；S2,按照预定的顺序将每一个待检测特征字段对应的特征集合中的已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较，判断已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第一预定阈值；
[0068] 上述若查找到至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值，则判断出待检测舆情信息不满足告警条件包括：S1，只要查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值，则可判断出待检测舆情信息为已告警的舆情信息，待检测舆情信息不满足告警条件。
[0069] 具体结合以下示例进行说明，假设上述待检测舆情信息对应的特征字段为10101 111，01010011，01001010, 10101010, 10101010, 01110101，10111101，00001111，相似度用海明距离标识，第一预定阈值为7,已告警的舆情信息对应的特征字段包括但不限于以下字段：
[0070] 1) 10101110, 01010000, 01001011，10101011，10101011，01110101，10111101，0000 1101 ；
[0071] 2) 10101001，01010101，01001010, 10101010, 10101010, 01000101，10110001，0110 1111 ；
[0072] 3)10101111，01010000, 01001010, 10101010, 10101010, 01110101，10100101，0011 0011 ；
[0073] 4)10101111，01010011，01010010, 10111010, 10101010, 01110101，10000110, 1111 0000 ；
[0074] 5) 10101111, 01010001, 01001010, 10101010, 10101010, 01110101, 10111101, 0000 1111。
[0075] 根据待检测舆情信息的第一特征字段在已告警舆情信息集合（S集合）中查找，得到与第一特征字段对应的第一特征集合，其中，上述第一特征集合包括：
[0076] 3)10101111，01010000, 01001010, 10101010, 10101010, 01110101，10100101，0011 0011;(相似度为8)
[0077] 4)10101111，01010011，01010010, 10111010, 10101010, 01110101，10000110, 1111 0000;(相似度为12)
[0078] 5) 10101111，01010001，01001010, 10101010, 10101010, 01110101，10111101，0000 1111。（相似度为1)
[0079] 再将上述第一特征集合中每一个已告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较，判断二者之间的相似度。经判断第五个特征字段与待检测舆情信息对应的特征字段的相似度小于第一预定阈值7,则可判断出上述待检测舆情信息不满足告警条件，无需进行告警。
[0080] 通过本申请提供的实施例，通过分别根据不同的特征字段在已告警的舆情信息中查找到相应的特征集合，再按照预定的顺序依次在各个特征集合中进行相似度比较，当查找到一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时，则可得出上述待检测舆情信息为已告警的舆情信息，并不满足告警条件，进一步，无需继续在已告警的舆情信息中进行查找或相似度比较，从而实现及时对待检测舆情信息进行判断，缩短了舆情信息的告警周期。
[0081] 作为一种可选的方案，上述在未告警的舆情信息对应的特征字段中查找与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈值包括：S1，分别根据待检测舆情信息对应的特征字段多个特征字段中的每一个待检测特征字段在未告警的舆情信息对应的特征字段中进行查找，得到与每一个待检测特征字段对应的特征集合；S2,按照预定的顺序将每一个待检测特征字段对应的特征集合中的未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较，判断未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第二预定阈值；S3,将查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息计数；
[0082] 上述若满足上述条件的未告警的舆情信息的数量大于等于第三预定阈值，则判断出待检测舆情满足告警条件，将对待检测舆情信息进行告警包括：S1，当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时，则判断出待检测舆情信息满足告警条件，将对待检测舆情信息进行告警。
[0083] 具体结合以下示例进行说明，假设上述待检测舆情信息对应的特征字段为10101 111，01010011，01001010, 10101010, 10101010, 01110101，10111101，00001111，相似度用海明距离标识，第二预定阈值为7,第三预定阈值为2,未告警的舆情信息对应的特征字段包括但不限于以下字段：
[0084] 1) 10101110, 01010000, 01001011，10101011，10101011，01110101，10111101，0000 1101 ；
[0085] 2) 10101111，01010011，01001010, 10101010, 10101010, 01110101，10111101，1100 1001 ；
[0086] 3)10101111，01010000, 01001010, 10101010, 10101010, 01110101，10100101，0011 0011 ；
[0087] 4)10101111，01010011，01010010, 10111010, 10101010, 01110101，10000110, 1111 0000 ；
[0088] 5) 10101111，01010001，01001010, 10101010, 10101010, 01110101，10111101，0000 1111。
[0089] 根据待检测舆情信息的第一特征字段在未告警舆情信息集合（R集合）中查找，得到与第一特征字段对应的第一特征集合，其中，上述第一特征集合包括：
[0090] 2)10101111，01010011，01001010, 10101010, 10101010, 01110101，10111101，1100 1001 ;(相似度为4)
[0091] 3)10101111，01010000, 01001010, 10101010, 10101010, 01110101，10100101，0011 0011 ;(相似度为8)
[0092] 4)10101111，01010011，01010010, 10111010, 10101010, 01110101，10000110, 1111 0000 ;(相似度为12)
[0093] 5) 10101111，01010001，01001010, 10101010, 10101010, 01110101，10111101，0000 1111。（相似度为1)
[0094] 再将上述第一特征集合中每一个未告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较，判断二者之间的相似度。经判断第2个特征字段及第5个特征字段与待检测舆情信息对应的特征字段的相似度小于第二预定阈值7,上述相似度小于等于第二预定阈值的未告警的舆情信息的数量已经达到第三预定阈值2时，则可以判断出上述待检测舆情信息满足告警条件，需要对上述待检测舆情信息进行告警。
[0095] 通过本申请提供的实施例，通过分别根据不同的特征字段在未告警的舆情信息中查找到相应的特征集合，再按照预定的顺序依次在各个特征集合中进行相似度比较，当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时，则需要对上述待检测舆情信息进行告警。进一步，当查找到的未告警的舆情信息的数量达到第三预定阈值时，无需继续在未告警的舆情信息中进行查找或相似度比较，也可判断出待检测舆情信息需要进行告警，从而实现及时对待检测舆情信息进行告警，缩短了舆情信息的告警周期。
[0096] 作为一种可选的方案，所述对所述待检测舆情信息进行预处理，将预处理后的所述待检测舆情信息划分为多个特征字段包括：
[0097]S1，提取待检测舆情信息的主题；
[0098]S2,对主题进行哈希转码操作得到预定码长的哈希码；
[0099]S3,将哈希码划分为多个特征字段。
[0100] 可选地，在本实施例中，划分为多个特征字段进行查找的方式包括但不限于：假设多个特征字段个数为N，则当相似度比较的第一预定阈值为小于等于N-1时，则当上述相似度（例如，海明距离）中不同的比特码在不同的特征字段时，至少还有一个特征字段中的比特码是与其他舆情信息对应的特征字段完全相同的，则基于上述多个特征字段中的每一个特征字段分别进行查找，得到与上述每一个特征字段对应的特征集合，再基于上述特征集合进行相似度比较时，很大程度上减小了相似度比较的数量，从而提高舆情信息告警判断的效率，使得舆情信息告警更加及时有效。
[0101] 具体结合以下示例进行说明，例如，通过爬虫抓取微博，对微博中带有特殊符号标识"##"的话题进行识别，得到待检测舆情信息，然后将上述待检测舆情信息进行如图3所示的Simhash转码，得到一个64位二进制码。然后将上述二进制码划分为如表1所示的8 段特征字段，并倒序存储，以用于之后的特征字段的相似度比较。
[0102] 通过本申请提供的实施例，通过对待检测舆情信息进行提取、转码、划分特征字段的预处理后，得到用于查找的多个特征字段，利用与多个特征字段对应的特征集合与待检测舆情信息的特征字段进行相似度比较，达到及时对需要告警的舆情信息进行准确告警，提供了告警的效率，缩短了舆情信息的告警周期。
[0103] 作为一种可选的方案，从网络信息中识别出待检测舆情信息包括以下至少之一：
[0104] 1)通过贝叶斯分类判断识别出待检测舆情信息；或者，
[0105] 2)通过支持向量机SVM分类判断识别出待检测舆情信息。
[0106] 具体结合以下示例进行说明，贝叶斯分类判断识别可以以贝叶斯分类器为例。根据贝叶斯公式：
[0107]P(A|B)=P(B|A)P(A)/P(B) (1)
[0108] 首先收集样本数据（例如，网络信息），然后对样本数据进行整理，得到模型数据，然后将需要分类的网络信息，进行预处理后，通过贝叶斯公式来判断待检测的舆情信息属于"负面舆情信息"还是"正面舆情信息"，哪个概率大，则该待检测舆情信息就属于哪一类。
[0109] 具体结合以下示例进行说明，以支持向量机SVM为例。将待检测舆情信息转换为一个η维向量，那么在η维空间中，找到一个超平面将所有η维向量一分为二，例如，"负面舆情信息"对应的第一空间或"正面舆情信息"对应的第二空间，当

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6