本发明涉及信息识别方法,特别涉及微博负面信息识别方法及装置。
背景技术:
1、微博是指一种基于用户关系信息分享、传播以及获取的通过关注机制分享简短实时信息的广播式的社交媒体、网络平台,微博允许用户通过web、wap、mail、app、im、sms以及用户可以通过pc、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动。
2、随着社会科技的发展,微博成为信息传递的一种重要载体,具有实时发布、传播速度快、影响面广、渠道多等特点,通过微博往往能够在第一时间获得信息,但微博信息可能是正面的也可能是负面的,因此如何进行负面信息识别成为亟需解决的问题。然而,微博新闻的数量非常巨大,很难通过简单的规则去准确判定微博信息的正负面,现有技术中,通常通过一些关键词匹配或者简单机器学习的方法来判别负面新闻,但是该方案的准确率较低,并且人工维护成本高。
3、因此,发明微博负面信息识别方法及装置来解决上述问题很有必要。
技术实现思路
1、本发明的目的在于提供微博负面信息识别方法及装置,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:微博负面信息识别方法,所述方法包括以下步骤:
3、s1、识别微博信息中出现的负面关键词;
4、s2、分析负面关键词的语义环境;
5、s3、确定微博信息中出现的负面关键词及次数;
6、s4、根据所述负面关键词及其次数确定负面评分;
7、s5、若所述待识别微博信息评分达到预设阈值,将所述待识别微博信息判断为负面信息。
8、优选的,针对所述负面关键词中任意一个目标关键词,根据所述负面关键词以及出现次的数确定所述待识别微博信息的负面评分,包括:
9、根据所述目标关键词的负面权重分和所述目标关键词的出现次数确定所述目标关键词对所述待识别微博信息的子负面评分;
10、根据每个负面关键词的子负面评分计算所述待识别微博信息的负面评分。
11、优选的,所述目标关键词的负面权重分根据如下方式确定:
12、根据所述目标关键词与第一样本集进行匹配,所述第一样本集包括已识别的多个负面信息和多个微博非负面信息;
13、根据所述第一样本集中出现了所述目标关键词的负面信息的后验条件概率,以及所述第一样本集中负面信息的先验概率确定所述目标关键词的负面权重分。
14、优选的,所述预设阈值根据如下方式确定:
15、获取第二样本集,所述第二样本集包括已识别的多个负面信息和多个微博非负面信息,以及所述多个负面信息和多个微博非负面信息的负面评分;
16、根据标注模型,采用不同的识别阈值对第二样本集中的微博信息进行负面信息的识别;
17、若目标识别阈值下的识别结果与所述第二样本集的实际结果间的符合度满足预设条件,将目标识别阈值作为所述预设阈值。
18、优选的,在所述确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数之前,所述方法还包括:
19、获取包括多个待定微博信息的微博信息集合;
20、根据所述多个待定微博信息的标题对所述微博信息集合进行微博信息过滤;
21、将过滤后的任意一个待定微博信息作为所述待识别微博信息。
22、优选的,针对所述负面关键词中任意一个目标关键词,所述确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数,包括:
23、根据所述目标关键词在所述待识别微博信息中匹配到文本位置,确定包括所述目标关键词的上下文信息;
24、识别所述上下文信息的语义表达倾向;
25、若所述语义表达倾向为正向,确定在所述文本位置未匹配到所述目标关键词。
26、本发明还公开了微博负面信息识别装置,包括所述的微博负面信息识别方法,还包括包括确定单元、计算单元和判断单元。
27、优选的,所述确定单元,用于确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数。
28、优选的,所述计算单元,用于根据所述负面关键词和所述每个负面关键词的出现次数确定所述待识别微博信息的负面评分。
29、优选的,所述判断单元,用于若所述待识别微博信息的负面评分大于或等于预设阈值,将所述待识别微博信息判断为负面信息。
30、本发明的技术效果和优点:
31、通过处理设备确定待识别微博信息中出现的负面关键词及其次数,可以确定出所述待识别微博信息的负面评分,若所述待识别微博信息的负面评分大于或等于预设阈值,将所述待识别微博信息判断为负面信息。从而实现了通过负面关键词匹配的方式自动识别微博信息是否为负面信息,避免了人为因素的影响,提高了识别效率和稳定性。
1.微博负面信息识别方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的微博负面信息识别方法,其特征在于,针对所述负面关键词中任意一个目标关键词,根据所述负面关键词以及出现次的数确定所述待识别微博信息的负面评分,包括:
3.根据权利要求2所述的微博负面信息识别方法,其特征在于,所述目标关键词的负面权重分根据如下方式确定:
4.根据权利要求1所述的微博负面信息识别方法,其特征在于,所述预设阈值根据如下方式确定:
5.根据权利要求1-4任意一项所述的微博负面信息识别方法,其特征在于,在所述确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数之前,所述方法还包括:
6.根据权利要求1-4任意一项所述的微博负面信息识别方法,其特征在于,针对所述负面关键词中任意一个目标关键词,所述确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数,包括:
7.微博负面信息识别装置,其特征在于,包括权利要求1所述的微博负面信息识别方法,还包括包括确定单元、计算单元和判断单元。
8.根据权利要求7所述的微博负面信息识别装置,其特征在于,所述确定单元,用于确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数。
9.根据权利要求7所述的微博负面信息识别装置,其特征在于,所述计算单元,用于根据所述负面关键词和所述每个负面关键词的出现次数确定所述待识别微博信息的负面评分。
10.根据权利要求7所述的微博负面信息识别装置,其特征在于,所述判断单元,用于若所述待识别微博信息的负面评分大于或等于预设阈值,将所述待识别微博信息判断为负面信息。