一种基于行业的文本负面倾向判断方法

文档序号:6487874阅读:129来源:国知局
一种基于行业的文本负面倾向判断方法
【专利摘要】本发明是一种基于行业的文本负面倾向判断方法,该方法首先收集行业内的负面文本作为语料库L;其次从语料库L中提取有代表性的负面规则集合S1和负面词集合S2;接着用待识别文本T匹配负面规则集合S1的每个规则,统计负面规则权值判断文本是否负面;紧接着对没有被判断为负面的文本进行分词处理,得出词语集合S3,词数N;最后把集合S3中的每个词在集合S2中匹配,统计出文本中负面词所占比重及权值累加值,判断文本是否为负面。本发明方法基于行业的文本负面判断准确率达较高,达到90%以上;该方法可以广泛应用于各个行业,通用性较强。
【专利说明】—种基于行业的文本负面倾向判断方法
【技术领域】
[0001]本发明属于互联网信息处理领域,具体地说是涉及一种基于行业的文本负面倾向判断方法。
【背景技术】
[0002]随着社会信息化的迅猛发展,互联网已经成为人们表达观点、发表评论的重要场所。在一些触及社会敏感神经的事件上,事态的发展往往取决于媒体、网民对事件评价的态度,这就形成了网络舆情。作为事件当事人,用人工方式想快速从海量的信息中筛选出出负面的舆情信息是非常困难的。现有技术中还没有公开实用的基于行业的文本负面倾向判断方法。

【发明内容】

[0003]本发明要解决的技术问题是针对现有技术的不足,提供ー种新的、方法设计合理、操作方便快速的基于行业的文本负面倾向判断方法。
[0004]本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于行业的文本负面倾向判断方法,其特点是,其步骤如下:
(1)从互联网上收集描述行业负面信息的新闻、帖子、评论作为语料,建立行业语料库
L ;
(2)从语料库L中提取有代表性的负面规则集合SI和负面词集合S2;具体操作步骤如
下:
(2-1)根据行业特征,从语料库的每个语料中提取负面规则,并给每个规则赋权值; (2-2)根据行业特征,从语料库的每个语料中提取负面词,并给每个词赋权值;
(3)用待识别文本T匹配负面规则集合SI的每个规则,统计负面规则权值,判断文本是否负面;具体操作步骤如下:
(3-1)设置行业文本规则统计阀值Vl ;
(3-2)用规则集合SI中的每个规则去匹配待识别文本,把匹配上的规则的权值累加,累加值为Vtl,比较Vtl是否大于等于Vl ;
(3-3)如果步骤(3-2 )中比较结果VtI大于等于Vl,标识该文本为负面文本并退出; (3-4)如果步骤(3-2)中比较结果Vtl小于VI,继续步骤(3-2);
(3-5)如果遍历完所有规则,且Vtl小于VI,标识该文本为未识别文本;
(4)用分词工具对未识别文本进行分词,去除无用词,组成词的集合S3,词数量为N;
(5)把集合S3中的每个词在集合S2中匹配,统计出文本中负面词所占比重及权值累加值,判断文本是否为负面;具体操作步骤如下:
(5-1)设置负面词统计阀值V2、被统计词中负面词所占比重阀值P1、词数Nt为0 ;(5-2)集合S3中的每个词都去匹配负面词集合S2,如果匹配上,对该词的权值做累加,累加结果为Vt2,词数Nt加I ; (5-3)遍历完S3中的所有词,如果Vt2大于等于V2,同时Nt与N的比值大于等于Pl,该文本标识为负面文本,否则标识为不可识别文本。
[0005]本发明方法可以快速判断出各类媒体(新闻、论坛、贴吧、博客等等)的信息是否为负面信息。该方法一方面可以应用到舆情分析系统中,用于政府机关如政府、公安、检察等单位快速从网络上获取关于本单位的负面舆情。另一方面可以应用到产品口碑分析系统中,用于企业从网络上快速获取产品的负面口碑,监测品牌的形象。
[0006]与现有技术相比,本发明方法具有以下技术效果:
1、对基于行业的文本负面判断准确率达较高,可达到90%以上。
[0007]2、本发明方法可以广泛应用于各个行业,通用性较强。
[0008]3、本发明方法操作快捷。
【专利附图】

【附图说明】
[0009]图1是本发明方法的一种流程框图;
图2是图1中步骤101所述的收集行业内的负面文本作为语料库L流程图;
图3是图1中步骤102所述的从语料库L中提取有代表性的负面规则集合SI和负面词集合S2流程图;
图4是图1中步骤103用待识别文本T匹配负面规则集合SI的每个规则,统计负面规则权值判断文本是否负面的流程图;
图5是图1中步骤104对没有被判断为负面的文本进行分词处理,得出词语集合S3,词数N的流程图;
图6是图1中步骤105把集合S3中的每个词在S2集合中匹配,统计出文本中负面词所占比重及权值累加值,判断文本是否为负面的流程图。
【具体实施方式】
[0010]以下参照附图,进一步描述本发明的具体技术方案,以便于本领域的技术人员进一步地理解本发明,而不构成对其权利的限制。
[0011]实施例1,一种基于行业的文本负面倾向判断方法,其步骤如下:
(1)从互联网上收集描述行业负面信息的新闻、帖子、评论作为语料,建立行业语料库
L ;
(2)从语料库L中提取有代表性的负面规则集合SI和负面词集合S2;具体操作步骤如
下:
(2-1)根据行业特征,从语料库的每个语料中提取负面规则,并给每个规则赋权值; (2-2)根据行业特征,从语料库的每个语料中提取负面词,并给每个词赋权值;
(3)用待识别文本T匹配负面规则集合SI的每个规则,统计负面规则权值,判断文本是否负面;具体操作步骤如下:
(3-1)设置行业文本规则统计阀值Vl ;
(3-2)用规则集合SI中的每个规则去匹配待识别文本,把匹配上的规则的权值累加,累加值为Vtl,比较Vtl是否大于等于Vl ;
(3-3)如果步骤(3-2)中比较结果Vtl大于等于VI,标识该文本为负面文本并退出;(3-4)如果步骤(3-2)中比较结果Vtl小于VI,继续步骤(3-2);
(3-5)如果遍历完所有规则,且Vtl小于VI,标识该文本为未识别文本;
(4)用分词工具对未识别文本进行分词,去除无用词,组成词的集合S3,词数量为N;
(5)把集合S3中的每个词在集合S2中匹配,统计出文本中负面词所占比重及权值累加值,判断文本是否为负面;具体操作步骤如下:
(5-1)设置负面词统计阀值V2、被统计词中负面词所占比重阀值P1、词数Nt为O ;(5-2)集合S3中的每个词都去匹配负面词集合S2,如果匹配上,对该词的权值做累加,累加结果为Vt2,词数Nt加I ;
(5-3)遍历完S3中的所有词,如果Vt2大于等于V2,同时Nt与N的比值大于等于Pl,该文本标识为负面文本,否则标识为不可识别文本。
[0012]实施例2,參照图1-6,用本发明的基于行业的文本负面倾向判断方法进行的操作实验,其步骤如下:
步骤101,收集行业内的负面文本作为语料库L,參照图2,包括如下步骤:
步骤201、从互联网上,包括新闻、论坛、贴吧、博客、微博等媒体上收集大量的语料信
息;
步骤202、取出一个语料信息;
步骤203、判断该语料是否为行业语料,是则转入步骤204,否则取下一个语料;
步骤204、判断该语料是否为负面语料,是则转入步骤205,否则取下一个语料;
步骤205、把该语料加入到语料库中,取下ー个语料。
[0013]步骤102,从语料库L中提取有代表性的负面规则集合SI和负面词集合S2。參照图3,包括如下步骤:
步骤301、判断语料库L中是否存在语料,存在则转入步骤302,否则结束;
步骤302、从L中找出ー个语料,查找其中的负面规则;
步骤303、找到负面规则,转入步骤304、找不到则转入步骤305 ;
步骤304、把负面规则添加到规则集合SI中,转入步骤305
步骤305、查看语料中的负面词,有负面词,转入步骤306,没有负面词转入步骤301。
[0014]步骤306、把负面词加入到负面词集合S2中,转入步骤301。
[0015]步骤103、在待判断文本T中匹配负面倾向规则集合SI,匹配上了就是负面文本,參照图4,包括如下步骤:
步骤401、设置行业文本规则统计阀值Vl ;
步骤402、判断规则集合SI中是否存在规则,存在则转入步骤403 ;不存在则转入步骤
408 ;
步骤403、从SI中取出一个规则,并在文本T中查找该规则;
步骤404、找到则转入步骤405,找不到则转入步骤402 ;
步骤405、把该规则权限值累加到Vtl中;
步骤406、比较Vtl与Vl的大小,如果Vtl大于等于VI,转入步骤407,否则转入步骤
402 ;
步骤407、文本标识为负面倾向文本;
步骤408、文本标识为未识别文本; 步骤104、对没有被判断为负面的文本进行分词处理,得出词语集合S3,词数N,参照图5包括如下步骤:
步骤501、用分词工具对未识别的文本进行分词;
步骤502、去除无用的词;
步骤503、把分词的结果存放在集合S3,词数量记录为N ;
步骤105、把集合S3中的每个词与集合S2匹配,统计出文本中负面词的比重及权值,判断文本是否为负面,参照图6,包括如下步骤:
步骤601、设置负面词统计阀值V2、被统计词中负面词所占比重阀值P1、
词数Nt为0 ;
步骤602、集合S3中是否存在负面词,是则转入步骤603,否在则转入步骤606 ;
步骤603、集合S3中取出一个词,在集合S2中查到该词;
步骤604、如果在集合S2中找到该词,则转入步骤605,否则转入步骤602 ;
步骤605、累加该词的权值到Vt2中,词数Nt加I ;转入步骤602 ;
步骤606、判断Vt2是否大于等于V2,是则转入步骤607,否则转入步骤609 ;
步骤607、判断Nt/N是否大于等于Pl,是则转入步骤608,否则转入步骤609 ;
步骤608、标识该文本为负面倾向文本;
步骤609、标识该文本为不可识别文本。
【权利要求】
1.一种基于行业的文本负面倾向判断方法,其特征在于,其步骤如下: (1)从互联网上收集描述行业负面信息的新闻、帖子、评论作为语料,建立行业语料库L ; (2)从语料库L中提取有代表性的负面规则集合SI和负面词集合S2;具体操作步骤如下: (2-1)根据行业特征,从语料库的每个语料中提取负面规则,并给每个规则赋权值; (2-2)根据行业特征,从语料库的每个语料中提取负面词,并给每个词赋权值; (3)用待识别文本T匹配负面规则集合SI的每个规则,统计负面规则权值,判断文本是否负面;具体操作步骤如下: (3-1)设置行业文本规则统计阀值Vl ; (3-2)用规则集合SI中的每个规则去匹配待识别文本,把匹配上的规则的权值累加,累加值为Vtl,比较Vtl是否大于等于Vl ; (3-3)如果步骤(3-2)中比较结果Vtl大于等于VI,标识该文本为负面文本并退出; (3-4)如果步骤(3-2)中比较结果Vtl小于VI,继续步骤(3-2); (3-5)如果遍历完所有规则,且Vtl小于VI,标识该文本为未识别文本; (4)用分词工具对未识别文本进行分词,去除无用词,组成词的集合S3,词数量为N; (5 )把集合S3中的每个词在集合S2中匹配,统计出文本中负面词所占比重及权值累加值,判断文本是否为负面;具体操作步骤如下: (5-1)设置负面词统计阀值V2、被统计词中负面词所占比重阀值P1、词数Nt为O ;(5-2)集合S3中的每个词都去匹配负面词集合S2,如果匹配上,对该词的权值做累加,累加结果为Vt2,词数Nt加I ; (5-3)遍历完S3中的所有词,如果Vt2大于等于V2,同时Nt与N的比值大于等于Pl,该文本标识为负面文本,否则标识为不可识别文本。
【文档编号】G06F17/30GK103593359SQ201210290556
【公开日】2014年2月19日 申请日期:2012年8月16日 优先权日:2012年8月16日
【发明者】陈国华, 陈宗华, 陈永江, 仲兆满 申请人:江苏金鸽网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1