信息监测分析系统的制作方法

文档序号:8487773阅读:301来源:国知局
信息监测分析系统的制作方法
【技术领域】
[0001] 本发明涉及数据采集与分析,特别涉及一种信息监测分析系统。
【背景技术】
[0002] 与原有传统互联网形态相比,当今的互联网形态已经发生了巨变,随身移动设备 的不断推新,人们已经脱离了老式台式机的传统有线上网模式,移动设备的功能层出不穷, 拍照、拍摄视频已经是最基本的功能。人们可以通过移动设备拍摄周围发生的事情,并且可 以直接上传到互联网中,其信息的传播速度迅速之极,如果没有合理进行监测,可能会出现 非法信息,错误引导公众的判断,导致舆论走向错误的方向。在在舆情检测中,数据采集功 能尤为重要,所有数据在采集后,因为数据量极大,需要借助技术手段,在有限的时间内,分 析出有用的数据。然而现有的信息监测系统仅应用单一的采集方式,只能满足某种特定的 信息分析,不能满足现在互联网中多元化信息分析的需求。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种信息监测分析系统,包 括:
[0004] 数据预处理模块,用于利用正面和负面情绪符号筛选网络文本,从已筛选出的网 络文本中提取候选词集;
[0005] 语义倾向识别模块,用于对数据预处理得到的候选词集构建词汇语义趋向值网 络,选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词,并利用同义词 词群对低频词进行扩展,提取情绪词;利用候选词以及语义趋向值网络计算词汇的语义倾 向强度,实现词汇的语义倾向识别。
[0006] 优选地,所述数据预处理模块进一步配置为:采用词汇和词频的二元关系表示各 个词汇的分词和词性标注,得到候选项集合W= {Wl,w2,…,wn},N为候选词总数。
[0007] 优选地,所述语义倾向识别模块对数据预处理得到的候选词集构建词汇语义趋向 值网络,进一步包括:
[0008] 以词共现值表征两个词汇在二者全局邻接网络中的有序共现程度,即一个词对另 一个词出现与否的激活权重,对于给定的词汇i和j,词汇i对于词汇j的词共现值wafij 为:
[0009] wafij=(fij/fi) ? (fij/fj) /di/
[0010] 式中:fjp f j分别表示两个词在文档中出现的频次;f ij表示词汇i和j在设定共 现窗距离内出现的频次;&为两个词的平均共现距离,根据上述定义将文档表示为词共现 值矩阵,矩阵元素waf^表示词汇i以waf^的权重激活词汇j,基于该矩阵来计算词汇间的 词汇语义趋向值Aij:
[0011] Aij= ((1/|KiJ|)OR(wafki,wafkJ))1/2 ? ((1/|L^-1)OR(wafa,wafj!))172
[0012]式中:Kij={k|wafki>0或wafkj>0}表示词汇i和词汇j对其它词汇的共现值集 合;1^= {1 |waf JO或wafpO}表示其它词汇对词汇i和词汇j的共现值集合;OR(x,y) =min (x,y)/max (x,y)为计算重叠率的函数;即词汇语义趋向值Ay定义为词汇i和词汇 j在词共现值矩阵中所有共现值的重叠率的几何平均值;
[0013] 用词汇语义趋向值Aij将文档表示为语义趋向值矩阵,在词汇的语义倾向识别过 程中,将词汇作为节点,各节点间的语义趋向值作为边,构建语义趋向值网络。
[0014] 优选地,所述语义倾向识别模块利用候选词以及语义趋向值网络计算词汇的语义 倾向强度,进一步包括:
[0015] 计算词汇与正负面候选词间语义趋向值矢量的相似度来衡量词汇的正负面倾向 强度,进而得出词汇的语义倾向强度;
[0016] 若情绪词集OPW总量为N',则将词汇Cj (CjG 〇PW,j G [1,2,…,N'])语义倾 向强度表不为
[0017] SOj= SO+j-0 *SO_j
[0018] 其中,SO+dPSCTj分别表示词汇Cj与正负面候选词集的语义倾向相似度,0为SO、 总量与SO^总量的比值,即文档中正负面倾向强度比;
[0019] SO+j根据以下方式计算:
【主权项】
1. 一种信息监测分析系统,其特征在于,包括: 数据预处理模块,用于利用正面和负面情绪符号筛选网络文本,从已筛选出的网络文 本中提取候选词集; 语义倾向识别模块,用于对数据预处理得到的候选词集构建词汇语义趋向值网络,选 择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词,并利用同义词词群对 低频词进行扩展,提取情绪词;利用候选词以及语义趋向值网络计算词汇的语义倾向强度, 实现词汇的语义倾向识别。
2. 根据权利要求1所述的系统,其特征在于,所述数据预处理模块进一步配置为: 采用词汇和词频的二元关系表示各个词汇的分词和词性标注,得到候选项集合W= 、,?^,…,?^,^^为候选词总数。
3. 根据权利要求2所述的系统,其特征在于,所述语义倾向识别模块对数据预处理得 到的候选词集构建词汇语义趋向值网络,进一步包括: 以词共现值表征两个词汇在二者全局邻接网络中的有序共现程度,即一个词对另一个 词出现与否的激活权重,对于给定的词汇i和j,词汇i对于词汇j的词共现值《&&_为: waf^^ (fij/fi) ? (fij/fjO/di/ 式中:4和L分别表示两个词在文档中出现的频次;fu表示词汇i和j在设定共现窗 距离内出现的频次;&为两个词的平均共现距离,根据上述定义将文档表示为词共现值矩 阵,矩阵元素waf^表示词汇i以waf^的权重激活词汇j,基于该矩阵来计算词汇间的词汇 语义趋向值Aij: Aij= ((1/|Kij|)0R(wafki,wafkJ))1/2 ? ((1/|L^-1) 0R(wafa,waf^))172 式中:Kij={k|wafki>0或wafkj>0}表示词汇i和词汇j对其它词汇的共现值集合;Lu ={llwaf^X)或waf^X)}表示其它词汇对词汇i和词汇j的共现值集合;0R(x,y) =min(x, y)/max(x,y)为计算重叠率的函数;即词汇语义趋向值定义为词汇i和词汇j在词共现 值矩阵中所有共现值的重叠率的几何平均值; 用词汇语义趋向值将文档表示为语义趋向值矩阵,在词汇的语义倾向识别过程中, 将词汇作为节点,各节点间的语义趋向值作为边,构建语义趋向值网络。
4. 根据权利要求3所述的系统,其特征在于,所述语义倾向识别模块利用候选词以及 语义趋向值网络计算词汇的语义倾向强度,进一步包括: 计算词汇与正负面候选词间语义趋向值矢量的相似度来衡量词汇的正负面倾向强度, 进而得出词汇的语义倾向强度; 若情绪词集(^总量为",则将词汇(^((^£(^,_]_£[1,2,一乂])语义倾向强度表示为 S0j=SO+j-0 *S0_j 其中,SO+jPSCTj分别表示词汇Cj与正负面候选词集的语义倾向相似度,为SO'A、 量与SO^总量的比值,即文档中正负面倾向强度比; S0+;根据以下方式计算:
其中%为词汇的语义倾向值矢量,vt_pi为正面候选词p在语义趋向值矩阵中对 应的行矢量,P为正面候选词集合,t为Pi在语义趋向值矩阵中对应的行;so_.相抿W下方式计笪,
其中Q为负面候选词集合,vt_qi为正面候选词91在语义趋向值矩阵中对应的行矢量; 当SO」〉yp时确定为正面词汇,SO」〈yn时确定为负面词汇,在其他情况下确定为中性词 汇,其中yp,yn分别为正面和负面词汇判定阈值。
【专利摘要】本发明提供了一种信息监测分析系统,包括:数据预处理模块,用于利用正面和负面情绪符号筛选网络文本,从已筛选出的网络文本中提取候选词集;语义倾向识别模块,用于对数据预处理得到的候选词集构建词汇语义趋向值网络,选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词,并利用同义词词群对低频词进行扩展,提取情绪词;利用候选词以及语义趋向值网络计算词汇的语义倾向强度,实现词汇的语义倾向识别。本发明提出了一种信息监测分析系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104809108
【申请号】CN201510258091
【发明人】张鹏
【申请人】成都布林特信息技术有限公司
【公开日】2015年7月29日
【申请日】2015年5月20日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1