信息监测分析系统的制作方法

文档序号：8487773阅读：301来源：国知局

信息监测分析系统的制作方法
【技术领域】
[0001] 本发明涉及数据采集与分析，特别涉及一种信息监测分析系统。
【背景技术】
[0002] 与原有传统互联网形态相比，当今的互联网形态已经发生了巨变，随身移动设备的不断推新，人们已经脱离了老式台式机的传统有线上网模式，移动设备的功能层出不穷，拍照、拍摄视频已经是最基本的功能。人们可以通过移动设备拍摄周围发生的事情，并且可以直接上传到互联网中，其信息的传播速度迅速之极，如果没有合理进行监测，可能会出现非法信息，错误引导公众的判断，导致舆论走向错误的方向。在在舆情检测中，数据采集功能尤为重要，所有数据在采集后，因为数据量极大，需要借助技术手段，在有限的时间内，分析出有用的数据。然而现有的信息监测系统仅应用单一的采集方式，只能满足某种特定的信息分析，不能满足现在互联网中多元化信息分析的需求。

【发明内容】

[0003] 为解决上述现有技术所存在的问题，本发明提出了一种信息监测分析系统，包括：
[0004] 数据预处理模块，用于利用正面和负面情绪符号筛选网络文本，从已筛选出的网络文本中提取候选词集；
[0005] 语义倾向识别模块，用于对数据预处理得到的候选词集构建词汇语义趋向值网络，选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词，并利用同义词词群对低频词进行扩展，提取情绪词；利用候选词以及语义趋向值网络计算词汇的语义倾向强度，实现词汇的语义倾向识别。
[0006] 优选地，所述数据预处理模块进一步配置为：采用词汇和词频的二元关系表示各个词汇的分词和词性标注，得到候选项集合W= {Wl，w2，…，wn}，N为候选词总数。
[0007] 优选地，所述语义倾向识别模块对数据预处理得到的候选词集构建词汇语义趋向值网络，进一步包括：
[0008] 以词共现值表征两个词汇在二者全局邻接网络中的有序共现程度，即一个词对另一个词出现与否的激活权重，对于给定的词汇i和j，词汇i对于词汇j的词共现值wafij 为：
[0009] wafij=(fij/fi) ? (fij/fj) /di/
[0010] 式中：fjp f j分别表示两个词在文档中出现的频次；f ij表示词汇i和j在设定共现窗距离内出现的频次；&为两个词的平均共现距离，根据上述定义将文档表示为词共现值矩阵，矩阵元素waf^表示词汇i以waf^的权重激活词汇j，基于该矩阵来计算词汇间的词汇语义趋向值Aij:
[0011] Aij= ((1/|KiJ|)OR(wafki,wafkJ))1/2 ? ((1/|L^-1)OR(wafa,wafj!))172
[0012]式中：Kij={k|wafki>0或wafkj>0}表示词汇i和词汇j对其它词汇的共现值集合；1^= {1 |waf JO或wafpO}表示其它词汇对词汇i和词汇j的共现值集合；OR(x，y) =min (x，y)/max (x，y)为计算重叠率的函数；即词汇语义趋向值Ay定义为词汇i和词汇 j在词共现值矩阵中所有共现值的重叠率的几何平均值；
[0013] 用词汇语义趋向值Aij将文档表示为语义趋向值矩阵，在词汇的语义倾向识别过程中，将词汇作为节点，各节点间的语义趋向值作为边，构建语义趋向值网络。
[0014] 优选地，所述语义倾向识别模块利用候选词以及语义趋向值网络计算词汇的语义倾向强度，进一步包括：
[0015] 计算词汇与正负面候选词间语义趋向值矢量的相似度来衡量词汇的正负面倾向强度，进而得出词汇的语义倾向强度；
[0016] 若情绪词集OPW总量为N'，则将词汇Cj (CjG 〇PW，j G [1，2，…，N'])语义倾向强度表不为
[0017] SOj= SO+j-0 *SO_j
[0018] 其中，SO+dPSCTj分别表示词汇Cj与正负面候选词集的语义倾向相似度，0为SO、总量与SO^总量的比值，即文档中正负面倾向强度比；
[0019] SO+j根据以下方式计算：
【主权项】
1. 一种信息监测分析系统，其特征在于，包括：数据预处理模块，用于利用正面和负面情绪符号筛选网络文本，从已筛选出的网络文本中提取候选词集；语义倾向识别模块，用于对数据预处理得到的候选词集构建词汇语义趋向值网络，选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词，并利用同义词词群对低频词进行扩展，提取情绪词；利用候选词以及语义趋向值网络计算词汇的语义倾向强度，实现词汇的语义倾向识别。
2. 根据权利要求1所述的系统，其特征在于，所述数据预处理模块进一步配置为：采用词汇和词频的二元关系表示各个词汇的分词和词性标注，得到候选项集合W= 、，?^，…，?^，^^为候选词总数。
3. 根据权利要求2所述的系统，其特征在于，所述语义倾向识别模块对数据预处理得到的候选词集构建词汇语义趋向值网络，进一步包括：以词共现值表征两个词汇在二者全局邻接网络中的有序共现程度，即一个词对另一个词出现与否的激活权重，对于给定的词汇i和j，词汇i对于词汇j的词共现值《&&_为： waf^^ (fij/fi) ? (fij/fjO/di/ 式中：4和L分别表示两个词在文档中出现的频次；fu表示词汇i和j在设定共现窗距离内出现的频次；&为两个词的平均共现距离，根据上述定义将文档表示为词共现值矩阵，矩阵元素waf^表示词汇i以waf^的权重激活词汇j，基于该矩阵来计算词汇间的词汇语义趋向值Aij: Aij= ((1/|Kij|)0R(wafki,wafkJ))1/2 ? ((1/|L^-1) 0R(wafa,waf^))172 式中：Kij={k|wafki>0或wafkj>0}表示词汇i和词汇j对其它词汇的共现值集合；Lu ={llwaf^X)或waf^X)}表示其它词汇对词汇i和词汇j的共现值集合；0R(x，y) =min(x， y)/max(x，y)为计算重叠率的函数；即词汇语义趋向值定义为词汇i和词汇j在词共现值矩阵中所有共现值的重叠率的几何平均值；用词汇语义趋向值将文档表示为语义趋向值矩阵，在词汇的语义倾向识别过程中，将词汇作为节点，各节点间的语义趋向值作为边，构建语义趋向值网络。
4. 根据权利要求3所述的系统，其特征在于，所述语义倾向识别模块利用候选词以及语义趋向值网络计算词汇的语义倾向强度，进一步包括：计算词汇与正负面候选词间语义趋向值矢量的相似度来衡量词汇的正负面倾向强度，进而得出词汇的语义倾向强度；若情绪词集(^总量为"，则将词汇(^((^￡(^，_]_￡[1，2，一乂])语义倾向强度表示为 S0j=SO+j-0 *S0_j 其中，SO+jPSCTj分别表示词汇Cj与正负面候选词集的语义倾向相似度，为SO'A、量与SO^总量的比值，即文档中正负面倾向强度比； S0+;根据以下方式计算：
其中％为词汇的语义倾向值矢量，vt_pi为正面候选词p在语义趋向值矩阵中对应的行矢量，P为正面候选词集合，t为Pi在语义趋向值矩阵中对应的行；so_.相抿W下方式计笪，
其中Q为负面候选词集合，vt_qi为正面候选词91在语义趋向值矩阵中对应的行矢量；当SO」〉yp时确定为正面词汇，SO」〈yn时确定为负面词汇，在其他情况下确定为中性词汇，其中yp,yn分别为正面和负面词汇判定阈值。
【专利摘要】本发明提供了一种信息监测分析系统，包括：数据预处理模块，用于利用正面和负面情绪符号筛选网络文本，从已筛选出的网络文本中提取候选词集；语义倾向识别模块，用于对数据预处理得到的候选词集构建词汇语义趋向值网络，选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词，并利用同义词词群对低频词进行扩展，提取情绪词；利用候选词以及语义趋向值网络计算词汇的语义倾向强度，实现词汇的语义倾向识别。本发明提出了一种信息监测分析系统，对互联网舆情进行多维监测，有效采集和分析出敏感信息，提高了查准率和查全率。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104809108
【申请号】CN201510258091
【发明人】张鹏
【申请人】成都布林特信息技术有限公司
【公开日】2015年7月29日
【申请日】2015年5月20日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鹏;
技术所有人：成都布林特信息技术有限公司;
我是此专利的发明人

上一篇：一种社交信息展示方法、装置及服务器的制造方法
上一篇：基于上下文转换向量模型的推荐方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。