互联网数据分析系统的制作方法

文档序号：8487918阅读：303来源：国知局

互联网数据分析系统的制作方法
【技术领域】
[0001] 本发明涉及数据采集与分析，特别涉及一种互联网数据分析系统。
【背景技术】
[0002] 与原有传统互联网形态相比，当今的互联网形态已经发生了巨变，随身移动设备的不断推新，人们已经脱离了老式台式机的传统有线上网模式，移动设备的功能层出不穷，拍照、拍摄视频已经是最基本的功能。人们可以通过移动设备拍摄周围发生的事情，并且可以直接上传到互联网中，其信息的传播速度迅速之极，如果没有合理进行监测，可能会出现非法信息，错误引导公众的判断，导致舆论走向错误的方向。在在舆情检测中，数据采集功能尤为重要，所有数据在采集后，因为数据量极大，需要借助技术手段，在有限的时间内，分析出有用的数据。然而现有的信息监测系统仅应用单一的采集方式，只能满足某种特定的信息分析，不能满足现在互联网中多元化信息分析的需求。

【发明内容】

[0003] 为解决上述现有技术所存在的问题，本发明提出了一种互联网数据分析系统，包括：
[0004] 相关性计算模块，用于将随机选择的被选待识别文本和剩余的待识别文本分别作为观测序列和状态序列，计算被选待识别文本和其余待识别文本间的相关性概率值；
[0005] 分类和识别模块，用于将状态序列中相关性最高的文本和被选待识别文本合并，表征为第一类型，同时将相关性最低的文本作为第二类型；将第一和第二类型作为新的状态序列，将剩余的待识别文本作为新的观测序列进行迭代，以实现敏感词汇的识别。
[0006] 优选地，所述相关性计算模块进一步包括：
[0007] 文本表示模块，用于将待识别文本表示为矢量空间模型；其中，所有待识别文本表示为T n= {tpW^tyW^…；ti，wj，特征词同时出现在待识别文本和词库中，计算其权重&并为该权重引入敏感系数0 i:
【主权项】
1. 一种互联网数据分析系统，其特征在于，包括：相关性计算模块，用于将随机选择的被选待识别文本和剩余的待识别文本分别作为观测序列和状态序列，计算被选待识别文本和其余待识别文本间的相关性概率值；分类和识别模块，用于将状态序列中相关性最高的文本和被选待识别文本合并，表征为第一类型，同时将相关性最低的文本作为第二类型；将第一和第二类型作为新的状态序列，将剩余的待识别文本作为新的观测序列进行迭代，以实现敏感词汇的识别。
2. 根据权利要求1所述的系统，其特征在于，所述相关性计算模块进一步包括：文本表示模块，用于将待识别文本表示为矢量空间模型；其中，所有待识别文本表示为 Tn={t^w1;t2,w2;…；ti，wj，特征词心同时出现在待识别文本和词库中，计算其权重wi并为该权重引入敏感系数0i:
其中：tfni表示第n个文档中关键词ti出现的频率；K表示总文档数；ki表示含有关键词h的文档数，并且敏感系数0i表示为： i=-P(Cm)logP(Cm)+P(tt |Cm)logP(tt |Cm)+P(t?i|Cm)logP(t?i|Cm) 其中：表示属于第m类敏感词汇的文本数；P(t」CJ表示属于第m类敏感词汇并包含关键词h的文本数；P(t'」(；）表示属于第m类敏感词汇但不包含关键词&的文本数。
3. 根据权利要求2所述的系统，其特征在于，所述相关性计算模块进一步用于：将yi，y2，…，yn作为敏感词汇类型特征，y={y1，yy…，yJ作为矢量空间模型表示的一个敏感词汇的类型；将XpX2，…，待识别文本的特征，X= {Xi，X2，…，xj是用矢量空间模型表示的一个待识别文本，观测序列X对应参数集合A={Ai，…，Aj}的指定状态y的条件概率为：
其中4为特征函数J 通过训练得到的特征函数的权值；Z(x)为正则化系数，并且：
4. 根据权利要求3所述的系统，其特征在于，所述分类和识别模块进一步配置为：从K个待识别文本中随机挑出1个作为观测输入序列s，剩余的K-1个待识别文本作为K-1个输出类状态列，计算输入序列中的文档和输出序列中文档之间的概率值，直到识别出所有敏感词汇的类型： a) 将得到的K-1个概率值排序，最大概率值所对应的文本与输入观测序列中的文本归并为一类并记做类Q，同时将最小概率值对应的文本记做类C2; b) 将剩余的K-3个待识别文本作为输入观测序列，CdPC2作为输出类状态列，这样得到待识别文本隶属于CdPC2类的两个概率值； C)对每个待识别文本与输出类状态列的各个概率值求方差并排序； d) 查看最小方差值所对应的文本的所有概率值，若其中最小的概率值小于某一阈值 9，则将其作为一个新的类C3;否则，查看方差值位于第二位的文本，直到找到概率值小于阈值9的文本，同时将最大方差值所对应的文本归并到最大概率所对应的类型； e) 重复步骤b)~d)，直到所有的文本都被归类。
【专利摘要】本发明提供了一种互联网数据分析系统，该系统包括：相关性计算模块，用于将随机选择的被选待识别文本和剩余的待识别文本分别作为观测序列和状态序列，计算被选待识别文本和其余待识别文本间的相关性概率值；分类和识别模块，用于将状态序列中相关性最高的文本和被选待识别文本合并，表征为第一类型，同时将相关性最低的文本作为第二类型；将第一和第二类型作为新的状态序列，将剩余的待识别文本作为新的观测序列进行迭代，以实现敏感词汇的识别。本发明提出了一种信息监测分析系统，对互联网舆情进行多维监测，有效采集和分析出敏感信息，提高了查准率和查全率。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104809253
【申请号】CN201510257964
【发明人】张鹏
【申请人】成都布林特信息技术有限公司
【公开日】2015年7月29日
【申请日】2015年5月20日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鹏;
技术所有人：成都布林特信息技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。