舆情热点自动监测系统的制作方法

文档序号：8922598阅读：882来源：国知局

舆情热点自动监测系统的制作方法
【技术领域】
[0001] 本发明涉及互联网舆情信息获取和利用，尤其涉及舆情热点自动监测系统。
【背景技术】
[0002] 目前，我们在互联网舆情信息获取和利用方面，与工作要求仍存在着较大的差距，主要表现在：
[0003] 1、互联网信息的获取能力不足。面对复杂庞大、类型多样、数据量巨大的互联网数据，还不能全面、快速、有效地找到并获取满足实际需要的信息。通过传统方法获取的数据总量少、覆盖面窄、来源单一，极大地限制了工作有效开展；
[0004] 2、互联网信息的挖掘处理能力不足。对于已经获取的互联网数据，不能按照实际工作需要，开展数据挖掘处理，从中找出事件背景和原因，查明主体之间的内在关系，及时发现社会热点问题，预测事件发展趋势等；
[0005] 3、缺乏适用的互联网舆情监测分析系统。还没建立满足工作需要的互联网舆情监测分析应用系统，不能对海量互联网数据进行处理，不能及时发现网络舆情热点，不能做好处置准备工作。
[0006] 为了维护社会政治稳定，加强互联网管理、组织力量展开互联网舆情监测分析成为目前主要政府部门急需解决的现实问题。要解决这一问题，需要有智能的舆情监测分析系统，用来实现针对互联网海量舆情自动实时的监测分析，从而有效地解决政府部门以传统的人工方式对网络舆情监测的实施难题。舆情监测分析系统需要整合互联网技术及信息智能处理技术，对境内、境外互联网海量信息进行自动抓取和分析，实现网络舆情热点监测和分析的信息需求，为政府全面掌握群众思想动态提供分析依据。
[0007] 及时开展政府部门互联网网舆情监测分析系统研究，建设为实际工作服务的互联网信息挖掘应用系统，具有极高的重要性和紧迫性。
[0008] 综上所述，针对现有技术存在的不足，特别需要舆情热点自动监测系统，以解决现有技术的不足。

【发明内容】

[0009] 本发明的目的是提供自行车防盗物联网监控系统，解决校园中自行车随意停放和自行车经常被盗的现象。
[0010] 本发明为解决其技术问题所采用的技术方案是，
[0011] 舆情热点自动监测系统，该系统包括有汉语自动分词模块、特征提取模块；
[0012] 汉语自动分词模块包括有自动分词的基本算法单元、未登陆词的识别单元、汉语自动分词的切分歧义及其消除单元；
[0013] 特提提取模块包括有特征表示单元、向量空间模型单元；
[0014] 该系统的自动监测方法的步骤如下：
[0015] 1、从数据源读入一篇报道，对多个网络新闻数据源进行不间断地监测，从网络中自动抓取新闻报道，解析出新闻报道的时间、标题和正文信息等，如果没有从报道中找到时间，则以抓取时间为准；
[0016] 由于多个数据源之间存在相当的重复，对新抓取的新闻报道，根据报道的文本内容进行消重处理；如果新报道和之前已经处理的新闻报道重复度大于重复阈值9d，则认为是重复的新闻报道，本实施例中设定的重复阈值0d为0. 9 ;
[0017] 由于新闻报道的范围过于宽泛，采用基于来源的规则分类以及基于内容的自动分类相结合的方法，对新闻报道进行分类，规则分类根据新闻来源以及作者等进行分类，基于内容的自动分类采用向量空间模型（VSM)和支持向量机算法（SVM)，根据报道内容和标题对新闻报道进行自动分类；并且按照所属类别c进行步骤2 -步骤7的处理；
[0018] 2、采用质心比较策略，将报道与所属类别c内现有监测到的新闻主题进行比较，同时考虑时间特征和内容特征，计算报道和主题间的相似度，并记录最大相似度Smax以及相似度最大的主题Es，确定与当前报道最相近的主题；主题本身通过主题内部所有新闻中综合权重最高的若干个特征词来表达；新闻报道和主题之间的相似度基于向量空间模型，通过两者的夹角余弦值（cosine)来计算，同时新闻报道的标题赋予较高权重；
[0019] 3、根据步骤2计算得到的最大相似度Smax以及相似度最大的主题Es，对当前报道采取如下措施：
[0020] A.如果Smax小于创新阈值0n(本实施例中为0. 25):在该报道所属类别内创建一个新主题；
[0021] B.如果Smax大于0n而小于聚类阈值0c(本实施例中为0.30):不作处理，返回步骤1);
[0022] C.如果Smax大于0c而小于贡献阈值0t(本实施例中为0. 35):归入当前主题；
[0023] D.如果Smax大于0t:归入主题Es，并调整Es;
[0024] 上述的Smax、0n、0c、0t的取值范围均大于0而小于等于1 ;
[0025] 4、当一个类处理用户确定的固定数量的新增报道之后，对该类别内新闻主题两两比较；如果两个主题的相似度大于合并阈值0u，则将其合并，主题之间的相似度计算公式可以采用传统聚类算法中计算两个聚类相似度的方法，综合考虑两个主题中所有新闻报道之间的两两相似度，采用如下公式：
[0027] 其中，El，E2是两个监测到的新闻主题，di，dj分别为El，E2中的新闻报道，Sim (El，E2)是两个新闻报道之间的相似度，|E」，|E2|分别为两个主题中包含的新闻报道数目；
[0028] 5、当一个类处理用户确定的固定数量的新增报道之后，对各主题内的新闻报道进行淘汰：重新计算新闻报道和该主题的相似度，对相似度低于聚类阈值9c、或者不满足限制条件的新闻报道进行淘汰；然后再重新计算主题内部表示及其权重；
[0029] 6、若当前类别内的主题数量超过主题窗口大小，对类别内的所有新闻主题进行排序：结合新闻主题的时间特性和数量特性，计算新闻主题的得分值并排序；计算得分值时同时考虑多个不同的排序，同时考虑最近12个小时、1天、3天、7天、30天等，只有当主题在任何排序中都不在主题窗口内时，才将该主题淘汰；这样，多重排序就给用户提供了不同粒度的信息参考，系统将不在主题窗中的新闻主题淘汰，用于提高系统处理的效率；
[0030] 7、根据用户要求，对外输出监测结果：对于类别内的当前所有主题，计算其描述；同时，结合主题的时间特性和主题内的新闻报道数量特性，从所有类别中选择出得分最高的若干个新闻主题，作为该类别最热点的新闻主题，输出主题描述和包含的新闻报道列表，其中，主题描述的生成过程如下：
[0031]A.读取主题内部权重最高的若干个特征词；
[0032]B.在与主题相似度大于主题阈值0e的主题内新闻报道中，选择时间最近的一篇新闻报道的标题；主题阈值还可以采取按照比例的方式；
[0033] C.综合A和B，输出该主题的描述。
[0034] 进一步，所述的自动分词的基本算法单元包括有最大匹配法、全切分算法、概率乘算法；
[0035] 最大匹配法是机械分词的算法不考虑任何词与词之间的连接可能性，只按照长度在词典中寻找句子里出现的字符串：算法比较成熟，以最大匹配法（MaximumMatching,简称MM)最具有代表性；
[0036] 最大匹配法的思想是：从输入流中取最大长度(本系统中取6)字符串，在词典中进行查找，匹配则输出，继续取，否则，回溯，继续查找，直到长度为1，此时需在输入流中前进一格，此过程进行到取完输入流；
[0037] 全切分算法是一种不存在切分盲点的算法；所谓全切分算法，就是求出形式上所有符合词典的切分形式；采用此算法，涉及到一个选取最优切分式的问题；
[0038] 概率乘算法是基于统计的方法利用字与字间、词与词间的同现频率作为分词的依据；这种方法的优点在于它不受应用领域的限制，而且也不局限于实现建立的分词词典；该方法需要大规模的训练文本，用以训练模型参数；
[0039] 训练文本的选择也将对分词的结果产生明显的影响；
[0040] 设S=sl，s,…，sm是待切分的汉字串，假设S有n个切分式，W=wl，w2,…，wk，是第i个切分式，i=l~n;
[0041] 设P(W/S)是汉字串S切分为W的概率，则基于统计的分词方法就是从S的n 个切分式中找到概率最大的切分式，
[0042]即P(W/S)=MAX(P(W1/S)，P(W2/S)...，P(Wn/S))，P(W/S)称为评价函数；
[0043] 根据贝叶斯公式，有：P(W/S)=P(W)P(S/W) /P(S)对于S的多种切分方式，P(S)为一常数，而P(S/W)是在给定词串的条件下出现句子S的概率，故P(S/W) =1，所以P(W/S)~P(W)。
[0044] 进一步，所述的未登陆词的识别单元包含有两个性能指标：
[0045] 1.召回率（Recall):指识别出来的某种类型的未登录词的数量和文本中属于该类型的未登录词总数之比，
[0046] 2.精确率（Accuracy):指在识别出来的未登录词中，属于该类型未登录词的数目和辨识出来的未登录词的总数之比。
[0047] 进一步，所述的汉语自动分词的切分歧义及其消除单元：汉语的分词是一个理解的过程，这个过程综合了司法、语法、语义等各种信息，汉语自动分词与这些信息的运用是既相互联系又相互制约的一种相辅相成的关系，纯粹的机械切分必然会带来切分歧义；
[0048] 切分歧义是指汉语句子中的某些字段，如果纯粹根据词表做简单的字符串匹配，则它可能存在多种切分形式，含有切分歧义的汉字串称为歧义字段，切分歧义是汉语自动分词研究中的一个难点，切分歧义的基本类型有三种：
[0049] 1.交叉歧义：也称交集型切分歧义，即汉字串ABC既可以切分成AB/C形式，也可切分成A/BC形式，即AB是词，BC也是词；
[0050] 2.组合歧义：汉字串

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李臻;纪敏;
技术所有人：上海市玻森数据科技有限公司;
我是此专利的发明人

上一篇：基于细粒度属性分类的感情分析引擎的制作方法
上一篇：基于群体智能的行为聚类系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。