一种以矩阵计算为基础进行舆论信息抽取的方法及系统的制作方法

文档序号:9396851阅读:246来源:国知局
一种以矩阵计算为基础进行舆论信息抽取的方法及系统的制作方法
【技术领域】
[0001]本发明涉及网络舆情领域,尤其涉及一种以矩阵计算为基础进行舆论信息抽取的方法及系统。
【背景技术】
[0002]随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
[0003]网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的情感、态度、意见、言论或观点,其主要通过论坛BBS上的发帖评论及跟贴、博客Blog等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。
[0004]网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。由于网络的开放性,会导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的网络新闻舆情时,若不能及时了解、有效引导,很容易形成舆论危机,严重时甚至影响公共安全。对网络新闻舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对网络新闻舆情观点进行收集具有相当重要的意义,在一个热点事件的发展过程中网民观点起着至关重要的作用,甚至可以被认为是网络新闻舆情的核心。
[0005]最近,随着互联网技术的迅速发展,以新闻媒体等为代表的新媒体打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。对相关政府部门来说,如何及时准确的了解网络新闻舆情,加强对网络新闻舆论的及时监测、有效引导,成为网络新闻舆情管理的一大难点。在这种情况下,建设能够覆盖新闻数据源的新闻舆情监测系统十分必要,此类系统可针对新的新闻媒介传播环境,进一步深入研究新闻舆情的热点研判方法以及新媒体带来的影响,对新闻舆情研究进行丰富和完善。
[0006]虽然目前已经有很多单位针对网络新闻舆情监控提出了一些不同的解决方案。但是,需要本领域技术人员解决的技术问题是如何提高判断网络新闻舆情信息的效率和精确度。因为截至目前,尚未有较为高效、准确的针对新闻媒体数据的网络舆情监测系统。

【发明内容】

[0007]针对现有技术的不足,本发明提出一种以矩阵计算为基础进行舆论信息抽取的方法及系统。
[0008]本发明提出一种以矩阵计算为基础进行舆论信息抽取的方法,包括
[0009]步骤1,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
[0010]步骤2,建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。
[0011]所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
[0012]所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。
[0013]通过以下公式获取所述权重:
[0014]信息源权重计算公式:q*w*e = r,中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
[0015]分词权重计算公式:x*y = u,中,X为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
[0016]规则权重计算公式:g*h = k,中,g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
[0017]计算所述综合评分的公式为:
[0018]a^bi= M
[0019]其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
[0020]本发明还提出一种以矩阵计算为基础进行舆论信息抽取的系统,包括
[0021]建立信息源矩阵模块,用于抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
[0022]建立分词矩阵、规则矩阵模块,用于建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。
[0023]所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
[0024]所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。
[0025]通过以下公式获取所述权重:
[0026]信息源权重计算公式:q*w*e = r,中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
[0027]分词权重计算公式:x*y = U,中,X为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
[0028]规则权重计算公式:g*h = k,中,g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
[0029]计算所述综合评分的公式为:
[0030]Bi^bj= M
[0031]其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
[0032]由以上发明可知,本发明的优点在于:
[0033]通过综合评分排序就能实时精准抓取相关文章,提尚彳丁业垂直检索的实时性和准确性;通过对用户使用习惯的不断学习,综合评分排名将会越来越了解使用者的兴趣爱好,甚至做到比使用者本人更加了解自己的需求,这样的推送文章,可以让使用者只关注他所关注的内容,从而提高碎片化时间的利用效率;本发明无需建立情感词库,实时多维度抓取数据,并且通过建立信息源矩阵、分词矩阵、规则矩阵,并将三个矩阵进行关联达到动态平衡,能够精确查找用户所要查询的词,准确率达到95%以上。
【附图说明】
[0034]图1为本发明总体流程图;
[0035]图2为本发明信息源矩阵实施例图;
[0036]图3为本发明分词矩阵实施例图;
[0037]图4为本发明规则矩阵实施例图。
[0038]其中附图标记为:
[0039]步骤101/102/103/104。
【具体实施方式】
[0040]本发明的目的在于提供一种以矩阵计算为基础进行舆论信息抽取的方法及系统,该方法包括以下步骤,如图1所示:
[0041]步骤101,如图1所示,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分。
[0042]所述信息库类型信息是对大库分类的划分,用以区分不同的领域(如政务、商务),库类型由管理员定义、添加,同时可定义该类信息库数据结构、信息源相关属性以及相关数据库服务器链接;
[0043]所述信息库信息是对同一领域内信息源分类的划分,库的划分可以按信息源的级另IJ、大行业分类等分类方式,由管理员定义、添加,信息源的使用权限按此分类控制;
[0044]所述站点信息是指要抓取的信息源所属的网站,如:新浪、网易等;
[0045]所述子站点信息是指要抓取的具体列表页地址。在子站点信息中中增加子站点连接地址后,设置其所属各级类别,并配置列表页、最终页抓取标签;抓取文章后由信息处理程序根据文章所属子站点的属性为文章自动设置相应属性;
[0046]所述信息源统计信息中可以实时监控各站点、子站点信息抓取情况:已抓取信息条数、最新抓取时间、抓取状态是否正常等,并可按编辑统计相关工作量;
[0047]所述信息库权限信息可以控制编辑对各个信息库的操作,只有分配权限的信息库对编辑才可见并可增、删、改
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1