一种层次化的互联网舆情指标体系的方法及系统的制作方法

文档序号:6621541阅读:159来源:国知局
一种层次化的互联网舆情指标体系的方法及系统的制作方法
【专利摘要】本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行业指标、信息源指标、地域指标;设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要素集合、数据库中数据字段集合。
【专利说明】一种层次化的互联网舆情指标体系的方法及系统

【技术领域】
[0001] 本发明涉及互联网信息态势的评估分析,尤其是对互联网舆情态势的定量分析。

【背景技术】
[0002] 随着互联网的快速发展和全球化进程的加快,网民数目猛增,互联网已成为信息 获取和传播的最重要的渠道,中国互联网络信息中心(CNN IC)的第32次互联网发展状况 统计报告指出,截至2013年6月底,我国网民规模达到5. 91亿,较2012年底增加2656万 人,互联网普及率为44. 1 %,较2012年底提升2 %。互联网成为人们获取信息和传递信息 的主要载体,海量的各种类型的数据在网络上形成一个极其丰富的信息源,网络新闻媒体 已被公认为是继报纸、广播、电视之后的"第四媒体"。互联网使用者们借助于互联网新闻 信息的浏览、转载和发表相关评论等手段来表达自己对于感兴趣话题的强烈关注和个人见 解,对于普通网民来说,互联网的娱乐、资讯、沟通功能尤为重要;对于企业,通过互联网提 供企业及其产品信息,提高企业形象与网上电子商务的发展的功能值得重视;政府部门对 于电子政务尤其关注并快速推进电子政务的发展,通过网络发布政策法规,了解社情民意, 更好地为大众服务,提高政办公效率。
[0003] 互联网已经逐步渗透到人们工作、生活的方方面面,并对人们生活、企业发展和社 会进步产生了巨大影响,很好的体现了"以信息化带动工业化,工业化促进信息化"的科学 发展思路,在社会政治、经济、文化生活中发挥的作用日益增强,目前信息的采集与抽取技 术已比较成熟,能够实时对网页进行抓取,将半结构化网页信息处理得到结构化的文本内 容,经过自然语言处理等技术,进一步对文本内容进行生层次处理(如话题发现与跟踪)并 入库,此时获得的数据虽然已经具有了较好的特性,但是网络信息庞杂多样,既有大量进 步、健康、有益的信息,也有不少反动、迷信、黄色的内容,加之互联网应用的虚拟性、隐蔽 性、发散性、渗透性和随意性等特点,对用户获悉热点、洞察整个互联网的发展态势带来了 困难。
[0004] 互联网舆情指标体系具有极其重要的研究意义:从理论上看,指标体系是由一系 列的指标组成的统一的整体,各指标是对复杂庞大网络信息的数值化、定量化,不同的指标 之间相互关联,从不同的方面反映互联网信息态势变化发展特征,是分析网络事件发展趋 势与网络信息整体态势的一种重要的统计方法;从实用性看,互联网信息的海量特性使得 网络信息难以归类和人工整理,而用户只关注热点信息,通过指标体系的数值化特性,可以 方便的对自动抓取的信息进行评价,依靠指数能够快速的定位热点事件与信息资讯,并能 够通过指数变化的规律,预测事件的未来发展趋势;特别的,对于网络媒体和社交网站等 来讲,热点信息、来源与用户关注内容等推荐功能尤为重要,一个合理的指标体系可以有效 的挖掘出热点事件、媒体,对互联网发展态势做出客观的评价,同时很多网站也单独提供舆 情指标展示页面,大大的提高了用户体验,综上所述,互联网舆情指标体系不仅具有理论价 值,而且有着广阔的应用前景,可以创造较大的社会和经济效益。
[0005] 近年来,对于互联网舆情的研究成为了一大热点,但是对于舆情指标体的研究还 处于起步阶段,一些网站如人民网、新华网和舆情公司提供互联网舆情报告,报告中的舆情 指标(指数)部分很大一部分来自于专家意见总结,有些研究从某一个角度出发,如从主 题角度建立舆情指标体系,从舆情关键词的研究入手,对关键词进行分类,使用各关键词类 综合计算得到舆情指数;有些舆情指标的研究偏重于社会安全,也就是从政府舆情监测的 需求出发,舆情指标的计算过程中层次化的计算理念得到了很多研究者的应用,更多的研 究和产品是针对舆情系统的设计出发,包括信息的采集、处理、存储技术等,虽然互联网舆 情的研究取得了很大的进步,但是互联网舆情指标体系的研究仍然没有公认的较为全面系 统的成果。多数的研究只是简单的从某一个角度提出一个或者多个指标,建立舆情指标体 系,对互联网舆情的分析不够全面,指数的意义在于定量化,但有些研究是在给定的数据 (语料)、网站或者某指定时间段内计算某指标,得到的指数值仅在当前的数据集中具体可 比性,缺乏一个统一的衡量标准,有意义的是指数的排序而非指数值,且多数互联网信息态 势评估指标报告是由人工整理实现的,还有一些研究是给出多个指标,这些指标多是针对 互联网的某一方面如互联网安全等,并且在指标值的取值范围未作出明确的说明,偏重于 内容角度的处理,另外,一些研究是为了预测问题而简单设计某一指标,并无实际的指数意 义,总体来讲,目前的研究主要存在以下两个问题:指标实际是相对指标非绝对指标,这类 指标仅在给定的数据集上才有意义,有意义的是指标的序而非数值,不同日期间的指标可 比性较弱,不能给用户一个关于数值的直观感受;指标的设计与计算不够全面合理,这类指 标多是对互联网中的某一个或多个方面设计指标,没有一个统一的衡量标准与指数范围, 未能对互联网的各个方面进行全面统计分析,现有技术中该项缺陷是由互联网的复杂多样 性和互联网信息要素数值范围的不确定性导致的,互联网的海量信息涵盖了社会中的各个 行业、各类人群等,如何全面刻化互联网舆情是一个技术难点。另外,互联网中的信息以网 页为载体,互联网信息要素如网页数目、点击量、评论量等都是无范围的数值,容易对指数 的计算带来数值范围的不确定性困难。
[0006] 发明专利"一种通用综合评价系统及其评价指标体系的定制方法"该发明涉及一 种通用综合评价系统及其评价指标体系的定制方法,属于智能决策和综合评价【技术领域】。 通用综合评价系统,核心功能模块为指标体系管理模块和综合评价模块,其中指标体系管 理模块用于实现评价指标体系的定制,综合评价模块功能用于综合评价方法的实现;评价 指标体系的定制方法的步骤包括确定和定制评价指标的层次结构、创建评价指标体系数据 表和指标数据表,以及指标数据的定量化和无量纲化处理。该发明方法简单、实用,具备广 泛的适用性。但是该发明不能直接应用在网络舆情中,网络舆情分析的一大难点就是从什 么角度出发,本发明对网络舆情的分析从主题、地域、信息源、通道、行业五大维度出发,建 立层次化结构的指标体系,并通过学习的方式获得参数来综合专家经验,提升舆情指标体 系的实际应用价值。


【发明内容】

[0007] 针对现有技术不足,本发明提出了一种层次化的互联网舆情指标体系的方法及系 统。解决互联网的复杂多样性造成的舆情指标体系的设计难点可以通过层次化的分析方 式,从主题、信息源、地域、通道、行业五个维度,由互联网基础要素计算得到的底层基础指 标作为指标体系的最底层层层递进,建立指标体系;指数范围的不确定性难点通过给出指 数的数值范围以及数值与实际意义的关联性解决,根据指数数值意义建立合理的计算方 式,控制指数在合理的范围内。
[0008] 本发明提供了一种层次化的互联网舆情指标体系的方法,包括:
[0009] 步骤1,建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体 态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指 标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指 标、行业指标、信息源指标、地域指标;
[0010] 步骤2,设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些 该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高, 其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信 息要素集合、数据库中数据字段集合。
[0011] 所述的层次化的互联网舆情指标体系的方法,该步骤1中每个该下层指标对应多 个该底层基础指标,该中间层五大维度细分指标对应多个该下层指标。
[0012] 所述的层次化的互联网舆情指标体系的方法,该指标体系中除该整体态势指标之 夕卜,其余每层指标的该指标数值通过与每层指标相对应的下一层指标计算得到。
[0013] 所述的层次化的互联网舆情指标体系的方法,该步骤2中计算该整体态势指标的 具体步骤为:
[0014] 步骤21,获取热点对象集合,该热点对象集合包括主题指标热点对象集合、信息源 指标热点对象集合、地域指标热点对象集合、行业指标热点对象集合,其中对于某一对象, 如果满足指标的数值大于某一阈值,则加入该热点对象集合;
[0015] 步骤22,计算该热点对象集合的热度值,其中对于热点对象集合S,若S = Φ,则 集合的热度值hs = 0,否则可由公式计算
[0016]

【权利要求】
1. 一种层次化的互联网舆情指标体系的方法,其特征在于,包括: 步骤1,建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势 指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、 位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行 业指标、信息源指标、地域指标; 步骤2,设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指 标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中 根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要 素集合、数据库中数据字段集合。
2. 如权利要求1所述的层次化的互联网舆情指标体系的方法,其特征在于,该步骤1中 每个该下层指标对应多个该底层基础指标,该中间层五大维度细分指标对应多个该下层指 标。
3. 如权利要求1或2所述的层次化的互联网舆情指标体系的方法,其特征在于,该指标 体系中除该整体态势指标之外,其余每层指标的该指标数值通过与每层指标相对应的下一 层指标计算得到。
4. 如权利要求1所述的层次化的互联网舆情指标体系的方法,其特征在于,该步骤2中 计算该整体态势指标的具体步骤为: 步骤21,获取热点对象集合,该热点对象集合包括主题指标热点对象集合、信息源指标 热点对象集合、地域指标热点对象集合、行业指标热点对象集合,其中对于某一对象,如果 满足指标的数值大于某一阈值,则加入该热点对象集合; 步骤22,计算该热点对象集合的热度值,其中对于热点对象集合S,若S= 〇,则集合 的热度值匕=0,否则可由公式计算
对象集合热度值ht()pi。、信息源指标热点对象集合热度值hsites、地域指标热点对象集合热度 值h_、行业指标热点对象集合热度值hindustay。
5. 如权利要求1所述的层次化的互联网舆情指标体系的方法,其特征在于,还包括设 定指标更新频率,以定期显示互联网的网络热点。
6. -种层次化的互联网舆情指标体系的系统,其特征在于,包括: 建立层次化架构模块,用于建立该指标体系的层次化架构,包括最上层的整体态势指 标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指 标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通 道指标、主题指标、行业指标、信息源指标、地域指标; 指标数值计算模块,用于设定指标的数值范围,计算该指标体系中每层指标的指标数 值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关 注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合 包括互联网信息要素集合、数据库中数据字段集合。
7. 如权利要求6所述的层次化的互联网舆情指标体系的系统,其特征在于,该建立层 次化架构模块中每个该下层指标对应多个该底层基础指标,该中间层五大维度细分指标对 应多个该下层指标。
8. 如权利要求6或7所述的层次化的互联网舆情指标体系的系统,其特征在于,该指标 体系中除该整体态势指标之外,其余每层指标的该指标数值通过与每层指标相对应的下一 层指标计算得到。
9. 如权利要求6所述的层次化的互联网舆情指标体系的系统,其特征在于,该指标数 值计算模块中计算该整体态势指标的具体步骤为: 步骤31,获取热点对象集合,该热点对象集合包括主题指标热点对象集合、信息源指标 热点对象集合、地域指标热点对象集合、行业指标热点对象集合,其中对于某一对象,如果 满足指标的数值大于某一阈值,则加入该热点对象集合; 步骤32,计算该热点对象集合的热度值,其中对于热点对象集合S,若S= 〇,则集合 的热度值匕=0,否则可由公式计算
步骤34,根据该热点对象集合的热度值与通道热度综合评价得到整体态势指数,其中 通过公式计算获得 WI ^ l^topic"^ 2^sites^~ 3^area^~ 4hindustry^~ 5^channel
其中整体态势指数为WI,A i是权重参数,满足0 < A i < 1且 主题指标热点 J 对象集合热度值ht()pi。、信息源指标热点对象集合热度值hsites、地域指标热点对象集合热度 值h_、行业指标热点对象集合热度值hindustay。
10.如权利要求6所述的层次化的互联网舆情指标体系的系统,其特征在于,还包括更 新模块,用于设定指标更新频率,以定期显示互联网的网络热点。
【文档编号】G06Q10/04GK104346425SQ201410363667
【公开日】2015年2月11日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】包秀国, 马宏远, 杜慧, 王博, 贺敏, 程学旗, 李雄, 刘玮, 刘春阳, 张瑾, 程工, 陈训逊, 王丽宏, 云晓春, 余智华 申请人:中国科学院计算技术研究所, 国家计算机网络应急技术处理协调中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1