一种基于联合聚类的煤矿舆情监测系统的制作方法

文档序号:6584930阅读:337来源:国知局
专利名称:一种基于联合聚类的煤矿舆情监测系统的制作方法
技术领域
本申请属于煤矿数据分析和数据挖掘领域。
背景技术
国内的网络舆情研究始于2005年,目如已成为相关学科领域专家的关注热点,方兴未艾。目前的舆情研究多以群体事件、司法事件或政治事件为研究着力点,面向公共舆情为主。“煤矿舆情”作为涉及煤矿生产、传播学、中文信息处理与计算机网络的交叉研究领域,始于2010年前后,至今仍鲜有应用。近两年来,煤矿生产的相关舆论热点不断在网络上涌现,煤矿生产秩序、煤矿安全与煤矿制度及监管三者在更深层次上开始互动,新时期多种语言、文化和社会关系的博弈,通过网络平台体现出来。煤矿舆情呈现出“热点频度高、指向煤矿生产重大问题、诱发群体事件”的趋势。以微博、博客、社交网络、即时通讯系统为代表的自媒体(We Media)打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。在这种情况下,建设能够覆盖多数据源的煤矿舆情监测系统十分必要,此类系统可针对新的媒介传播环境,进一步深入研究煤矿舆情的热点研判方法以及自媒体带来的影响,对煤矿舆情研究进行丰富和完

口 ο目前为止,尚未有与Web信息检索技术相结合的煤矿舆情监测系统。

发明内容
本发明提出一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果。优选地,在 煤矿舆情分析模块中,联合聚类算法的具体步骤如下:1)初始化:(1)针对文档-特征词二维矩阵,用X表示文档集合X = {Xl,X2,...,X1J,Y表示特征词集合Y = Iy1, I2, yj,其中m为文档的总数,η为集合中特征词的个数,即文档向量的维度;(2)将m个文档分成P组,形成P个文档簇,分别记为C1, c2,...,cP,这P个簇组成的集合记为(:,簇(^所包含的文档记为^42,.^^ I彡i彡p,i为自然数,IciI表示簇Ci所包含的文档数目;将η个特征词分成Q组,形成Q个特征词簇,分别记为11;12,...,1Q, Q个簇组成的集合记为L,簇Ij所包含的特征词记为AWw,I,I彡j彡Q,j为自然数,1 L 1示簇L所包含的特征词数目。
2)更新向量表示:文档Xe的向量表示记为
权利要求
1.一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定与煤矿相关的关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果;其特征在于:在煤矿舆情分析模块中,联合聚类算法的具体步骤如下: 1)初始化: (1)针对文档-特征词二维矩阵,用X表示文档集合X= (X1, X2,..., xj , Y表示特征词集合Y = Iy1, y2,...,yn},其中m为文档的总数,η为集合中特征词的个数,即文档向量的维度; (2)将m个文档分成P组,形成P个文档簇,分别记为C1,c2,...,CP,这P个簇组成的集合记为C,簇Ci所包含的文档记为,I彡i彡P, i为自然数,I Ci I表示簇Ci所包含的文档数目;将η个特征词分成Q组,形成Q个特征词簇,分别记为I1, 12,...,1Q, Q个簇组成的集合记为L,簇Ij所包含的特征词记为A A2,…,,I彡j彡Q,j为自然数,Ij I表示簇L所包含的特征词数目。
2)更新向量表示: 文档Xe的向量表示记为毛= 0(ΑΙ\),...,Ρ(Ζβ丨\)),I彡e彡m,e为自然数,P (lj k)表示文档Xe条件下特征词簇Ij的概率,
全文摘要
本发明提出一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块。煤矿舆情分析模块是该系统中的核心模块,采用了Web数据挖掘领域中的聚类算法,发明人在基于信息瓶颈理论的增量聚类方法的基础上,充分考虑了部分特征以及特征和特征间的相关性,从而提高了聚类结果的准确性和精确性。该系统面向微博、博客、论坛以及门户网站等网络资源,所采集的信息经去重、中文分词、停用词过滤等数据预处理步骤后,建立煤矿舆情库,同时基于文本分类、文本聚类等数据挖掘算法进行热点发现以及舆情热度分析,最后以数据性图标以及舆情报表的形式给出监测结果。
文档编号G06F17/30GK103150335SQ20131003917
公开日2013年6月12日 申请日期2013年1月25日 优先权日2013年1月25日
发明者刘永利, 贾宗璞, 王建芳, 韩秀娟, 杜守恒 申请人:河南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1