一种动态舆情关键词抽取系统和方法

文档序号:6385958阅读:611来源:国知局
专利名称:一种动态舆情关键词抽取系统和方法
技术领域
本发明涉及网络信息处理技术领域,具体涉及一种动态舆情关键词抽取系统和方法。
背景技术
网络舆情监控是指通过对网络各类信息汇集、分类、整合、筛选等技术处理,再形成对网络热点、动态、网民意见等实时统计报表的一个过程。网络舆情监控的背景随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。“网络舆情监测系统”是征对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。“网络舆情”是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。舆情监控系统的一般工作流程如下:1.信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取、下载及排重。2.信息处理:对抓取的内容进行自动分类聚类、关键词过滤、主题检测、专题聚焦
坐寸o3.信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务。一般的舆情监控系统都会有一个对网络信息进行处理的时候都会有一个关键词过滤的过程,以关键词突出并标记本网络信息的类别,或用关键词当做信息的标签。因此,需要有一种关键词抽取的方法,来准确识别网络文本信息或视频信息中的关键词。

发明内容
本发明的目的是提供一种能够快速准确查找网络信息关键词的动态舆情关键词抽取系统和方法。为达到以上目的,本发明采用的技术方案是:一种动态舆情关键词抽取系统,其特征在于:包括抽取模块,映射模块,分词空间,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件。所述的目标信息是用户以特定关键词搜索到的网页文本信息,或者视频转化文本后的文本信息。所述的映射模块将文本信息映射到分词空间中,采用中文分词技术对文本中的整句话进行分词处理,分成若干中文词汇。所述的映射模块将分词后的中文词汇进行预处理,去掉高频词汇。所述的高频词汇包括“ 的”一类的无实际意义的副词、介词、连词、助词、叹词等虚词o所述的计算模块将对去掉高频词后的中文分词结果进行信息熵计算,所述的信息熵计算即将中文分词结果的单个词语计算器权重系数后表达为向量,抽取其特征向量。所述的权重系数中,是根据中文词汇的词性、出现位置、词频、地名、人名、分词特征、专有名词等要素自动给出的,各要素的权重系数是由用户结合样本的特点设定的。所述的计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词。所述的标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。具有上述的一种动态舆情关键词抽取系统的动态舆情关键词抽取方法,其特征在于:包括如下步骤:(I)、用户输入查询关键词至抽取模块,抽取模块搜索出目标信息,并生成目标信息的网页文本信息或者是视频转化文本信息;( 2 )、映射模块将文本信息映射到中文分词空间中进行分词处理成若干中文词汇,并去掉一些介词或虚词等无实际意义词性的高频词;(3)、计算模块对将去掉高频词后的中文分词结果进行分词计算,即将文本向量化,抽取其特征向量;(4)、计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词;(5)、标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。本发明的一种动态舆情关键词抽取系统和方法,能够快速准确的生成标签关键词,进行目标信息的统计和标记,并生成方便用户查询的索引文件,用户可以后续进行信息的查询,只需要输入标签关键词便能够进行目标信息的查询。


图1、本发明的一种动态舆情关键词抽取系统示意图;图2、本发明的一种动态舆情关键词抽取方法流程图
具体实施例方式下面集合附图对本发明的一种动态舆情关键词抽取系统和方法进行详细描述:如图1所示,本发明的一种动态舆情关键词抽取系统包括抽取模块K1,映射模块K2,分词空间K3,计算模块K4,标记模块K5,抽取模块Kl以用户输入的关键词进行目标信息的抽取,目标信息是用户以特定关键词搜索到的网页文本信息,或者视频转化文本后的文本信息。映射模块K2将抽取到的目标信息的文本信息映射到分词空间K3中采用中文分词技术对文本中的整句话进行分词处理,分成若干中文词汇,将分词后的中文词汇进行预处理,去掉高频词汇包括“的” 一类的介词或虚词。计算模块K4对将去掉高频词后的中文分词结果进行分词计算,即将中文分词结果的单个词语表达为向量,抽取其特征向量,并根据其权重系数和词频计算词语的权重指数。权重系数中,部分关键词汇的权重系数是由用户设定的,其他中文词汇的权重系数是根据中文词汇所述词性、出现位置、词频、地名、人名、分词特征、专有名词自动给出的。计算模块K4根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块K5,进行信息的标签关键词标记,并生成一索引文件。计算模块K4将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后第二权重指数进行排序,并筛选出标签关键词。标记模块K5根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。如图2所示,本发明的一种动态舆情关键词抽取系统的动态舆情关键词抽取方法,其特征在于:包括如下步骤:(I)、用户输入查询关键词至抽取模块,抽取模块搜索出目标信息,并生成目标信息的网页文本信息或者是视频转化文本信息,如图2中所示的stepl ;(2)、映射模块K2将文本信息映射到中文分词空间K3中进行分词处理成若干中文词汇,并去掉一些介词或虚词词性的高频词;如图2中所示的step2 ;(3)、计算模块K4对将去掉高频词后的中文分词结果进行分词计算,即将中文分词结果的单个词语表达为向量,抽取其特征向量,并根据其权重系数和词频计算词语的权重指数;如图2中所示的st印3 ;(4)、计算模块K4将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后第二权重指数进行排序,并筛选出标签关键词;如图2中所示的step4 ;(5)、标记模块K5根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件,如图2中所示的step5 ;
实施例:以“三鹿奶粉”为例,用户在抽取模块输入“三鹿奶粉”字样,搜索出一系列的网页文本信息,将网页文本信息传输至映射模块K2,映射模块K2随即将所有文本信息映射至中文分词空间K3中,将网页文本信息分为若干中文词汇,如下:“2008年6月28日,位于兰州市的解放军第一医院收治了首例患“肾结石”病症的婴幼儿,据家长们反映,孩子从出生起就一直食用河北石家庄三鹿集团所产的三鹿婴幼儿奶粉。7月中旬,甘肃省卫生厅接到医院婴儿泌尿结石病例报告后,随即展开了调查,并报告卫生部。随后短短两个多月,该医院收治的患婴人数就迅速扩大到14名。”分词后的文本信息为:“2008年6月28日,位于兰州市的解放军第一医院收治了首例患“肾结石”病症的婴幼儿,据家长们反映,孩子从出生起就一直食用河北石家庄三鹿集团所产的三鹿婴幼儿奶粉。7月中旬,甘肃省卫生厅接到医院婴儿泌尿结石病例报告后,随即展开了调查,并报告卫生部。随后短短两个多月,该医院收治的患婴人数就迅速扩大到14名。”去掉其中的高频词语,即出现4次的词语“的”和出现两次的“了”以及“到、起、就、据、名等无实际意义的虚词或单位”。然后定义中文词语的权重系数:其中时间节点为两个,“2008年6月28日”、“7月中旬”,此时间节点的权重系数为2。其中地名有“兰州市” “河北” “石家庄” “甘肃省”此地名的权重系数为1,5。其中名词“解放军第一医院”、“肾结石”、“家长们”、“孩子”、“出生” “三鹿集团” “三鹿婴幼儿奶粉”、“泌尿结石病例”、“调查”、“卫生部”、“患婴”、“医院”、这些名词根据出现的位置,次数(即词频)还有主 谓语关系,设定权重系数为:主语的权重系数为3,谓语的权重系数为2,每多出现一次权重系数便加1,出现在标题中的词语直接加4。经过计算后的权重系数比例如下表所示:
权利要求
1.一种动态舆情关键词抽取系统,其特征在于:包括抽取模块,映射模块,分词空间,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件。
2.根据权利要求1所述的一种动态舆情关键词抽取系统,其特征在于:所述的目标信息是用户以特定关键词搜索到的网页文本信息,或者视频转化文本后的文本信息。
3.根据权利要求1所述的一种动态舆情关键词抽取系统,其特征在于:所述的映射模块将文本信息映射到分词空间中,采用中文分词技术对文本中的整句话进行分词处理,分成若干中文词汇。
4.根据权利要求3所述的一种动态舆情关键词抽取系统,其特征在于:所述的映射模块将分词后的中文词汇进行预处理,去掉高频词汇。
5.根据权利要求4所述的一种动态舆情关键词抽取系统,其特征在于:所述的高频词汇包括“的”一类的无实际意义的副词、介词、连词、助词、叹词等虚词。
6.根据权利要求1所述的一种动态舆情关键词抽取系统,其特征在于:所述的计算模块将对去掉高频词后的中文分词结果进行信息熵计算,所述的信息熵计算即将中文分词结果的单个词语计算器权重系数后表达为向量,抽取其特征向量。
7.根据权利要求6所述的一种动态舆情关键词抽取系统,其特征在于:所述的权重系数中,是根据中文词汇的词性、出现位置、词频、地名、人名、分词特征、专有名词等要素自动给出的,各要素的权重系数是由用户结合样本的特点设定的。
8.根据权利要求7所述的一种动态舆情关键词抽取系统,其特征在于:所述的计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词。
9.根据权利要求8所述的一种动态舆情关键词抽取系统,其特征在于:所述的标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。
10.具有如权利1_9中的任一项所述的一种动态舆情关键词抽取系统的动态舆情关键词抽取方法,其特征在于:包括如下步骤: (I)、用户输入查询关键词至抽取模块,抽取模块搜索出目标信息,并生成目标信息的网页文本信息或者是视频转化文本信息; (2 )、映射模块将文本信息映射到中文分词空间中进行分词处理成若干中文词汇,并去掉一些介词或虚词等无实际意义词性的高频词; (3)、计算模块对将去掉高频词后的中文分词结果进行分词计算,即将文本向量化,抽取其特征向量; (4)、计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词; (5)、标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。
全文摘要
本发明公开了一种动态舆情关键词抽取系统及方法,包括抽取模块,映射模块,分词空间K3,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间K3中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件,能够快速准确的生成标签关键词,进行目标信息的统计和标记,并生成方便用户查询的索引文件,用户可以进行后续信息的查询,只需要输入标签关键词便能够进行目标信息的快速查询。
文档编号G06F17/30GK103186662SQ201210586409
公开日2013年7月3日 申请日期2012年12月28日 优先权日2012年12月28日
发明者赵树合, 杨小豹, 巩在飞 申请人:中联竞成(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1