基于互联网层次结构存储的自动舆情监控方法

文档序号:6426835阅读:196来源:国知局
专利名称:基于互联网层次结构存储的自动舆情监控方法
技术领域
本发明涉及论坛中的舆情监控技术领域,具体涉及基于互联网层次结构存储的自动舆情监控方法。
背景技术
索引擎从诞生到现在不足20年时间,经过一个短暂的雏形阶段,目前已经发展成熟了两代产品,包括以人工目录搜索为特点的第一代搜索引擎,以AltaVista、YAHOO、Info seek为代表,主要依靠人工目录分类,由于人工分类难以处理海量的信息,搜索结果的好坏往往用反馈结果的数量来衡量;以超链分析为基础,机器自动处理的第二代搜索引擎,由于链接分析技术的引入,真正提高了自动搜索引擎的结果质量,以信息自动抓取和自动排序检索为特征,商业产品以Google,Baidu为代表。第三代搜索引擎目前正在发展和形成中, 个性化、分类化和智能化是目前比较公认应该具有的特征。如前所述网络上每日涌现大量的及时信息,如何将这些最新的信息反馈给用户已经成为一个比较棘手的问题。传统的搜索引擎只能搜索互联网上与用户输入相关的网页信息,而不能反馈及时最新的信息,弊端主要反映在以下四个方面
(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,传统搜索引擎所返回的结果包含大量用户不关心的信息。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之问的矛盾将进一步加深。(3)信息数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,传统搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)传统搜索引擎大多提供基于关键词的检索,难以支持针对语义信息的监控。随着网络信息的日益膨胀,如何对大众评价信息进行监控已经成为一个比较重要的话题。保证信息的时效性对于一些敏感信息,例如政府,商务,工作应聘等信息具有重要意义。而大众评价信息(包括社区,论坛和博客)更是如此,一些国家单位对大众对他们的政策和一些领导的本身的评价信息很重视。因为这些可以很好得到群众对相关政策和领导的意见。这就为这些单位对自己和工作有更进一步的认识,也有利于他们对以后对政策改进和自身的提升。

发明内容
本发明的目的是克服现有技术存在的上述不足,提供了基于互联网层次结构存储的自动舆情监控方法。本发明的目的在于让机器智能地对用户提交的监控语句进行语义分析和用户监控条件进行转换,并实现对层次拓扑结构已经被保存在服务器中的大众评价信息源监控并返回最符合用户检索需要的主题以及相关的大众评价信息。然后围绕着该主题自动生成监控结果,用户可以通过反馈的方式要求服务器对监控结果进行修改,最终得到一个能够满足用户监控需求的监控结果,这样使人与人之间的交流变得更加丰富、生动,具体技术方案如下。基于互联网层次结构存储的自动舆情监控方法,其特征在于包括以下步骤
(1)服务器端构建大众评价信息源的层次拓扑结构,所述大众评价信息源包括社区、论坛和博客,层次拓扑结构包括了父层和子层之间的拓扑关系和兄弟层之间的拓扑关系;
(2)服务器端获取并将于步骤(1)所创建的层次拓扑结构保存到指定服务端文件中;
(3)服务器端获取并根据步骤(1)所创建的层次拓扑结构将大众评价信息源的URL拓扑结构由网状结构转化为树状结构;
(4)用户输入一句中文自然语言作为监控主题并设置用户监控条件来监控互联网中的大众评价信息,所述用户监控条件包括监控区域、信息发布时间和检索更新时间;
(5)服务器端利用ICTCLAS中文分词技术对步骤(4)中用户输入的监控主题进行语义分析,提取出句子的关键字,将关键字和用户监控条件转换为服务器可接受的监控条件,服务器可接受的监控条件包括关键字、监控区域、信息发布时间和检索更新时间;
(6 )服务器端根据步骤(5 )中的监控条件监控大众评价信息源,获取符合监控条件的大众评价信息;
(7)服务器端根据步骤(5)中提取出的句子关键字和步骤(6)中获得的大众评价信息进行文本信息抽取和整合处理,并生成监控结果;
(8)用户对步骤(7)中生成的监控结果进行反馈,反馈内容包括监控结果的显示格式和监控结果的满意度,所述显示格式包含结果排序方式、内容结合方式、内容精细程度和显示内容数量;
(9)用户对步骤(8)中生成的监控结果进行保存。上述的基于互联网层次结构存储的自动舆情监控方法,步骤(1)中,服务器端建立的大众评价信息源的层次拓扑结构包括了父层和子层之间的拓扑关系和兄弟层之间的拓扑关系,其中,运用URL过滤模式来建立父层和子层之间的拓扑关系,而兄弟层之间的拓扑关系则运用URL的基模式来建立。上述的基于互联网层次结构存储的自动舆情监控方法,步骤(2)中,服务器端通过对大众评价信息源的URL特点进行相应的分析,获取信息源的层次拓扑结构,并保存在服务器端的对应文件中。上述的基于互联网层次结构存储的自动舆情监控方法,步骤(3)中,服务器端通过步骤(2)中建立的信息源层次拓扑结构将大众评价信息源的URL拓扑结构由网状结构转化为树状结构运用URL过滤模式来分隔父层URL所指向的子层URL为有价值的URL或者无价值的URL,而用基模式来对兄弟层中的URL实现聚类。上述的基于互联网层次结构存储的自动舆情监控方法,步骤(5)中,服务器端对步骤(4)中用户输入的监控请求进行自动监控,其中包含了句子关键字的提取和用户监控条件的转换。上述的基于互联网层次结构存储的自动舆情监控方法,步骤(5)中,服务器端对用户输入的监控主题进行语义分析,服务器分析用户监控主题语义,并据此提取关键字为句子主干分析结果;服务器端将句子主干分析结果结合用户监控条件转换成服务器可接受的监控条件。
上述的基于互联网层次结构存储的自动舆情监控方法,步骤(6)中,服务器端根据步骤(5)中分析得到的监控条件监控大众评价信息源,监控包含监控关键字并符合用户监控条件的大众评价信息,大众评价信息包括标题、锚点内容、发表评论时间、最近跟帖时间、 发帖人、跟帖数量和访问数量。上述的基于互联网层次结构存储的自动舆情监控方法,步骤(7)中,服务器端运用正则表达式方法实现对大众评价信息源的信息抽取,其中,根据Html的结构实现主题信息抽取,再根据关键字对文本内容进行分析并获取锚点信息,最后再抽取信息源的标题、发表评论时间、最近跟帖时间、发帖人、跟帖数量和访问数量这些相关信息;再根据用户的监控条件对检索结果进行过滤和整合,最终形成完整的符合用户需求的检索结果。上述的基于互联网层次结构存储的自动舆情监控方法,步骤(8)中,用户对监控结果进行反馈,让服务器调整监控结果的显示形式;步骤(9)中,用户对最终生成的监控结果进行下载,并保存在本地。本发明提供的基于互联网层次结构存储的自动舆情监控方法,服务器使用自动语义分析方法提取监控语句中的关键语法成分,并结合用户监控条件分别监控每个语法成分对应大众评价信息源信息,再运用正则表达式技术整合这些大众评价信息,生成一个完整的结果。本发明提供了一种面向用户的个性化定制方法,用户可以对监控返回的大众评价信息进行相应的反馈,使服务端更新整合方式,也使其更适合用户的阅读习惯,从而得到既能准确表达用户需求又富有个性的监控结果。本方法为用户提供了一个更为个性化的大众评价信息的监控方法。本发明与现有技术相比,具有如下优点相对优势
本发明的基于互联网层次结构存储的自动舆情监控方法实现了智能化的处理,只需要用户输入想监控的主题并设定监控信息的条件,然后服务器端就会自动分析,自动生成并及时更新对应的大众评价信息,实现对大众评价信息的监控,操作步骤少,使得大众评价信息的生成和更新周期变短;本发明的优势还体现在本发明的方法生成的监控结果不但具有默认的内容和布局,而且,这些检索结果还可以由用户进行自我定制,进一步实现用户所需要的表达效果,从而体现了设计的人性化,充分贴近用户,给用户最大的满意。并且基于互联网层次结构存储的舆情监控方法不需要对互联网信息源的信息进行索引建立,可以对监控结果里的显示素材进行变更和反馈,从而能准确的表达用户的情感需求,而不依赖于一些固定的模板和文字。这不仅相对较好的满足了当今越来越丰富的个性化需求,同时也在很大程度上克服了当前方法生成监控结果目的性不强的不足。


图1为实施方式中监控大众评价信息源的流程图2为实施方式中将区域互联网由网状结构转化为树状结构的示意图; 图3为实施方式中大众评价信息监控结果自动生成的流程图。
具体实施例方式以下结合附图对本发明的实施作进一步说明,但本发明的实施和保护范围不限于此。
本实施方式的基于互联网层次结构存储的自动舆情监控方法,包括构建信息源层次拓扑结构、获取并保存层次拓扑结构、用户输入监控请求、语义分析、文本信息处理并生成监控结果、反馈监控结果、对最终监控结果进行保存。下面进行详细介绍
步骤一,服务器端构建信息源层次拓扑结构,层次拓扑结果包括层次拓扑结构包括了父层和子层之间的拓扑关系和兄弟层之间的拓扑关系。父层和子层之间的拓扑关系主要通过“过滤模式”建立,所谓“过滤模式”是指,将网站的URL链接群体表示为U=Iu1, U2, Ui,…,un},公式中i=l,2,…,n,Ui表示该链接群体中的η个个体中的某一个(即特定的URL),其中有价值信息(一般指网络拓扑结构上的链接) 的链接群体表示为Uv, Uv e U, Uv={uvl, uV2, uVJ,...,uJ,公式中j=l, 2,...,m,uVJ表示该有价值的链接群体中的m个个体中的某一个,无价值信息(一般指非网络拓扑结构上的链接)的链接群体表示UN,U N e U, Un= { uN1, uN2, uNkJ ***, uN1 },公式中,k=l, 2, ***, 1, uNk 表不该无价值的链接群体中的1个个体中的某一个;uv u Un = U;存在一个模式特征P可以将Uv和 Un区分开来,这样的链接群体叫做可过滤模式特征链接群体。兄弟层之间的拓扑关系主要通过“基模式”建立,所谓“基模式”是指,将网站的某个链接子群体表示为R=Ir1, r2,rh,-,rj, h=l,2,-,s, 表示该链接子群体中的s个个体中的某一个,如果存在模式P使得P e rh,且不存在P的子模式P。e P也存在P。e rho n、m、l、s均为自然数。表1为层次结构表,用来存储大众评价信息源的层次拓扑结构,主要包括结构级别,典型URL,过滤模式,基模式。表1人大经济论坛层次结构和过滤模式
权利要求
1.基于互联网层次结构存储的自动舆情监控方法,其特征在于包括以下步骤(1)服务器端构建大众评价信息源的层次拓扑结构,所述大众评价信息源包括社区、论坛和博客,层次拓扑结构包括了父层和子层之间的拓扑关系和兄弟层之间的拓扑关系;(2)服务器端获取并将于步骤(1)所创建的层次拓扑结构保存到指定服务端文件中;(3)服务器端获取并根据步骤(1)所创建的层次拓扑结构将大众评价信息源的URL拓扑结构由网状结构转化为树状结构;(4)用户输入一句中文自然语言作为监控主题并设置用户监控条件来监控互联网中的大众评价信息,所述用户监控条件包括监控区域、信息发布时间和检索更新时间;(5)服务器端利用ICTCLAS中文分词技术对步骤(4)中用户输入的监控主题进行语义分析,提取出句子的关键字,将关键字和用户监控条件转换为服务器可接受的监控条件,服务器可接受的监控条件包括关键字、监控区域、信息发布时间和检索更新时间;(6 )服务器端根据步骤(5 )中的监控条件监控大众评价信息源,获取符合监控条件的大众评价信息;(7)服务器端根据步骤(5)中提取出的句子关键字和步骤(6)中获得的大众评价信息进行文本信息抽取和整合处理,并生成监控结果;(8)用户对步骤(7)中生成的监控结果进行反馈,反馈内容包括监控结果的显示格式和监控结果的满意度,所述显示格式包含结果排序方式、内容结合方式、内容精细程度和显示内容数量;(9)用户对步骤(8)中生成的监控结果进行保存。
2.根据权利要求1所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(1)中,服务器端建立的大众评价信息源的层次拓扑结构包括了父层和子层之间的拓扑关系和兄弟层之间的拓扑关系,其中,运用URL过滤模式来建立父层和子层之间的拓扑关系,而兄弟层之间的拓扑关系则运用URL的基模式来建立。
3.根据权利要求1所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(2)中,服务器端通过对大众评价信息源的URL特点进行相应的分析,获取信息源的层次拓扑结构,并保存在服务器端的对应文件中。
4.根据权利要求1所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(3)中,服务器端通过步骤(2)中建立的信息源层次拓扑结构将大众评价信息源的URL 拓扑结构由网状结构转化为树状结构运用URL过滤模式来分隔父层URL所指向的子层 URL为有价值的URL或者无价值的URL,而用基模式来对兄弟层中的URL实现聚类。
5.根据权利要求1所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(5)中,服务器端对步骤(4)中用户输入的监控请求进行自动监控,其中包含了句子关键字的提取和用户监控条件的转换。
6.如权利要求5所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(5 )中,服务器端对用户输入的监控主题进行语义分析,服务器分析用户监控主题语义, 并据此提取关键字为句子主干分析结果;服务器端将句子主干分析结果结合用户监控条件转换成服务器可接受的监控条件。
7.如权利要求1或6所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(6)中,服务器端根据步骤(5)中分析得到的监控条件监控大众评价信息源,监控包含监控关键字并符合用户监控条件的大众评价信息,大众评价信息包括标题、锚点内容、发表评论时间、最近跟帖时间、发帖人、跟帖数量和访问数量。
8.如权利要求7所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(7)中,服务器端运用正则表达式方法实现对大众评价信息源的信息抽取,其中,根据 Html的结构实现主题信息抽取,再根据关键字对文本内容进行分析并获取锚点信息,最后再抽取信息源的标题、发表评论时间、最近跟帖时间、发帖人、跟帖数量和访问数量这些相关信息;再根据用户的监控条件对检索结果进行过滤和整合,最终形成完整的符合用户需求的检索结果。
9.如权利要求8所述的基于互联网层次结构存储的自动舆情监控方法,其特征在于步骤(8)中,用户对监控结果进行反馈,让服务器调整监控结果的显示形式;步骤(9)中,用户对最终生成的监控结果进行下载,并保存在本地。
全文摘要
本发明提供了基于互联网层次结构存储的自动舆情监控方法,包括用户上传监控请求,服务器分析监控请求并获取服务器可接受的监控条件,运用层次结构保存的监控方法实现对互联网的监控并运用正则表达技术过滤和整合与用户主题请求相关的大众评价信息,生成个性化的监控结果,并通过各种方式发送到用户手上。本发明能够让机器智能地对用户提交的监控主题进行语义分析,实现对互联网上最符合用户监控需求的主题的监控以及相关的大众评价信息,然后围绕着该主题自动地生成监控结果,用户可以要求生成监控结果的风格和格式,并制定获取监控结果的方式。这就使得人们的监控过程更加个性化,更加的方便,更加的丰富,生动。
文档编号G06F17/30GK102214227SQ20111017045
公开日2011年10月12日 申请日期2011年6月23日 优先权日2011年6月23日
发明者张泽斌, 杨忠明, 秦勇, 蔡昭权, 郝志峰, 黄翰 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1