一种数据挖掘分析系统的制作方法

文档序号:6637454阅读:211来源:国知局
一种数据挖掘分析系统的制作方法
【专利摘要】本发明提出了一种数据挖掘分析系统,包括输入输出模块,为用户提供查询输入和结果输出;兴趣信息存储模块,用于存放用户兴趣数据信息;查询分析模块,根据用户查询请求进行分析形成新的查询请求;Web处理模块,通过并行的方式调用多个网页数据;结果预处理模块,对Web处理模块的数据信息进行整合处理后发送给查询过滤模块;查询过滤模块,根据兴趣信息存储模块内的数据信息对结果预处理模块中的数据信息进行相关度排序,并将查询结果通过输入输出模块输出给用户。本发明通过分析返回的搜索结果并进行加工处理,再向用户返回针对性的搜索结果,提高了检索效率。
【专利说明】一种数据挖掘分析系统

【技术领域】
[0001]本发明涉及数据挖掘领域,具体涉及一种数据挖掘分析系统。

【背景技术】
[0002]随着网络信息爆炸式的增长,人们通过分析检索到的信息不是太少,而是太多了,且大多数都是与查询请求无关的信息。传统分析及一般的元分析系统已经越来越不能满足人们的需求,因而数据挖掘技术日益成为检索领域研宄的热点问题。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。但现有技术不能根据用户输入的搜索关键词及时返回有效搜索结果。用户对数据挖掘分析的返回结果进行满意度评价后,现有系统不会对用户的满意度反馈信息进行学习分析,搜索结果针对性差。另外,现有系统结构模型不利于保证后台数据的安全性和保证处理的一致性。因此,为了避免现有技术中存在的缺点,有必要对现有技术作出改进。


【发明内容】

[0003]本发明的目的在于克服现有技术中的缺点与不足,提供一种可向用户返回针对性搜索结果的数据挖掘分析系统。
[0004]本发明是通过以下的技术方案实现的:
[0005]一种数据挖掘分析系统,包括:
[0006]输入输出模块,为用户提供可视化的查询输入和结果输出;
[0007]兴趣信息存储模块,用于存放用户兴趣数据信息;
[0008]查询分析模块,根据兴趣信息存储模块的数据信息对用户查询请求进行分析,并对查询语句进行扩展形成新的更长、更准确的查询请求;
[0009]Web处理模块,通过并行的方式调用多个网页数据,以获得所需的网页数据并将网页数据发送给结果预处理模块;
[0010]结果预处理模块,对Web处理模块的数据信息进行整合处理后发送给查询过滤模块;
[0011]查询过滤模块,根据兴趣信息存储模块内的数据信息对结果预处理模块中的数据信息进行相关度排序,并将查询结果通过输入输出模块输出给用户。
[0012]所述兴趣信息存储模块中的用户兴趣数据信息为用户访问网页历史记录中的提取信息。
[0013]所述结果输出为一个线性的文档列表。
[0014]所述查询过滤模块包括接收处理模块和数据分析模块,所述接收处理模块接收用户查询请求得到的索引文件,通过数据分析模块对所述索引文件进行分析并给出查询结果;所述数据分析模块根据用户兴趣数据信息分析得到新的查询语句,根据新的查询语句在所述索引文件中获取所需的目标索引文件。
[0015]所述查询分析模块分析用户行为得到用户兴趣数据信息。
[0016]所述用户行为包括用户浏览网页的选择性、用户浏览网页的局部性及用户点击率。
[0017]所述用户点击率包括页面被访问次数或页面被搜索次数。
[0018]所述数据挖掘分析系统还包括满意度评价模块,所述满意度评价模块根据用户对查询结果的满意度信息返回给兴趣信息存储模块,供所述查询过滤模块对结果预处理模块中的数据信息进行相关度排序。
[0019]所述数据挖掘分析系统具有三层结构,包括表示层、业务逻辑层和数据持久层。
[0020]相对于现有技术,本发明能根据用户输入的搜索关键词及时返回搜索结果,并能根据用户对搜索结果的反馈信息进行学习分析,向用户返回针对性的搜索结果,实现数据挖掘分析,提高数据挖掘分析效率。数据挖掘分析的目的在于能够根据用户的背景、兴趣爱好、研宄方向、检索目的等,向用户提供相应的需求信息。

【专利附图】

【附图说明】
[0021]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本发明数据挖掘分析系统的原理图;
[0023]图2为本发明数据挖掘分析系统的查询分析模块原理图;
[0024]图3为本发明数据挖掘分析系统的三层结构原理图;
[0025]图4为本发明数据挖掘分析系统的元分析原理图。
[0026]图中:
[0027]1.输入输出模块;2.兴趣信息存储模块;3.查询分析模块;4.Web处理模块;5.结果预处理模块;6.查询过滤模块;7.接收处理模块;8.数据分析模块;9.索引文件;10.目标索引文件;11.知识库;12.结果处理模块;13.表示层;14.业务逻辑层;15.数据持久层O

【具体实施方式】
[0028]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029]如图1至图4所示一种数据挖掘分析系统,包括:
[0030]输入输出模块1,为用户提供可视化的查询输入和结果输出;在查询输入中用户可输入一系列关键词、一系列布尔操作符等,结果输出为一个线性的文档列表。
[0031]兴趣信息存储模块2,用于存放用户兴趣数据信息;兴趣信息存储模块2中的用户兴趣数据信息为用户访问网页历史记录中的提取信息。兴趣数据信息不仅要求客观、全面表达用户兴趣数据知识,而且还要具备良好的后期兴趣评估可操作性。
[0032]查询分析模块3,根据兴趣信息存储模块2的数据信息对用户查询请求进行分析,并对查询语句进行扩展形成新的更长、更准确的查询请求;合理的设置查询请求可以大大的减少搜索结果中的无效内容,提高查询效率。该查询分析模块3分析用户行为得到用户兴趣数据信息。用户行为包括用户浏览网页的选择性、用户浏览网页的局部性及用户点击率。用户浏览网页的选择性,用户每次搜索时,分析都会返回成百上千个查询结果,如果用户点击一个查询结果,就可认为用户视此查询结果质量较高,被用户点击浏览的页面被用户认为质量较高的页面。用户浏览网页的局部性,用户点击的URL相当集中,大部分用户点击都落在前面几页,第一页的用户点击率占总点击的47%,而前面5页的点击率占总点击的75%以上,不到总量1/3的页面的点击次数占到总点击次数的2/3,这表明用户点击URL具有很强的局部性。用户点击率,由于网页存在的时间越长,累计下来的访问次数可能越多,故网页被访问的次数不能很好地反映一个网页内容的质量。所以,应使用网页的用户点击率来反映页面的质量。用户点击率包括页面被访问次数或页面被搜索次数。虽然每次用户点击都是在某查询项下的点击,但研宄结果表明,在大部分的查询项下,URL的点击频率和在所有查询项URL的点击频率基本一致。因此,在计算用户点击率时就不必考虑该点击次数是在什么项目下的点击次数。
[0033]Web处理模块4,通过并行的方式调用多个网页数据,以获得所需的网页数据并将网页数据发送给结果预处理模块5 ;
[0034]结果预处理模块5,对Web处理模块4的数据信息进行整合处理后发送给查询过滤模块3;对来自不同网页数据分析的结果进行整合,剔除重复、统一格式,检验链接有效性和分类等。
[0035]查询过滤模块6,根据兴趣信息存储模块2内的数据信息对结果预处理模块5中的数据信息进行相关度排序,并将查询结果通过输入输出模块I输出给用户。该查询过滤模块6包括接收处理模块7和数据分析模块8,该接收处理模块7接收用户查询请求得到的索引文件9,通过数据分析模块8对所述索引文件9进行分析并给出查询结果;该数据分析模块8根据用户兴趣数据信息分析得到新的查询语句,根据新的查询语句在索引文件9中获取所需的目标索引文件10。
[0036]数据挖掘分析系统还包括满意度评价模块,该满意度评价模块根据用户对查询结果的满意度信息返回给兴趣信息存储模块2,供查询过滤模块6对结果预处理模块5中的数据信息进行相关度排序。用户既是分析的直接使用者,也是服务质量好坏的最终评判者。对用户使用分析行为的调查是分析优化尤为需要的,而分析为用户找寻信息提供了指南。由于分析给网络用户带来巨大便捷的同时也暴露出了不少问题,若要及时地解决这些问题,对分析进行优化,那么则需要大量的用户信息。而用户分析时给出的满意和不满意的评价,可获得大量的用户信息。
[0037]数据挖掘分析系统具有三层结构,包括表示层13、业务逻辑层14和数据持久层15。三层结构可以保证用户访问不直接接触后台应用以及数据资源,而是通过访问中间层,来获取后台的数据资源,这样即可以保证后台数据的安全性,又可以保证处理的一致性。
[0038]数据挖掘分析指的是分析根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。分析掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。而分析,它就是以一定的技术和策略在互联网中搜集、发现信息,并对信息进行理解、提取和处理,为用户提供Web搜索的服务。
[0039]元分析将现有的多个分析看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元分析根据知识库11中的信息,转换为多个分析所能识别的格式,然后分别发送给调用的各独立分析,由这些分析完成实际的信息检索,最后元分析再通过结果处理模块10把各分析返回的结果收集起来,进行比较分析,剔除冗余信息,以一定的格式返回给用户。元分析是指在统一的用户查询接口与信息反馈形式下,共享多个分析的知识库11为用户提供信息服务的系统。
[0040]本发明根据用户输入的搜索关键词,及时返回搜索结果,同时收集用户搜索兴趣数据信息,在以后的搜索中向用户返回更具针对性的搜索结果。用户对分析的返回结果进行满意度评价后,本发明会对用户的满意度反馈信息进行学习分析,提高检索效率。本发明根据用户兴趣数据信息优化搜索结果,优先返回用户感兴趣的网页内容。
[0041]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种数据挖掘分析系统,其特征在于,包括: 输入输出模块,为用户提供可视化的查询输入和结果输出; 兴趣信息存储模块,用于存放用户兴趣数据信息; 查询分析模块,根据兴趣信息存储模块的数据信息对用户查询请求进行分析,并对查询语句进行扩展形成新的更长、更准确的查询请求; Web处理模块,通过并行的方式调用多个网页数据,以获得所需的网页数据并将网页数据发送给结果预处理模块; 结果预处理模块,对Web处理模块的数据信息进行整合处理后发送给查询过滤模块; 查询过滤模块,根据兴趣信息存储模块内的数据信息对结果预处理模块中的数据信息进行相关度排序,并将查询结果通过输入输出模块输出给用户。
2.根据权利要求1所述的数据挖掘分析系统,其特征在于:所述兴趣信息存储模块中的用户兴趣数据信息为用户访问网页历史记录中的提取信息。
3.根据权利要求1所述的数据挖掘分析系统,其特征在于:所述结果输出为一个线性的文档列表。
4.根据权利要求1所述的数据挖掘分析系统,其特征在于:所述查询过滤模块包括接收处理模块和数据分析模块,所述接收处理模块接收用户查询请求得到的索引文件,通过数据分析模块对所述索引文件进行分析并给出查询结果;所述数据分析模块根据用户兴趣数据信息分析得到新的查询语句,根据新的查询语句在所述索引文件中获取所需的目标索引文件。
5.根据权利要求1所述的数据挖掘分析系统,其特征在于:所述查询分析模块分析用户行为得到用户兴趣数据信息。
6.根据权利要求5所述的数据挖掘分析系统,其特征在于:所述用户行为包括用户浏览网页的选择性、用户浏览网页的局部性及用户点击率。
7.根据权利要求6所述的数据挖掘分析系统,其特征在于:所述用户点击率包括页面被访问次数或页面被搜索次数。
8.根据权利要求1所述的数据挖掘分析系统,其特征在于:所述数据挖掘分析系统还包括满意度评价模块,所述满意度评价模块根据用户对查询结果的满意度信息返回给兴趣信息存储模块,供所述查询过滤模块对结果预处理模块中的数据信息进行相关度排序。
9.根据权利要求1所述的数据挖掘分析系统,其特征在于:所述数据挖掘分析系统具有三层结构,包括表示层、业务逻辑层和数据持久层。
【文档编号】G06F17/30GK104484367SQ201410736242
【公开日】2015年4月1日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】鲁银刚 申请人:广州招商速建互联网信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1