数据挖掘系统及数据挖掘方法

文档序号:6489380阅读:610来源:国知局
数据挖掘系统及数据挖掘方法【专利摘要】本发明涉及数据挖掘系统及数据挖掘方法,其中数据挖掘系统包括:数据源整合模块、存储模块、挖掘模块以及输出模块;数据源整合模块用于对用户提交给搜索引擎的查询词与预先存储的购买词进行相关性匹配,以形成查询词和购买词之间关联关系对应的至少一种数据源;存储模块利用各数据源的查询词、购买词之间的关联关系,在查询词、购买词之间建立图的存储结构;挖掘模块基于图的存储结构构建网络拓扑关系图,并作基于图的数据挖掘;输出模块根据用户输入的不同应用需求,将数据挖掘的结果进行输出以使用户对所述输出结果进行选择,从而触发输出信息的展示。本发明能够从多视图、多粒度对业务数据进行分析。【专利说明】数据挖掘系统及数据挖掘方法【
技术领域
】[0001]本发明涉及互联网挖掘【
技术领域
】,特别涉及数据挖掘系统及数据挖掘方法。【
背景技术
】[0002]随着互联网技术的飞速发展,各大厂商在网络上投放的信息数量也越来越多,因此,有必要对数据的挖掘技术进行研究以使客户能从大量的网络信息中找到所需要的信息。目前,各大网络运营商对数据挖掘技术研究的方法大致分为以下几种:一种方法是通过半自动化的方式建立网页分类体系,并引入数据分类和查询词/购买词(query/bidterm)分类等属性特征,结合网页搜索结果进行相关性反馈,从而找到所需要的信息。另一种方法是采用基于字面的文字匹配。再一种方法是采用基于语义的概率潜在语义分析(probabilisticlatentsemanticanalysis,PLSA)相关性模型方式而找到所需要的信息。[0003]但是,上述现有的数据挖掘方法均未涉及数据源样本的拓扑结构,难以从系统整体结构和动态演化的角度发现多视图、多粒度的整体结构知识,容易遗漏信息业务中潜在的数据特征,从而给客户提供的信息的挖掘结果不全面。【
发明内容】[0004]因此,本发明提供数据挖掘系统及数据挖掘方法,以克服现有互联网挖掘技术存在的问题。[0005]具体地,本发明实施例提出的一种数据挖掘系统,包括:数据源整合模块、存储模块、挖掘模块以及存储器;数据源整合模块用于对用户提交给搜索引擎的查询词与预先存储的购买词进行相关性匹配,以形成查询词和购买词之间关联关系对应的至少一种数据源;存储模块利用各数据源的查询词、购买词之间的关联关系,在查询词、购买词之间建立图的存储结构;挖掘模块基于图的存储结构构建网络拓扑关系图,并作基于图的数据挖掘;输出模块,根据用户输入的不同应用需求,将数据挖掘的结果进行输出以使用户对输出结果进行选择,从而触发输出信息的展示。[0006]在本发明实施例中,上述数据源例如包括q2b、q2q以及b2b。上述数据挖掘系统例如还进一步包括:存储模块,将数据源中的查询词、购买词及其核心成分抽象成节点,节点之间的关联关系抽象成边,节点和边附加属性并且可扩展,从而在查询词、购买词之间建立图的存储结构。上述挖掘模块例如使用复杂网络的知识对图进行挖掘。上述数据挖掘系统例如还进一步包括:存储器,用于存储购买词、查询词、数据源、图的存储结构和挖掘模块数据挖掘的结果。上述数据挖掘系统例如还进一步包括:反馈模块,用于将用户选择的输出结果反馈给数据源整合模块以使数据源整合模块根据反馈模块的反馈形成新的至少一种数据源。[0007]另外,本发明实施例提出的一种数据挖掘方法,其包括:对用户提交给搜索引擎的查询词与预先存储的购买词进行相关性匹配,以形成查询词和购买词之间关联关系对应的至少一种数据源;利用各数据源查询词、购买词之间的关联关系,在查询词、购买词之间建立图的存储结构;基于图的存储结构构建网络拓扑关系图,并作基于图的数据挖掘;以及根据用户输入的不同应用需求将数据挖掘的结果进行输出以使用户对输出结果进行选择,从而触发输出信息的展示。[0008]在本发明实施例中,上述数据挖掘方法在执行基于所述图的存储结构构建网络拓扑关系图的步骤中例如进一步包括步骤:使用复杂网络的知识对所述图进行数据挖掘。上述数据挖掘方法在执行根据用户输入的不同应用需求,将数据挖掘的结果进行输出的步骤中例如进一步包括步骤:将用户选择的输出结果进行反馈,并返回执行对用户提交给搜索引擎的查询词与购买词进行相关性匹配的步骤。上述数据挖掘方法在执行利用各数据源查询词、购买词之间的关联关系的步骤中例如进一步包括步骤:将数据源中的查询词、购买词及其核心成分抽象成节点,节点之间的关联关系抽象成边,节点和边附加属性并且可扩展从而在查询词、购买词之间建立图的存储结构。[0009]由上述实施例可知,本发明通过整合不同种类的数据源,并通过分布式的数据库设计对图的关联关系(短串间关系)进行存储,再通过应用图论知识、复杂网络知识刻画由数据源构成的图,对其进行数据分析、并作基于图的数据挖掘,从而使得本发明从多视图、多粒度对业务数据进行了分析,并且能够支持海量数据集、还提供了可复用的扩展服务。[0010]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。【专利附图】【附图说明】[0011]图1是本发明实施例提出的数据挖掘系统的主要架构框图;[0012]图2是图1的数据挖掘系统对查询词进行纠错提示的示意图;[0013]图3是图1的数据挖掘系统对查询词进行辅助提示的示意图;[0014]图4是图1的数据挖掘系统对查询词进行相关搜索提示的示意图;[0015]图5是图1的数据挖掘系统的广告信息的组织结构的示意图;[0016]图6是图1的数据挖掘系统的局部子图结构的示意图;[0017]图7是本发明实施例提出的数据挖掘方法的步骤流程图。【具体实施方式】[0018]为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的数据挖掘系统及数据挖掘方法其【具体实施方式】、结构、特征及功效,详细说明如后。[0019]有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。[0020]图1是本发明实施例提出的数据挖掘系统的主要架构框图。图2是图1的数据挖掘系统对查询词进行纠错提示的示意图。图3是图1的数据挖掘系统对查询词进行辅助提示的示意图。图4是图1的数据挖掘系统对查询词进行相关搜索提示的示意图。图5是图I的数据挖掘系统的广告信息的组织结构的示意图。图6是图1的数据挖掘系统的局部子图结构的示意图。请一并参阅图1至图6,数据挖掘系统包括:数据源整合模块100、存储模块102、挖掘模块106以及输出模块108。[0021]此外,数据挖掘系统还可以包括存储器104以及反馈模块110,以整合更多的功倉泛。[0022]更具体地,数据源整合模块100,用于对用户提交给搜索引擎的查询词与预先存储的购买词进行相关性匹配,以形成查询词和购买词之间至少一种关联关系对应的至少一种数据源。[0023]其中,用户可通过搜索引擎输入查询词以查找用户所需要的信息,例如广告信息。数据源整合模块100整合的数据源例如主要包括q2b、q2q以及b2b三种。[0024]q2b数据源的形成方式如下:数据源整合模块100对用户提交给搜索引擎的查询词进行分析,并将查询词与买主购买且即时生效的关键词(即购买词)进行相关性匹配。其中,在查询词与购买词进行匹配的过程中,数据源整合模块100可通过在线、离线的方法,采用查询词与购买词两者之间的语义相关性方法对查询词进行各种智能匹配,以使查询词关联到更多的购买词(bidterm),从而形成查询词与购买词之间关联关系的数据源,这种数据源可称为q2b(即query到bidterm的扩展)。[0025]q2q数据源的形成方式如下:数据源整合模块100对用户提交给搜索引擎的查询词所表现出的特征进行相应扩展,常用的扩展方法有:(I)纠错提示,例如如图2所示当用户通过查询区200输入查询词为“王物”时则在提示区202提示用户是否要查询“王五”;(2)查询词的上下文修改,例如查询词为“北京鲜花快递”时,则将查询词扩展为“鲜花快递北京”等,(3)辅助提示,例如图3对查询词搜索时会有辅助提示,当用户通过查询区300输入“iphone4S”时,则在提示区302会有相关的辅助提示;(4)相关搜索提示,例如如图4所示通过查询区400对查询词搜索时在提示区402列有相关搜索。上述查询词间的关联关系均为查询词的扩展变化,将这种查询词之间的关联关系的数据源称为q2q(qUery到query的扩展)。[0026]b2b数据源的形成方式如下:由于在存储器104中存储了买主和代理商所购买的购买词,购买词一般保存在存储器104的数据库中,例如图5所示为一种常见的数据库中存储的广告信息的组织结构,图5中,广告购买词500依附于广告组501,每个广告主(Advertiser)502可以购买多个购买词,每个购买词500也可以被不同的广告主502购买。可见,广告信息的这种组织结构决定了各购买词500之间有一定的关联关系。数据源整合模块100根据广告信息组织结构中购买词500之间的关系、购买词500之间的字面相似情况,语义相关情况,由搜索结果、用户点击行为等关联起来的情况等,从而形成购买词与购买词之间关联关系和等价关系的数据源,这种数据源可称为b2b(bidterm到bidterm的扩展)。[0027]存储模块102,利用各数据源的节点与节点(节点即查询词、购买词)之间的关联关系(即图的短串关系),在查询词、购买词之间建立图的存储结构,并将图的存储结构发送到存储器104中进行存储。[0028]其中,由于各个数据源均是描述数据业务中实体间的关联关系,它们并不是相互独立的集合,而是彼此联系的,因此可使用图(graph)的数据结构对上述数据源进行抽象表达和存储设计。存储模块102例如可以采用如下方式设计图的存储结构:可以将数据源中的查询词、购买词及其核心成分(例如查询词、购买词的重要词组等)抽象成节点,节点之间的关联关系抽象成边,节点和边附加属性并且可扩展,例如图中的节点可能种类不同,并且根据不同的应用可以表达成二部图(bipartitegraph)或其他模型。节点的属性例如可以是所属数据源的类型、对应的字符串文本、行业分类、语义主题、数据的点击、展示等信息。边的属性可以是有向边、带权边(例如节点之间的文本、语义、成分、分类等相关性得分)。如表1所不为一种关系表结构(bigtable):[0029]表1关系表结构(bigtable)【权利要求】1.一种数据挖掘系统,其特征在于,所述数据挖掘系统包括:数据源整合模块,用于对用户提交给搜索引擎的查询词与预先存储的购买词进行相关性匹配,以形成所述查询词和所述购买词之间关联关系对应的至少一种数据源;存储模块,利用所述各数据源的查询词、购买词之间的关联关系,在所述查询词、所述购买词之间建立图的存储结构;挖掘模块,基于所述图的存储结构构建网络拓扑关系图,并作基于所述图的数据挖掘;以及输出模块,根据用户输入的不同应用需求,将数据挖掘的结果进行输出以使用户对所述输出结果进行选择,从而触发输出信息的展示。2.如权利要求1所述的数据挖掘系统,其特征在于,所述数据源包括q2b、q2q以及b2b03.如权利要求1所述的数据挖掘系统,其特征在于,还包括:存储模块,将数据源中的所述查询词、所述购买词及其核心成分抽象成节点,所述节点之间的关联关系抽象成边,所述节点和所述边附加属性并且可扩展,从而在所述查询词、所述购买词之间建立所述图的存储结构。4.如权利要求1所述的数据挖掘系统,其特征在于,所述挖掘模块使用复杂网络的知识对所述图进行数据挖掘。5.如权利要求1所述的数据挖掘系统,其特征在于,还包括:存储器,用于存储所述购买词、所述查询词、所述数据源、所述图的存储结构和所述挖掘模块数据挖掘的结果。6.如权利要求1所述的数据挖掘系统,其特征在于,还包括:反馈模块,用于将用户选择的输出结果反馈给所述数据源整合模块以使所述数据源整合模块根据所述反馈模块的反馈形成至少一种新的数据源。7.一种数据挖掘方法,其特征在于,所述数据挖掘方法包括:对用户提交给搜索引擎的查询词与预先存储的购买词进行相关性匹配,以形成所述查询词和所述购买词之间关联关系对应的至少一种数据源;利用各数据源查询词、购买词之间的关联关系,在所述查询词、所述购买词之间建立图的存储结构;基于所述图的存储结构构建网络拓扑关系图,并作基于所述图的数据挖掘;以及根据用户输入的不同应用需求将数据挖掘的结果进行输出以使用户对输出结果进行选择,从而触发输出信息的展示。8.如权利要求7所述的数据挖掘方法,其特征在于,在执行基于所述图的存储结构构建网络拓扑关系图的步骤中,进一步包括步骤:使用复杂网络的知识对所述图进行数据挖掘。9.如权利要求7所述的数据挖掘方法,其特征在于,在执行根据用户输入的不同应用需求,将数据挖掘的结果进行输出的步骤中,进一步包括步骤:将用户选择的输出结果进行反馈,并返回执行对用户提交给搜索引擎的查询词与购买词进行相关性匹配的步骤。10.如权利要求7所述的数据挖掘方法,其特征在于,在执行利用各数据源查询词、购买词之间的关联关系的步骤中,进一步包括步骤:将数据源中的所述查询词、所述购买词及其核心成分抽象成节点,所述节点之间的关联关系抽象成边,所述节点和所述边附加属性并且可扩展,从而在所述查询词、所述购买词之间建立所述图的存储结构。【文档编号】G06F17/30GK103699550SQ201210369692【公开日】2014年4月2日申请日期:2012年9月27日优先权日:2012年9月27日【发明者】赫南,姚伶伶,王迪,苏麒匀,孙国政申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1