网页数据分析方法及装置制造方法

文档序号:6627797阅读:125来源:国知局
网页数据分析方法及装置制造方法
【专利摘要】本发明公开了一种网页数据分析方法及装置。该网页数据分析方法包括:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及将m个关键词中存在依存关系的关键词划分为同一类关键词。通过本发明,实现了通过利用用户需求决定的关键词之间的依存关系对网页数据进行聚类,使聚类结果能准确反映用户需求的效果。
【专利说明】网页数据分析方法及装置

【技术领域】
[0001]本发明涉及数据分析领域,具体而言,涉及一种网页数据分析方法及装置。

【背景技术】
[0002]用户通常会抱有一定的目的和意图浏览网站。对于网站而言,了解用户访问的真实意图非常重要。网站通常会通过用户浏览网站的行为轨迹构造模型,训练分类器的方法对访问网站的用户进行分类,或是通过网站站内搜索词(Query)的热度对用户需求进行描述。
[0003]站内搜索的方式是用户主动寻找信息的行为,可以一定程度上描述用户需求。传统的站内搜索词聚类技术依赖于搜索词本身,通过词语间字面上的重叠进行计算,实现方案一般为:第一步:对关键词进行字面上的拆解(包括逐子或分词),拆解以后的关键词可以表示为词(字)为单元的序列串;第二步:然后逐一计算每一对关键词对的相似度(jaccard或编辑距离等),即比较两个搜索词的词串的吻合程度,并返回相似度的度量;第三步:使用聚类算法进行聚类,聚类算法包括k-means聚类或层次聚类等,不同的聚类算法实现方式不同但实质上并无差别。由于传统技术是通过关键词字面上的吻合程度来建立联系,并不符合实际情况,仅仅是生硬的构造一种相关依存关系,因此不能准确的解释用户需求。比如“三星”和“苹果”不包含任何字面上的匹配,但是相关性应该很高,另外“本田”和“本源”是完全无关的两类词,但是字面上仍然存在着相关依存关系。并且,现有的站内搜索词聚类技术需要计算每两个关键词之间的相似度,因此时间复杂度为ο (n2),不适用于大规模数据挖掘。
[0004]针对相关技术中网页数据分析方法仅仅依赖于搜索词字面上的重叠程度,从而导致的数据分析结果不能准确解释用户需求的问题,目前尚未提出有效的解决方案。


【发明内容】

[0005]针对现有的网页数据分析方法仅仅依赖于搜索词字面上的重叠程度,导致数据分析结果不能准确解释用户需求的问题而提出本发明,为此,本发明的主要目的在于提供一种网页数据分析方法及装置,以解决上述问题。
[0006]为了实现上述目的,根据本发明的一个方面,提供了一种网页数据分析方法。该方法包括:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及将m个关键词中存在依存关系的关键词划分为同一类关键词。
[0007]进一步地,获取用户在网页上输入的m个关键词包括:在网页加载脚本文件代码;接收用户在网页的输入行为;以及通过脚本文件代码读取网页的输入行为所携带的m个关键词。
[0008]进一步地,获取m个关键词中存在依存关系的关键词包括:确定假设条件,其中,假设条件是假设的m个关键词的输入行为中包含的逻辑关系;根据假设条件创建图模型{G,S},其中,G代表m个关键词的集合,S代表m个关键词之间的依存关系的集合;以及通过图模型,获取m个关键词中存在依存关系的关键词。
[0009]进一步地,通过图模型,获取m个关键词中存在依存关系的关键词包括:根据m个关键词之间的依存关系的强度计算转移概率,其中,转移概率是每个关键词属于与其存在依存关系的关键词的概率;以及按照转移概率对m个关键词进行迭代,获取m个关键词中存在依存关系的关键词。
[0010]进一步地,按照转移概率对m个关键词进行迭代,获取m个关键词中存在依存关系的关键词包括:假设在进行迭代之前第i个关键词属于第i关键词簇,其中,簇是一类关键词的集合,i = 1,2...m ;按照转移概率对第i个关键词进行一次迭代,计算迭代后第i个关键词属于的第k关键词族,其中,k e {1,2...1-1, i+1...m};判断第i族和第k族的差异是否小于预设值,其中,预设值是预先设定的关键词簇允许的误差值;如果第i簇和第k簇的差异大于预设值,则继续进行迭代;以及如果第i簇和第k簇的差异小于或者等于预设值,则停止迭代,获取第i个关键词属于的关键词簇中的所有关键词。
[0011]进一步地,将m个关键词中存在依存关系的关键词划分为同一类关键词之后,方法还包括:对多个同一类关键词分别进行命名;以及按照每一类关键词包含的关键词的数量,对命名后的多个同一类关键词进行排序。
[0012]为了实现上述目的,根据本发明的另一方面,提供了一种网页数据分析装置,该装置包括:第一获取单元,用于获取用户在网页上输入的m个关键词;第二获取单元,用于获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及划分单兀,用于将m个关键词中存在依存关系的关键词划分为同一类关键词。
[0013]进一步地,第一获取单元包括:加载模块,用于在网页加载脚本文件代码;接收模块,用于接收用户在网页的输入行为;以及读取模块,用于通过脚本文件代码读取网页的输入行为所携带的m个关键词。
[0014]进一步地,第二获取单元包括:第一确定模块,用于确定假设条件,其中,假设条件是假设的m个关键词的输入行为中包含的逻辑关系;创建模块,用于根据假设条件创建图模型{G,S},其中,G代表m个关键词的集合,S代表m个关键词之间的依存关系的集合;以及第一获取模块,用于通过图模型,获取m个关键词中存在依存关系的关键词。
[0015]进一步地,第一获取模块包括:计算模块,用于根据m个关键词之间的依存关系的强度计算转移概率,其中,转移概率是每个关键词属于与其存在依存关系的关键词的概率;以及第二获取模块,按照转移概率对m个关键词进行迭代,获取m个关键词中存在依存关系的关键词。
[0016]进一步地,第二获取模块包括:假设子模块,用于假设在进行迭代之前第i个关键词属于第i关键词簇,其中,簇是一类关键词的集合,i = l,2...m;计算子模块,用于按照转移概率对第i个关键词进行一次迭代,计算迭代后第i个关键词属于的第k关键词簇,其中,ke {1,2...1-1, i+1...m};判断子模块,用于判断第i簇和第k簇的差异是否小于预设值,其中,预设值是预先设定的关键词簇允许的误差值;迭代子模块,用于如果第i簇和第k簇的差异大于预设值,则继续进行迭代;以及获取子模块,用于如果第i簇和第k簇的差异小于或者等于预设值,则停止迭代,获取第i个关键词属于的关键词簇中的所有关键词。
[0017]进一步地,该装置还包括:命名单元,用于对多个同一类关键词分别进行命名;以及排序单元,用于按照每一类关键词包含的关键词的数量,对命名后的多个同一类关键词进行排序。
[0018]通过本发明,采用包括以下步骤的方法:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及将m个关键词中存在依存关系的关键词划分为同一类关键词,解决了现有网页数据分析方法仅仅依赖于搜索词字面上的重叠程度,导致数据分析结果不能准确解释用户需求的问题,进而达到了通过利用用户需求决定的关键词之间的依存关系对网页数据进行聚类,从而通过聚类结果准确反映用户需求的效果。

【专利附图】

【附图说明】
[0019]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0020]图1是根据本发明的数据分析方法的第一实施例的流程图;
[0021]图2是根据本发明的数据分析方法的第二实施例的流程图;
[0022]图3是根据本发明的数据分析方法的第三实施例的流程图;
[0023]图4是根据本发明的数据分析方法的第四实施例的流程图;
[0024]图5是根据本发明的数据分析方法的第五实施例的流程图;
[0025]图6是根据本发明的数据分析方法的第六实施例的流程图;
[0026]图7是根据本发明的数据分析装置的第一实施例的结构框图;
[0027]图8是根据本发明的数据分析装置的第二实施例的结构框图;
[0028]图9是根据本发明的数据分析装置的第三实施例的结构框图;以及
[0029]图10是根据本发明的数据分析装置的第六实施例的结构框图。

【具体实施方式】
[0030]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0031]图1是根据本发明的网页数据分析方法的第一实施例的流程图。如图1所示,该方法包括如下步骤:
[0032]步骤S102,获取用户在网页上输入的m个关键词。
[0033]用户需求与用户输入的关键词之间应存在多对多的依存关系,即每个用户需求可以通过用户输入的不同的关键词来表示意图,每个关键词也可以表示多个不同的用户需求意图。为了简化问题,该方法定义用户需求与用户输入的关键词之间存在一对多的依存关系。通过对用户在网站中输入的关键词进行聚类的方式可以对用户需求进行识别。
[0034]步骤S104,获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系。
[0035]对于用户的一次网页数据搜索行为,往往搜索的各关键词之间存在关系,这种关系不是各个关键词字面上的相似性,而是关键词体现的用户需求相同。比如,用户在进行网页数据搜索时,搜索的关键词之间可能存在以下依存关系:一个关键词是前个一关键词的归属Gii = f Gv1)),或后一个关键词是所有前面关键词的归属(Iii = f (k^!, ki_2, ki_3,…,kD)等等。
[0036]步骤S106,将m个关键词中存在依存关系的关键词划分为同一类关键词。
[0037]因为具有依存关系的一类关键词对应同一用户需求,因此按照依存关系可以将用户输入的关键词分为几类。通过这种聚类的方式,能够挖掘出深层次的关键词聚合关系,从而准确地表示用户需求。例如能发现“违章”、“电子眼”、“电子jin”和“电子敬察”之间的关系。
[0038]该实施例由于采取了以下步骤:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词;以及将m个关键词中存在依存关系的关键词划分为同一类关键词,使得网页数据分析是基于用户需求决定的关键词之间的依存关系,而不再片面地依赖关键词之间的字面重叠程度。该方法突破了传统query聚合过程基于query本身字面匹配假设的局限性,采用用户行为数据进行数据挖掘,构建出更符合用户需求的数学模型。
[0039]图2是根据本发明的网页数据分析方法的第二实施例的流程图。该实施例可以作为图1所示实施例的一种优选实施方式,如图2所示,该网页数据分析方法包括:
[0040]步骤S201,在网页加载脚本文件代码。
[0041]脚本文件类似于DOS操作系统中的批处理文件,它可以将不同的命令组合起来,并按确定的顺序自动连续地执行。脚本程序相对一般程序开发来说比较接近自然语言,可以不经编译而是解释执行。
[0042]脚本语言种类较多,一般的脚本语言的执行只同具体的解释执行器有关,所以只要系统上有相应语言的解释程序就可以做到跨平台。优选地,在该方法中可使用javascript,通过在网站中添加javascript代码来获取用户在进行网页浏览时的行为数据。
[0043]步骤S202,接收用户在网页的输入行为。
[0044]用户在网站中进行搜索,其输入的数据可以通过javascript代码监测并实现动态读取。
[0045]步骤S204,通过脚本文件代码读取网页的输入行为所携带的m个关键词。
[0046]用户在一次会话中进行的站内搜索行为,能够构成一条站内搜索的序列,表示为
[Keywordl, Keyword2, Keyword3,......]。用唯一键表示每条会话,能够形成如下格式的数据:
[0047]

【权利要求】
1.一种网页数据分析方法,其特征在于,包括: 获取用户在网页上输入的m个关键词; 获取所述m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在所述依存关系;以及 将所述m个关键词中存在依存关系的关键词划分为同一类关键词。
2.根据权利要求1所述的方法,其特征在于,获取用户在网页上输入的m个关键词包括: 在所述网页加载脚本文件代码; 接收所述用户在所述网页的输入行为;以及 通过脚本文件代码读取所述网页的输入行为所携带的m个关键词。
3.根据权利要求1所述的方法,其特征在于,获取所述m个关键词中存在依存关系的关键词包括: 确定假设条件,其中,所述假设条件是假设的所述m个关键词的输入行为中包含的逻辑关系; 根据所述假设条件创建图模型{G,S},其中,所述G代表所述m个关键词的集合,所述S代表所述m个关键词之间的依存关系的集合;以及 通过所述图模型,获取所述m个关键词中存在依存关系的关键词。
4.根据权利要求3所述的方法,其特征在于,通过所述图模型,获取所述m个关键词中存在依存关系的关键词包括: 根据所述m个关键词之间的依存关系的强度计算转移概率,其中,所述转移概率是每个关键词属于与其存在所述依存关系的关键词的概率;以及 按照所述转移概率对所述m个关键词进行迭代,获取所述m个关键词中存在依存关系的关键词。
5.根据权利要求4所述的方法,其特征在于,按照所述转移概率对所述m个关键词进行迭代,获取所述m个关键词中存在依存关系的关键词包括: 假设在进行所述迭代之前第i个关键词属于第i关键词簇,其中,所述簇是一类关键词的集合,所述i = 1,2...m ; 按照所述转移概率对所述第i个关键词进行一次迭代,计算迭代后所述第i个关键词属于的第k关键词簇,其中,所述k e {1,2...1-1, i+1...m}; 判断所述第i簇和所述第k簇的差异是否小于预设值,其中,所述预设值是预先设定的所述关键词簇允许的误差值; 如果所述第i簇和所述第k簇的差异大于所述预设值,则继续进行迭代;以及如果所述第i簇和所述第k簇的差异小于或者等于所述预设值,则停止迭代,获取所述第i个关键词属于的关键词簇中的所有关键词。
6.根据权利要求1所述的方法,其特征在于,将所述m个关键词中存在依存关系的关键词划分为同一类关键词之后,所述方法还包括: 对多个所述同一类关键词分别进行命名;以及 按照每一类关键词包含的所述关键词的数量,对命名后的多个所述同一类关键词进行排序。
7.—种网页数据分析装置,其特征在于,包括: 第一获取单元,用于获取用户在网页上输入的m个关键词; 第二获取单元,用于获取所述m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在所述依存关系;以及 划分单元,用于将所述m个关键词中存在依存关系的关键词划分为同一类关键词。
8.根据权利要求7所述的装置,其特征在于,所述第一获取单元包括: 加载模块,用于在所述网页加载脚本文件代码; 接收模块,用于接收所述用户在所述网页的输入行为;以及 读取模块,用于通过脚本文件代码读取所述网页的输入行为所携带的m个关键词。
9.根据权利要求7所述的装置,其特征在于,所述第二获取单元包括: 第一确定模块,用于确定假设条件,其中,所述假设条件是假设的所述m个关键词的输入行为中包含的逻辑关系; 创建模块,用于根据所述假设条件创建图模型{G,S},其中,所述G代表所述m个关键词的集合,所述S代表所述m个关键词之间的依存关系的集合;以及 第一获取模块,用于通过所述图模型,获取所述m个关键词中存在依存关系的关键词。
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块包括: 计算模块,用于根据所述m个关键词之间的依存关系的强度计算转移概率,其中,所述转移概率是每个关键词属于与其存在所述依存关系的关键词的概率;以及 第二获取模块,按照所述转移概率对所述m个关键词进行迭代,获取所述m个关键词中存在依存关系的关键词。
11.根据权利要求10所述的装置,所述第二获取模块包括: 假设子模块,用于假设在进行所述迭代之前第i个关键词属于第i关键词簇,其中,所述簇是一类关键词的集合,所述i = 1,2...m ; 计算子模块,用于按照所述转移概率对所述第i个关键词进行一次迭代,计算迭代后所述第i个关键词属于的第k关键词簇,其中,所述k e {1,2...1-1, i+1...m}; 判断子模块,用于判断所述第i簇和所述第k簇的差异是否小于预设值,其中,所述预设值是预先设定的所述关键词簇允许的误差值; 迭代子模块,用于如果所述第i簇和所述第k簇的差异大于所述预设值,则继续进行迭代;以及 获取子模块,用于如果所述第i簇和所述第k簇的差异小于或者等于所述预设值,则停止迭代,获取所述第i个关键词属于的关键词簇中的所有关键词。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括: 命名单元,用于对多个所述同一类关键词分别进行命名;以及 排序单元,用于按照每一类关键词包含的所述关键词的数量,对命名后的多个所述同一类关键词进行排序。
【文档编号】G06F17/30GK104199969SQ201410487202
【公开日】2014年12月10日 申请日期:2014年9月22日 优先权日:2014年9月22日
【发明者】何鑫 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1