一种基于用户浏览和搜索行为的关键词计算方法及装置的制作方法

文档序号:6400204阅读:305来源:国知局
专利名称:一种基于用户浏览和搜索行为的关键词计算方法及装置的制作方法
技术领域
本发明涉及互联网应用技术领域,尤其涉及一种基于用户浏览和搜索行为的关键词计算方法及装置。
背景技术
定向广告也叫智能广告,即将特定的网络广告发送给特定的人群。通常情况下,定向广告系统是根据用户在互联网上的行为,例如搜索、浏览网页、点击广告等,对用户推送符合当前用户需求的广告。定向广告系统一般采用关键词的方式来描述用户在互联网上的行为,获取用户信息,从而对用户进行分类,向其投放特定的广告。现有技术中,
公开日期为2012年2月22日的中国专利“关键词计算方法及系统”提出了一种关键词计算技术,参见图1,一种关键词计算方法流程示意图,该方法为:接收用户输入的搜索词,采用第一计算策略获取与所述搜索词的相关性满足预设第一相关性要求的关键词作为计算词词源;获取所述用户的推广集合中的已有关键词,并计算所述搜索词与已有关键词的相关性;判断所述搜索词与已有关键词的相关性是否达到预设的触发阈值,若是,则触发个性化计算,若否,则将所述计算词词源作为计算结果计算给所述用户;其中,所述触发个性化计算具体包括:对所述计算词词源进行扩充,采用第二计算策略获取与所述搜索词或所述用户的已有关键词的相关性满足第二相关性要求的关键词作为扩充词添加到所述计算词词源中;将扩充后的计算词词源作为计算结果计算给所述用户。上述现有技术只挖掘了用户在互联网上的一种行为:搜索行为。但是,用户在互联网上的行为还包括浏览行为。用户的浏览行为,即为用户未直接使用搜索引擎输入搜索词,而是采用其他方式浏览网页的行为,例如用户通过输入网址、点击链接、或是使用搜索引擎输入搜索词多次跳转来浏览当前网页。用户的搜索行为,即为用户直接使用搜索引擎输入搜索词的行为。因此,在用户行为数据中主要包含了用户搜索行为数据和用户浏览行为数据。用户搜索行为数据为用户直接使用搜索引擎输入的搜索词的集合,其虽然更有效的表达了用户的意图,但十分稀疏,并且存在着歧义性等缺陷。用户浏览行为数据为用户未直接使用搜索引擎输入搜索词而进行浏览的所有网页的集合,其虽然覆盖了 90%的用户数据,但是包含的特征数目高达几百亿,对用户访问的每个网页抽取正文进行计算,会耗费大量的时间和海量的计算资源,并且访问网页包含的用户兴趣随意性很强,致使关键词计算结果有很大的随机性。

发明内容
为了解决上述现有技术中存在的问题,本发明的目的在于提出一种基于用户浏览和搜索行为的关键词计算方法及装置,能够使得系统在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而能够实现广告的有效推广。为达此目的,本发明采用以下技术方案:
—种基于用户浏览和搜索行为的关键词计算方法,所述方法包括:对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。进一步地,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成;所述用户浏览行为数据中有其他用户搜索词跳转的某一网页的关键词计算过程为:从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于I的整数。进一步地,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成;所述用户浏览行为数据中无其他用户搜索词跳转的某一网页的关键词计算过程为:抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵;从所述url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于I或等于I的整数。进一步地,对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词具体包括:统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息;根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词;其中,所述权重由交叉验证得到。进一步地,所述对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词具体包括:按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。本发明还提供了一种基于用户浏览和搜索行为的关键词计算装置,所述装置包括:第一类用户关键词计算模块,用于对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;第二类用户关键词计算模块,用于对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;第三类用户关键词计算模块,用于对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;融合模块,用于对生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;排序选择模块,用于对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。进一步地,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成;所述第一用户关键词计算模块对所述用户浏览行为数据中有其他用户搜索词跳转的某一网页关键词的计算包括:第一矩阵生成子模块,用于从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;第一关键词提取子模块,从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于I的整数。进一步地,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成;所述第二用户关键词计算模块对所述用户浏览行为数据中无其他用户搜索词跳转的某一网页关键词的计算包括:第二矩阵生成子模块,用于抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵;第二关键词提取子模块,用于从所述url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于I或等于I的整数。进一步地,所述融合模块包括:权值信息统计子模块,用于统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息;加权求和子模块,用于根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词;其中,所述权重由交叉验证得到。
进一步地,所述排序选择模块具体用于:按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。本发明提出的技术方案针对用户浏览行为中有其他用户搜索词跳转的网页数据、无其他用户搜索词跳转的网页数据,及用户搜索行为中直接输入的搜索词三类数据计算得到统一的用户关键词,并将所述统一的用户关键词进行融合排序,选取得到反应用户全方面信息的关键词,能够使得在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而实现广告的有效推广。


图1是本发明背景技术提供的一种关键词计算方法流程示意图;图2是本发明实施例一提供的一种基于用户浏览和搜索行为的关键词计算方法示意图;图3是本发明实施例二提供的一种基于用户浏览和搜索行为的关键词计算装置示意图。
具体实施例方式下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。以下各实施例均是以用户Q为例,详细阐述本发明所提出的一种基于用户浏览和搜索行为的关键词计算方法及系统的技术方案。本发明提出的技术方案同样适用于其他用户。实施例一本实施例中将用户Q的浏览和搜索行为数据分为三类:有其他用户搜索词跳转的网页数据(A类数据),无其他用户搜索词跳转的网页数据(B类数据),用户Q直接使用搜索引擎时输入的搜索词数据(C类数据),其中A类和B类数据属于用户Q浏览行为数据,C类数据属于用户Q搜索行为数据。图2是本发明实施例一提供的一种基于用户浏览和搜索行为的关键词计算方法示意图。参见图2,本实施例对基于用户Q浏览和搜索行为的关键词计算方法作如下详细阐述。对于用户Q的浏览行为Wl关键词计算过程,可分为A类数据关键词计算过程Sll和B类数据关键词计算过程S12。对于用户Q的A类数据关键词计算过程SI I,是根据其他用户是通过输入哪些搜索词后直接访问用户Q的A类数据,来推断用户Q如果采用搜索行为时最可能输入的搜索词,并将其推断出的最可能输入的搜索词作为第一类用户Q关键词。第一类用户Q关键词由用户Q的A类数据中各网页的关键词组合而成。用户Q的A类数据中某一网页的关键词计算过程为:从互联网上海量的其他用户的搜索行为数据中,选择所有能够直接跳转至该网页的搜索词,并运用最大匹配法分词技术对选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;从生成的url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-query矩阵中出现的次数除以url-query矩阵中所有分词出现的次数之和,文本频率为用户Q的A类数据中网页总数目除以包含有该分词的网页总数目,N为大于或等于I的正整数。对于用户Q的B类数据关键词计算过程S12,根据网页数据中的标题、正文和meta信息,生成第二类用户Q关键词。第二类用户Q关键词由用户Q的B类数据中各网页的关键词组合而成。采用网页关键词计算模型计算用户Q的B类数据中某一网页关键词的具体过程为:先抓取用户Q浏览的无其他用户搜索词跳转的该网页内容,然后运用最大匹配法分词技术将该网页内容中的标题,正文和meta信息进行分词,并加起来生成url-word矩阵;从生成的url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-word矩阵中出现的次数除以url-word矩阵中所有分词出现的次数之和,文本频率为用户Q的B类数据中网页总数目除以包含有该分词的网页总数目,M为大于或等于I的正整数。对于上述所有涉及的分词技术,本实施例还可以选用反向最大匹配法、二次扫描法、联想-回溯法等。S13:对于用户Q的搜索行为W2,C类数据的关键词计算过程为:根据用户Q直接使用搜索引擎时输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户Q关键词,以达到补充用户Q使用的搜索词中包含了相应的意图却未直接使用的关键词。其中,协同过滤技术为本领域普通技术人员所熟知的,这里不再赘述。S14:将上述得到的三类用户Q关键词进行合并融合。在步骤S14中,合并融合过程具体为:统计第一类用户关键词、第二类用户关键词、第三类用户关键词中各关键词的权值信息;其中,第一类用户Q关键词中的各关键词对应一个权值信息,所述权值信息可以优选为该关键词在其对应的url-query矩阵中出现的次数;第二类用户Q关键词中的各关键词对应一个权值信息,所述权值信息可以优选为该关键词在其对应的url-word矩阵中出现的次数;第三类用户Q关键词中的各关键词对应一个权值信息,所述权值信息可以优选为该关键词在用户Q的C类数据中出现的次数;根据第一类用户Q关键词、第二类用户Q关键词、第三类用户Q关键词不同数据来源的权重,对三类用户Q关键词中相同关键词的权值信息进行加权求和,将三类用户Q关键词中相同关键词合并,融合得到统一的用户Q关键词,并将统一的用户Q关键词各关键词的权值信息进行归一化处理;其中,权重可由交叉验证得到;其中,交叉验证为:将已经建立的测试数据集分成η (η>3)份,随机取其中η-1份调优得到最优参数,然后使用剩下的一份进行验证,去在测试数据集上性能最佳的参数为最终参数。交叉验证形式可以采用K折交叉验证、Holdout验证、留一验证;本实施例中优选采用K折交叉验证,K优选为10。S15:根据各关键词从属的主题不同,将表达新语义的关键词排序提前,从所述排序后的统一的用户Q关键词中,选取前面部分或全部用户Q关键词作为反应用户Q全方面信息的关键词。进而,根据计算得到的反应用户Q全方面信息的关键词向用户Q推广适合该用户的广告。在步骤S15中,主题由LDA (Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型计算得到。LDA主题模型通过已有的大量数据训练得到主题-文档矩阵和关键词-主题矩阵。所述大量的数据为所有的统一的用户关键词归一化处理后的权值信息。主题-文档矩阵中第i行j列元素表示第i个主题在文档j中的权重,关键词-主题矩阵中第m行η列元素表示第m个关键词在主题η中的权重,1、j、m、n均为大于或等于I的正整数,i与η相等。关键词为所有用户生成的统一的用户关键词中的关键词,文档j由第j个用户生成的统一的用户关键词组合而成。对统一的用户Q关键词排序的过程具体为:将关键词-主题矩阵中与用户Q对应的所有行向量(统一的用户Q关键词在不同主题中的权重),与主题-文档矩阵中与用户Q对应的列向量(不同主题在由统一的用户Q关键词组合而成的文档中的权重)作点积,并将点积得到的权重按照从大到小的顺序对统一的用户Q关键词进行排序。排序在前的关键词,说明该关键词表达新语义的可能性大。本实施例中对于用户Q的A类数据,根据其他用户是通过输入哪些搜索词后直接访问用户Q的A类数据,来推断用户Q如果采用搜索行为时最可能输入的搜索词,并将其推断出的最可能输入的搜索词作为第一类用户Q关键词;对于用户Q的B数据,采用网页关键词计算模型计算得到第二类用户Q关键词;对于用户Q的C类数据,结合协同过滤技术进行关键词推荐,生成第三类用户Q关键词;对三类用户Q关键词进行合并融合排序,最终计算得到反应用户Q全方面信息的关键词。本实施例提出的方案能够使得在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而能够实现广告的有效推广。实施例二本实施例对用户Q行为数据的分类与实施例一相同,这里不再赘述。图3是本发明实施例二提供的一种基于用户浏览和搜索行为的关键词计算装置示意图。参见图3,所述装置包括:第一类用户关键词计算模块21,用于计算生成第一类用户Q关键词;第二类用户关键词计算模块22,用于计算生成第二类用户Q关键词;第三类用户关键词计算模块23,用于计算生成第三类用户Q关键词;融合模块24,用于将生成的第一、二、三类用户Q关键词进行合并融合,生成统一的用户Q关键词;排序选择模块25,用于对统一的用户Q关键词中各关键词进行排序选择,最终得到反应用户Q全方面信息的关键
ο其中,第一类用户关键词计算模块21,具体用于根据其他用户是通过输入哪些搜索词后直接访问用户Q的A类数据,来推断用户Q如果采用搜索行为时最可能输入的搜索词,并将其推断出的最可能输入的搜索词作为第一类用户Q关键词。第一类用户Q关键词由用户Q的A类数据中各网页的关键词组合而成。第一类用户关键词计算模块21对用户Q的A类数据中某一网页关键词的计算包括:第一矩阵生成子模块(未示出),从互联网上海量的其他用户的搜索行为数据中,选择所有能够直接跳转至该网页的搜索词,并运用最大匹配法分词技术对选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;第一关键词提取 子模块(未示出),从生成的url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-query矩阵中出现的次数除以url-query矩阵中所有分词出现的次数之和,文本频率为用户Q的A类数据中网页总数目除以包含有该分词的网页总数目,N为大于或等于I的正整数。第二类用户关键词计算模块22,用于对用户Q的B类数据根据所述网页数据中的标题、正文和meta信息,生成第二类用户Q关键词。第二类用户Q关键词由用户Q的B类数据中各网页的关键词组合而成。第二类用户关键词计算模块22对用户Q的B类数据中某一网页关键词的计算包括:第二矩阵生成子模块(未示出),先抓取用户Q浏览的无其他用户搜索词跳转的该网页内容,然后运用最大匹配法分词技术将该网页内容中的标题,正文和meta信息进行分词,并加起来生成url-word矩阵;第二关键词子模块(未示出),从生成的url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-word矩阵中出现的次数除以url-word矩阵中所有分词出现的次数之和,文本频率为用户Q的B类数据中网页总数目除以包含有该分词的网页总数目,M为大于或等于I的正整数。对于上述所有涉及的分词技术,本实施例还可以选用反向最大匹配法、二次扫描法、联想-回溯法等。第三类用户关键词计算模块23,具体用于根据用户Q直接使用搜索引擎时输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三用户Q关键词,以达到补充用户Q使用的搜索词中包含了相应的意图却未直接使用的关键词。融合模块24进一步包括:权值信息统计子模块,用于统计第一类用户关键词、第二类用户关键词、第三类用户关键词中各关键词的权值信息;加权求和子模块,用于根据第一类用户关键词、第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将三类用户关键词中相同关键词合并,融合得到统一的用户关键词,并将统一的用户Q关键词各关键词的权值信息进行归一化处理;其中,权重可由交叉验证得到;其中,交叉验证为:将已经建立的测试数据集分成η (η>3)份,随机取其中η-1份调优得到最优参数,然后使用剩下的一份进行验证,去在测试数据集上性能最佳的参数为最终参数。交叉验证形式可以采用K折交叉验证、Holdout验证、留一验证;本实施例中优选采用K折交叉验证,K优选为10。第一类用户Q关键词中的各关键词对应的权值信息优选为该关键词在其对应的url-query矩阵中出现的次数。第二类用户Q关键词中的各关键词对应的权值信息优选为该关键词在其对应的urliord矩阵中出现的次数。第三类用户Q关键词中的各关键词对应的权值信息优选为该关键词在用户Q的C类数据中出现的次数。排序选择模块25,具体用于根据统一的用户Q关键词中各关键词从属的主题不同,将表达新语义的关键词排序提前,从所述排序后的统一的用户Q关键词中,选取前面部分或全部用户Q关键词作为反应用户Q全方面信息的关键词。其中,主题由排序选择模块25采用LDA (Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型计算得到。LDA主题模型通过已有的大量数据训练得到主题-文档矩阵和关键词-主题矩阵。所述大量的数据为所有的统一的用户关键词归一化处理后的权值信息。主题-文档矩阵中第i行j列元素表示第i个主题在文档j中的权重,关键词-主题矩阵中第m行η列元素表示第m个关键词在主题η中的权重,1、j、m、η均为大于或等于I的正整数,i与η相等。关键词为所有用户生成的统一的用户关键词中的关键词,文档j由第j个用户生成的统一的用户关键词组合而成。排序选择模块25对统一的用户Q关键词排序具体包括:将关键词-主题矩阵中与用户Q对应的所有行向量(统一的用户Q关键词在不同主题中的权重),与主题-文档矩阵中与用户Q对应的列向量(不同主题在由统一的用户Q关键词组合而成的文档中的权重)作点积,并将点积得到的值按照从大到小的顺序对统一的用户Q关键词进行排序。排序在前的关键词,说明该关键词表达新语义的可能性大。本实施例将第一类用户关键词计算模块21计算的第一类用户Q关键词、第二类用户关键词计算模块22计算的第二类用户Q关键词、第三类用户关键词计算模块23生成的第三类用户Q关键词,通过融合模块24进行合并融合,经排序选择模块25排序计算,最终选取得到反应用户Q全方面信息的关键词。本实施例提出的方案能够使得系统在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而能够实现广告的有效推广。以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述方法包括: 对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词; 对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词; 对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词; 对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词; 对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
2.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成; 所述用户浏览行为数据中有其他用户搜索词跳转的某一网页的关键词计算过程为:从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵; 从所述url-query 矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于I的整数。
3.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成; 所述用户浏览行为数据中无其他用户搜索词跳转的某一网页的关键词计算过程为: 抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵; 从所述urliord矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于I或等于I的整数。
4.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词具体包括: 统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息; 根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词; 其中,所述权重由交叉验证得到。
5.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词具体包括: 按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。
6.一种基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述系统包括: 第一类用户关键词计算模块,用于对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词; 第二类用户关键词计算模块,用于对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词; 第三类用户关键词计算模块,用于对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词; 融合模块,用于对生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词; 排序选择模块,用于对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
7.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成; 所述第一用户关键词计算模块对所述用户浏览行为数据中有其他用户搜索词跳转的某一网页关键词的计算包括: 第一矩阵生成子模块,用于从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵; 第一关键词提取子模块,从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于I的整数。
8.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成; 所述第二用户关键词计算模块对所述用户浏览行为数据中无其他用户搜索词跳转的某一网页关键词的计算包括: 第二矩阵生成子模块,用于抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵; 第二关键词提取子模块,用于从所述urliord矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于I或等于I的整数。
9.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述融合模块包括: 权值信息统计子模块,用于统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息; 加权求和子模块,用于根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词; 其中,所述权重由交叉验证得到。
10.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述排序选择模块具体用于:按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全 方面信息的关键词。
全文摘要
本发明公开了一种基于用户浏览和搜索行为的关键词计算方法及装置,该方法包括对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据其他用户搜索词生成第一类用户关键词;对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐生成第三类用户关键词;对三类用户关键词进行合并融合,得到统一的用户关键词;对统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。本发明提出的技术方案能够使得系统计算用户关键词代价较小,覆盖用户行为全面。
文档编号G06Q30/02GK103164521SQ20131007700
公开日2013年6月19日 申请日期2013年3月11日 优先权日2013年3月11日
发明者张一凡, 罗峰, 黄苏支, 李娜 申请人:亿赞普(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1