基于数据集市挖掘的相关词提取方法及系统的制作方法

文档序号:6597172阅读:165来源:国知局
专利名称:基于数据集市挖掘的相关词提取方法及系统的制作方法
技术领域
本发明涉及一种基于数据集市挖掘的相关词提取方法及系统。
背景技术
电子商务发展至今,已经积累了海量的信息,以及大量用户,包括访问者、交易者、信息提供者等。各类用户根据需要,围绕着电子商务平台来进行获取服务和提供服务。信息提供者在电子商务平台上提供各类产品信息时,不仅会给产品赋予一个合适、贴切的产品名称,而且会给产品属性赋予多个相关联的关键词,有利于产品更准确、多角度展现。由此可见,关键词的选择是至关重要的,它不仅能使访问者快速、准确找到自己需要的信息,而且能给产品信息提供者带来更多的客户访问和流量,为他们的产品获得更多的展现机会。用户在电子商务平台上搜索信息,越来越依靠基于关键词的搜索工具去搜索。通常,用户将需要查找信息的关键词输入搜索工具,搜索工具在已有索引数据库中进行搜索并返回搜索结果。搜索工具在返回搜索结果的同时,一般能够提供与输入关键词相关的一个或多个相关词,这些相关词与输入关键词都存在有不同程度的相关匹配。如某搜索用户在搜索框中键入shoe,他还会点击、比较、关注呈现出来的一系列跟shoe有关的相关词从而访问对应的信息,或者在此过程中他感觉键入cloth、hose等关键词也能获得需要的信息,从而进行相应的搜索、访问等系列行为。这就说明在其他相关产品的信息中包含与输入的关键词有相关关系的关键词,从而在两者之间广生了相关的匹配关系。

因此,产品信息提供者为其产品设置关键词以及一批优质的相关词,对产品特性的准确、全面反映有很大帮助。而访问者在进行搜索时,能够获得一批与输入关键词具有相关关系的词,对访问者快速方便、准确地获取所需要的信息也具有重要的意义。目前已经存在一些方法,主要针对关键词,从网站日志的访问/搜索信息中,通过不断优化算法,最后获取匹配的相关词。但这些方法涉及的数据面相对较窄,来源单一,而且很大程度上会受到用户长期习惯的局限,而错失一些相关程度高的相关词。在申请号为200680047190.6的专利中,提出利用种子关键词来提供扩展关键词,使用反向查找技术来确定哪些关键词与广告客户相关联,采用过滤法来去除对广告客户不适当的关键词。但此专利提出的方法主要是根据用户搜索行为将优质匹配的相关词抢先销售给供销商,这种方法数据来源单一,易失去一些相关程度高的关键词。在授权公告号为CN101276361B的专利中,提出接收用户输入的主关键词,触发本地程序或者搜索页面的脚本程序发出提取对应所述主关键词的相关关键词的请求;针对所述主关键词记录所属请求的次数,从对应所述主关键词的相关关键词分组表中获取候选相关关键词分组表。此专利提出了一种方法能够显不与输入关键词有相关关系的相关词,这种方法是基于已经具备了一个相关词库,但是对于这个词库是如何建成的,在上述专利中没有提及。从上述情况看,还没有一种方法能够提供令人满意的相关词。而准确的、全面的相关词对于信息的提供者和访问者来说是至关重要,因此找到一种准确的、全面的提取相关词的方法是很有必要的。

发明内容
针对现有的关键词优化及其应用存在的不足之处,本发明提供一种基于数据集市挖掘的相关词提取方法及系统。本发明结合电子商务平台中访问者的行为以及产品信息关键词的设置,通过对数据集市中关键词库、相关词库的补充和完善,利用关键词搜索信息、关键词行业信息,从多角度统计挖掘出优质的关键词及相关词序列,提高访问质量。本发明提供一种基于数据集市挖掘的相关词提取方法,包括以下步骤:( 1)根据预置规则筛选数据源,将筛选出的数据存入数据集市,所述数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库;(2)基于所述产品词库和所述中间数据库中的产品信息,对同一产品信息的关键词进行两两配对,获得产品关键词及产品相关词序列,对所述产品关键词及产品相关词序列的使用次数进行统计,将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库;(3)基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有包含关系的搜索关键词及包含相关词序列,根据一定规则对所述搜索关键词及包含相关词序列进行相似程度计算以获取相似程度值,将所述搜索关键词及包含相关词序列、所述相似程度值保存到所述包含相关词库;其中,包含关系是指在一对所述搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含;(4)基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有行为相关关系的搜索关键词及行为相关词序列,对所述搜索关键词及行为相关词序列的相关搜索次数进行统计,将所述搜索关键词及行为相关词序列、所述相关搜索次数保存到所述行为相关词库;其中,行为相关关系是指搜索关键词被搜索后,在一定时间内,行为相关词被同一个IP地址的客户端进行了搜索;(5)根据所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列在产品相关词库、包含相关词库、行为相关词库中的存在关系,对所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列进行权重设置;(6)根据预置规则,结合所述产品关键词及产品相关词序列的使用次数、所述搜索关键词及包含相关词序列的相似程度值、所述搜索关键词及行为相关词序列的相关搜索次数,计算所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的相关性提取得分,并将所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,以及各自的相关性提取得分保存到相关词库中;(7)根据预置规则,在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。 进一步地,所述步骤(I)具体为:对所述数据源进行ETL处理,将数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中;对所述数据仓库中的产品信息、搜索信息进行过滤,并保存至所述数据集市,形成搜索词库、产品词库、中间数据库;其中,所述搜索词库存储的关键词的搜索量大于I且长度大于等于3,产品词库存储的关键词的使用次数大于等于10。进一步地,所述步骤(2)还包括:在对同一产品信息的关键词进行两两配对以获得产品关键词及产品相关词序列之前,将产品词库中没有的关键词从中间数据库删除;优先根据所述使用次数进行排序,根据排序结果将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库。进一步地,所述步骤(2)进一步包括:定期对所述产品相关词库进行更新;对于新增加的广品,形成广品关键词及广品相关词序列,并将该广品关键词及广品相关词序列与产品相关词库中已有的产品关键词及产品相关词序列进行比较,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其使用次数加1,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为I ;对于更改产品信息的产品,形成产品关键词及产品相关词序列,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其忽略不计,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为I。进一步地,所述步骤(3)具体为:从搜索词库中,依次选择关键词,与所述搜索词库中的其他关键词进行比对,找到与其有包含关系的关键词,形成搜索关键词及包含相关词序列;依次进行, 直到把搜索词库中所有关键词之间都进行了比对,把具有包含关系的所有搜索关键词及包含相关词序列保存至所述中间数据库;对中间数据库中的搜索关键词及包含相关词序列进行统计过滤,去掉重复的搜索关键词及包含相关词序列;对于每对所述搜索关键词及包含相关词序列,计算其中被包含词的字或字母的个数,以及其中包含词的字或字母的个数,计算出该搜索关键词及包含相关词序列的相似程
度值α,α =会X 100%其中:β I为被包含词的字或字母的个数,β 2为包含词的字或字
母的个数;把每对所述搜索关键词及包含相关词序列,及其相似程度值,保存至所述包含相关词库。进一步地所述步骤(3)进一步包括:定期对所述包含相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,与搜索词库中已有的搜索关键词进行比较,找出搜索词库中没有的关键词,将新的关键词与搜索词库中已有的关键词进行两两配对,分离出的具有包含关系的搜索关键词及包含相关词序列,对该搜索关键词及包含相关词序列进行相似程度计算,把该搜索关键词及包含相关词序列、以及其相似程度值保存到所述包含相关词库中。进一步地,所述步骤(4)具体为:将搜索词库中没有的关键词从中间数据库删除,并剔除同一客户端一定时间周期内搜索量大于30或等于I的搜索关键词;依次选择中间数据库中的搜索关键词,查找在搜索该搜索关键词后,一定时间周期内同一客户端搜索的其他搜索关键词,作为与该搜索关键词具有行为相关关系的相关词,形成搜索关键词及行为相关词序列;依次进行,直至中间数据库中每个搜索关键词都进行了其行为相关词的查找,把生成的所有搜索关键词及行为相关词序列保存在中间数据库;对中间数据库中所有的搜索关键词及行为相关词序列进行统计,计算每对搜索关键词及行为相关词序列的相关搜索次数;按相关搜索次数排序,将每对搜索关键词及行为相关词序列,及其相关搜索次数,保存在行为相关词库中。进一步地,所述步骤(4)进一步包括:定期对所述行为相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,从中分离出的具有行为相关关系的搜索关键词及行为相关词序列,并把该搜索关键词及行为相关词序列与行为相关词库中的所有搜索关键词及行为相关词序列进行比较,如果行为相关词库存在该搜索关键词及行为相关词序列,则将该搜索关键词及行为相关词序列的相关搜索次数加1,如果不存在该搜索关键词及行为相关词序列,则将其加入所述行为相关词库,并将其相关搜索次数置为I。进一步地,所述步骤(5)中的权重的设置具体为:包含相关词库中的搜索关键词及包含相关词序列的权重为YpKY1CB;行为相关词库中的搜索关键词及行为相关词序列的权重为Y 2,0.8〈 Y 2〈1.5;广品相关词库中的广品关键词及广品相关词序列的权重为+ , 0.5< Y 3<1 ;那么,权重设置基本规则为:
权利要求
1.一种基于数据集市挖掘的相关词提取方法,其特征在于,包括以下步骤: 步骤一、根据预置规则筛选数据源,将筛选出的数据存入数据集市,所述数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库; 步骤二、基于所述产品词库和所述中间数据库中的产品信息,对同一产品信息的关键词进行两两配对,获得产品关键词及产品相关词序列,对所述产品关键词及产品相关词序列的使用次数进行统计,将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库; 步骤三、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有包含关系的搜索关键词及包含相关词序列,根据一定规则对所述搜索关键词及包含相关词序列进行相似程度计算以获取相似程度值,将所述搜索关键词及包含相关词序列、所述相似程度值保存到所述包含相关词库;其中,包含关系是指在一对所述搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含; 步骤四、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有行为相关关系的搜索关键词及行为相关词序列,对所述搜索关键词及行为相关词序列的相关搜索次数进行统计,将所述搜索关键词及行为相关词序列、所述相关搜索次数保存到所述行为相关词库;其中,行为相关关系是指搜索关键词被搜索后,在一定时间内,行为相关词被同一个IP地址的客户端进行了搜索; 步骤五、根据所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关 词序列在产品相关词库、包含相关词库、行为相关词库中的存在关系,对所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列进行权重设置; 步骤六、根据预置规则,结合所述产品关键词及产品相关词序列的使用次数、所述搜索关键词及包含相关词序列的相似程度值、所述搜索关键词及行为相关词序列的相关搜索次数,计算所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的相关性提取得分,并将所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,以及各自的相关性提取得分保存到相关词库中; 步骤七、根据预置规则,在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。
2.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤一具体为: 对所述数据源进行ETL处理,将数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中;对所述数据仓库中的产品信息、搜索信息进行过滤,并保存至所述数据集市,形成搜索词库、产品词库、中间数据库;其中,所述搜索词库存储的关键词的搜索量大于I且长度大于等于3,产品词库存储的关键词的使用次数大于等于10。
3.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于:所述步骤二还包括: 在对同一产品信息的关键词进行两两配对以获得产品关键词及产品相关词序列之前,将产品词库中没有的关键词从中间数据库删除;优先根据所述使用次数进行排序,根据排序结果将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库。
4.如权利要求3所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤二进一步包括: 定期对所述产品相关词库进行更新;对于新增加的产品,形成产品关键词及产品相关词序列,并将该产品关键词及产品相关词序列与产品相关词库中已有的产品关键词及产品相关词序列进行比较,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其使用次数加1,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为I ;对于更改产品信息的产品,形成产品关键词及产品相关词序列,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其忽略不计,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为1
5.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤三具体为: 步骤三-1从搜索词库中,依次选择关键词,与所述搜索词库中的其他关键词进行比对,找到与其有包含关系的关键词,形成搜索关键词及包含相关词序列; 步骤三-2依次进行,直到把搜索词库中所有关键词之间都进行了比对,把具有包含关系的所有搜索关键词及包含相关词序列保存至所述中间数据库; 步骤三-3对中间数据库中的搜索关键词及包含相关词序列进行统计过滤,去掉重复的搜索关键词及包含相关词序列; 步骤三-4对于每对所述搜索关键词及包含相关词序列,计算其中被包含词的字或字母的个数,以及其中包含词的字或字母的个数,计算出该搜索关键词及包含相关词序列的相似程度值α, ft CT = ^X 100% P2 其中:β !为被包含词的字或字母的个数,β 2为包含词的字或字母的个数; 步骤三-5把每对所述搜索关键词及包含相关词序列,及其相似程度值,保存至所述包含相关词库。
6.如权利要求5所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤三进一步包括: 定期对所述包含相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,与搜索词库中已有的搜索关键词进行比较,找出搜索词库中没有的关键词,将新的关键词与搜索词库中已有的关键词进行两两配对,分离出的具有包含关系的搜索关键词及包含相关词序列,对该搜索关键词及包含相关词序列进行相似程度计算,把该搜索关键词及包含相关词序列、以及其相似程度值保存到所述包含相关词库中。
7.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤四具体为:步骤四-1将搜索词库中没有的关键词从中间数据库删除,并剔除同一客户端一定时间周期内搜索量大于30或等于I的搜索关键词; 步骤四-2依次选择中间数据库中的搜索关键词,查找在搜索该搜索关键词后,一定时间周期内同一客户端搜索的其他搜索关键词,作为与该搜索关键词具有行为相关关系的相关词,形成搜索关键词及行为相关词序列; 步骤四-3依次进行,直至中间数据库中每个搜索关键词都进行了其行为相关词的查找,把生成的所有搜索关键词及行为相关词序列保存在中间数据库; 步骤四-4对中间数据库中所有的搜索关键词及行为相关词序列进行统计,计算每对搜索关键词及行为相关词序列的相关搜索次数; 步骤四-5按相关搜索次数排序,将每对搜索关键词及行为相关词序列,及其相关搜索次数,保存在行为相关词库中。
8.如权利要求7所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤四进一步包括: 定期对所述行为相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,从中分离出的具有行为相关关系的搜索关键词及行为相关词序列,并把该搜索关键词及行为相关词序列与行为相关词库中的所有搜索关键词及行为相关词序列进行比较,如果行为相关词库存在该搜索关键词及行为相关词序列,则将该搜索关键词及行为相关词序列的相关搜索次数加1,如果不存在该搜索关键词及行为相关词序列,则将其加入所述行为相关词库,并将其相关搜索次数置为I。
9.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤五中的权重的设置具体为: 包含相关词库中的搜索关键词及包含相关词序列的权重为Y1;l< h<3; 行为相关词库中的搜索关键词及行为相关词序列的权重为: ,0.8 < Y 2 < 1.5; 产品相关词库中的产品关键词及产品相关词序列的权重为?^,0.5 < Y 3 < I ; 那么,权重设置基本规则为:
10.如权利要求9所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤六中获取所述相关性提取得分的方法为: 步骤六-1搜索关键词及行为相关词序列在最近I个月内的相关搜索次数的排序函数为II1 (Wi),产品关键词及产品相关词序列在最近3个月内的使用次数的排序函数为n2 (Wi),搜索关键词及包含相关词序列在最近6个月内相似程度的排序函数为Ii3(Wi),其中,Ii1 (Wi),H2(Wi)1H3(Wi)为单列矩阵函数,产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列的权重的小数位的有效长度为Hii(Wi),其中i=l,2,…10 ; 步骤六-2权重为W2,W9的搜索关键词及行为相关词序列的相关性提取得分为
11.如权利要求1所述的基于数据集市挖掘的相关词提取方法及系统,其特征在于,所述步骤七具体为: 步骤七-1在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),根据关键词及相关词序列中的相关词在一定时间段内的搜索量,得出搜索系数si,
12.一种基于数据集市挖掘的相关词提取系统,其特征在于,包括:用于保存根据预置规则筛选出的数据的数据存储模块,以及与所述数据存储模块连接的统计挖掘模块;所述数据存储模块由顺次连接的数据仓库单元、清洗过滤器、数据集市单元组成;所述数据仓库单元用于保存经处理后的数据;所述清洗过滤器用于对从所述数据仓库单元中选择的数据进行清洗、过滤操作,并加载到所述数据集市单元;所述数据集市单元用于保存经所述清洗过滤器处理的数据,作为所述统计挖掘模块的输入数据,包括中间数据库、搜索词库及产品词库;所述数据集市单元还保存经过所述统计挖掘模块处理后的数据,包括产品相关词库、包含相关词库、行为相关词库、相关词库及综合相关词库;所述统计挖掘模块用于对所述数据集市中的产品信息及搜索信息数据进行相关分离,形成产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列,并分别存储至产品相关词库、包含相关词库以及行为相关词库,并对产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行统计挖掘,通过权重处理及综合计算得出提取综合得分,并保存到所述综合相关词库。
13.如权利要求12所述的基于数据集市挖掘的相关词提取系统,其特征在于,还包括用于保存基础数据的数据源模块、ETL处理器,所述数据源模块、所述ETL模块与所述数据存储模块顺次连接;所述数据源模块包括网站日志单元和产品信息单元;所述网站日志单元用于保存网站日志信息,包括客户端访问记录及搜索记录;所述产品信息单元用于保存产品信息;所述ETL处理器用于对所述数据模块的数据进行数据映射、敏感词过滤、数据清洗,并加载到所述数据仓库单元。
14.如权利要求12或13所述的基于数据集市挖掘的相关词提取系统,其特征在于,还包括可视化处理模块,所述可视化处理模块用于对所述综合相关词库中的内容进行展示处理。
15.如权利要求12所述的基于数据集市挖掘的相关词提取系统,其特征在于,所述统计挖掘模块由产品相关分离器、包含相关分离器、行为相关分离器、权重及提取得分处理器、综合提取得分处理器组成;其中,所述产品相关分离器与所述数据集市单元中的产品词库和中间数据库相连,所述包含相关分离器与所述数据集市单元中的搜索词库和中间数据库相连,所述行为相关分离器与所述数据集市单元中的搜索词库和中间数据库相连,所述权重及提取得分处理器与所述数据集市单元中的产品相关词库、包含相关词库、行为相关词库、相关词库相连,所述综合提取得分处理器与所述数据集市单元中的中间数据库、相关词库、综合相关词库相连; 所述产品相关分离器,用于对数据集市中的产品词库以及中间数据库中的信息进行处理,形成产品关键词及产品相关词序列,并统计排序,保存到数据集市的产品相关词库中;所述产品相关分离器由产品相关词序列生成器和产品相关处理器组成;所述产品相关词序列生成器,用于对数据集市中的产品词库以及中间数据库中的产品信息进行处理,形成产品关键词及产品相关词序列,并将其保存到数据集市的中间数据库中;所述产品相关处理器,用于对中间数据库中保存的产品关键词及产品相关词序列进行使用次数的统计,按使用次数排序后,把产品关键词及产品相关词序列、及其使用次数保存到数据集市的产品相关词库中; 所述包含相关分离器,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及包含相关词序列,并进行相似程度计算,保存到数据集市的包含相关词库中;所述包含相关分离器由包含相关词序列生成器和相似程度计算器组成;所述包含相关词序列生成器,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及包含相关词序列,并将其保存到数据集市的中间数据库中;所述相似程度计算器,用于对中间数据库中保存的搜索关键词及包含相关词序列进行相似程度计算,把搜索关键词及包含相关词序列、及其相似程度值保存到数据集市的包含相关词库中; 所述行为相关分离器,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及行为相关词序列,并统计排序,保存到数据集市的行为相关词库中;所述行为相关分离器由行为 相关词序列生成器和行为相关处理器组成;所述行为相关词序列生成器,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及行为相关词序列,并将其保存到数据集市的中间数据库中;所述行为相关处理器,用于对中间数据库中保存的搜索关键词及行为相关词序列进行相关搜索次数的统计,按相关搜索次数进行排序,把搜索关键词及行为相关词序列、及其相关搜索次数保存到数据集市的行为相关词库中; 所述权重及提取得分处理器,用于对数据集市的产品相关词库、包含相关词库以及行为相关词库中的广品关键词及广品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列设置权重,并计算相关性提取得分,按相关性提取得分排序,保存到数据集市的相关词库中; 所述综合提取得分处理器,用于从数据集市的相关词库(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型)中读取每个关键词及相关词序列,以及相应的相关性提取得分,并同时从数据集市的中间数据库中获取关键词及相关词序列中关键词、相关词行业信息及搜索量信息,进行优化计算,得到关键词及相关词提取综合得分,按照提取综合得分排序后,把关键词及相关词序列及提取综合得分保存到综合相关词库中。
全文摘要
本发明提供一种基于数据集市挖掘的相关词提取方法,包括从数据源筛选出符合要求的数据并存入数据集市;基于产品词库、搜索词库和中间数据库,获得产品关键词及产品相关词序列和使用次数、搜索关键词及包含相关词序列和相似程度值、搜索关键词及行为相关词序列和相关搜索次数,并分别存入产品相关词库、包含相关词库及行为相关词库;对产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行权重设置,获取相应的相关性提取得分并存入相关词库;获取关键词及相关词的行业并进行行业相关计算,获得提取综合得分并保存到综合相关词库。本发明从多个角度完善相关词的提取,使提取结果更准确反映用户隐性需求。
文档编号G06Q30/02GK103226618SQ20131018980
公开日2013年7月31日 申请日期2013年5月21日 优先权日2013年5月21日
发明者徐丽萍, 姚瑞波, 王婷, 何昌桃 申请人:焦点科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1