以商品为媒介的增强型相关搜索系统及其方法

文档序号:6615556阅读:104来源:国知局
专利名称:以商品为媒介的增强型相关搜索系统及其方法
技术领域
本发明涉及信息检索领域,尤其是涉及到一种电子商务网站以商品为媒介的相关搜索改 进技术。
背景技术
相关搜索是对用户的搜索关键词,给出有某种相关性的其他关键词的技术,在一定程度 上可以起到修正用户的输入关键词,引导用户搜索相关度最大的关键词的作用。
当前,通用搜索网站的实现,例如百度、Google等搜索结果页面会显示出相关搜索的 结果。相关搜索结果中的关键词是和用户搜索的关键词比较相近而且搜索量比较大的。其实现结果可能出现三种情况①基本的实现法把大量用户进行搜索的输入词进行分词和索引, 然后当每一次进行搜索的时候,对这个"搜索的关键词索引"进行搜索,就得到了相关搜索; ②相关性的实现法把部分词进行近义词的相关度运算,得到权重数据;③广告推广效应法, 人为为某些关键词给出特定的相关搜索词。例如,某个电子商务网站为了推广某个品牌的商 品,在用户搜索关键词"数码相机"时给出"松下/索尼/奥林巴斯/富士/佳能"等相关搜 索词。
以上方法应用于电子商务网站的不足对于②所描述的方法一般要通过近义词表等基础 词表。相关搜索结果很大程度上取绝于词表的质量,并且推荐的词要和商品相关,这又增加 了人为的选词工作。再者电子商务网站商品更新速度快,词表的更新也是一个繁琐的问题。 对于③所描述的方法更多的是人工筛选工作,随着要推荐的词增多,工作量越大。
目前对于以商品为向导的近义相关词研究甚少,例如搜索一个作者,如果可以给出他 们的作品相关词,用户会更感兴趣;反之搜索一本书,给出作者提示,或者该作者著的其他 相关书;用户搜索某类物品,给出该类物品经典品牌的推荐等等。而这种以商品为向导近义 词的相关性搜索对于电子商务网站的经营日趋重要。

发明内容
本发明针对上述迫切需求,提出了一种与商品相关的增强型搜索实施方案,整个相关搜 索系统由四个模块组成如图l所示
1. 数据更新模块Dataupdater,读取数据库中的相关数据,以文件形式保存;
2. 索引模块Indexer,对更新的数据建立索引,以文件形式保存;
3. 搜索服务模块Search service,实时处理用户査询请求;
4. 控制器模块Controller,每隔一定更新周期调度以上三个模块的执行,以便于更新数据 整个系统流程如图1所示,Search service模块为一个搜索服务进程,每当系统重新启动 时它会自动运行,实时处理用户的査询请求,并将结果返回给前台。Controller模块为总调 度器,每隔一定时间调度Data叩dater模块,从数据库读取数据进行预处理,然后启动Indexer 模块,使用更新的数据建立索引,再将Search Service模块重新启动载入新的索引文件,启动 服务。这就是整个更新过程。
整个系统中发明部分存在于Indexer模块和Search service模块,即相关词索引的建立与 査询,下文主要阐述一下它们的技术实现。
一般说来,相关搜索是运用下述规律实现的。
相关词一般可以分为两种
字面相关两个关键词文字间有相同的部分,如"商务英语"<-->"外贸英语"。字面相 关可以通过计算文字重叠程度来考察。具体操作可以参照上文提到的相关词的"基本实现" 法来实施。
意义相关意义相关指两个关键词有某种词义上的相关性,不要求文字间的重复出现,
可以是相近,相反,从属,包含等关系,例如"姚明"< —> "我的世界我的梦",这两个 词是作者与作品的关系。
而对于意义相关的相关词在电子商务网站商品搜索中具有重要的意义。这里提出一种基 于日志中用户搜索反馈信息的方法,来优化意义型相关搜索,以达到更好的推荐商品的作用。 下面介绍本发明的基于日志用户反馈信息法。
首先,用户反馈信息的获取
搜索日志是记录用户搜索行为的源头,通过提取用户的搜索词,和在该搜索词下点击的 商品来分析关键词间的相关性。
具体来说用户搜索一个商品分为两个步骤①输入某个关键词,得到某些搜索结果; ②选择某个搜索结果。步骤①只说明该关键词能够搜索某个商品,而该关键词和商品的重要 性有待于进一步验证。②则说明了某个关键词能够代表某个商品,与该商品联系很紧密,这 样就找到了一个该商品的特征属性。
同样用户搜索了另外一个关键词,也点击了该商品,则此商品和该关键词也具有紧密的 关系。这样就找到了该商品的另一个特征属性。
以此类推可以找到该商品的另外一些特征属性。
这些特征属性与商品之间存在着很紧密的联系,通过文档篇章分析很难确切的获得这些 紧密的关系。当然用户选择也具有一定的随机性,会出现一些噪声,需要进行一些去噪处理。 通过用户的选择来确定每个元素的特征向量,该方法加入了人的反馈因素,能够大大减少机
器处理单一性、公式化的缺点。 其次,处理反馈信息
最终目的需要找到关键词和关键词的相关性,从用户反馈信息可以直接得到关键词和商 品的关系,可以这种关系为中间媒介,来获得最终需要的关系。 a.关键词到商品的关系 具体操作方式在数据库中记录这样的一个表。该表包含三个字段用下表所示。
用户搜索词
该词下用户点击的商品ID
发生次数
用户在网站中搜索时首先填入关键词,然后如果在搜索有结果的情况下又点击了某个结 果中的商品,便记录下关键词和商品ID,并使发生次数加一。通过对发生次数大于某个阀值 的记录进行统计,便能建立起关键词和商品之间的简明扼要的关系。 b.关键词到关键词的关系
这一步由关键词和商品的关系计算出关键词和关键词间的关系,对于每个关键字找出其 对应的商品ID,这些ID就作为某个关键词的属性来使用,而发生次数作为某个属性的权重 来处理。这样每个关键词就对应于一个向量,该向量每个元素是商品ID及其权重。于是两个 关键词的相关度计算就转换为向量间相似度的计算了,向量相似度计算时可以利用向量空间 法模型,以及经典的TF-IDF公式等,几种方法可以结合使用。
下文将获得这种意义相关词的过程用图2加以说明-
用户搜索关键词KEY1得到了产品Product(l 6)但只有产品Product(l 4)被点击,那么有 理由认为产品Product(l 4)更能说明关键词KEY1的意图,于是把它们作为关键词KEY1的 特征向量,搜索关键词KEY2得到了产品Product(2 7)但只有产品Product(2 5)被点击,同样 道理把产品Product(2 5)作为关键词KEY2的特征向量。然后通过这两个向量就可以计算两个 关键词之间的相似度,由于过滤掉了不少体现不了关键词意图的商品,比直接利用关键词 KEY1、 KEY2的搜索结果向量计算相似度要准确不少。计算相似度方法众多,例如最简单 的方法按照共有商品次数计算,或者向量余弦法等等。
字面型相关搜索参照上文说得"基本实现",意义型相关搜索主要实施方案利用数据库 中的用户搜索词和点击商品记录,统计出每一个关键词对应的商品ID向量,然后把关键词的 向量表示进行相似度计算,以便得到关键词和关键词的相似度,最后把意义相关词写入文件。 査询时即通过这个索引文件获取一个关键词的相似提示结果,把结果包装返回给前台。
本系统实现的方法包括建立索引流程与查询流程。
这里有一个分支,其中c g是产生意义相关索引的分支,而h,i是产生普通索引的分支。
a.首先程序初始化,对程序运行环境进行设置、载入分词词库等操作。 b.连接数据库,读取用户反馈信息,其结构为关键词一商品ID —搜索次数。 C.建立关键词到商品ID向量的哈希映射,哈希表的每一个节点为这样一个对键为关 键词,值为商品向量,该向量每一个元素由商品ID号和搜索次数构成。这个表是用来计算关
键词相似度的基本表,不妨称这个表为K一P表,K表示关键词,P表示商品向量。
d. 建立商品到关键词向量的哈希映射,这正是上面映射的相反映射。其中哈希表的键为
商品ID,值为关键词向量,该向量每一个元素由关键词和搜索次数构成。称这个表为P—K 表。
e. 计算关键词间的相似度。根据上面两个映射,计算相似度。伪代码如下
for每一个关键词Ki
for Ki对应的每一个商品Pj
for Pj对应的每一个关键词Km
按上文的TF-IDF公式计算Ki和Km的相似度
f. 对每个关键词对应的相似词按照相似度由大到小排序。
g. 生成意义相关索引结构。
h. 对每一个关键词分词建立索引。
i. 生成字面相关的索引。
j.两部分索引合并,写入文件,备査询时使用。 其中搜索流程如图4所示
k.对用户査询串进行预处理、分词。 1.搜索意义相关索引,査找相应结果。 m.搜索字面相关索引,査找相应结果。
n.对两部分索引按照相关程度排序、并按一定比例分配、合并。 o.包装搜索结果数据,向前台返回。
本发明改善了意义型相关搜索的提示词质量,克服了使用词表方式的复杂度及缺点,使 推荐相关词紧跟商品销售趋势,并且无需使用人工筛选工作,使商品搜索达到很好的适应性 的目的,从而给用户提供了更多更好的服务,吸引用户多购买商品,增加了销售量。


图1是本发明的系统总框架图
图2是本发明的关键词相似度计算图
图3是本发明的建立索引流程图
图4是本发明的搜索流程图
具体实施例方式
例l:关键词"行者无疆"搜索 1.建立索引过程 普通索引
步骤h,i :生成字面相关索引对关键词分词分成行者/无疆,然后处理包含这两个分词 的关键词。生成字面相关词'天行者','一个瑜伽行者的自传','乐行者,等。 特殊索引
歩骤b: 连接数据库,读取用户反馈信息
用户关键词该词下用户点击的商品ID发生次数
行者无疆8955037566
行者无疆8925132429
行者无疆9021779132
行者无疆68112473
行者无疆4739573
行者无疆44147762
行者无疆919051734
行者无疆878445031
行者无疆918917221
行者无疆42377421
文化苦旅473952779
文化苦旅8925129389
文化苦旅472421176
文化苦旅憎051780
文化苦旅895503775
文化苦旅2550561
文化苦旅10405357
千年一叹6972571297
千年一叹8925124291千年一叹 707683 168
千年一叹 47395 158
千年一叹 8955037 82
千年一叹 157499 52
千年一叹 9190517 48
余秋雨 472421 1640
余秋雨 47395 1497
余秋雨 8914530 1326
余秋雨 9260490 1158
余秋雨 9190517 1154
余秋雨 9203卯0 1087
余秋雨 697257 1048
步骤C,d:建立关键词到商品的映射,和商品到关键词的映射 部分映射关系-
关键词到商品ID:行者无疆一> 8955037, 8925132, 681124, 47395, 441477......
商品ID到关键词9190517 —>文化苦旅,千年一叹,余秋雨,山居笔记……
步骤e:计算关键词间的相似度可以利用经典的向量空间法模型,TF-IDF公式,或者其 他向量相似度计算方法。
这里简单描述一下向量空间法对于向量空间法模型,0a,!^6,表示用户搜索的两个关 键词对应的商品ID向量表示。^^表示这个词在该商品坐标轴下的权重信息。
<formula>formula see original document page 9</formula>有了以上两个向量便可以对两个关键词进行相似度进行计算了,可以采用向量夹角的余 弦值作为相似度。
<formula>formula see original document page 9</formula>
<formula>formula see original document page 10</formula>其中表示用户搜索关键词a,然后点击第i篇文档的次数,lGg t中N表示总共的
商品数,", 表示所有搜索关键词a的用户,点击的商品种类之和。
步骤h:按照上面公式计算出相似度、排序。 相关词 文化苦旅 千年一叹
余秋雨 山居笔记
cos值 0.359743 0.355202 0.282859 0.232771
关联商品ID 8955037, 47395,9190517 47395, 8955037,9190517 47395,9190517 47395,9190517
相关次数 3 3 2 2
步骤i,g:将普通索引和特殊索引合并就得到了以下索引结构
行者无疆---》天行者, 一个瑜伽行者的自传,乐行者,文化苦旅,千年一叹,余秋雨。
2.搜索流程
a. 对用户査询词进行分词分成行者/无疆.
b. 在意义相关索引中査找对应的相关词得到文化苦旅,千年一叹,余秋雨等结果。
c. 在字面相关索引中査找'行者'和'无疆'对应的相关词得到'天行者','一个瑜 伽行者的自传','乐行者'等结果。
d. 结果合并排序:得到天行者, 一个瑜伽行者的自传,乐行者,文化苦旅,千年一叹, 余秋雨。
e. 然后将提示出的相关词包装成XML通过网络发送到前台页面。 例2: 关键词"香水"搜索
1.建立索引过程
步骤h,i :生成字面相关索引对关键词分词只有一个词香水,然后处理包含这个分词的 关键词。生成字面相关词男士香水,香水有毒,女士香水,黑色香水……等。 特殊索引
步骤b: 连接数据库,读取用户反馈信息
用户关键词 该词下用户点击的商品ID 发生次数
香水 卯86338 3099 香水 9236262 796
香水 7401319 618
香水 9237303 476
香水 9237226 437
香水 9236269 433
香水 681921 333
香水 9237192 309
香水 9039045 305
安娜苏 9237192 62
安娜苏 9237226 44
安娜苏 9237192 38
安娜苏 9237195 36
安娜苏 卯39045 33
安娜苏 9051690 22
安娜苏 7401319 20
安娜苏 681921 19
安娜苏 9273359 14
安娜苏 9273357 14
范思哲 9237303 54
范思哲 9237301 50
范思哲 9236269 47
范思哲 9237226 32
范思哲 9039045 18
范思哲 9265410 13
Burberry巴宝莉 9237216 70
Burberry巴宝莉 9237192 70
Burberry巴宝莉 9237217 69
Burberry巴宝莉 9237226 65
Burberry巴宝莉 Burberry巴宝莉 Burberry巴宝莉 Burberry巴宝莉 Burberry巴宝莉
9237192
681921
9237214
9236283
9236282
64 63 60 44 41
步骤C,d:建立关键词到商品的映射,和商品到关键词的映射 部分映射关系-
关键词到商品ID:香水—> 9237192, 9237226, 9237303, 9039045, 681921......
商品ID到关键词9237226—>安娜苏,范思哲,Burberry巴宝莉……
步骤e:同示例1
步骤h:计算出相似度、排序。 相关词 cos值 相关次数 关联商品ID
安娜苏 0.222766 5 9237192,9237226,681921,903卯45,7401319
范思哲 0.217756 3 9237303,9039045,9237226
Burberry巴宝莉0.1751213 9237226,9237192,681921 步骤i,g:将普通索引和特殊索引合并就得到了以下索引结构
香水---》男士香水,香水有毒,女士香水,黑色香水,安娜苏,范思哲,Burberry巴
宝莉
2.搜索流程
a. 对用户关键词'香水'进行分词分成香水
b. 在意义相关索引中查找对应的相关词得到安娜苏,范思哲,Burberry巴宝莉,等结果。
c. 在字面相关索引中査找'香水'对应的相关词得到男士香水,香水有毒,女士香水等
d. 结果合并排序:得到男士香水,香水有毒,女士香水,黑色香水,安娜苏,范思哲, Burberry巴宝莉。
e. 然后将提示出的相关词包装成XML通过网络发送到前台页面。
权利要求
1.一种以商品为媒介的增强型相关搜索系统,由四个模块组成数据更新Dataupdater模块、索引Indexer模块、搜索服务Search service模块、控制器Controller模块,其中搜索服务Search service模块为一个搜索服务进程,每当系统重新启动时它会自动运行,实时处理用户的查询请求,并将结果返回给前台;控制器Controller模块为总调度器,每隔一定时间调度数据更新Data updater模块,从数据库读取数据进行预处理,然后启动索引Indexer模块,使用更新的数据建立索引,再将搜索服务Search Service模块重新启动载入新的索引文件,启动服务。
2. 如权利要求l所述的一种以商品为媒介的增强型相关搜索系统,其特征在于在Search service模块采用基于日志中用户搜索反馈信息的方法(1) 首先,从搜索日志中提取用户的搜索词和在该搜索词下点击的商品来分析关键词间的 相关性,从而获取用户"关键词一商品"之间的反馈信息;(2) 然后,对每个关键字找出其对应的商品ID,而发生次数作为某个商品ID的权重来处 理,于是形成了关键词到商品向量的映射关系,通过计算商品向量间相似度,就得出了关键 词之间的相似关系。
3. 如权利要求2所述的一种以商品为媒介的增强型相关搜索系统,其特征在于通过用户 的选择来确定每个元素的特征向量,并进行一些去噪处理。
4. 如权利要求3所述的一种以商品为媒介的增强型相关搜索系统,其特征在于向量相似 度计算可以利用向量空间模型、TF-IDF公式或者其他相似公式的一种或几种方法结合。
5. —种以商品为媒介的增强型相关搜索方法,包括建立索引流程与査询流程, 其中建立索引流程步骤包括a. 首先程序初始化,对程序运行环境进行设置、载入分词词库等操作;b. 连接数据库,读取用户反馈信息,其结构为关键词一商品ID —搜索次数;c. 建立关键词到商品ID向量的哈希映射,键为关键词,值为商品向量,该向量每一个 元素由商品ID号和搜索次数构成;d. 建立商品到关键词向量的哈希映射,键为商品ID,值为关键词向量,这是上面映射的 相反映射;e. 根据上面两个映射计算关键词间的相似度;f. 对每个关键词对应的相似词按照相似度由大到小排序;g. 生成意义相关索引结构;h. 对每一个关键词分词建立索引;i.生成字面相关的索引;j.两部分索引合并,写入文件,备査询时使用; 其中搜索流程步骤包括 k.对用户査询串进行预处理、分词; 1.搜索意义相关索引,查找相应结果; m.搜索字面相关索引,查找相应结果;n.对两部分索引按照相关程度排序、并按一定比例分配、合并; 0.包装搜索结果数据,向前台返回;这里有一个分支,其中C g是产生意义相关索引的分支,而h, i是产生普通索引的分支。
6. 如权利要求5所述的一种以商品为媒介的增强型相关搜索方法,其特征在于向量相似 度计算可以利用向量空间法模型、TF-IDF公式、共有商品次数或者其它相似公式计算的一种 或几种方法结合。
7. 如权利要求5所述的一种以商品为媒介的增强型相关搜索方法,其特征在于通过用户 的选择来确定每个元素的特征向量,并进行一些去噪处理。
全文摘要
本发明公开了一种以商品为媒介的增强型相关搜索系统,该系统由四个模块组成Data updater模块、Indexer模块、Search service模块、Controller模块组成,通过提取搜索词与该搜索词下的商品之间关系,利用向量模型算出搜索词间的相似度,得到商品之间的内在联系;本发明还公开了其方法,利用搜索词与商品之间的映射关系,建立意义相关索引和字面相关索引。从而达到了改善意义型相关搜索提示词质量,使推荐相关词紧跟商品销售趋势。
文档编号G06F17/30GK101206674SQ20071030171
公开日2008年6月25日 申请日期2007年12月25日 优先权日2007年12月25日
发明者刚 刘, 刘建国, 庄洪波, 研 张, 王洪涛 申请人:北京科文书业信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1