一种基于用户评论的产品检索方法及产品检索系统的制作方法

文档序号:6540040阅读:153来源:国知局
一种基于用户评论的产品检索方法及产品检索系统的制作方法
【专利摘要】本发明公布了一种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,通过结合产品数据,检索出最为相关的产品列表,返回给用户,包括如下步骤:通过分析产品数据得到索引数据库、情感特征数据库和评论权重数据库;对用户提交查询串进行预处理和词项拓展得到查询词项集;检索产品并获得其最终评分值;按产品最终评分值进行高低排序后取截断获得产品列表。该方法利用用户的产品评论信息,可优化检索效果;同时分析评论文本中的可借鉴程度,保证引入信息的有效性;此外,还可拓展产品检索的使用范围与用户查询的类型;适用于电商网站的产品检索、礼品推荐等应用。
【专利说明】—种基于用户评论的产品检索方法及产品检索系统
【技术领域】
[0001]本发明涉及信息检索领域,尤其涉及一种基于用户评论的产品检索方法及产品检索系统。
【背景技术】
[0002]用户对产品进行检索,是根据用户提供的信息需求,从产品库中检索出最为相关的产品列表,返回给用户。现有技术主要采用基于分面的检索方法和基于关键词的检索方法。
[0003]其中,基于分面的检索方法,将产品的各个结构化信息作为分面,分为数个类别。对用户的查询进行分词,然后判断查询对应的产品类别,以过滤的形式进行检索。比如,对于查询“2000左右的黑色手机”,系统将判别出需求对象为“手机”,“价格”的范围为[1500, 2500],“颜色”为“黑”,从而从产品库中筛选出相应的产品。同时,系统可以从符合条件的产品中按分面进行进一步分类,比如,向用户展示“品牌”,“尺寸”等更多的选项,从而进一步过滤。这种方法并没有考虑到其它用户购买产品后的反馈。比如,用户的查询为“外观漂亮的手机”,分面检索的系统将无法识别。这是因为分面检索的系统依赖于各个结构化信息的分类,而包括“漂亮”这样关键词的产品评论信息不能被直接分类。因此,这种分面检索的方法无法应对更为实际的用户查询。
[0004]基于关键词的检索方法将产品的信息按域进行分词索引,再对各个域分配不同的权重。对于用户的查询同样进行分词,然后利用现有的检索模型进行分域打分。将打分较高的产品作为结果优先返回给用户。例如,现有方法就针对不同的信息域构造一个混合的语言模型进行打分(Huizhong Duan, ChengXiang Zhai, Jinxing Cheng, AbhishekGattan1.Supporting Keyword Search in Product Database: A ProbabilisticApproach, VLDB2013)。这种方法也有不足,一方面用户的评论文本并不适合直接作为关键词检索的对象,因为评论文本的质量与可信度是不同的,需要区分对待;另一方面,对于产品描述的关键词信息,不一定来源于某个产品本身,一些全局的等价类信息在现有的检索框架下会被遗漏。

【发明内容】

[0005]为解决现有技术中的问题,本发明提供一种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,结合产品的评论信息,从产品库中挖掘出最为相关的产品列表,返回给用户,该方法可应用于实际中,适用于电商网站的产品检索、礼品推荐等应用中。
[0006]本发明的技术方案是:
[0007]—种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,通过结合产品数据,检索出最为相关的产品列表,返回给用户,包括如下步骤:
[0008]第一步:通过对产品数据进行数据处理和准备,具体为:对产品数据进行结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库;
[0009]第二步:用户提交查询串,对查询串进行查询串预处理;
[0010]第三步:通过情感特征数据库中的等价类信息,对上述预处理后的查询串进行词项拓展,得到查询词项集;
[0011]第四步:通过对评论权重数据库中的的评分进行综合,利用查询词项集中的查询词项在索引数据库中进行产品检索,对检索到的每一个产品,通过分别获得产品特征数据的评分值和产品评论数据的评分值,获得每一个产品的最终评分值;
[0012]第五步:将检索到的所有产品,按照每一个产品的最终评分值进行高低排序后取截断,获得产品列表,返回给用户。
[0013]上述基于用户评论的产品检索方法中,第一步中,产品数据包括产品特征数据和产品评论数据;结构化分析具体为将电商网站的产品页面中的产品特征数据转换成结构化数据后,将产品特征以〈属性名称,属性值〉的形式表示;倒排索引创建具体为将所述结构化分析得到的产品数据按产品属性值进行划分,并以倒排索引的形式分域存储为索引数据库;情感特征抽取具体为通过从产品评论数据中抽取,得到带有情感评价的情感特征词组,特征等价类构造具体为通过所述情感特征词组来构建特征等价类,形成情感特征数据库;评论质量分析具体为通过所述情感特征数据库与产品评论数据进行评论质量的分析,从而构造评论权重数据库。
[0014]第二步中的查询串预处理包括词项切分和词性标注操作。
[0015]在第四步中,产品特征数据的评分值是通过现有的关键词检索方法获得;产品评论数据的评分值,是首先通过现有的关键词检索方法获得评分值,然后将所述评分值与评论权重数据库中的信息进行加权而获得;每一个产品的最终评分值是通过将上述各类评分进行加和而获得。其中,产品评论数据的评分值的权重可以通过电商搜索日志加以训练而获得。
[0016]为实际应用,本发明提供一种基于用户评论的产品检索系统,该系统以索引数据库、情感特征数据库和评论权重数据库为支撑,包括用户查询操作模块、查询预处理模块、检索模块和结果输出模块。其中,用户查询操作模块用于用户输入查询串并进行提交;所述查询预处理模块用于将用户提交的查询串进行预处理;所述检索模块用于将查询串通过情感特征数据库中的等价类信息进行词项拓展获得查询词项,查询词项再通过对评论权重数据库中的的评分进行综合,在索引数据库中进行产品检索,对检索到的产品通过计算其产品特征数据的评分值和产品评论数据的评分值获得最终评分值;所述结果输出模块用于将检索到的产品按其最终评分值进行高低排序后取截断,获得产品列表的结果,返回给用户。
[0017]本发明的有益效果:本发明提供一种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,结合产品的评论信息,从产品库中挖掘出最为相关的产品列表,返回给用户。该方法利用用户的产品评论信息,可优化检索效果;同时分析评论文本中的可借鉴程度,保证引入信息的有效性;此外,还可拓展产品检索的使用范围与用户查询的类型。为了应用于实际中,本发明提供一种基于用户评论的产品检索系统,适用于电商网站的产品检索、礼品推荐等应用。
【专利附图】

【附图说明】[0018]图1为本发明产品检索过程的流程示意图。
[0019]图2为本发明产品检索系统包括的数据库、模块及流程示意图。
【具体实施方式】
[0020]下面结合附图和具体实施例,对本发明进一步详细描述,但不以任何方式限制本发明的范围。
[0021]本发明提供的产品检索方法,是基于电子商务网站上的产品数据而进行。产品数据包括产品特征数据和产品评论数据。产品特征数据指的是标识产品型号、品牌、样式、参数等专特征信息的结构化数据;产品评论数据指针对特定产品的用户评论文本、评价星级等数据。本实施例对产品数据进行数据处理和准备,数据处理和准备主要包括对产品特征数据和产品评论数据的结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库,在此基础上通过用户提交查询串对产品进行检索。
[0022]对用户进行产品检索产生的用户查询日志进行分析,可以看出,有一些用户存在类似于“送给老人的手机”这样的查询需求。利用现有检索方法,将很难得到满意的结果。这是因为,产品的适用人群,往往未必在产品的特征数据中体现。假如有用户在评论中提及:“这款手机适合老人用”,就可以将该产品与“老人”这个概念相联系。同样地,由于用户的评论用语变化较为多样,其中的关键词能够提供更多信息。比如,关键词“外观”、“颜色”、“做工”表达的是相近的概念,但却因为不是近义词而无法在检索过程中得以联系,通过对用户评论的分析,进行话题模型的构建,就有可能得到概念的等价类划分,从而在应对“买一款外观好看的手机”这样的查询串时也能返回出被用户评价为“做工精美”、“颜色不错”的产品O
[0023]如错误!未找到引用源。,本发明提供的基于用户评论的产品检索方法包括如下步骤:
[0024]第一步:通过对产品数据进行数据处理和准备,具体为:对产品数据进行结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库;
[0025]第二步:用户提交查询串,对查询串进行包括词项切分和词性标注操作的查询串预处理;
[0026]第三步:通过情感特征数据库中的等价类信息,对上述预处理后的查询串进行词项拓展,得到查询词项集;
[0027]第四步:通过对评论权重数据库中的的评分进行综合,利用查询词项集中的查询词项在索引数据库中进行产品检索,得到产品集;将上述检索到的产品集中的每一个产品,分别获得产品特征数据的评分值和产品评论数据的评分值;其中,产品特征数据的评分值,通过现有的关键词检索方法获得;产品评论数据的评分值,是首先通过现有的关键词检索方法获得评分值,然后将该评分值与评论权重数据库中的信息进行加权;通过将上述各类评分进行加和,获得每一个产品的最终评分值;上述各类评分的权重可以利用电商搜索日志加以训练。
[0028]第五步:将产品集中的所有的产品按照每一个产品的最终评分值进行高低排序后取截断,获得产品列表,返回给用户。
[0029]例如,用户提交的的查询串为“给女朋友买的外形好看的手机”,对该查询串进行词项切分和词性标注操作预处理,在预处理后表示为“女朋友”,“外形:好看”,“手机”}。通过情感特征数据库中的等价类信息,上述查询串经过等价类拓展后得到的查询词项集的表示为:{“女朋友/女友/媳妇/女生”,“外形:好看/外形:美观/做工:精致/外观:漂亮”,“手机”}。在产品检索过程中,利用查询词项集中的查询词项在索引数据库中进行产品检索;由于查询词项集中的关键词“手机”是唯一的类型匹配词,所有类型为“手机”的产品在产品特征数据评分均高于非手机类型产品的评分;在产品评论数据中,那些提及到“送女友的,很漂亮”、“小巧漂亮美观,适合女生”的评论,就会被赋予更多的评分。最后的加总评分也因此会倾向于对应的手机产品;由此获得产品贴近用户查询需求的产品检索列表。
[0030]上述基于用户评论的产品检索方法中,第一步中的数据处理和准备具体为:通过对产品数据进行结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库,其处理和准备过程如图2所示,具体说明如下:
[0031]I)结构化分析
[0032]电商网站的数据信息一般有如下事实:一是所有信息以HTML形式展示;二是部分结构化信息会混合在同一 HTML标签的内容中。
[0033]为保证信息的统一,通过结构化分析,将电商网站的产品页面的html数据转换成可分析的结构化数据。所有的产品属性都以〈key,value〉对的形式进行表示。比如,典型的产品属性包括:“商品名称”、“类型”、“品牌”、“价格”、“评论列表”等。所有的文本信息均用分词工具进行切分与`词性标注。一般地,“评论列表”的典型属性包括:“评论者”、“评论时间”、“评论星级”和“评论内容”。
[0034]2)倒排索引创建
[0035]这一过程将上述分析后的结构化产品数据按产品属性值进行划分,并以倒排索引的形式分域存储为索引数据库。产品的特征数据信息视作一篇文档Pi,其对应的评论列表视作其子文档...,ri;k}。构建索引时,先将每个产品的子文档Ri视作一个组进行索引,再将文档Pi加入索引中。
[0036]3)情感特征抽取
[0037]这一过程将从产品评论数据中抽取带有情感评价的词组,即情感特征。
[0038]将评论文本中某段长度为η的词组设为P=Iw1, W2, , wn},该词组中的每个词对应的词性信息设为Q=It1, t2,...,tj。在本实例中,为了保证处理的词组为情感特征词,限定t1=名词,tn=形容词。将评论文本中的另一段长度为m的词组设为p’ =Iv1, V2,, vj,使得满足W1=V1和Wn=vm。可以对以下几种信息进行统计:
[0039](I)词组P在所有评论文本出现的频数,设为tfp ;
[0040](2)词组P对应的P’在所有评论文本中出现的频数,设为tfp’ ;
[0041]则词组P的特征分数设为Score(P),通过以下公式计算获得:
【权利要求】
1.一种基于用户评论的产品检索方法,其特征是,所述方法根据用户提供的信息需求,通过结合产品数据,检索出最为相关的产品列表,返回给用户,包括如下步骤: 第一步:通过对产品数据进行数据处理和准备,具体为:对产品数据进行结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库; 第二步:用户提交查询串,对查询串进行查询串预处理; 第三步:通过情感特征数据库中的等价类信息,对上述预处理后的查询串进行词项拓展,得到查询词项集; 第四步:通过对评论权重数据库中的的评分进行综合,利用查询词项集中的查询词项在索引数据库中进行产品检索,对检索到的每一个产品,通过分别获得产品特征数据的评分值和产品评论数据的评分值,获得每一个产品的最终评分值; 第五步:将检索到的所有产品,按照每一个产品的最终评分值进行高低排序后取截断,获得产品列表,返回给用户。
2.如权利要求1所述基于用户评论的产品检索方法,其特征是,第一步所述产品数据包括产品特征数据和产品评论数据;所述结构化分析具体为将电商网站的产品页面中的产品特征数据转换成结构化数据后,将产品特征以〈属性名称,属性值〉的形式表示;所述倒排索引创建具体为将所述结构化分析得到的产品数据按产品属性值进行划分,并以倒排索引的形式分域存储为索引数据库;所述情感特征抽取具体为通过从产品评论数据中抽取,得到带有情感评价的情感特征词组,所述特征等价类构造具体为通过所述情感特征词组来构建特征等价类,形成情感特征数据库;所述评论质量分析具体为通过所述情感特征数据库与产品评论数据进行评论质量的分析,从而构造评论权重数据库。
3.如权利要求1所述基于用户评论的产品检索方法,其特征是,第二步所述查询串预处理包括词项切分和词性标注操作。
4.如权利要求1所述基于用户评论的产品检索方法,其特征是,第四步所述产品特征数据的评分值是通过现有的关键词检索方法获得;所述产品评论数据的评分值,是首先通过现有的关键词检索方法获得评分值,然后将所述评分值与评论权重数据库中的信息进行加权而获得;所述每一个产品的最终评分值是通过将上述各类评分进行加和而获得。
5.如权利要求4所述基于用户评论的产品检索方法,其特征是,所述产品评论数据的评分值的权重通过电商搜索日志加以训练而获得。
6.一种基于用户评论的产品检索系统,其特征是,所述系统以索引数据库、情感特征数据库和评论权重数据库为支撑,包括用户查询操作模块、查询预处理模块、检索模块和结果输出模块。
7.如权利要求6所述基于用户评论的产品检索系统,其特征是,所述用户查询操作模块用于用户输入查询串并进行提交;所述查询预处理模块用于将用户提交的查询串进行预处理;所述检索模块用于将查询串通过情感特征数据库中的等价类信息进行词项拓展获得查询词项,查询词项再通过对评论权重数据库中的的评分进行综合,在索引数据库中进行产品检索,对检索到的产品通过计算其产品特征数据的评分值和产品评论数据的评分值获得最终评分值;所述结果输出模块用于将检索到的产品按其最终评分值进行高低排序后取截断,获得产品列表的结果,返回给用户。
【文档编号】G06F17/30GK103823893SQ201410086745
【公开日】2014年5月28日 申请日期:2014年3月11日 优先权日:2014年3月11日
【发明者】闫宏飞, 赵鑫, 江翰, 李晓明 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1