一种支持商品评论数据多维分析的度量计算方法

文档序号:6582663阅读:432来源:国知局
专利名称:一种支持商品评论数据多维分析的度量计算方法
技术领域
本发明涉及一种支持商品评论数据多维分析的度量计算方法。
背景技术
随着电子商务应用的发展,越来越多的电子商务用户将自己对商品的评论发表在博客、商品论坛等网络媒体,使得人们可以方便的获得从业余爱好者到行业专家所提供的各种针对商品的评论,并以此指导自己的消费。对商品评论进行数据分析,具有重要的应用价值,可以监察商品动态,了解用户的消费特征和习惯,从而可以改进商品质量,制定相应的营销策略,引导理智的消费行为,预测发展趋势。作为一种有效分析数据的技术,OLAP能够在不同粒度上实现对多维立方体数据的交互分析。OLAP分析的基础是不同组合的维和所考查的度量指标构成的多维数组。传统的OLAP立方体主要聚焦在带有数值度量的结构化数据,例如,分析人员可能对商品销售数量随着时间推移而产生的变化感兴趣,这就是从时间的角度观察数据,时间是一个维度,销售数量是度量。随着商品评论数据重要性的日益显著,分析人员希望可以在OLAP系统中查看和分析对商品的评论,比如,从时间的推移中找出用户关注的商品方面的变化;分析人员也可以指定两种类似商品,从商品评论中查看商品的评论摘要,找出两种商品最受用户关注的区别。在针对商品评论数据的OLAP的工作中,有一些构建文本维的方法,有的基于文本挖掘领域的主题模型,有的使用基于机器学习的信息抽取方法,在构建了文本维以后,需要对度量进行表示。通常的度量分为两种存储度量和计算度量。存储度量是从存储的计算结果中获取,直接加载、聚合和存储进数据库;而计算度量是在查询时动态计算的值,只有计算规则存储在数据库中。在OLAP系统中,常用的计算度量有比率、差异、求和及平均值等,但对于商品评论数据,不能用常见的数值度量表示,需要研究选用新的适用的计算方法。Yue Lu等人提出一种基于半监督话题模型的博客评论集成方法(Y. Lu andC. X. Zha1.Opinion integration through sem1-supervised topic modeling.Proceedings of 2008 Internationalffffff Conference, pp. 121-130,2008),本发明给出了一种基于商品评论集成的度量表示方法,与Y. Lu等人提出的方法相比,两者除了问题背景不同之外,Y. Lu等人的方法使用的是PLSA模型,PLSA并不是完备的生成式模型且参数的数量会随着文档和项的规模的增大而线性增长,而本发明是基于LDA的度量计算方法,在集成在线商品评论方面更具适应性,且相似度比较和摘要生成方法更具可行性。

发明内容
为解决现有技术存在的缺点,本发明提供了一种支持商品评论数据多维分析的度量计算方法。本发明采用的技术方案包括以下步骤一种支持商品评论数据多维分析的度量计算方法,包括如下步骤
步骤(I)用W= (W1, w2, . , wn}表示百科介绍,其中Wk (I彡k彡η,η为自然数)为一个百科介绍的句子,W为一篇百科介绍;步骤(2)根据不同的维取值得到与步骤(I)中的百科介绍相关的普通商品评论集,用Co=W1, d2,…,dk|}表示,其中|c|是Co中的文档总数,Cli (l^i^ |c| )是文档,(1 ={8η, si2,…,Sij,…,si|di|}, Sij是第i篇文档中的第j个句子;步骤(3)使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率,然后计算百科介绍中句子和普通商品评论集中句子的相似度,找出普通商品评论集中的相似评论句Simij和补充评论句Suppij ;步骤(4)根据相似评论句Simij,挖掘普通商品评论集最关注的百科介绍的主题,它反映了用户对于某个商品评论主题的关注程度;步骤(5)从补充评论句Suppij中生成摘要作为百科介绍的补充;步骤(6)对步骤(4)和步骤(5)得到的结果进行集成。所述的步骤(3)主要分为6步步骤(3-1)以百科介绍W中的每个句子wk作为一篇文档,W作为文档集,输入LDA ;步骤(3-2)以普通商品评论集Co中的每个句子su作为一篇文档,Co作为文档集,输入LDA ;步骤(3-3)使用LDA模型为步骤(3-1)和步骤(3-2)的文档集建模,并利用Gibbs抽样分别为LDA模型估计参数;步骤(3-4)分别计算LDA模型为步骤(3-1)和步骤(3-2)文档建模时,各文档d的主题分布和主题的词汇分布0广其中,if >是主题Zi的词汇分布,代表主题Zi中各词汇t的比重是文档d的主题分布,代表文档d中各隐含主题的比重,所述的文档d是指步骤(3-1)和步骤(3-2)中的任意一篇文档;步骤(3-5)根据公式
权利要求
1.一种支持商品评论数据多维分析的度量计算方法,其特征是,该方法包括以下步骤 步骤(I)用W=IWpW2,. , WnI表示百科介绍,其中Wk (I彡k彡η)为一个百科介绍的句子,W为一篇百科介绍,η为自然数; 步骤(2)根据不同的维取值得到与步骤(I)中的百科介绍相关的普通商品评论集,用Co=W1, d2,…,d|c|}表示,其中|c|是Co中的文档总数,Cli (I彡i彡|c| )是文档,(1 ={8η, si2,…,Sij,…,si|di|}, Sij是第i篇文档中的第j个句子; 步骤(3)使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率,然后计算百科介绍中句子和普通商品评论集中句子的相似度,找出普通商品评论集中的相似评论句Simij和补充评论句Suppij ; 步骤(4)根据相似评论句Simij,挖掘普通商品评论集最关注的百科介绍的主题,它反映了用户对于某个商品评论主题的关注程度; 步骤(5)从补充评论句Suppij中生成摘要作为百科介绍的补充; 步骤(6)对步骤(4)和步骤(5)得到的结果进行集成。
2.如权利要求书I所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(3)中使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率,包括以下步骤 步骤(3-1)以百科介绍W中的每个句子Wk作为一篇文档,W作为文档集,输入LDA ;步骤(3-2)以普通商品评论集Co中的每个句子作为一篇文档,Co作为文档集,输入 LDA ; 步骤(3-3)使用LDA模型为步骤(3-1)和步骤(3-2)的文档集建模,并利用Gibbs抽样算法分别为LDA模型估计参数; 步骤(3-4)分别计算LDA模型为步骤(3-1)和步骤(3-2)文档建模时,各个文档d的主题分布贫*^和主题的词汇分布少其中# ^是主题Zi的词汇分布,代表主题Zi中各词汇t的比重是文档d的主题分布,代表文档d中各隐含主题的比重,所述的文档d是指步骤(3-1)和步骤(3-2)中的任意一篇文档; 步骤(3-5 )根据公式冲
3.如权利要求书2所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(3-3)中Gibbs抽样算法分别为LDA估计参数,包括以下步骤 ①为百科介绍和普通商品评论集中的词汇t指定一个1-T之间的随机主题,构成初始Markov链;对于所有词汇t,根据公式分配主题,获取Markov链的下一个状态,迭代若干次数后,Markov链状态达到稳定,所述的T为主题数; ②抽样算法为每个词汇估计主题,#和矿〕由下式得到;
4.如权利要求书2所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(3-6)中计算p(t|su)与p(t|wk)的相似度方法是使用句间的余弦度量,具体公式如下
5.如权利要求书I所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(4)中的相似评论句,挖掘普通商品评论集最关注的百科介绍的主题,该过程解决方法如下 步骤(4-1)在百科介绍中,自然段具有较强的主题独立性,所以我们将每一个自然段看作一个“方面”,每一个方面作为处理的基本块,用W={ri,r2,…,rn}表示,A即为一个方面,即一个段落,W为一篇百科介绍,将每一个段落& (I彡i彡n)n为自然数,作为一篇文档,百科介绍W作为文档集,输入LDA,挖掘每个段落&的主题,主题以P (t I Zi)表示; 步骤(4-2Mfri中的句子与普通商品评论集中的相似句子进行相似度比较,寻找与该段落主题中Uu相似的句子数Nu ;其中,Uu是主题Zi中的第j个句子; 主题的关注程度
6.如权利要求书I所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(5)从Suppij中生成摘要作为百科介绍的补充,其过程包含三步 步骤(5-1)以补充评论句Suppij的P (t I Sij)作为对象,进行k-means聚类; 步骤(5-2)从k-means聚类结果中得到局部主题簇,为局部主题簇中的句子计算与该段落主题中其它句子的加权总相似度,并按照大小排序,句子权重计算方法如公式下
7.根据权利要求5所述的一种支持商品评论数据多维分析的度量计算方法,其特征在于所述的步骤(5-1) k-means聚类步骤如下 ①假设补充评论集Supp中有m个句子,聚类个数为k,我们从补充评论集Supp的m个句子中任意选择k个句子作为初始的聚类中心,所述的补充评论集Supp是由补充评论Suppij构成的集合; ②对于所剩下的m-k个句子,根据相似度公式计算它们与聚类中心的相似度,根据最小距离重新对相应对象进行划分; ③重新计算每个聚类的聚类中心,即聚类中所有对象的均值; ④不断重复②和③,直到聚类不再发生变化。
全文摘要
本发明具体公开了一种支持商品评论数据多维分析的度量计算方法,该方法引入百科介绍的概念,通过LDA挖掘商品评论与主题之间的关系,将普通商品评论“结构化”集成到百科介绍中,并以主题和摘要的形式返回度量结果,使度量具有较高的可读性。本发明根据不同的维取值,获取商品评论集并将其与相关的百科介绍集成,主要包括以下步骤(1)使用LDA计算百科介绍和商品评论集中的词汇-主题概率,利用相似度计算公式从商品评论集中找出相似评论和补充评论;(2)对于相似评论,挖掘百科介绍中“方面”的主题,并以相似数代表主题的受关注程度;(3)对于补充评论,生成摘要作为百科介绍的补充。
文档编号G06Q30/02GK103020851SQ201310009758
公开日2013年4月3日 申请日期2013年1月10日 优先权日2013年1月10日
发明者郑永清, 王新军, 张超, 彭朝晖, 闫中敏 申请人:山东地纬计算机软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1