一种在线lda模型的高效数据总结分析方法

文档序号:8258497阅读:639来源:国知局
一种在线lda模型的高效数据总结分析方法
【技术领域】
[0001]本发明涉及一种网络数据处理,具体地,涉及一种基于在线LDA模型的高效数据 总结分析方法。
【背景技术】
[0002] Web2.0技术的迅速发展,在互联网上生产出了海量多样的信息数据。这些数据的 含义如此丰富,我们很难在没有总结的情况下提取出数据所包含的信息。如何对这些丰富 含义的海量数据进行处理并有效地提取出结论,已成为一个挑战。从信息的消费者的角度 来看,由用户生产的内容是最有意义的,因为这些内容基于用户的真实体验。互联网产生了 越来越多的用户评论内容,这些内容反映了用户对事物的真实兴趣和态度,与之相应的网 站也成为了提取用户兴趣分析的丰富资源。
[0003] 为了从这些信息中提取出有用的信息,例如情绪分类,文本规约以及主题建模等 方法被开发出来。但是,网络上的用户内容不断在更新和增长,利用这些已有的技术很难进 行在线分析。尽管这些用户内容非常有价值,但如何有效的理解和应用仍然很困难。
[0004] 举个例子,当我们在电子产品,例如手机或者笔记本电脑中作比较和选择时,会考 虑产品通用的属性例如易用性,电池寿命,音质等,而这些属性在大部分电子商务网站上是 预定义的;但是即使对于相同的硬件配置的笔记本电脑,用户体验也可能完全不同。而且, 这种售后体验只能在商品的用户评论中获得反应,这些宝贵的用户评论需要得到分析和总 结。
[0005] 对于商务型网站,例如酒店或者销售网站,用户评论比广告更为真实和可信。在销 售领域,从这些用户评论中总结出的信息有利于顾客做出决定,也有利于公司提升服务水 平和做出市场决策。总结信息的目标是从尽可能简易的情况下帮助用户理解海量,丰富多 样的用户评论数据。
[0006] 在tripadvisor网站上,为了使用户更易于比较酒店,应用了反馈评分技术。这种 反馈评分技术(分数由1到5),对于酒店经理或旅客并无太大参考意义,因为这些评分并不 能从用户体验角度反馈主观的建议或意见;这种评分通常也不具备可比性,例如,一个三星 酒店得到了 10个用户的高分评价而一个四星酒店仅仅得到1个用户的中间评价,这并不表 明四星酒店的服务水平会比三星酒店差。在这种情况下,如何从用户评论中获取有价值的 信息就显得尤为重要。
[0007] 酒店的用户评论内容随着个人的经历不同而具有多样性。在图1所示的两个经典 的酒店评论内容中,显示了酒店的不同主题,例如价格,房间和食物等。显然地,这些用户评 论中的主题与电子产品评论更为丰富和多样,几乎不可能去列出所有可能的主题,因而从 这些用户评论中提取出有意义的信息会更加困难。
[0008] 酒店的用户评论内容展示出了一种有趣的不平衡现象。有更多用户评论的酒店往 往是更受欢迎的,用户也乐于在上面分享酒店的体验,所以正面评价也远多于负面评价;而 这些不受欢迎的酒店则有很少的用户评论。这个是二值评价方法所不能解决的数据不平衡 问题。

【发明内容】

[0009] 针对上述现有技术中存在的技术问题,本发明提供一种在线LDA模型的高效数据 总结分析方法,解决了实时处理数据集的可扩展性问题。在线LDA模型被应用于从海量和 不断增长的评论集中提取信息,达到了与传统LDA模型相近的生成水平并拥有较低的计算 消耗。
[0010] 为达到上述目的,本发明所采用的技术方案如下:
[0011] -种在线LDA模型的高效数据总结分析方法,其特征在于,包括步骤如下:
[0012] 第一步,基于在线LDA模型进行主题提取;
[0013] 第二步,在第一步基础上,基于R0C方法进行主题分类;
[0014] 第三步,在第二步基础上,进行意见总结或二值分类。
[0015] 所述第一步中,采用在线推断LDA算法对基于在线LDA模型的评论集合进行数据 处理并建模,所述在线推断LDA算法是一种在线变分推断方法,是在变分方法上使用了彻 底的因式分解变量,因此算法的下界为:
【主权项】
1. 一种在线LDA模型的高效数据总结分析方法,其特征在于,包括步骤如下: 第一步,基于在线LDA模型进行主题提取; 第二步,在第一步基础上,基于ROC方法进行主题分类; 第三步,在第二步基础上,进行意见总结或二值分类。
2. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法,其特征在于,所述第 一步中,采用在线推断LDA算法对基于在线LDA模型的评论集合进行数据处理并建模,在线 推断LDA算法是一种在线变分推断方法,是在变分方法上使用彻底的因式分解变量,因此 算法的下界为:
上式中A是主题0的参数,小、Y是特定主题z、狄利克雷优先标量0的参数,是 算法的下界, 在线变分推断由主题A决定,通过估计参数值Y (nd,A)和小(nd,X),最大化下述公 式,
3. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法,其特征在于,所述第 二步中,在主题提取的数据平衡时,通过ROC方法对主题进行逆向排序,然后选择前1个主 题。
4. 根据权利要求3所述的在线LDA模型的高效数据总结分析方法,其特征在于,包括散 射矩阵方法:
其中九= Pi是分类《的先验概率,Si是分类《的平均矢量,su是分类内散 射矩阵,sb是分类间散射矩阵。
5. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法,其特征在于,所述 第二步中,在主题提取的数据平衡时,通过计算主题之间的交叉相关系数进行主题分类,首 先,通过ROC方法对主题进行逆向排序,设^是排序选择出的最好的主题,
上述等式考虑了最好的主题以及其他主题之间的交叉相关系数(PW),其他主题根据 下式排序,
j#ir,r= 1,2,…,k_l 上式中ik是主题的排序,(Pw)是该主题与其他主题之间的交叉相关系数。
6. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法,其特征在于,所述第 二步中,在主题提取的数据不平衡时,采用FAST方法进行主题提取分类,主题提取矩阵基 于简单的线性判别生成的ROC曲线,主题根据曲线下面积大小进行排序,选取最高的;所述 ROC曲线是主题排序的标准,所述FAST方法是用一种阈值决定方法,修正了不同点被分配 到不同数据分离的宽度的数量,在高密度数据上使用更多的数据分离宽度,而在稀疏数据 上使用较少的数据分离宽度,每个数据分离宽度包含相同的数据量,因此每个数据分离宽 度计算出的较多的阈值被用于高密度数据的ROC计算,较少的阈值被用于稀疏数据的ROC 计算。
7. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法,其特征在于,所述第 一步中,使用用于评估模型生成未知数据的能力的一个标准的评估矩阵perplexity值来 评估在线LDA模型的生成性能,越低的perplexity值表明模型更具有适用性,对于N个评 论的测试集,perplexity值为:
上式中q是评论i,该评论出现的概率是p(c),perplexity(Ctest)中是评论集合Ctest 的perplexity值。
8. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法,其特征在于,所述第 二步中,使用平衡错误率BER评估主题选取的性能,定义如下,
BER是正面评价和负面评价的平均错误率。
【专利摘要】本发明公开一种在线LDA模型的高效数据总结分析方法,包括步骤如下:第一步,基于在线LDA模型进行主题提取;第二步,在第一步基础上,基于ROC方法进行主题分类;第三步,在第二步基础上,进行意见总结或二值分类。本发明所提供的方法,解决了实时处理数据集的可扩展性问题。在线LDA模型被应用于从海量和不断增长的评论集中提取信息,达到了与传统LDA模型相近的生成水平并拥有较低的计算消耗。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104572623
【申请号】CN201510014471
【发明人】程书欣, 马俊, 姚建国, 管海兵
【申请人】上海交通大学
【公开日】2015年4月29日
【申请日】2015年1月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1