一种在线lda模型的高效数据总结分析方法

文档序号：8258497阅读：639来源：国知局

一种在线lda模型的高效数据总结分析方法
【技术领域】
[0001]本发明涉及一种网络数据处理，具体地，涉及一种基于在线LDA模型的高效数据总结分析方法。
【背景技术】
[0002] Web2.0技术的迅速发展，在互联网上生产出了海量多样的信息数据。这些数据的含义如此丰富，我们很难在没有总结的情况下提取出数据所包含的信息。如何对这些丰富含义的海量数据进行处理并有效地提取出结论，已成为一个挑战。从信息的消费者的角度来看，由用户生产的内容是最有意义的，因为这些内容基于用户的真实体验。互联网产生了越来越多的用户评论内容，这些内容反映了用户对事物的真实兴趣和态度，与之相应的网站也成为了提取用户兴趣分析的丰富资源。
[0003] 为了从这些信息中提取出有用的信息，例如情绪分类，文本规约以及主题建模等方法被开发出来。但是，网络上的用户内容不断在更新和增长，利用这些已有的技术很难进行在线分析。尽管这些用户内容非常有价值，但如何有效的理解和应用仍然很困难。
[0004] 举个例子，当我们在电子产品，例如手机或者笔记本电脑中作比较和选择时，会考虑产品通用的属性例如易用性，电池寿命，音质等，而这些属性在大部分电子商务网站上是预定义的；但是即使对于相同的硬件配置的笔记本电脑，用户体验也可能完全不同。而且，这种售后体验只能在商品的用户评论中获得反应，这些宝贵的用户评论需要得到分析和总结。
[0005] 对于商务型网站，例如酒店或者销售网站，用户评论比广告更为真实和可信。在销售领域，从这些用户评论中总结出的信息有利于顾客做出决定，也有利于公司提升服务水平和做出市场决策。总结信息的目标是从尽可能简易的情况下帮助用户理解海量，丰富多样的用户评论数据。
[0006] 在tripadvisor网站上，为了使用户更易于比较酒店，应用了反馈评分技术。这种反馈评分技术（分数由1到5)，对于酒店经理或旅客并无太大参考意义，因为这些评分并不能从用户体验角度反馈主观的建议或意见；这种评分通常也不具备可比性，例如，一个三星酒店得到了 10个用户的高分评价而一个四星酒店仅仅得到1个用户的中间评价，这并不表明四星酒店的服务水平会比三星酒店差。在这种情况下，如何从用户评论中获取有价值的信息就显得尤为重要。
[0007] 酒店的用户评论内容随着个人的经历不同而具有多样性。在图1所示的两个经典的酒店评论内容中，显示了酒店的不同主题，例如价格，房间和食物等。显然地，这些用户评论中的主题与电子产品评论更为丰富和多样，几乎不可能去列出所有可能的主题，因而从这些用户评论中提取出有意义的信息会更加困难。
[0008] 酒店的用户评论内容展示出了一种有趣的不平衡现象。有更多用户评论的酒店往往是更受欢迎的，用户也乐于在上面分享酒店的体验，所以正面评价也远多于负面评价；而这些不受欢迎的酒店则有很少的用户评论。这个是二值评价方法所不能解决的数据不平衡问题。

【发明内容】

[0009] 针对上述现有技术中存在的技术问题，本发明提供一种在线LDA模型的高效数据总结分析方法，解决了实时处理数据集的可扩展性问题。在线LDA模型被应用于从海量和不断增长的评论集中提取信息，达到了与传统LDA模型相近的生成水平并拥有较低的计算消耗。
[0010] 为达到上述目的，本发明所采用的技术方案如下：
[0011] -种在线LDA模型的高效数据总结分析方法，其特征在于，包括步骤如下：
[0012] 第一步，基于在线LDA模型进行主题提取；
[0013] 第二步，在第一步基础上，基于R0C方法进行主题分类；
[0014] 第三步，在第二步基础上，进行意见总结或二值分类。
[0015] 所述第一步中，采用在线推断LDA算法对基于在线LDA模型的评论集合进行数据处理并建模，所述在线推断LDA算法是一种在线变分推断方法，是在变分方法上使用了彻底的因式分解变量，因此算法的下界为：
【主权项】
1. 一种在线LDA模型的高效数据总结分析方法，其特征在于，包括步骤如下：第一步，基于在线LDA模型进行主题提取；第二步，在第一步基础上，基于ROC方法进行主题分类；第三步，在第二步基础上，进行意见总结或二值分类。
2. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第一步中，采用在线推断LDA算法对基于在线LDA模型的评论集合进行数据处理并建模，在线推断LDA算法是一种在线变分推断方法，是在变分方法上使用彻底的因式分解变量，因此算法的下界为：
上式中A是主题0的参数，小、Y是特定主题z、狄利克雷优先标量0的参数，是算法的下界，在线变分推断由主题A决定，通过估计参数值Y (nd，A)和小（nd，X)，最大化下述公式，
3. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，在主题提取的数据平衡时，通过ROC方法对主题进行逆向排序，然后选择前1个主题。
4. 根据权利要求3所述的在线LDA模型的高效数据总结分析方法，其特征在于，包括散射矩阵方法：
其中九= Pi是分类《的先验概率，Si是分类《的平均矢量，su是分类内散射矩阵，sb是分类间散射矩阵。
5. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，在主题提取的数据平衡时，通过计算主题之间的交叉相关系数进行主题分类，首先，通过ROC方法对主题进行逆向排序，设^是排序选择出的最好的主题，
上述等式考虑了最好的主题以及其他主题之间的交叉相关系数(PW)，其他主题根据下式排序，
j#ir，r= 1，2,…，k_l 上式中ik是主题的排序，（Pw)是该主题与其他主题之间的交叉相关系数。
6. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，在主题提取的数据不平衡时，采用FAST方法进行主题提取分类，主题提取矩阵基于简单的线性判别生成的ROC曲线，主题根据曲线下面积大小进行排序，选取最高的；所述 ROC曲线是主题排序的标准，所述FAST方法是用一种阈值决定方法，修正了不同点被分配到不同数据分离的宽度的数量，在高密度数据上使用更多的数据分离宽度，而在稀疏数据上使用较少的数据分离宽度，每个数据分离宽度包含相同的数据量，因此每个数据分离宽度计算出的较多的阈值被用于高密度数据的ROC计算，较少的阈值被用于稀疏数据的ROC 计算。
7. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第一步中，使用用于评估模型生成未知数据的能力的一个标准的评估矩阵perplexity值来评估在线LDA模型的生成性能，越低的perplexity值表明模型更具有适用性，对于N个评论的测试集，perplexity值为：
上式中q是评论i，该评论出现的概率是p(c)，perplexity(Ctest)中是评论集合Ctest 的perplexity值。
8. 根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，使用平衡错误率BER评估主题选取的性能，定义如下，
BER是正面评价和负面评价的平均错误率。
【专利摘要】本发明公开一种在线LDA模型的高效数据总结分析方法，包括步骤如下：第一步，基于在线LDA模型进行主题提取；第二步，在第一步基础上，基于ROC方法进行主题分类；第三步，在第二步基础上，进行意见总结或二值分类。本发明所提供的方法，解决了实时处理数据集的可扩展性问题。在线LDA模型被应用于从海量和不断增长的评论集中提取信息，达到了与传统LDA模型相近的生成水平并拥有较低的计算消耗。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104572623
【申请号】CN201510014471
【发明人】程书欣, 马俊, 姚建国, 管海兵
【申请人】上海交通大学
【公开日】2015年4月29日
【申请日】2015年1月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程书欣;马俊;姚建国;管海兵;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：一种基于词向量发现单味药与疾病之间的治疗关系的方法
上一篇：一种术语的筛选方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。