基于主题模型的自展式特征选择方法及系统的制作方法

文档序号:10655254阅读:232来源:国知局
基于主题模型的自展式特征选择方法及系统的制作方法
【专利摘要】本发明提出一种基于主题模型的自展式特征选择方法及系统,该方法包括以下步骤:获取原始评论数据;选取主题模型,并根据主题模型对原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据显式特征词和观点词生成语义关联规则;根据语义关联规则进行显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。本发明的方法能有效地抽取相关特征,摒弃无关特征和观点词,极大地减少人工工作量及人工误差。
【专利说明】
基于主题模型的自展式特征选择方法及系统
技术领域
[0001 ]本发明设及计算机应用技术领域,特别设及一种基于主题模型的自展式特征选择 方法及系统。
【背景技术】
[0002] 随着互联网的快速兴起,在线购物为人们带来了便利的购物方式,同时广大电商 网站允许已购买产品的顾客对产品进行评论W供后来的潜在消费者参考,此类信息在网站 上迅速膨胀,构成了海量数据。运些评论信息,尤其是某些热销产品的评论信息,对业界和 科研人员来说都是极其宝贵的参考材料,在观点挖掘、产品预测等方面都有着极大的参考 价值。生产企业可W通过顾客的产品评论改进自己的产品;营销团队通过对产品评论进行 分析比较能够得到该产品的销售趋势或根据不同产品间的比较得到热点产品;科研人员可 W通过产品评论进行顾客的情感分析等。然而运些工作全都离不开观点挖掘。观点挖掘,也 称为情绪分析,是对于人们关于某一实体的特征、组件、属性等所产生的观点、态度和情绪 进行挖掘和分析的一种技术,是自然语言处理学科中重要的一个领域,得到了学术界和业 界的重视。
[0003] 结合产品评论,观点挖掘能十分有效地反应用户的对于某具体事物的具体观点, 具有实时性、话题敏感性和多变性的特点。观点挖掘作为自然语言处理的重要组成部分,也 是机器学习中的一个重要研究领域。同时,由于电商平台数据的多变性和数据规模的庞大, 基于在线数据的观点挖掘一直是研究的热点和难点。网络用语、话题的快速流行和消亡往 往要求在线观点挖掘模型具有良好的应激性及对于新用语的敏感性和适应性,运在机器学 习领域尚是个研究热点。特征抽取是观点挖掘中的重要环节,提取结果的好坏将直接影响 观点挖掘的结果好坏。大多数模型往往对产品评论利用监督学习或半监督学习来进行特征 提取,运往往是因为产品评论的领域局限性造成的:同样的一个特征词在不同的专业领域 的权重大多不相等,例如"动力"一词在汽车等交通工具的产品评论中占有重要的地位,然 而在手机等数码产品的评论中则是无用的"噪音"评论。W往的工作中,对于特征的抽取往 往需要人工标定,往往就是由领域局限性造成的。

【发明内容】

[0004] 本发明旨在至少解决上述技术问题之一。
[0005] 为此,本发明的一个目的在于提出一种基于主题模型的自展式特征选择方法,该 方法能有效地抽取相关特征,擬弃无关特征和观点词,极大地减少人工工作量及人工误差。
[0006] 本发明的另一个目的在于提出一种基于主题模型的自展式特征选择系统。
[0007] 为了实现上述目的,本发明第一方面的实施例公开了一种基于主题模型的自展式 特征选择方法,包括W下步骤:Sl:获取原始评论数据;S2:选取主题模型,并根据所述主题 模型对所述原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特 征词和观点词生成语义关联规则;W及S3:根据所述语义关联规则进行所述显式特征词和 观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词 与观点词之间的关联,链式地形成特征词和观点词的关联规则,W完成观点挖掘。
[0008] 另外,根据本发明上述实施例的基于主题模型的自展式特征选择方法还可W具有 如下附加的技术特征:
[0009] 在一些示例中,还包括:获取隐式特征评论,并根据所述显示特征词与特征词之间 的关联、特征词与观点词之间的关联、观点词与观点词之间的关联S者之间的传导性,将隐 式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。
[0010] 在一些示例中,所述主题模型为潜在的狄利克雷分布LDA。
[0011] 在一些示例中,所述S2进一步包括:S21:将所述原始评论数据的初始特征空间设 置为空;S22:从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件 概率;S23:设置一个阔值,W保留条件概率大于所述阔值的单词,并滤除条件概率小于所述 阔值的词汇;S24:重复执行所述步骤S22至步骤S23,直至得到足够维度的特征。
[0012] 在一些示例中,所述原始评论数据中每个单词都具有其唯一的主题,则原始评论 数据中每个词的优化目标如下式:
[0013]
[0014] 其中Z表示原始评论数据中每个单词都对应的主题,W表示原始评论数据中的单 词,0表示满足Wa为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。
[0015] 根据本发明实施例的基于主题模型的自展式特征选择方法,采用LDA运种概率生 成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本自身 的特性出发得到挖掘结果,该方法能有效地抽取相关特征,擬弃无关特征和观点词,极大减 少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本,提高 观点枉掘效果。
[0016] 本发明第二方面的实施例公开了一种基于主题模型的自展式特征选择系统,包 括:获取模块,所述获取模块用于获取原始评论数据;处理模块,所述处理模块用于选取主 题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征词和观点词的 抽取,并根据所述显式特征词和观点词生成语义关联规则;匹配模块,所述匹配模块用于根 据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与特征词之间 的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观 点词的关联规则,W完成观点挖掘。
[0017] 另外,根据本发明上述实施例的基于主题模型的自展式特征选择系统还可W具有 如下附加的技术特征:
[0018] 在一些示例中,所述匹配模块还用于:获取隐式特征评论,并根据所述显示特征词 与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联S者之间 的传导性,将隐式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。
[0019] 在一些示例中,所述主题模型为潜在的狄利克雷分布LDA。
[0020] 在一些示例中,所述处理模块用于:将所述原始评论数据的初始特征空间设置为 空,并从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件概率,并 设置一个阔值,W保留条件概率大于所述阔值的单词,并滤除条件概率小于所述阔值的词 汇,并重复执行上述过程,直至得到足够维度的特征。
[0021] 在一些示例中,所述原始评论数据中每个词都具有其唯一的主题,则原始评论数 据中每个单词的优化目标如下式:
[0022]
[0023] 其中Z表示原始评论数据中每个单词都对应的主越,W表示原始评论数据中的单 词,0表示满足Wa为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。
[0024] 根据本发明实施例的基于主题模型的自展式特征选择系统,采用LDA运种概率生 成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本自身 的特性出发得到挖掘结果,该系统能有效地抽取相关特征,擬弃无关特征和观点词,极大减 少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本,提高 观点枉掘效果。
[0025] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0026] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得 明显和容易理解,其中:
[0027] 图1是根据本发明实施例的基于主题模型的自展式特征选择方法的流程图;
[0028] 图2是根据本发明一个实施例的主题模型特征降维概率图模型示意图;
[0029] 图3是根据本发明一个实施例的语义关联关系挖掘示例图;W及
[0030] 图4是根据本发明一个实施例的基于主题模型的自展式特征选择系统的结构框 图。
【具体实施方式】
[0031] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0032] 在本发明的描述中,需要理解的是,术语"中屯、"、"纵向横向上"、"下"、 "前"、"后V'左'、"右V'竖曹'、"水甲V'顶'、"底V'胖V'外"等指示的方位或位置关系为 基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗 示所指的装置或元件必须具有特定的方位、W特定的方位构造和操作,因此不能理解为对 本发明的限制。此外,术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对 重要性。
[0033] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语"安装"、"相 连"、"连接"应做广义理解,例如,可W是固定连接,也可W是可拆卸连接,或一体地连接;可 W是机械连接,也可W是电连接;可W是直接相连,也可W通过中间媒介间接相连,可W是 两个元件内部的连通。对于本领域的普通技术人员而言,可W具体情况理解上述术语在本 发明中的具体含义。
[0034] W下结合附图描述根据本发明实施例的基于主题模型的自展式特征选择方法及 系统。
[0035] 图I是根据本发明一个实施例的基于主题模型的自展式特征选择方法的流程图。 如图1所示,根据本发明实施例的基于主题模型的自展式特征选择方法,包括W下步骤:
[0036] 步骤Sl:获取原始评论数据。
[0037] 步骤S2:选取主题模型,并根据主题模型对原始评论数据进行特征降维、显式特征 词和观点词的抽取,并根据显式特征词和观点词生成语义关联规则。
[0038] 具体地说,对于原始的产品评论(原始评论数据),语句中常常包含大量的无关噪 声和重复数据(如许多相互重复的信息W及和预测目标无关的无用信息),而运些信息会造 成最后模型参数的激增,使得模型训练变得更加困难。另一方面,产品评论(原始评论数据) 是一个樣合了多种语言形式的文本,例如网络流行语、网络用语缩写、网页链接和表情符号 等。有些数据类型明显与产品本身无关,因此需要对数据进行清洗和筛选,即在特征用于学 习之前,往往需要进行从高维特征空间到低维特征空间的映射,保留有用信息,从而降低模 型训练的复杂度,诸如网页链接、话题标签、位置信息W及重复的子句将被删除,网络流行 语及网络缩写在遍历了用语词典后仍找不到的提醒人工标准,表情符号W文字代替。
[0039] 在本发明的一个实施例中,主题模型例如为LDA(Latent Dirichlet Allocation, 潜在的狄利克雷分布)dLDA作为一个统计生成模型,自2003年提出W来,逐步成为具有多种 应用场景的机器学习方法。其将文本中词语进行统计映射到向量空间的方法十分符合高维 特征空间到低维特征空间的转换,同时该方法的统计特性也保证了其在离散数据(如文本) 上的良好分析能力。同时,LDA能够将词与词之间的语义关联W概率的形式表现出来,十分 符合无监督观点挖掘对于文本语义体现的需求,因此本发明的实施例选择LDA来进行数据 处理和特征抽取。
[0040] 潜在的狄利克雷分布LDA是目前常见的特征降维方法,是一种层次的贝叶斯模型。 其主要思想是将计算出文本中每个词在预先设定好的主题下的概率,并通过阔值限定筛选 出有用的特征及过滤掉无用的噪声数据。基于此,结合图2所示,步骤S2进一步包括:
[0041 ] S21:将原始评论数据的初始特征空间设置为空。
[0042] S22:从原始评论数据中挑选一个特征,并计算在特征下每个单词的条件概率。
[0043] S23:设置一个阔值,W保留条件概率大于阔值的单词,并滤除条件概率小于阔值 的词汇。
[0044] S24:重复执行步骤S22至步骤S23,直至得到足够维度的特征。
[0045] 其中,例如,设定原始评论数据中每个单词W都具有其唯一的主题Z,则原始评论数 据中每个词的优化目标如下式:
[0046]
[0047] 其中Z表示原始评论数据中每个词都对应的主题,W表示原始评论数据中的单词,0 表示满足Wa为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。也就是说,求解 有用的特征词的概率问题就转换成了求解文档~主题的分布和主题~词汇的分布的问题, 而运两个问题在给定文本集的前提下是可统计计算的,并在每个主题下将文本词汇按条件 概率排序。由此可W知道,本发明的实施例通过设定不同的阔值适当保留前若干个高概率 词汇,从而完成特征筛取和降维。
[004引在上述示例中,主题模型LDA之所W能够完成特征降维、特征抽取W及生成关联规 则运=个子任务的原因在于:运=个子任务都用到了单词的概率表现。运样,通过设定阔 值,可W将每个主题下出现概率低的词筛取掉,完成特征降维任务。同时,根据高概率的单 词抽取出特征词、观点词并W此进行关联得到语义关联股则。
[0049] 步骤S3:根据语义关联规则进行显式特征词和观点词的匹配,得到显式特征词与 特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成 特征词和观点词的关联规则,W完成观点挖掘。
[0050] 具体地说,从上文描述中可知,主题模型(如LDA)能够W统计概率的模式表现出词 与词之间的关联性。运一特性能够十分良好的挖掘出特征词和观点词。结合图3所示,具体 介绍如下:
[0051] 中文文本在进行词性标注之后,可根据词性选出候选特征词和观点词。特征词的 词性往往是名词或名词词组,如"屏幕"、"质量"等;观点词则往往是动词或形容词W及副 词,如"灵活"、"好看"、"适合妹子用"等。当将正确的产品特征和相关的观点词匹配好之后, 就完成了对该产品的观点挖掘。
[0052] 在本主题模型中,使用语义关联规则来实现产品特征和观点词的匹配。而语义关 联规则的挖掘则依赖于主题模型。当得到每个主题下单词的概率时,概率大的词表示该词 与主题语义关联紧密,概率低表示该词与该主题语义关联稀疏。由于主题模型的特性,我们 可W人工定义主题词作为特征种子词,再利用主题模型对文本语义的概率描述得到词与词 之间的语义关联。从特征种子词出发,结合特征词、观点词的特有词性及设定不同的阔值, 进行特征抽取和观点词筛选和匹配,从而完成观点挖掘。由于不同的语义文本在主题模型 的描述下关联性自然不同,运是由文本自身的特性形成的,即主题模型展现了文本内部自 身的关联性,通过极少的几个种子词作为起点,挖掘出特征词和相应的观点词。因此,运种 方法称为自展式的观点挖掘,即通过模型自身特性进行挖掘,而不需过多借助人工标定。
[0053] 进一步地,该方法还包括:获取隐式特征评论,并根据显示特征词与特征词之间的 关联、特征词与观点词之间的关联、观点词与观点词之间的关联S者之间的传导性,将隐式 特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。具体地说,特征词不直 接出现在评论中的句子称为隐式评论,如:"媳妇挺喜欢用的,就是不容易放进口袋",在运 句关于手机的评论中,关于手机特性的特征词"大小"或"手机尺寸"并没有出现,然而人们 都可W看出运句评论是对手机大小进行了描述。被隐式特征描述的特征就称为隐式特征。 观点挖掘的质量很大一部分依赖于特征挖掘的优劣。在W往的工作中,观点挖掘的研究者 们往往关注显示特征评论,即特征直接出现在句子中的评论,的选取,而忽略了隐式特征的 评论。然而隐式特征平均占整体特征的20%-30%,对观点挖掘结果有着不可忽视的影响。 因此隐式特征评论的挖掘工作十分必要。通过自展式特征抽取,我们已经得到了显式特征 词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联。则根据 运=种关联的传导性,将隐式特征评论中的观点词根据关联规则得到相匹配的特征词,贝U 可完善观点挖掘的样本,提高观点挖掘效果。
[0054] 综上,根据本发明实施例的基于主题模型的自展式特征选择方法,采用LDA运种概 率生成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本 自身的特性出发得到挖掘结果,该方法能有效地抽取相关特征,擬弃无关特征和观点词,极 大减少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本, 提高观点挖掘效果。
[0055] 本发明的进一步实施例还提供了一种基于主题模型的自展式特征选择系统。
[0056] 图4是根据本发明实施例的基于主题模型的自展式特征选择系统的结构框图。如 图4所示,根据本发明实施例的基于主题模型的自展式特征选择系统100,包括:获取模块 110、处理模块120和匹配模块130。
[0057] 其中,获取模块110用于获取原始评论数据。
[005引处理模块120用于选取主题模型,并根据主题模型对原始评论数据进行特征降维、 显式特征词和观点词的抽取,并根据显式特征词和观点词生成语义关联规则。
[0059] 具体地说,对于原始的产品评论(原始评论数据),语句中常常包含大量的无关噪 声和重复数据(如许多相互重复的信息W及和预测目标无关的无用信息),而运些信息会造 成最后模型参数的激增,使得模型训练变得更加困难。另一方面,产品评论(原始评论数据) 是一个樣合了多种语言形式的文本,例如网络流行语、网络用语缩写、网页链接和表情符号 等。有些数据类型明显与产品本身无关,因此需要对数据进行清洗和筛选,即在特征用于学 习之前,往往需要进行从高维特征空间到低维特征空间的映射,保留有用信息,从而降低模 型训练的复杂度,诸如网页链接、话题标签、位置信息W及重复的子句将被删除,网络流行 语及网络缩写在遍历了用语词典后仍找不到的提醒人工标准,表情符号W文字代替。
[0060] 在本发明的一个实施例中,主题模型例如为潜在的狄利克雷分布LDAdLDA作为一 个统计生成模型,自2003年提出W来,逐步成为具有多种应用场景的机器学习方法。其将文 本中词语进行统计映射到向量空间的方法十分符合高维特征空间到低维特征空间的转换, 同时该方法的统计特性也保证了其在离散数据(如文本)上的良好分析能力。同时,LDA能够 将词与词之间的语义关联W概率的形式表现出来,十分符合无监督观点挖掘对于文本语义 体现的需求,因此本发明的实施例选择LDA来进行数据处理和特征抽取。
[0061] 潜在的狄利克雷分布LDA是目前常见的特征降维方法,是一种层次的贝叶斯模型。 其主要思想是将计算出文本中每个词在预先设定好的主题下的概率,并通过阔值限定筛选 出有用的特征及过滤掉无用的噪声数据。
[0062] 基于此,处理模块120用于将原始评论数据的初始特征空间设置为空,并从原始评 论数据中挑选一个特征,并计算在特征下每个单词的条件概率,并设置一个阔值,W保留条 件概率大于阔值的单词,并滤除条件概率小于阔值的词汇,并重复执行上述过程,直至得到 足够维度的特征。
[0063] 其中,例如,设定原始评论数据中每个单词W都具有其唯一的主题Z,则原始评论数 据中每个词的优化目标化下式:
[0064]
[0065] 其中Z表示原始评论数据中每个词都对应的主题,W表示原始评论数据中的单词,0 表示满足Wa为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。也就是说,求解 有用的特征词的概率问题就转换成了求解文档~主题的分布和主题~词汇的分布的问题, 而运两个问题在给定文本集的前提下是可统计计算的,并在每个主题下将文本词汇按条件 概率排序。由此可W知道,本发明的实施例通过设定不同的阔值适当保留前若干个高概率 词汇,从而完成特征筛取和降维。
[0066] 在上述示例中,主题模型LDA之所W能够完成特征降维、特征抽取W及生成关联规 则运=个子任务的原因在于:运=个子任务都用到了单词的概率表现。运样,通过设定阔 值,可W将每个主题下出现概率低的词筛取掉,完成特征降维任务。同时,根据高概率的单 词抽取出特征词、观点词并W此进行关联得到语义关联规则。
[0067] 匹配模块130用于根据语义关联规则进行显式特征词和观点词的匹配,得到显式 特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链 式地形成特征词和观点词的关联规则,W完成观点挖掘。
[0068] 具体地说,从上文描述中可知,主题模型(如LDA)能够W统计概率的模式表现出词 与词之间的关联性。运一特性能够十分良好的挖掘出特征词和观点词。具体介绍如下:
[0069] 中文文本在进行词性标注之后,可根据词性选出候选特征词和观点词。特征词的 词性往往是名词或名词词组,如"屏幕"、"质量"等;观点词则往往是动词或形容词W及副 词,如"灵活"、"好看"、"适合妹子用"等。当将正确的产品特征和相关的观点词匹配好之后, 就完成了对该产品的观点挖掘。
[0070] 在本主题模型中,使用语义关联规则来实现产品特征和观点词的匹配。而语义关 联规则的挖掘则依赖于主题模型。当得到每个主题下单词的概率时,概率大的词表示该词 与主题语义关联紧密,概率低表示该词与该主题语义关联稀疏。由于主题模型的特性,我们 可W人工定义主题词作为特征种子词,再利用主题模型对文本语义的概率描述得到词与词 之间的语义关联。从特征种子词出发,结合特征词、观点词的特有词性及设定不同的阔值, 进行特征抽取和观点词筛选和匹配,从而完成观点挖掘。由于不同的语义文本在主题模型 的描述下关联性自然不同,运是由文本自身的特性形成的,即主题模型展现了文本内部自 身的关联性,通过极少的几个种子词作为起点,挖掘出特征词和相应的观点词。因此,运种 方法称为自展式的观点挖掘,即通过模型自身特性进行挖掘,而不需过多借助人工标定。
[0071] 进一步地,在本发明的一个实施例中,匹配模块130还用于获取隐式特征评论,并 根据显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间 的关联=者之间的传导性,将隐式特征评论中的观点词根据语义关联规则得到相匹配的特 征词。具体地说,特征词不直接出现在评论中的句子称为隐式评论,如:"媳妇挺喜欢用的, 就是不容易放进口袋",在运句关于手机的评论中,关于手机特性的特征词"大小"或"手机 尺寸"并没有出现,然而人们都可W看出运句评论是对手机大小进行了描述。被隐式特征描 述的特征就称为隐式特征。观点挖掘的质量很大一部分依赖于特征挖掘的优劣。在W往的 工作中,观点挖掘的研究者们往往关注显示特征评论,即特征直接出现在句子中的评论,的 选取,而忽略了隐式特征的评论。然而隐式特征平均占整体特征的20%-30%,对观点挖掘 结果有着不可忽视的影响。因此隐式特征评论的挖掘工作十分必要。通过自展式特征抽取, 我们已经得到了显式特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与 观点词之间的关联。则根据运S种关联的传导性,将隐式特征评论中的观点词根据关联规 则得到相匹配的特征词,则可完善观点挖掘的样本,提高观点挖掘效果。
[0072] 综上,根据本发明实施例的基于主题模型的自展式特征选择系统,采用LDA运种概 率生成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本 自身的特性出发得到挖掘结果,该系统能有效地抽取相关特征,擬弃无关特征和观点词,极 大减少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本, 提高观点挖掘效果。
[0073] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可W在任何 的一个或多个实施例或示例中W合适的方式结合。
[0074]尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可W理解:在不 脱离本发明的原理和宗旨的情况下可W对运些实施例进行多种变化、修改、替换和变型,本 发明的范围由权利要求及其等同限定。
【主权项】
1. 一种基于主题模型的自展式特征选择方法,其特征在于,包括以下步骤: SI:获取原始评论数据; S2:选取主题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征 词和观点词的抽取,并根据所述显式特征词和观点词生成语义关联规则;以及 S3:根据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与 特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成 特征词和观点词的关联规则,以完成观点挖掘。2. 根据权利要求1所述的基于主题模型的自展式特征选择方法,其特征在于,还包括: 获取隐式特征评论,并根据所述显示特征词与特征词之间的关联、特征词与观点词之 间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根 据所述语义关联规则得到相匹配的特征词。3. 根据权利要求1所述的基于主题模型的自展式特征选择方法,其特征在于,所述主题 模型为潜在的狄利克雷分布LDA。4. 根据权利要求3所述的基于主题模型的自展式特征选择方法,其特征在于,所述S2进 一步包括: S21:将所述原始评论数据的初始特征空间设置为空; S22:从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件概 率; S23:设置一个阈值,以保留条件概率大于所述阈值的单词,并滤除条件概率小于所述 阈值的词汇; S24:重复执行所述步骤S22至步骤S23,直至得到足够维度的特征。5. 根据权利要求4所述的基于主题模型的自展式特征选择方法,其特征在于,所述原始 评论数据中每个单词都具有其唯一的主题,则原始评论数据中每个词的优化目标如下式:其中z表示原始评论数据中每个单词都对应的主题,w表示原始评论数据中的单词,Θ表 示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。6. -种基于主题模型的自展式特征选择系统,其特征在于,包括: 获取模块,所述获取模块用于获取原始评论数据; 处理模块,所述处理模块用于选取主题模型,并根据所述主题模型对所述原始评论数 据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特征词和观点词生成语义 关联规则; 匹配模块,所述匹配模块用于根据所述语义关联规则进行所述显式特征词和观点词的 匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词 之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。7. 根据权利要求6所述的基于主题模型的自展式特征选择系统,其特征在于,所述匹配 模块还用于: 获取隐式特征评论,并根据所述显示特征词与特征词之间的关联、特征词与观点词之 间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根 据所述语义关联规则得到相匹配的特征词。8. 根据权利要求6所述的基于主题模型的自展式特征选择系统,其特征在于,所述主题 模型为潜在的狄利克雷分布LDA。9. 根据权利要求8所述的基于主题模型的自展式特征选择系统,其特征在于,所述处理 模块用于:将所述原始评论数据的初始特征空间设置为空,并从所述原始评论数据中挑选 一个特征,并计算在所述特征下每个单词的条件概率,并设置一个阈值,以保留条件概率大 于所述阈值的单词,并滤除条件概率小于所述阈值的词汇,并重复执行上述过程,直至得到 足够维度的特征。10. 根据权利要求9所述的基于主题模型的自展式特征选择系统,其特征在于,所述原 始评论数据中每个单词都具有其唯一的主题,则原始评论数据中每个词的优化目标如下 式:其中z表示原始评论数据中每个单词都对应的主题,w表示原始评论数据中的单词,Θ表 示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。
【文档编号】G06F17/30GK106021413SQ201610318849
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】徐华, 张帆, 孙晓民, 邓俊辉
【申请人】清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1