基于组合特征向量和深度学习的情感分类方法及装置的制造方法

文档序号:10570067阅读:430来源:国知局
基于组合特征向量和深度学习的情感分类方法及装置的制造方法
【专利摘要】本发明公开了一种基于组合特征向量和深度学习的情感分类方法及装置,包括以下步骤:从互联网上获取多条评论文本;对多条评论文本进行分词,划分出各个子成分词;获取句子的词法特征;提取每条评论文本的句法特征;根据词法特征和句法特征得到每条用户评论文本的组合特征向量;根据组合特征向量训练深度学习模型,进而通过深度学习模型得到最佳的分类结果。该方法可以通过组合特征向量和深度学习对评论文本进行情感分类,从而得到最佳的分类结果,提高了分类精度,更好地识别出文本中用户的情感倾向,简单便捷。
【专利说明】
基于组合特征向量和深度学习的情感分类方法及装置
技术领域
[0001]本发明涉及计算机与互联网技术领域,特别涉及一种基于组合特征向量和深度学习的情感分类方法及装置。
【背景技术】
[0002]随着网络与Web 2.0的不断发展,电子商务已经成为了人们日常生活中不可或缺的购物重要渠道。在电商网站上,买家可以对所购买的物品做出评论,表达自己的看法和满意程度,而这些评论往往含有情感因素,包含着购买者的态度。通过对用户发布的购买评论进行分析,从而可以分类出用户的情感倾向。各个电商公司也都充分认识到这部分数据信息的重要价值,努力去更准确有效的获取从而为今后的决策提供数据支持。但是,电商平台的交易量每一日都可以达到数以万计,从而产生的评论信息的庞大数量,也是人工很难可以及时有效处理的,且费时费力。

【发明内容】

[0003]本申请是基于发明人对一下问题的认识和发现作出的:
[0004]基于组合特征向量和深度学习的情感分类方法具有的主要特点为分类精度高。深度学习框架的引入提高了对句子特征的学习能力,使得分类准确率达到了一个更高的水准。
[0005]但是,为了实现基于组合特征向量和深度学习的情感分类,需要解决的主题难题为用深度学习框架进行分类获得结果
[0006]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本发明的一个目的在于提出一种基于组合特征向量和深度学习的情感分类方法,该方法可以提高分类精度,更好地识别文本中的情感倾向。
[0008]本发明的另一个目的在于提出一种基于组合特征向量和深度学习的情感分类装置。
[0009]为达到上述目的,本发明一方面实施例提出了一种基于组合特征向量和深度学习的情感分类方法,包括以下步骤:从互联网上获取多条评论文本;对所述多条评论文本进行分词,划分出各个子成分词;获取句子的词法特征;提取每条评论文本的句法特征;根据所述词法特征和所述句法特征得到每条用户评论文本的组合特征向量;根据所述组合特征向量训练深度学习模型,进而通过所述深度学习模型得到最佳的分类结果。
[0010]本发明实施例的基于组合特征向量和深度学习的情感分类方法,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量和深度学习得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
[0011]另外,根据本发明上述实施例的基于组合特征向量和深度学习的情感分类方法还可以具有以下附加的技术特征:
[0012]进一步地,在本发明的一个实施例中,所述词法特征的提取方式为:将所述各个子成分词转换为对应的词向量;根据各个子成分词对应的词向量得到所述词法特征。
[0013]进一步地,在本发明的一个实施例中,所述句法特征的提取方式为:通过依存句法分析结果获取句子中所有的词语搭配关系;判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。
[0014]进一步地,在本发明的一个实施例中,所述组合特征向量的获取方式为:提取选中的句法关系中链接的词;将所述选中的句法关系中链接的词用词向量代替表示,并进行排序整合,以得到所述组合特征向量。
[0015]进一步地,在本发明的一个实施例中,所述根据所述组合特征向量训练深度学习模型,进而通过所述深度学习模型得到最佳的分类结果,进一步包括:将所述每条评分文本划分为积极情绪或者消极情绪。
[0016]为达到上述目的,本发明另一方面实施例提出了一种基于组合特征向量和深度学习的情感分类装置,包括:数据获取模块,用于从互联网上获取多条评论文本;文本处理模块,用于对所述多条评论文本进行分词,划分出各个子成分词;词法获取模块,用于获取句子的词法特征;特征提取模块,用于提取每条评论文本的句法特征;特征结合模块,用于根据所述词法特征和所述句法特征得到每条用户评论文本的组合特征向量;分类模块,用于根据所述组合特征向量训练深度学习模型,进而通过所述深度学习模型得到最佳的分类结果O
[0017]本发明实施例的基于组合特征向量和深度学习的情感分类装置,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量和深度学习得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
[0018]另外,根据本发明上述实施例的基于组合特征向量和深度学习的情感分类装置还可以具有以下附加的技术特征:
[0019]进一步地,在本发明的一个实施例中,所述文本处理模块进一步用于:将所述各个子成分词转换为对应的词向量;根据各个子成分词对应的词向量得到所述词法特征。
[0020]进一步地,在本发明的一个实施例中,所述特征提取模块进一步用于:通过依存句法分析结果获取句子中所有的词语搭配关系;判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。
[0021]进一步地,在本发明的一个实施例中,所述特征结合模块进一步用于:提取选中的句法关系中链接的词;将所述选中的句法关系中链接的词用词向量代替表示,并进行排序整合,以得到所述组合特征向量。
[0022]进一步地,在本发明的一个实施例中,所述分类模块进一步用于:将所述每条评分文本划分为积极情绪或者消极情绪。
[0023]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0024]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0025]图1为根据本发明实施例的基于组合特征向量和深度学习的情感分类方法的流程图;
[0026]图2为根据本发明一个实施例的基于组合特征向量和深度学习的情感分类方法的流程图;
[0027]图3为根据本发明一个实施例的基于组合特征向量和深度学习的情感分类装置的结构示意图。
【具体实施方式】
[0028]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0029]下面参照附图描述根据本发明实施例提出的基于组合特征向量和深度学习的情感分类方法及装置,首先将参照附图描述根据本发明实施例提出的基于组合特征向量和深度学习的情感分类方法。
[0030]图1是本发明实施例的基于组合特征向量和深度学习的情感分类方法的流程图。
[0031]如图1所示,该基于组合特征向量和深度学习的情感分类方法包括以下步骤:
[0032]在步骤SlOl中,从互联网上获取多条评论文本。
[0033]在步骤S102中,对多条评论文本进行分词,划分出各个子成分词。
[0034]在步骤S103中,获取句子的词法特征。
[0035]需要说明的是,上述划分子成分词为后续获取词法特征和句法特征两项步骤的基础工作。
[0036]其中,在本发明的一个实施例中,词法特征的提取方式为:将各个子成分词转换为对应的词向量;根据各个子成分词对应的词向量得到词法特征。
[0037]具体地,在获取分类特征前,需要先对句子进行分词处理,划分出各个子成分词。本发明实施例可以使用中科院ICTCLAS分词系统进行分词,并标定词性。
[0038]对分词后的结果可以使用Word2VeC进行词的向量化,将每一个子成分词转化为一个对应的一维向量,并按照顺序编号。由此获得了句子的词性特征。
[0039]在步骤S104中,提取每条评论文本的句法特征。
[0040]其中,在本发明的一个实施例中,句法特征的提取方式为:通过依存句法分析结果获取句子中所有的词语搭配关系;判断词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。
[0041 ]本发明实施例可以采用Stanford parser句法分析器获得语句的依存句法分析结果。在依存句法分析结果中,包含了该句子中所有的词语搭配关系。通过判断关系中链接的两个词是否对情感分类会产生影响,来提取对情感分类有价值的句法特征关系。经过仔细的筛选和实验效果的对比后,选出一组最佳的句法特征来进行后续的分类工作。
[0042]在步骤S105中,根据词法特征和句法特征得到每条用户评论文本的组合特征向量。
[0043]其中,在本发明的一个实施例中,组合特征向量的获取方式为:提取选中的句法关系中链接的词;将选中的句法关系中链接的词用词向量代替表示,并进行排序整合,以得到组合特征向量。
[0044]具体地,在分别获得了词法和句法特征后,需要将其结合在一起作为分类的特征向量。组合的特征向量需要能够代表这一条评论的情感信息,并且要符合向量组的形式来通过深度学习框架进行分类。当前两个子特征的形式为:词-词向量,句法结构-词。句法是词的搭配关系,而词法关系又以词向量的形式体现,因而这个层次化的符合形式就应运而生:将选中的句法关系中连接的词提取出来,并用词向量代替表示,之后排序整合。
[0045]在步骤S106中,根据组合特征向量训练深度学习模型,进而通过深度学习模型得到最佳的分类结果。
[0046]另外,在本发明的一个实施例中,根据组合特征向量训练深度学习模型,进而通过深度学习模型得到最佳的分类结果,进一步包括:将每条评分文本划分为积极情绪或者消极情绪。
[0047]具体地,深度学习是一种在广受研究关注的机器学习模型。深度学习的方法通过构建多层次的特征来深入的学习对象的特点,进而在分类问题上获得更高的分类准确率。
[0048]本发明实施例使用的深度学习模型可以是Google发布的开源工具TensorFlOW。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统,被广泛应用于多个领域。本发明实施例将其应用于自然语言处理中的情感分类问题上,借助其优秀的特征学习和能力,结合提取出含有结构化信息的组合向量,使得情感分类在效率上达到了更高的水准。
[0049]具体而言,在本发明的实施例中,如图2所示,本发明实施例的核心技术在给定的电商评论文本中,利用一个如图所示的情感分类体系,分别提取句子的词法特征和句法特征并设计算法将其结合,得到组合特征向量并通过深度学习(Deep Learning)框架来对电商评论文本进行情感分类,将每条评论发出者的情感倾向划分为积极情绪和消极情绪。
[0050]下面参照附图2所示,对本发明实施例的基于组合特征向量和深度学习的情感分类方法的原理进行详细描述。
[0051]本发明实施例的主要目的是从电商评论文本中分析出情感倾向。本发明的主要内容是提出了一套基于词法和句法组合特征向量和深度学习框架TensorFlow的情感分类方法。即:针对互联网上的基于电商平台买家评论文本的情感分类问题,提出了词法特征提取、句法特征提取、特征向量结合和分类器训练等方法。如图2所示,包括以下步骤:
[0052]SI,数据文本获取和处理。
[0053]数据文本来源可以为电商网站,从中获取购买者的评论信息,例如数据可以来源于亚马逊网站。根据网站提供的评论分级,对爬取的文本做初始标定,一星级的评论标定为消极情绪(-1),五星级的标为积极(+1),用于深度学习分类时的学习部分。
[0054]完成获取和标定后对句子进行分词处理。使用的分词工具可以为ICTCLAS,ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言。其速度快精度高,是现在世界上最好的汉语词法分析器,从而最大程度的保证了对文本的预处理效果,为后续的处理打下好的基础。
[0055]S2,特征抽取。
[0056]在分词预处理之后的文本基础上,特征抽取分两部分进行,分别抽取词法和句法特征。
[0057]在词法特征的抽取上,通过Word2VeC将词转化为词向量的形式,表示词的个体和关联特征。通过Word2vec获取每个中文词对应的一维词向量,S卩文本的词法特征表示。
[0058]另一部分,句法特征的提取可以借助于斯坦福大学开发的句法分析器StanfordParser。从句法分析结果中给出的句子中词与词之间的搭配关系中提取有价值的句法结构作为评论的句法特征。其中,可以人工的从分析结果中的近20种关系中提取出了7个作为情感分类的句法特征。通过这样的方法,在这一部分提取出了句法特征。
[0059]S3,特征结合。
[0060]词法特征和句法特征都提取出后,通过上述的思路和方法去进行特征向量的结合。结合算法可以由Py thon语言编写实现,在Py thon2.7下运行。
[0061 ] S4,深度学习分类。
[0062]获得完整的特征向量文件后,需要对其进行整合和预处理。在输入的待分类文件每行第一个位置标出本行信息的真实分类结果(+ 1或-1)用于学习过程和对分类结果的准确率计算。这部分后续文件处理的程序依然由Python语言编程实现。除去以上分类模型的要求外,还需对空行(不含有符合7个有效句法特征的评论)进行清除,防止对分类效果的噪声干扰。经过以上处理后,就得到了可以进行分类处理的特征向量文件。
[0063]深度学习作为一个机器学习模型,其工作过程分为两部分:学习(Learn)和分类(Classify)。因此将特征向量文件按比例划分为两部分,学习文件和分类文件。本发明使用的深度学习模型TensorFlow是由Google提供的开源程序,支持在Linux环境下运行。第一步运行学习程序,以学习文件作为输入,计算特征参数。运行会生成对应学习得到的mode I文件,即从特征向量中学习到的分类特征和参数。第二步运行分类程序,以分类文件和第一步中得到的model文件作为输入,得到输出的分类预测结果文件。至此完成了全部情感分类方法。
[0064]根据本发明实施例的基于组合特征向量和深度学习的情感分类方法,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量和深度学习得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
[0065]其次参照附图描述根据本发明实施例提出的基于组合特征向量和深度学习的情感分类装置。
[0066]图3是本发明实施例的基于组合特征向量和深度学习的情感分类装置的结构示意图。
[0067]如图3所示,该基于组合特征向量和深度学习的情感分类装置10包括:数据获取模块100、文本处理模块200、词法获取模块300、特征提取模块400、特征结合模块500和分类模块600 0
[0068]其中,数据获取模块100用于从互联网上获取多条评论文本。文本处理模块200用于对多条评论文本进行分词,划分出各个子成分词。词法获取模块300用于获取句子的词法特征。特征提取模块400用于提取每条评论文本的句法特征。特征结合模块500用于根据词法特征和句法特征得到每条用户评论文本的组合特征向量。分类模块600用于根据组合特征向量训练深度学习模型,进而通过深度学习模型得到最佳的分类结果。本发明实施例的装置10可以通过组合特征向量和深度学习对评论文本进行情感分类,从而得到最佳的分类结果,提高了分类精度,更好地识别出文本中用户的情感倾向,简单便捷。
[0069]进一步地,在本发明的一个实施例中,文本处理模块200进一步用于:将各个子成分词转换为对应的词向量;根据各个子成分词对应的词向量得到词法特征。
[°07°]进一步地,在本发明的一个实施例中,特征提取模块400进一步用于:通过依存句法分析结获取句子中所有的词语搭配关系;判断词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。
[007? ]进一步地,在本发明的一个实施例中,特征结合模块500进一步用于:提取选中的句法关系中链接的词;将选中的句法关系中链接的词用词向量代替表示,并进行排序整合,以得到组合特征向量。
[0072]进一步地,在本发明的一个实施例中,分类模块600进一步用于:将每条评分文本划分为积极情绪或者消极情绪。
[0073]需要说明的是,前述对基于组合特征向量和深度学习的情感分类方法实施例的解释说明也适用于该实施例的基于组合特征向量和深度学习的情感分类装置,此处不再赘述。
[0074]根据本发明实施例的基于组合特征向量和深度学习的情感分类装置,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量和深度学习得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
[0075]在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0076]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0077]在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0078]在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
[0079]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0080]尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1.一种基于组合特征向量和深度学习的情感分类方法,其特征在于,包括以下步骤: 从互联网上获取多条评论文本; 对所述多条评论文本进行分词,划分出各个子成分词; 获取句子的词法特征; 提取每条评论文本的句法特征; 根据所述词法特征和所述句法特征得到每条用户评论文本的组合特征向量;以及 根据所述组合特征向量训练深度学习模型,进而通过所述深度学习模型得到最佳的分类结果。2.根据权利要求1所述的基于组合特征向量和深度学习的情感分类方法,其特征在于,所述词法特征的提取方式为: 将所述各个子成分词转换为对应的词向量; 根据各个子成分词对应的词向量得到所述词法特征。3.根据权利要求2所述的基于组合特征向量和深度学习的情感分类方法,其特征在于,所述句法特征的提取方式为: 通过依存句法分析结果获取句子中所有的词语搭配关系; 判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。4.根据权利要求3所述的基于组合特征向量和深度学习的情感分类方法,其特征在于,所述组合特征向量的获取方式为: 提取选中的句法关系中链接的词; 将所述选中的句法关系中链接的词用词向量代替表示,并进行排序整合,以得到所述组合特征向量。5.根据权利要求1所述的基于组合特征向量和深度学习的情感分类方法,其特征在于,所述根据所述组合特征向量训练深度学习模型,进而通过所述深度学习模型得到最佳的分类结果,进一步包括: 将所述每条评分文本划分为积极情绪或者消极情绪。6.一种基于组合特征向量和深度学习的情感分类装置,其特征在于,包括: 数据获取模块,用于从互联网上获取多条评论文本; 文本处理模块,用于对所述多条评论文本进行分词,划分出各个子成分词; 词法获取模块,用于获取句子的词法特征; 特征提取模块,用于提取每条评论文本的句法特征; 特征结合模块,用于根据所述词法特征和所述句法特征得到每条用户评论文本的组合特征向量;以及 分类模块,用于根据所述组合特征向量训练深度学习模型,进而通过所述深度学习模型得到最佳的分类结果。7.根据权利要求6所述的基于组合特征向量和深度学习的情感分类装置,其特征在于,所述文本处理模块进一步用于: 将所述各个子成分词转换为对应的词向量; 根据各个子成分词对应的词向量得到所述词法特征。8.根据权利要求7所述的基于组合特征向量和深度学习的情感分类装置,其特征在于,所述特征提取模块进一步用于: 通过依存句法分析结果获取句子中所有的词语搭配关系; 判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。9.根据权利要求8所述的基于组合特征向量和深度学习的情感分类装置,其特征在于,所述特征结合模块进一步用于: 提取选中的句法关系中链接的词; 将所述选中的句法关系中链接的词用词向量代替表示,并进行排序整合,以得到所述组合特征向量。10.根据权利要求6所述的基于组合特征向量和深度学习的情感分类装置,其特征在于,所述分类模块进一步用于: 将所述每条评分文本划分为积极情绪或者消极情绪。
【文档编号】G06F17/27GK105930503SQ201610302829
【公开日】2016年9月7日
【申请日】2016年5月9日
【发明人】徐华, 徐嘉帅, 孙晓民, 邓俊辉
【申请人】清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1