文本数据的数据处理方法及应用与流程

文档序号:15385562发布日期:2018-09-08 00:31阅读:876来源:国知局

本发明总体地涉及数据处理领域,特别是涉及用于基于文本数据的数据处理方法、数据处理装置和电子设备。



背景技术:

随着互联网技术的发展和普及,电子商务在人们日常生活和购物中所占的比重越来越大。在用户进行电子商务消费的过程中,会产生大量与产品相关的电子商务数据,例如,关于产品的评论数据。因此,针对如何通过对电子商务数据的数据挖掘,例如对电子商务数据进行情感信息挖掘,以更为全面地了解相关产品并进行产品优化和产业优化,已逐渐成为是当前科学研究的一个热点领域。

在电子商务数据挖掘方面应用了大量的算法,这些算法都发挥着重要的作用,其种不少算法的应用非常成功,应用领域也很广。但是,这些算法也在不同方面、例如鲁棒性、可预测性方面存在不足。

因此,需要改进的用于电子商务数据挖掘的数据处理方案。



技术实现要素:

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种数据处理方法、数据处理装置和电子设备,其基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。

根据本申请的一方面,提供了一种数据处理方法,包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。

在上述数据处理方法中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及,所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。

在上述数据处理方法中,以第一特征提取方法提取所述文本数据以获得第一特征数据的步骤,包括:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及选择所述词向量空间中与所述情感词语对应的情感词向量作为所述第一特征数据。

在上述数据处理方法中,在基于情感词典筛选出与所述情感词典匹配的情感词语的步骤之前包括:根据预设规则从开源资源中筛选出情感特征种子词;以及,基于所述情感特征种子词构建所述情感词典。

在上述数据处理方法中,基于所述情感特征种子词构建所述情感词典的步骤,包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词添加至所述情感词典;以及,减小k的值,并将与所述更新的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。

在上述数据处理方法中,以第二特征提取方法提取所述文本数据以获得第二特征数据的步骤包括:对所述文本数据进行分词;通过语言词典对所述文本数据中的每个词进行词频统计;去除所述文本数据中词频低于预定词频阈值的低频词;将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典;基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语;以及,将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。

在上述数据处理方法中,所述混合层位于所述混合神经网络模型的嵌入层和卷积层之间,所述混合层用于:接收所述第一特征数据和由所述嵌入层转换所述第二特征数据得到的向量化的第二特征数据,所述第一特征数据和所述向量化的第二特征数据对应的向量为其中ki表示经过第i个特征所提取得到的文本长度且是不确定值,m为高维映射的结果且是确定值;和,将所述第一特征数据和所述向量化的第二特征数据转换为混合后的词向量其中n表示特征个数。

在上述数据处理方法中,所述混合层位于所述混合神经网络模型的池化层和全连接层之间,所述混合层用于:结合经过池化操作之后所获得一维向量和所述多特征数据所对应的向量。

在上述数据处理方法中,所述文本数据是所述用户的电商网站的评论数据,所述评论数据包括评论信息和评论星级。

在上述数据处理方法中,所述数据处理方法,还包括:获取待挖掘的用户的电商网站的评论信息;以及,通过训练完成的所述混合卷积神经网络获得所述用户的情感信息。

根据本申请的另一方面,还提供一种数据处理装置,包括:文本数据获取单元,用于获取用户的文本数据;第一特征提取单元,用于以第一特征提取方法提取所述文本数据以获得第一特征数据;第二特征提取单元,用于以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,模型训练单元,用于以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。

在上述数据处理装置中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及,所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。

在上述数据处理装置中,所述第一特征提取单元用于:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及,基于所述词向量空间将所述情感词语转换为相应的情感词向量以作为所述第一特征数据。

在上述数据处理装置中,所述第一特征提取单元在基于情感词典筛选出与所述情感词典匹配的情感词语之前,进一步用于:根据预设规则从开源资源中筛选出情感特征种子词;以及,基于所述情感特征种子词构建所述情感词典。

在上述数据处理装置中,所述第一特征提取单元用于基于所述情感特征种子词构建所述情感词典的步骤,包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词添加至所述情感词典;以及,减小k的值,并将与所述更新的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。

在上述数据处理装置中,所述第二特征提取单元用于:对所述文本数据进行分词;通过语言词典对所述文本数据中的每个词进行词频统计;去除所述文本数据中词频低于预定词频阈值的低频词;将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典;基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语;以及,将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。

在上述数据处理装置中,所述混合层位于所述混合神经网络模型的嵌入层和卷积层之间,所述混合层用于:接收所述第一特征数据和由所述嵌入层转换所述第二特征数据得到的向量化的第二特征数据,所述第一特征数据和所述向量化的第二特征数据对应的向量为其中ki表示经过第i个特征所提取得到的文本长度且是不确定值,m为高维映射的结果且是确定值;以及,将所述第一特征数据和所述向量化的第二特征数据转换为混合后的词向量其中n表示特征个数。

在上述数据处理装置中,所述混合层位于所述混合神经网络模型的池化层和全连接层之间,所述混合层用于:拼接经过池化操作之后所获得一维向量。

在上述数据处理装置中,所述文本数据是所述用户的在电商网站的评论数据,所述评论数据包括评论信息和评论星级。

在上述数据处理装置中,所述文本数据获取单元用于获取待挖掘的所述用户的电商网站的评论数据;以及,所述混合卷积神经网络模型获得所述用户的情感信息。

根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的数据处理方法。

本申请提供的数据处理方法、数据处理装置和电子设备可以基于多特征数据对所述混合卷积神经网络模型进行训练,从而提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。

附图说明

从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:

图1图示了根据本申请实施例的数据处理方法的流程图。

图2图示了根据本申请实施例的数据处理方法中的卷积神经网络的示意图。

图3图示了根据本申请实施例的数据处理方法中的特征混合的示意图。

图4图示了根据本申请实施例的数据处理方法中处理三个以上特征的示意图。

图5图示了根据本申请实施例的数据处理装置的框图

图6图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面,将参考附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解本申请不受这里描述的示例实施例的限制。

申请概述

如上所述,大量数据挖掘算法应用于电子商务数据处理中。其一,是早期的无监督学习算法,其利用大量的先验词典和人工规则来进行数据挖掘,这类非方法严重依赖于人工经验和先验知识,不具有扩展性。其二,是传统的机器学习方法,例如,svm(supportvectormachine,支持向量机),贝叶斯分类器等方法。其三,是深度学习神经网络的方法。虽然,后两种方法尤其是深度学习神经网络的方法,取得了较为不错的效果,但是仍存在着方法复杂、鲁棒性差、过拟合严重等缺陷。特别地,在基于深度学习神经网络进行对电子商务数据的数据挖掘,例如在对电子商务数据进行情感信息挖掘的过程中,通常深度学习网络模型的结构复杂且不可调整。并且,往往仅通过单一的特征数据提取方法提取具有单一词法特征的特征数据对深度学习神经网络模型进行训练,这样的方式,导致该深度学习神经网络模型的有效性以及准确性难以保证。

基于上述技术问题,本申请的基本构思是通过多种特征提取方法提取不同词法特征的多特征数据。进而,将所述多特征数据混合于卷积神经网络(cnn,convolutionalneuralnetwork)模型,以得到混合卷积神经模型,从而藉由所述多特征数据对所述混合卷积神经网络模型进行训练。这里,基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。此外,所述混合卷积神经网络的模型结构不依赖于所述多特征数据中不同特征数据的相互之间的关联,而仅依赖于具体的不同特征提取方法。因此,所述多特征数据混合于所述混合卷积神经网络的方式可调整。

基于此,本申请提供了一种数据处理方法、数据处理装置和电子设备,其以第一特征提取方法提取所述文本数据以获得第一特征数据;并以第二特征提取方法提取所述文本数据以获得第二特征数据;进而,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型。这样,通过多特征数据训练所述混合卷积神经网络模型,以提高所述混合卷积神经网络模型的质量和优越性,提升其数据挖掘的可靠性和有效性。

需要说明的是,本申请的上述基本构思可以应用于处理各种用户的文本数据,而不限于用户的电子商务数据。也就是说,本申请可以应用于各种文本数据的数据处理系统。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

示意性方法

图1图示了根据本申请实施例的数据处理方法的流程图。如图1所示,根据本申请实施例的数据处理方法包括:s110,获取用户的文本数据;s120,以第一特征提取方法提取所述文本数据以获得第一特征数据;s130,以第二特征提取方法提取所述文本数据以获得第二特征数据,以及s140,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。

具体来说,在根据本申请实施例的数据处理方法中,所述文本数据可以是用户的电商网站的评论数据,所述混合卷积神经网络模型用于基于所述用户的电商网站的评论数据获得用户的情感信息。下面,将以此为示例说明根据本申请实施例的数据处理方法。

在步骤s110,获取用户的文本数据。例如,如上所述,所述用户的文本数据为所述用户的电商网站的评论数据,其包括评论信息和评价星际。在后续对所述混合卷积神经网络模型进行训练的过程中,所述评价信息作为训练预料,所述评价星际作为数据标签。换言之,在根据本申请实施例的数据处理方法中,所述混合卷积神经网络模型为有监督学习方法。

值得一提的是,在具体执行获取所述用户在电商网站的评价数据的步骤中,涉及到数据挖掘和数据筛选。特别地,数据挖掘工作可以由python工具完成,数据获取和整理可选择依靠html网页处理和python工具输入输出数据流的操作完成。为了排除恶意刷评等原因造成的评论信息和评论星级无法对应的情况,可辅助一定程度的附加数据筛选,以提高训练数据的有效性。

在步骤s120和步骤s130,以第一特征提取方法提取所述文本数据以获得第一特征数据,以及,以第二特征提取方法提取所述文本数据以获得第二特征数据。特别地,在根据本申请实施例的数据处理方法中,所述第一特征数据提取方法是用于提取所述文本数据的情感词特征的数据特征提取方法,以及,所述第二特征数据提取方法是用于提取所述文本数据的词频特征的特征提取方法。也就是说,在本申请的该实施例中,所述第一特征数据为情感词特征数据,以及所述第二特征数据为词频特征数据。

这里,在根据本申请实施例的数据处理方法中,所述第一特征数据通过第一特征数据提取方法所获取,所述第二特征数据通过第二特征数据提取方法所获取,其中,所述第一特征数据提取方法不同于所述第二特征数据提取方法,所述第一特征数据具有不同于所述第二特征数据的词法特征。通过这样的方式,在根据本申请实施例的数据处理方法中,可以通过多种特征提取方法从文本数据提取不同词法特征的多特征数据对混合卷积神经网络模型进行训练。这里,词法特征指的是基于文本、单词等所形成的特征,即仅涉及文本层面而不涉及语意或者概念层面的较浅层特征。

更具体地,在步骤s120,以用于提取情感词特征的第一特征提取方法提取所述文本数据以获得第一特征数据。首先,对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间。也就是说,在执行步骤s120的过程中,需对所述文本数据进行词向量转化。

特别地,在根据本申请实施例的数据处理方法中,对所述文本数据的词向量转化可通过如下方式执行:首先,对所述文本数据的每一词进行建模以获得每个词的高纬度表示,进一步,根据每个词的高维度表示方式和各词之间的衔接概率构建隐马尔可夫模型(hiddenmarkovmodel)以形成所述文本数据对应的词向量空间,其中,所述词向量空间的各点之间的距离表示不同词之间的语义联系。

在通过上述方法获得所述文本数据对应的词向量空间之后,进一步地,对所述文本数据进行分词,并基于情感词典筛选出所述文本数据的分词中与所述情感词典匹配的情感词语。最终,选择所述词向量空间中与所述情感词语对应的情感词向量作为所述第一特征数据,其中,所述第一特征数据为情感词特征数据。

这里,在筛选所述文本数据以获得所述文本数据情感词语的步骤中,需先构建所述情感词典。在根据本申请实施例的数据处理方法中,所述情感词典可基于如下方式进行构建:首先,根据预设规则从开源资源中筛选出情感特征种子词,进而基于所述情感特征种子词构建所述情感词典。特别地,在基于所述情感特征种子构建所述情感词典的过程中,需选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语,以所述k个候选词语作为更新的情感特征种子词并添加至所述情感词典。进一步地,减小k的值,并将与所述更新的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。

也就是说说,上述操作是每一次都对词典中的全部单词进行扩充,例如,假设原来有100个单词,k的初始值是5,那么第一轮扩充后,会加入最多500个单词(不重复情况下)。并且,例如,第二轮扩充时,k变成了4,此时将是对之前更新的600个单词进行扩充,以新加入的500个单词为基础,引入500*4=2000个新单词。这里需要说明的是,首先,在第二轮扩充时,距离原始单词最近的4个单词必定已经被扩充过,但是为了实现方便,仍采用上述更新方法。此外,经过两轮扩充后,实际每个单词扩充出了20个新单词,但并不一定是距离原始单词最近的20个,这是因为第二轮扩充是以第一轮更新后的结果为基础进行的。

在步骤s130,以用于提取词频特征的第二特征提取方法提取所述文本数据以获得第二特征数据。首先,对所述文本数据进行分词;进而,通过语言词典对所述文本数据中的每个词进行词频统计。进一步地,去除所述文本数据中词频低于预定词频阈值的低频词(包括零频词),并将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典。进一步地,基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语,并将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。

进一步地,在所述第一特征提取方法和所述第二特征提取方法分别提取第一特征数据和所述第二特征数据之后,执行步骤s140:以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。也就是说,在根据本申请实施例的数据处理方法中,以所述第一特征数据和所述第二特征数据混合组成的多特征数据训练所述混合卷积神经网络模型。

更具体地,在根据本申请实施例的数据处理方法中,除了所述混合层之外,所述混合卷积神经网络模型还包括嵌入层、卷积层、池化层和全连接层。特别地,在根据本申请实施例的数据处理方法中,所述混合层位于所述混合卷积神经网络的具体位置可调整,也就是说,所述混合卷积神经网络的结构具有可调整性,其中,对应于所述混合层位于所述混合卷积神经网络模型不同的位置,所述混合层混合所述第一特征数据和所述第二特征数据的方式将会产生相应的变化。

为了更为清晰地说明当所述混合层位于所述混合卷积神经网络模型不同的位置时的不同的多特征数据混合方式,在此之前,首先说明所述混合卷积神经网络的嵌入层、卷积层、池化层和全连接层。

与现有的卷积神经网络模型相似,所述嵌入层用于将词的文本数据转换为词向量形式,从而将句子转化为矩阵。所述卷积层用于进行局部特征提取,以进行特征学习。所述池化层用于特征筛选。所述全连接层用于将第一预设维度的向量转化为第二预设维度的向量。

图2图示了根据本申请实施例的数据处理方法中的卷积神经网络的示意图。如图2所示,所述嵌入层进一步包括输入层和转化层,其中,所述输入层标准化为长度固定的向量或者矩阵,特别地,在根据本申请实施例的数据处理方法中,为所述用户的电商平台的评论信息的向量形式或矩阵形式。所述转化层是为了进行归一化格式需要而设定,其功能是将词向量转化为矩阵,其具体操作是针对词向量的每个值,将它转化为一个向量进而实现向量对矩阵的转化。例如,假设词向量中最大的值为n,输出的词向量维度为m,则这一层内含一个n×m的矩阵,它将值i转化为这个矩阵的第i行输出。在大数据训练过程中,这一层面可利用模拟分布式词向量获取方法,通过不断的使用hmm模型以及相关的处理方法,得到符合要求的词向量获取手段。

所述卷积层的作用在于局部特征提取,更明确地说,通过卷积核进行局部特征提取,其中,设定卷积层的输出矩阵为s,则输出矩阵为s的每一行表示为:si=g(α·[vt:vt+h-1]+b),其中,α为卷积核,v为所述卷积层输入向量,g为激活函数,b为偏移量,t为卷积起始位置,h为卷积核的长度,si表示矩阵s的第i行,一般取t=i。

所述池化层的作用在于进一步地筛选特征,其中,在根据本申请实施例的数据处理方法中,所述池化层可采用平均值池化、最大值池化或以平均值池化和最大值池化结合的方式对所述卷积层所提取的局部特征进行进一步地筛选。

进一步地,在根据本申请实施例的数据处理方法中,所述混合层可被设置于所述混合卷积神经网络的所述卷积层和所述嵌入层之间,或者被设置于所述混合神经网络模型的池化层和全连接层之间,用于以特定的方式融合所述第一特征数据和所述第二特征数据至所述混合卷积神经网络模型。按照数据输入输出的关系来说,根据所述混合层与所述卷积层之间的相对位置关系,将所述混合层被设置于所述混合卷积神经网络的所述卷积层之前的所述混合卷积神经网络模型定义为前向混合卷积神经网络模型,其对应的多特征数据混合方法为前向混合方法。相对应地,将所述混合层被设置于所述混合卷积神经网络的所述卷积层之后的所述混合卷积神经网络模型定义为后向混合卷积神经网络模型,其对应的多特征数据混合方法为后向混合方法。

更具体地说,在前向混合卷积神经网络模型中,所述混合层首先接收所述第一特征数据和由所述嵌入层转换所述第二特征数据得到的向量化的第二特征数据。所述第一特征数据和所述向量化的第二特征数据对应的向量为其中ki表示经过第i个特征所提取得到的文本长度且是不确定值,m为高维映射的结果且是确定值,且r表示向量空间。进一步地,所述混合层将所述第一特征数据和所述向量化的第二特征数据转换为混合后的词向量其中n表示特征个数。也就是说,所述混合层进行了矩阵的拼接。

也就是说,所述前向混合方法,包括接收所述第一特征数据和由所述嵌入层转换所述第二特征数据得到的向量化的第二特征数据,所述第一特征数据和所述向量化的第二特征数据对应的向量为其中ki表示经过第i个特征所提取得到的文本长度且是不确定值,m为高维映射的结果且是确定值;和将所述第一特征数据和所述向量化的第二特征数据转换为混合后的词向量其中n表示特征个数。

相应地,在后向混合卷积神经网络模型中,所述混合层拼接经过池化操作之后所获得的一维向量,以获得混合后的向量。

也就是说,所述后向混合方法,包括拼接经过池化操作之后所获得的一维向量。

藉此,应充分理解所述混合卷积神经网络模型的结构可调整性,即,所述混合层于所述混合卷积神经网络模型的位置可调整,以获得所述前向混合卷积神经网络模型或所述后向混合卷积神经网络模型。其中,所述前向混合卷积神经网络模型和所述后向卷积神经网络模型皆可用以解决根据本申请实施例的数据处理方法中所涉及的基于所述用户在电商网站的评论数据进行情感信息挖掘,两者的选择取决于具体情况。

值得一提的是,在根据本申请实施例的数据处理方法中,所述混合卷积神经网络模型的结构可调整性不依赖于多特征之间彼此的关系(即,所述第一特征数据和所述第二特征数据之间的关系),而仅依赖于具体的特征提取方法(即,所述第一特征数据提取方法和所述第二特征数据提取方法)。其算法原理证明如下:

假设对于两种基于词法特征的特征选择词向量结果为:[a1,a2…ak,b1,b2…,bk′],其中,a=[a1,a2,…ak]是被第一个特征选择系统选择的词向量结果,b=[b1,b2,…bk′]是被第二个特征选择系统选择的词向量结果,通过全连接层得到最后的输出。那么,此过程等价于

ypre=vh=∑t≤khtat+∑p>khpbp,

其中,h表示全连接层的矩阵,h=[h1,h2,…hk,hk+1,…hk+k′]。

对于cnn网络,引入损失函数为

l=(ytrue-ypre)2

推导出

因此,根据上述推导可以看出所述混合卷积神经网络模型的结构是依赖于所述多特征数据的彼此关系,而仅仅依赖于具体的特征提取的方法。因此,所述混合卷积神经网络模型的结构可调整,即,所述混合层的位置可变性在此条件下可以保证。

图3图示了根据本申请实施例的数据处理方法中的特征混合的示意图。如图3所示,用户的评论文本分别经历词频筛选和情感词词向量转换。其中,如上所述,经过词频筛选之后的文本数据经过高维映射转换为词向量,并进入卷积网络。另外,通过种子情感词典构成语料库,以进行情感词词向量转换,然后进入卷积网络。图3的实线示出了后向混合方法,即在通过卷积网络之后在全连接层之前进行混合。另一方面,图3的虚线示出了前向混合方法,即将获得的词频特征和情感词特征进行混合,再进入卷积网络。

进一步地,在通过如上所述的数据处理方法训练得到所述混合卷积神经网络模型之后,可输入相应地待挖掘的电商网站的评论信息,以通过训练完成的所述混合卷积神经网络获得用户的情感信息。这里,所述混合卷积神经网络模型通过多特征数据进行训练,以使得提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性,并且,最终获得的所述用户的情感信息具有相对更高的可靠性和可预测性。

相应地,在本申请的该实施例中,所述数据处理方法还包括:获取待挖掘的用户的电商网站的评论信息;和通过训练完成的所述混合卷积神经网络获得所述用户的情感信息。

此外,还值得一提的是,在根据本申请实施例的数据处理方法中,所述混合卷积神经网络模型具有可扩展性。即,在根据本申请实施例的数据处理方法中,还可引入第三特征数据提取方法以获得第三特征数据,其中,所述第三特征数据与所述第一特征数据和所述第二特征数据具有不同的词法特征。例如,在具体实施方案中,所述第三特征数据包括语义概念特征数据或评级对象主题特征数据等,对此,本发明实施例不进行任何限制。

图4图示了根据本申请实施例的数据处理方法中处理三个以上特征的示意图。如图4所示,评论文本经过特征提取器1、特征提取器2、…、特征提取器k进行特征提取以获得多个特征数据。其中,例如,特征提取器2提取的数据需要进行高维映射以获得词向量。然后,多个特征数据进行卷积神经网络1到k,并在全连接层之前进行混合,最后输出。

这里,应该理解的是,虽然在上文中,以所述混合卷积神经网络模型用于基于所述用户在电商网站的评论数据进行情感信息挖掘为示例。但是,本领域技术人员可以理解,根据本申请实施例的数据处理方法可以应用于其他文本信息的数据挖掘中。本申请并不意在对此进行任何限制。

示意性装置

图5图示了根据本申请实施例的数据处理装置的框图。

如图5所示,根据本申请实施例的数据处理装置200包括:文本数据获取单元210,用于获取用户的文本数据;第一特征提取单元220,用于以第一特征提取方法提取所述文本数据获取单元210所获取的文本数据以获得第一特征数据;第二特征提取单元230,用于以第二特征提取方法提取所述文本数据获取单元210所获取的文本数据以获得第二特征数据;以及,模型训练单元240,用于以所述第一特征提取单元220所获得的第一特征数据和所述第二特征提取单元230所获得的第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。

在一个示例中,在上述数据处理装置200中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及,所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。

在一个示例中,在上述数据处理装置200中,所述第一特征提取单元220用于:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及,基于所述词向量空间将所述情感词语转换为相应的情感词向量以作为所述第一特征数据。

在一个示例中,在上述数据处理装置200中,所述第一特征提取单元220在基于情感词典筛选出与所述情感词典匹配的情感词语之前,进一步用于:根据预设规则从开源资源中筛选出情感特征种子词;以及,基于所述情感特征种子词构建所述情感词典。

在一个示例中,在上述数据处理装置200中,所述第一特征提取单元220基于所述情感特征种子词构建所述情感词典包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词并添加至所述情感词典;以及,减小k的值,并将与所述情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。

在一个示例中,在上述数据处理装置200中,所述第二特征提取单元230用于:对所述文本数据进行分词;通过语言词典对所述文本数据中的每个词进行词频统计;去除所述文本数据中词频低于预定词频阈值的低频词;将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典;基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语;以及,将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。

在一个示例中,在上述数据处理装置200中,所述混合层位于所述混合神经网络模型的嵌入层和卷积层之间,所述混合层用于:接收所述第一特征数据和由所述嵌入层转换所述第二特征数据得到的向量化的第二特征数据,所述第一特征数据和所述向量化的第二特征数据对应的向量为其中ki表示经过第i个特征所提取得到的文本长度且是不确定值,m为高维映射的结果且是确定值;以及,将所述第一特征数据和所述向量化的第二特征数据转换为混合后的词向量其中n表示特征个数。

在一个示例中,在上述数据处理装置200中,所述混合层位于所述混合神经网络模型的池化层和全连接层之间,所述混合层用于:结合经过池化操作之后所获得一维向量和所述多特征数据所对应的向量。

在一个示例中,在上述数据处理装置200中,所述文本数据是所述用户的电商网站的评论数据,所述评论数据包括评论信息和评论星级。

在一个示例中,在上述数据处理装置200中,所述文本数据获取单元210用于获取待挖掘的所述用户的电商网站的评论数据;以及,所述混合卷积神经网络模型获得所述用户的情感信息。

这里,本领域技术人员可以理解,上述数据处理装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图4描述的数据处理方法中详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的数据处理装置可以实现在各种终端设备中,例如用于用户数据挖掘的服务器。在一个示例中,根据本申请实施例的数据处理装置可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该数据处理装置可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该数据处理装置同样可以是该终端设备的众多硬件模块之一。

替换地,在另一示例中,该数据处理装置与该终端设备也可以是分立的设备,并且该数据处理装置可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

示意性电子设备

下面,参考图6来描述根据本申请实施例的电子设备。

图6图示了根据本申请实施例的电子设备的框图。

如图6所示,电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的数据处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如用户在电商网站的评论数据等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如,该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息,包括用户的情感信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

示意性计算机程序产品

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1