基于调查数据的决策的方法、装置、存储介质和终端设备与流程

文档序号:15981759发布日期:2018-11-17 00:24阅读:229来源:国知局

本发明涉及计算机技术领域,尤其涉及一种基于调查数据的决策方法、装置、存储介质和终端设备。

背景技术

互联网金融是传统金融与互联网技术相融合,并依托于大数据、云计算、人工智能等新技术来实现资金融通、支付和信息中介等业务的新兴金融业务。随着互联网金融业务的急剧扩张及金融创新产品的不断涌现,互联网金融暴露了大量的风险,主要包括:信用违约和欺诈风险、消费者权益被侵犯风险、资金流动风险等。因而,如何使用风险控制来解决互联网金融面临的风险、降低用户和企业的损失,是目前金融企业亟需解决的问题。但是,在欺诈手段多样化、网络欺诈黑色产业化、人力成本上升的背景下,现有的风险防控措施已难于满足精准化管理的需求。因此,迫切需要建立基于大数据处理技术的智能风险控制模型,形成定量标示和定性分析的风险防控模式,精准识别欺诈风险。

随着深度学习技术的迅速发展,神经网络模型已被广泛地应用在各种领域中,例如,在语音识别、图像识别、自然语言处理等,并取得了巨大的成功。深度学习具有自动提取特征的能力,无需人工设计复杂的特征,节省了大量的人力物力。而且,在金融风控方面,深度学习模型也得到了初步的尝试。

传统的金融风控控制模型为google公司提出的wide&deep模型(宽度模型与深度模型的联合)。如图1所示,wide&deep模型(位于图1中间的模型示意)是由wide模型(位于图1左侧的模型示意)和deep模型(位于图1右侧的模型)拼接而成的。对于生物的大脑来说,学习是一个不断记忆(memorization)和归纳或泛化(generalization)的过程。而wide&deep模型则是利用wide模型的记忆能力以及deep模型的归纳能力,融合两者的优势构建而成的模型。

其中,wide模型主要是学习输入数据的特征之间所具有的共性,是一个线性模型:y=wtx+b。y是wide模型的预测结果,x=[x1,x2,…,xd]是一个d维的特征向量,为模型的输入数据的特征。w=[w1,w2,…,wd]为wide模型的权重参数,b为偏置参数。wide模型的输入数据的特征包括:(1)连续值特征(continuousfeatures);例如,对于某个用户其收入为(income=20000),可以将数值20000作为收入的特征值。(2)类别特征(categoricalfeatures);例如,对于某个用户的性别(gender=‘男’),可以使用one-hot编码方式将该用户的性别特征表示成向量[0,1]。(3)交叉特征(crossedfeatures),也可称为组合特征;例如,某个用户的性别特征与职业特征为(gender=‘男’,occupation=‘律师'),将这组合特征作为一个整体,使用one-hot编码方式将该性别与职业所具有的特征表示成一个向量。

另一方面,deep模型主要是为了弥补wide模型泛化性能较差的缺陷。在wide模型中,如果遇到新的特征组合,而该特征组合不属于训练集中的特征组合(该特征组合在预义的词表中没有出现过)。其中,训练集中的特征组合包括wide模型的交叉特征。因此,该特征组合会使用one-hot编码方式表示为一个元素全为零的向量,无法作为wide模型中的一个有效的输入特征向量。但是,deep模型可以通过嵌入层(embeddinglayer)从该特征组合中抽取有效的特征。deep模型是一个前馈神经网络。首先,对于每一个类别特征,使用一个嵌入层,将其表示成一个低纬的稠密向量。然后,将这些稠密向量输入到前馈神经网络的隐藏层中进行非线性变换:

a(l+1)=f(w(l)a(l)+b(l))

其中,l为隐藏层的编号,f()是激活函数,例如,rel(rectifiedlinearunit,线性整流函数),a(l)、b(l)、w(l)分别为第l层激活后的数值(activations)、偏置以及权重。

考虑到wide模型具有较好的记忆能力、deep模型具有较好的泛化能力,传统的决策模型将两个模型进行结合为wide&deep模型。对于一个二分类问题,可以使用以下决策模型进行预测:

其中,y为二分类的类标,σ()为sigmoid函数,xwide为wide模型的输入数据的特征,为deep模型的最后一层隐藏层(第l层隐藏层)的输出。分别为wide模型的权重和deep模型应用在上的权重,b为决策模型的偏置项。

在wide&deep模型中,模型能够利用数据中的连续值特征、类别特征以及交叉特征以及对以上特征泛化后的特征进行决策。但是上述特征的提取均基于具有固定含义的数据,wide&deep模型无法利用非固定含义的数据进行模型分析。



技术实现要素:

本发明实施例提供一种基于调查数据的决策方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。

第一方面,本发明实施例提供了一种基于调查数据的决策方法,包括:

获取调查数据;所述调查数据包括描述调查过程的连续值特征、类别特征以及文本信息;

从所述文本信息中提取语义表示特征;

对所述连续值特征和所述类别特征进行组合处理,获得宽度模型输入特征;

对预处理后的连续值特征以及类别特征进行泛化处理,获得深度模型输出特征;以及

将所述语义表示特征、所述宽度模型输入特征和所述深度模型输出特征输入决策模型,获得所述调查数据的决策结果。

结合第一方面,在第一方面的第一种实施方式中,所述从所述文本信息中提取语义表示特征,包括:

对所述文本信息进行切词,获得有效词数组;

通过词嵌入层对所述有效词数组进行处理,获得文本矩阵;其中,所述有效词数组中包括一个或多个词向量,每个词向量表示一个词,所述文本矩阵的行向量或列向量包括所述词向量;以及

通过神经网络对所述文本矩阵进行卷积处理,获得语义表示特征。

结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,所述神经网络为卷积神经网络,所述通过神经网络对所述词向量进行卷积处理,获得语义表示特征,包括:

利用所述卷积神经网络的滤波器,对所述文本矩阵的各个子矩阵进行卷积操作,获得各个子矩阵对应的输出序列;

将各个子矩阵对应的输出序列输入激活函数中进行非线性变换,获得各个子矩阵的特征序列;

从各个子矩阵的特征序列中分别提取序列中的最大值,并依据子矩阵之间的排列顺序将提取到的数值进行向量拼接,获得所述语义表示特征。

结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述根据所述卷积神经网络的滤波器,对所述文本矩阵的各个子矩阵进行卷积操作,获得各个子矩阵对应的输出序列的计算公式,包括:

oi=w·ai[i:i+h-1]

其中,oi表示第i个子矩阵的输出序列;i=1…s-h+1,s表示所述文本矩阵包含词向量的数量,h表示所述子矩阵包含词向量的数量;所述第i个子矩阵由所述文本矩阵中的第i个词向量至第i+h-1个词向量构成,所述参数矩阵的行数与所述子矩阵的行数相同,所述参数矩阵的列数与所述子矩阵的行数相同;w表示所述滤波器的参数矩阵,ai[i:i+h-1]表示第i个子矩阵。

结合第一方面的第三种实施方式,在第一方面的第四种实施方式中,所述将各个子矩阵对应的输出序列输入激活函数中进行非线性变换,获得各个子矩阵的特征序列的计算公式,包括:

ci=f(oi+bcf)

其中,ci表示第i个子矩阵的特征序列,f()表示激活函数,bcf表示所述激活函数的偏置项。

结合第一方面的第一种实施方式,在第一方面的第五种实施方式中,所述神经网络为递归神经网络,所述通过神经网络对所述词向量进行卷积处理,获得语义表示特征,包括:

根据所述递归神经网络的输入门、忘记门、输出门以及记忆单元,按照所述文本矩阵中词向量的排列顺序逐个对词向量进行前向递归处理,获得前向隐状态序列;

从所述隐状态序列中获取语义表示特征。

结合第一方面的第一种实施方式,在第一方面的第六种实施方式中,所述神经网络为递归神经网络,所述通过神经网络对所述词向量进行卷积处理,获得语义表示特征,包括:

根据所述递归神经网络的输入门、忘记门、输出门以及记忆单元,按照所述文本矩阵中词向量的排列顺序逐个对词向量进行前向递归处理,获得前向隐状态序列;

根据所述递归神经网络的输入门、忘记门、输出门以及记忆单元,按照所述文本矩阵中词向量的排列顺序逐个对词向量进行后向递归处理,获得后向隐状态序列;

从所述前向隐状态序列和所述后向隐状态序列中获取语义表示特征。

结合第一方面的第五种或第六种实施方式,在第一方面的第七种实施方式中,所述获得前向隐状态序列的过程,包括:

it=σ(wi·[xt,ht-1]+bi)

ft=σ(wf·[xt,ht-1]+bf)

ot=σ(wo·[xt,ht-1]+bo)

ct=tanh(wc·[xt,ht-1]+bc)

ct=it⊙ct+ft⊙ct-1

ht=ot⊙tanh(ct)

其中ii、ft、ot、ct分别表示第t个词向量的输入门特征、忘记门特征、输出门特征以及记忆单元特征;wi、wf、wo、wc分别表示所述输入门、所述忘记门、所述输出门以及所述记忆单元的参数矩阵;bi、bf、bo、bc分别表示所述输入门、所述忘记门、所述输出门以及所述记忆单元的偏置项;t的初始值为1,t=1…s,s表示所述文本矩阵包含词向量的数量;xt表示所述文本矩阵的第t个词向量;ht-1表示所述前向隐状态序列中的第t-1个前向隐状态向量;[xt,ht-1]表示由第t个词向量与第t-1个前向隐状态向量拼接而成的矩阵;σ()表示sigmoid函数;⊙表示以向量元素为单位的相乘。

结合第一方面的第六种实施方式,在第一方面的第八种实施方式中,所述获得后向隐状态序列的过程,包括:

it-1=σ(wi·[xt-1,ht]+bi)

ft-1=σ(wf·[xt-1,ht]+bf)

ot-1=σ(wo·[xt-1,ht]+bo)

ct-1=tanh(wc·[xt-1,ht]+bc)

ct-1=it-1⊙ct-1+ft-1⊙ct

ht-1=ot-1⊙tanh(ct-1)

其中,it-1、ft-1、ot-1、ct-1分别表示第t-1个词向量的输入门特征、忘记门特征、输出门特征以及记忆单元特征;wi、wf、wo、wc分别表示所述输入门、所述忘记门、所述输出门以及所述记忆单元的参数矩阵;bi、bf、bo、bc分别表示所述输入门、所述忘记门、所述输出门以及所述记忆单元的偏置项;t初始值为s,t=1…s,s表示所述文本矩阵包含词向量的数量;xt-1表示所述文本矩阵的第t-1个词向量,ht表示所述后向隐状态序列中的第t个后向隐状态向量,[xt-1,ht]表示由第t-1个词向量与第t个后向隐状态向量拼接而成的矩阵;σ()表示sigmoid函数,⊙表示以向量元素为单位的相乘。

结合第一方面的第六种实施方式,在第一方面的第九种实施方式中,所述从所述前向隐状态序列和所述后向隐状态序列中获取语义表示特征,包括:

对所述前向隐状态序列和所述后向隐状态序列进行向量拼接;

从向量拼接后的隐状态序列中提取最后一个隐状态向量作为语义表示特征;或者,从向量拼接后的隐状态序列中的隐状态向量取均值作为语义表示特征。

结合第一方面,在第一方面的第十种实施方式中,其特征在于,还包括:

建立所述决策模型:

其中,p(y=1|x)表示所述决策模型的决策结果,σ()为sigmoid函数,xwide表示所述决策模型的宽度模型输入特征,表示所述决策模型的深度模型输出特征,r表示所述决策模型的语义表示特征,分别表示所述宽度模型输入特征、所述深度模型输出特征和所述语义表示特征的权重值,b表示所述决策模型的偏置项。

第二方面,本发明实施例提供一种基于调查数据的决策装置,包括:

数据获取模块,用于获取调查数据;所述调查数据包括描述调查过程的连续值特征、类别特征以及文本信息;

语义特征提取模块,用于从所述文本信息中提取语义表示特征;

宽度模型特征模块,用于对所述连续值特征和所述类别特征进行组合处理,获得宽度模型输入特征;

深度模块特征模块,用于对预处理后的连续值特征以及类别特征进行泛化处理,获得深度模型输出特征;以及

决策计算模块,用于将所述语义表示特征、所述宽度模型输入特征和所述深度模型输出特征输入决策模型,获得所述调查数据的决策结果。

结合第二方面,在第二方面的第一种实施方式中,所述语义特征提取模块,包括:

切词单元,用于对所述文本信息进行切词,获得有效词数组;

文本矩阵获取单元,用于通过词嵌入层对所述有效词数组进行处理,获得文本矩阵;其中,所述有效词数组中包括一个或多个词向量,每个词向量表示一个词,所述文本矩阵的行向量或列向量包括所述词向量;以及

卷积处理单元,用于通过神经网络对所述文本矩阵进行卷积处理,获得语义表示特征。

结合第二方面的第一种实施方式,在第二方面的第二种实施方式中,所述卷积处理单元,包括:

卷积滤波子单元,用于利用所述卷积神经网络的滤波器,对所述文本矩阵的各个子矩阵进行卷积操作,获得各个子矩阵对应的输出序列;

特征序列获取子单元,用于将各个子矩阵对应的输出序列输入激活函数中进行非线性变换,获得各个子矩阵的特征序列;

数值向量拼接子单元,用于从各个子矩阵的特征序列中分别提取序列中的最大值,并依据子矩阵之间的排列顺序将提取到的数值进行向量拼接,获得所述语义表示特征。

结合第二方面的第一种实施方式,在第二方面的第三种实施方式中,所述卷积处理单元,包括:

向前序列子单元,用于根据所述递归神经网络的输入门、忘记门、输出门以及记忆单元,按照所述文本矩阵中词向量的排列顺序逐个对词向量进行前向递归处理,获得前向隐状态序列;

序列提取子单元,用于从所述前向隐状态序列中获取语义表示特征。

所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中,基于调查数据的决策结构中包括处理器和存储器,所述存储器用于基于调查数据的决策装置执行上述第一方面中基于调查数据的决策程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述基于调查数据的决策装置还可以包括通信接口,用于基于调查数据的决策装置与其他设备或通信网络通信。

第三方面,本发明实施例还提供一种计算机可读存储介质,用于存储基于调查数据的决策装置所用的计算机软件指令,其中包括用于执行上述第一方面的基于调查数据的决策方法所涉及的程序。

上述技术方案中的任一个技术方案具有如下优点或有益效果:

本发明实施例从调查数据中分别获取连续值特征、类别特征以及文本信息。然后,从所述文本信息中提取语义表示特征、对连续值特征和类别特征进行组合处理以获得宽度模型输入特征、以及对预处理后的连续值特征以及类别特征进行泛化处理对获得深度模型输出特征。最后,将上述语义表示特征、宽度模型输入特征和深度模型输出特征输入到决策模型中计算,获得所述调查数据的决策结果。从而,不仅能够利用调查数据中的连续值特征、类别特征以及两者组合而成的组合特征来进行预测,还能够结合调查数据中的文本的语义特征进行有机地融合,用于模型的决策,有利于提高决策的准确度。

上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1是现有技术提供的决策模型的结构示意图;

图2是本发明提供的基于调查数据的决策方法的一个实施例的流程示意图;

图3是本发明提供的语义表示特征提取的方法的一个实施例的流程示意图;

图4是本发明提供的基于卷积神经网络的语义表示特征提取的方法的一个实施例的流程示意图;

图5是本发明提供的基于调查数据的决策装置的一个实施例的结构示意图;

图6是本发明实施例提供的基于调查数据的决策模型的一个应用实例的示意图;

图7是本发明提供的基于调查数据的决策方法应于保险调查与决策的一个应用实例的调查表格示图;

图8是本发明提供的包括基于卷积神经网络的语义表示模块的决策模型的一个实施例的框架图;

图9是本发明提供的包括基于长短期记忆神经网络的语义表示模块的决策模型的一个实施例的框架图;

图10是本发明提供的终端设备的一个实施例的结构示意图。

具体实施方式

在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。

请参阅图2,本发明实施例提供了一种基于调查数据的决策方法,可以应用于服务器。本实施例包括步骤s100至步骤s500,具体如下:

s100,获取调查数据;调查数据包括描述调查过程的连续值特征、类别特征以及文本信息。

在本实施例中,调查数据可以包括研究某一领域或某一应用功能的调查问卷的内容。调查问卷中可以包括但不限于1个或多个选择题、1个或多个问答题。连续值特征可以包括用户在选择题中选择的项所表示的数值或数值范围,例如:用户在调查问卷中选择其年龄为25岁,用户在调查问卷中选择其每月收入在12000~15000人民币之间等类似的固定数值、离散数值或连续数值。类别特征可以包括用户在选择题中选择的项所表示的某一个类别的特征,例如:用户在调查问卷中选择其性别为男性,用户在调查问卷中选择其职业为程序员或律师等。文本信息可以包括用户在调查问卷的问答题中回答的文本内容,该文本内容可以由用户输入或者用户通过预定义的文本内容选择性地输入。

s200,从文本信息中提取语义表示特征。

s300,对连续值特征和类别特征进行组合处理,获得宽度模型输入特征。

在本实施例中,可以先对调查数据中的连续值特征和类别特征进行预处理例如,对每一个特征均以一个对应的数值或向量表示。服务器可以预先设置或训练好宽度模型对输入的调查数据的特征的组合规则,然后根据组合规则对转换成数值或向量表示的特征进行选取或组合,获得多个输入特征。多个输入特征组合成一集合作为宽度模型输入特征,例如,以一个d维的向量表示,d表示集合中包括的输入特征的数量。

s400,对预处理后的连续值特征以及类别特征进行泛化处理,获得深度模型输出特征。

在本实施例中,深度模型包括多个隐藏层。类似上述步骤s300对连续值特征以及类别特征的预处理,例如,每一个特征均以一个对应的数值或向量表示。将转化后的数值或向量输入到深度模型的第一层隐藏层中,以及下一层隐藏层对上一层隐藏层输出的特征进行泛化处理,最后一层隐藏层输出的特征为深度模型输出特征。

s500,将语义表示特征、宽度模型输入特征和深度模型输出特征输入决策模型,获得调查数据的决策结果。

本发明实施例从调查数据中分别获取连续值特征、类别特征以及文本信息。然后,从所述文本信息中提取语义表示特征、对连续值特征和类别特征进行组合处理以获得宽度模型输入特征、以及对预处理后的连续值特征以及类别特征进行泛化处理对获得深度模型输出特征。最后,将上述语义表示特征、宽度模型输入特征和深度模型输出特征输入到决策模型中计算,获得所述调查数据的决策结果。从而,不仅能够利用调查数据中的连续值特征、类别特征以及两者组合而成的组合特征来进行预测,还能够结合调查数据中的文本的语义特征进行有机地融合,用于模型的决策,有利于提高决策的准确度。

在一种可能的实现方式中,如图3所示,上述步骤s200的实施过程可以包括:

s210,对文本信息进行切词,获得有效词数组。文体信息可以包括一个或多个句子,每个句子可以包括多个词。利用基本词典或预先设置的词典对每一个句子进行切词。其中,对于一个句子的有效词数组可以表示为:s={w1,w2,…,wn},n表示该句子包括的词的数量(文本长度)。有效词数组可以包括一个或多个句子,不限于一个句子。

s220,通过词嵌入层对有效词数组进行处理,获得文本矩阵;其中,所述有效词数组中包括一个或多个词向量,每个词向量表示一个词,所述文本矩阵的行向量或列向量包括所述词向量。例如,文本矩阵的每一个行向量均为一个词向量,或者,文本矩阵中的每一个列向量为一个词向量。在一个具体示例中,假设有效词数组为s={w1,w2,…,wn},词嵌入层将其表示为一个文本矩阵a={x1,x2,…,xn}。其中,wi文本句子中的第i个词,为词wi对应的词向量,词向量可以使用随机初始化或使用预训练的词向量算法生成。

s230,通过神经网络对文本矩阵进行卷积处理,获得语义表示特征。

在本发明实施例中,神经网络可以包括卷积神经网络(convolutionalneuralnetwork,cnn)、递归神经网络(recurrentneuralnetwork,rnn)、长短期记忆神经网络(long-shorttermmemory,lstm)或双向长短期记忆神经网络(bidirectionallong-shorttermmemory,bi-lstm)等中的一者或多者的结合。

在一种可能的实现方式中,神经网络采用普通的卷积神经网络cnn,如图4所示,上述步骤s230的一种实施过程可以包括:

s231,利用卷积神经网络的滤波器,对文本矩阵的各个子矩阵进行卷积操作,获得各个子矩阵对应的输出序列。

在本实施例中的自然语言处理中,对比图像的卷积操作,可以将文本矩阵当做一张图像,然后使用滤波器(filter)在其上进行卷积操作(convolution)。文本语言的表达存在内在顺序结构,且文本矩阵中每一行向量或列向量用于表示文本中的一个词。因而,可以使用“宽度”为词向量的维度dd的滤波器进行卷积操作。此外,可通过改变滤波器的“高度”得到得到不同类型的滤波器,用于处理包含不同个数的词的文本信息。以及可以将滤波器的高度称为滤波器的窗口大小。假设窗口大小为hh的滤波器的参数矩阵为ww,参数矩阵ww共包含h×dh个预先训练好的参数。在卷积操作中,可以利用同一个滤波器分别对文本矩阵的各个子矩阵分别进行卷积操作。其中,子矩阵包括hh个在文本矩阵中连续排列的词向量,每个词向量的维度为dd。

示例性地,对于第i个子矩阵ai[i:i+h-1],其滤波器卷积计算后获得的输出序列为:

oi=w·ai[i:i+h-1]

其中,oi表示第i个子矩阵的输出序列;i=1…s-h+1,s表示文本矩阵包含词向量的数量,h表示子矩阵中包含词向量的数量;第i个子矩阵由所述文本矩阵中的第i个词向量至第i+h-1个词向量构成,参数矩阵的行数与子矩阵的行数相同,参数矩阵的列数与子矩阵的行数相同;w表示滤波器的参数矩阵,ai[i:i+h-1]表示第i个子矩阵。

在本实施例中,词向量可以是文本矩阵中的行向量或列向量。

在获得每一个子矩阵的输出序列之后,可以为每一个输出序列加上一个偏置项

s232,将各个子矩阵对应的输出序列输入激活函数中进行非线性变换,获得各个子矩阵的特征序列。

示例性,对于第i个子矩阵ai[i:i+h-1]的输出序列oi,第i个子矩阵的特征序列featuremap为:

ci=f(oi+bcf)

其中,f()表示激活函数,bcf表示激活函数的偏置项。

在本实施例中,可以使用多个相同的窗口大小的滤波器从包含相同词数但文本内容不相同的文本中学习互补的特征信息,也可以使用不同窗口大小的滤波器从包含不同词数且文本内容不相同的文本中学习相应的特征信息。

在本实施例中,滤波器卷积后产生的特征序列featuremap的向量维度可以根据文本长度(词向量的数量)和滤波器窗口大小来设置。因而,在获得特征序featuremap之后,可以执行步骤s233来获得一个固定长度的语义表示特征,也称为语义向量表示。

s233,从各个子矩阵的特征序列中分别提取序列中的最大值,并依据子矩阵之间的排列顺序将提取到的数值进行向量拼接,获得语义表示特征。

在一种可能的实现方式中,上述步骤s230中可以采用长短期记忆神经网络lstm进行卷积,其是递归神经网络中的一种变形。上述步骤s230的实施方式可以包括:首先,根据递归神经网络的输入门、忘记门、输出门以及记忆单元,按照文本矩阵中词向量的排列顺序逐个对词向量进行前向递归处理,获得前向隐状态序列;然后,从隐状态序列中获取语义表示特征。

在本实施例中,通过长短期记忆神经网络lstm,可以获取文本信息中的前向的上下语义特征。具体地,对于第t个词向量,依次执行以下计算,最终获得第t个词向量的前向隐状态向量ht:

it=σ(wi·[xt,ht-1]+bi)

ft=σ(wf·[xt,ht-1]+bf)

ot=σ(wo·[xt,ht-1]+bo)

ct=tanh(wc·[xt,ht-1]+bc)

ct=it⊙ct+ft⊙ct-1

ht=ot⊙tanh(ct)

其中,ii、ft、ot、ct分别表示第t个词向量的输入门特征、忘记门特征、输出门特征以及记忆单元特征,分别表示为一个向量,向量中的每个元素的值可以在0至1之间取。wi、wf、wo、wc分别表示所述输入门、所述忘记门、所述输出门以及所述记忆单元的参数矩阵。bi、bf、bo、bc分别表示所述输入门、所述忘记门、所述输出门以及所述记忆单元的偏置项。t的初始值为1,t=1…s,s表示所述文本矩阵包含词向量的数量。xt表示所述文本矩阵的第t个词向量;ht-1表示所述前向隐状态序列中的第t-1个前向隐状态向量;[xt,ht-1]表示由第t个词向量与第t-1个前向隐状态向量拼接而成的矩阵。σ()表示sigmoid函数;⊙表示以向量元素为单位的相乘。对于初始迭代的前向隐状态向量h1通常采用元素全为零的向量。

在本实施例中,假设输入的文本矩阵为{x1,x2…xn,},则计算获得前向隐状态序列为{h1,h2…hn}。可以使用average-pooling的方法对隐状态序列进行计算,得到文本的语义表示特征或者,从前向隐状态序列为{h1,h2…hn}中提取最后一个隐状态作为文本的语义向量表示r=hn。

为了捕捉更多的上下语言信息,步骤s230还可以采用双向长短期记忆神经网络bi-lstm进行卷积,同时获取前向和后向的上下文信息。具体地:首先,根据递归神经网络的输入门、忘记门、输出门以及记忆单元,按照文本矩阵中词向量的排列顺序逐个对词向量进行前向递归处理,获得前向隐状态序列。然后,根据递归神经网络的输入门、忘记门、输出门以及记忆单元,按照文本矩阵中词向量的排列顺序逐个对词向量进行后向递归处理,获得后向隐状态序列。最后,从两个隐状态序列中获取语义表示特征。

对于前向隐状态序列的获取过程,类似前述的长短期记忆神经网络lstm的迭代过程,在此不再赘述。

具体地,对于第t个词向量,依次执行以下计算,最终获得第t个词向量的后向隐状态向量ht:

it-1=σ(wi·[xt-1,ht]+bi)

ft-1=σ(wf·[xt-1,ht]+bf)

ot-1=σ(wo·[xt-1,ht]+bo)

ct-1=tanh(wc·[xt-1,ht]+bc)

ct-1=it-1⊙ct-1+ft-1⊙ct

ht-1=ot-1⊙tanh(ct-1)

其中,it-1、ft-1、ot-1、ct-1分别表示第t-1个词向量的输入门特征、忘记门特征、输出门特征以及记忆单元特征;wi、wf、wo、wc分别表示输入门、忘记门、输出门以及记忆单元的参数矩阵;bi、bf、bo、bc分别表示输入门、忘记门、输出门以及记忆单元的偏置项;t初始值为s,t=1…s,s表示所述文本矩阵包含词向量的数量;xt-1表示所述文本矩阵的第t-1个词向量,ht表示后向隐状态序列中的第t个后向隐状态向量,[xt-1,ht]表示由第t-1个词向量与第t个后向隐状态向量拼接而成的矩阵;σ()表示sigmoid函数,⊙表示以向量元素为单位的相乘。对于初始迭代的前向隐状态向量hn通常采用元素全为零的向量。

在本实施例中,对于文本矩阵中的第t个词向量,可以计算得到两个隐状态向量将这两个隐状态向量进行拼接,获得最终的隐状态向量如此,可以完成前向隐状态序列和后向隐状态序列的向量拼接。

在本实施例中,可以使用average-pooling的方法对隐状态序列进行计算,得到文本信息的语义向量表示,从向量拼接后的隐状态序列中的隐状态向量取均值,作为语义表示特征或者,从向量拼接后的隐状态序列中提取最后一个隐状态向量,作为语义表示特征r=hn。

在一种可能的实现方式中,上述步骤s500的决策模型的建立可以如下:

其中,p(y=1|x)表示决策模型的决策结果,σ()为sigmoid函数,xwide表示决策模型的宽度模型输入特征,表示决策模型的深度模型输出特征,r表示决策模型的语义表示特征,分别表示宽度模型输入特征、深度模型输出特征和语义表示特征的权重值,b表示决策模型的偏置项。

如图5所示,本发明实施例提供一种基于调查数据的决策装置,包括:

数据获取模块100,用于获取调查数据;所述调查数据包括描述调查过程的连续值特征、类别特征以及文本信息;

语义特征提取模块200,用于从所述文本信息中提取语义表示特征;

宽度模型特征模块300,用于对所述连续值特征和所述类别特征进行组合处理,获得宽度模型输入特征;

深度模块特征模块400,用于对预处理后的类别特征进行泛化处理,获得深度模型输出特征;以及

决策计算模块500,用于将所述语义表示特征、所述宽度模型输入特征和所述深度模型输出特征输入决策模型,获得所述调查数据的决策结果。

在一种可能的实现方式中,所述语义特征提取模块,包括:

切词单元,用于对所述文本信息进行切词,获得有效词数组;

文本矩阵获取单元,用于通过词嵌入层对所述有效词数组进行处理,获得文本矩阵;其中,所述有效词数组的一个词表示为一个词向量,所述词向量为所述文本矩阵的一行向量或一列向量;以及

卷积处理单元,用于通过神经网络对所述文本矩阵进行卷积处理,获得语义表示特征。

在一种可能的实现方式中,所述卷积处理单元,包括:

卷积滤波子单元,用于利用所述卷积神经网络的滤波器,对所述文本矩阵的各个子矩阵进行卷积操作,获得各个子矩阵对应的输出序列;

特征序列获取子单元,用于将各个子矩阵对应的输出序列输入激活函数中进行非线性变换,获得各个子矩阵的特征序列;

数值向量拼接子单元,用于从各个子矩阵的特征序列中分别提取序列中的最大值,并依据子矩阵之间的排列顺序将提取到的数值进行向量拼接,获得所述语义表示特征。

在一种可能的实现方式中,所述卷积处理单元包括:

向前序列子单元,用于根据所述递归神经网络的输入门、忘记门、输出门以及记忆单元,按照所述文本矩阵中词向量的排列顺序逐个对词向量进行前向递归处理,获得前向隐状态序列;

序列提取子单元,用于从所述隐状态序列中获取语义表示特征。

在一种可能的实现方式中,所述卷积处理单元包括:

向前序列子单元,用于根据所述递归神经网络的输入门、忘记门、输出门以及记忆单元,按照所述文本矩阵中词向量的排列顺序逐个对词向量进行前向递归处理,获得前向隐状态序列;

后向序列子单元,用于根据所述递归神经网络的输入门、忘记门、输出门以及记忆单元,按照所述文本矩阵中词向量的排列顺序逐个对词向量进行后向递归处理,获得后向隐状态序列;

序列提取子单元,用于从所述前向隐状态序列和所述后向隐状态序列中获取语义表示特征。

所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中,基于调查数据的决策结构中包括处理器和存储器,所述存储器用于基于调查数据的决策装置执行上述第一方面中基于调查数据的决策程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述基于调查数据的决策装置还可以包括通信接口,用于基于调查数据的决策装置与其他设备或通信网络通信。

如图6所示,本发明实施例提供一种基于调查数据的决策模型的应用实例的示意图。本实施例提供的决策模型在wide&deep模型的基础上,增加了一个语义表示模块,用于抽取调查数据中文本的语义信息。对于文本数据s={w1,w2,…,wn},可以先使用词嵌入层将其表示为一个低纬的稠密的词向量a={x1,x2,…,xn}。其中,wi为文本中的第i个词,为词wi对应词向量,n为文本长度(文本数据包含的词的数量)。词向量可以使用随机初始化或使用预训练的词向量来生成。然后,将词向量a输入到语义表示模块中,得到文本的语义表示向量r。最后,将语义表示向量r与wide模型和deep模型拼接,用于模型最后的决策:

其中,y为二分类的类标,x为输入的调查数据。σ()为sigmoid函数,xwide为wide模型的输入数据的特征,为deep模型的最后一层隐藏层(第l层隐藏层)的输出。分别为wide模型的权重、deep模型应用在上的权重以及为语义表示模块的权重,b为决策模型的偏置项。

对于语义表示模块,本实施例分别提出使用卷积神经网络cnn和长短期记忆神经网络lstm两种实施方式来自动提取文本数据中的语义信息,得到文本的语义表示特征r,其表示为一个向量。

在一个具体示例中,在金融领域中,非固定含义的数据例如调查问卷中非有固定答案可选择的问题,需要客户填写或输入具体的文本数据来回答的问题,这些文本调查数据对金融决策的最终结果起到至关重要的作用。利用这部分文本调查数据进行分析,可以提高wide&deep模型的预测效果的准确性。例如,某保险公司对用户信息的调查问卷如图7的表格所示。本发明实施例可以根据用户填写的问卷信息,从这些用户中挖掘“潜在的可能投保的用户”,需要对每一条数据都进行分析,进而判断该用户是否是“潜在的可能投保用户”,即给出决策类标:“1”表示是“潜在的可能投保用户”;“0”表示不是“潜在的可能投保用户”。

由于通过人工的方式来判断,需要耗费大量的人力、物力和时间成本。但使用本发明实施例提出的神经网络模型,来判断该用户是否是“潜在的可能投保用户”,可以提高决策的效率并降低成本。将表格的每一行(不包括第一列的编号和最后一列的类标信息)作为一个用户的输入数据,输入到本实施例的决策模型中。模型输出该用户是“潜在的可能投保的用户”的概率p(y=1|x),如果概率值大于某个阈值(例如0.5),则模型输出类标“1”,反之则输出“0”。区别于现有技术提供的wide&deep模型,其只能利用数据中的连续值特征(例如:月收入特征)和类别特征(例如:姓名、性别、职业特征)。本发明实施例提出的神经网络模型,还可以利用调查数据中文本的语义特征(图7的表格中的6-8列的文本数据),并且这部分数据对模型的决策结果起着非常重要的作用。例如:对于“您是否购买了汽车保险”这个问题,模型需要从用户回答的文本数据中获取用户表达的是肯定(positive)的情感还是否定(negative)的情感,而文本数据在情感上的肯定与否的表达在很大程度上决定着模型的决策结果。

以下将详细描述本发明实施例提出的两种语义表示模块的实施方式:

1、采用cnn网络作为语义表示模块:

如图8所示,其为本发明实施例提出的包括基于卷积神经网络的语义表示模块的决策模型的框架图。在自然语言处理中,可以对比于图像的卷积操作,将文本矩阵当做一张图像,然后使用滤波器(filter)在其上进行卷积(convolution)操作。基于语言的表达存在有内在顺序的结构限制,将文本矩阵中每一行表示为一个词。可以使用“宽度”为词向量的维度d的滤波器进行卷积操作。此外,可通过改变滤波器的“高度”得到不同类型的滤波器,用于处理包含不同数量的词的文本信息,并将滤波器的高度称为滤波器的窗口大小。

假设窗口大小为h的滤波器的参数矩阵为w,那么,w共包含h×d个需要预先训练得到的参数。对于文本矩阵a,使用a[i:j]表示从a的第i行到第j行的子矩阵。将滤波器分别应用到文本矩阵a的各个子矩阵上,分别进行卷积操作,可以得到卷积操作后的输出序列

oi=w·a[i:i+h+1](2)

其中,i=1…s-h-1,·表示子矩阵与滤波器之间的矩阵相乘。然后,为每一个输出序列oi均加上一个偏置项并使用激活函数f(),例如双曲正切(tanh)函数、s型函数(sigmoid函数)等,进行非线性变换,可以获得滤波器在文本矩阵上卷积后输出的特征序列(featuremap):

ci=f(oi+b)(3)

在本实施例中,可以使用多个相同的窗口大小的滤波器从包含相同词数但文本内容不相同的文本中学习互补的特征信息,也可以使用不同窗口大小的滤波器从包含不同词数且文本内容不相同的文本中学习相应的特征信息。

滤波器对文本矩阵卷积后输出的特征序列featuremap的向量维度会根据文本长度和滤波器窗口大小来调整。因此,可以使用最大池(max-pooling)方法获取每一个特征序列featuremap中的最大值。最后,将取得的最大值进行向量拼接,得到固定长度的语义表示特征r。

2、采用lstm神经网络作为语义表示模块:

如图9所示,其为本发明实施例提出的包括基于长短期记忆神经网络的语义表示模块的决策模型的框架图。在卷积神经网络中,模型控制滤波器(filter)的窗口大小,对文本中的几个词进行卷积操作,然后使用max-pooling方法得到文本的语义表示特征(也称为向量表示)。因此,卷积神经网络可以理解为在文本层面抽取了“n-gram”的特征。其中,n-gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,可以为汉语语言模型(chineselanguagemodel,clm)。汉语语言模型可以利用上下文中相邻词间的搭配信息,实现到汉字的自动转换。因此,卷积神经网络在一定程度上忽略了文本中词的整体顺序结构问题,仅根据窗口内的词来形成文本的语义表示特征。然而,语言的表述是有序的,是序列数据。一句话的理解,需要依赖前面所有词的理解,而不仅仅是前面的几个词。因此,本实施例提出使用常用于序列数据建模的递归神经网络rnn来得到文本的语义向量表示。为了弥补传统递归神经网络中的长距离依赖(longtermdependency)问题,使用递归神经网络的一种变形——长短期记忆神经网络lstm来对文本信息进行建模处理。

其中,对于文本中的词wi,通过词嵌入层得到其词向量表示xi。那么,长度为n的文本可以表示成文本矩阵,即文本序列{x1,x2…xn}。将该序列作为lstm的输入,lstm通过对文本中第t个词运用以下公式,得到隐状态序列{h1,h2…hn}:

it=σ(wi[xt,ht-1]+bi)(4)

ft=σ(wf[xt,ht-1]+bf)(5)

ot=σ(wo[xt,ht-1]+bo)(6)

ct=tanh(wc[xt,ht-1]+bc)(7)

ct=it⊙ct+ft⊙ct-1(8)

hi=ot⊙tanh(ct)(9)

其中,[]表示两个向量之间的拼接操作,σ表示sigmoid函数,⊙表示以向量元素为单位的相乘。ii、ft、ot、ct分别表示第t个词向量的输入门(inputgate)特征、忘记门(forgetgate)特征、输出门(outputgate)特征以及记忆单元(memorycell)特征,其可以分别用一个向量来表示,向量中的每个元素的值在0至1之间。wi、wf、wo、wc分别表示输入门、忘记门、输出门以及记忆单元的参数矩阵。bi、bf、bo、bc分别表示输入门、忘记门、输出门以及记忆单元的偏置项。以及,输入门表示模型需要记住当前输入了多少信息;忘记门表示模型需要遗忘之前多少的信息;输出门表示模型选择地输出多少信息;记忆单元用于记忆模型在整个迭代过程中的信息。lstm模型的迭代初始值h1通常采用全0的向量。

在本实施例中,lstm仅获取了前向的上下文信息。为捕捉更多的上下文信息,还可以使用了双向长短期记忆神经网络bi-lstm来同时获取前向和后向的上下文信息。bi-lstm包含两个不同lstm来分别获取前向和后向的上下文信息。因此,对于文本中的第t个词,可以计算得到两个隐状态向量将这两个隐状态向量拼接,得到第t个词的隐状态向量

无论是lstm还是bi-lstm均可得到输入序列{x1,x2…xn,}的隐状态序列{h1,h2…hn},对隐状态序列可以使用average-pooling的方法计算得到文本的语义向量表示或者,从隐状态序列中提取最后一个隐状态作为文本的语义向量表示r=hn。

本发明实施例还提供一种终端设备,如图10所示,该设备包括:存储器21和处理器22,存储器21内存储有可在处理器22上的计算机程序。处理器22执行计算机程序时实现上述实施例中的基于调查数据的决策方法。存储器21和处理器22的数量可以为一个或多个。

该设备还包括:

通信接口23,用于处理器22与外部设备之间的通信。

存储器21可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

如果存储器21、处理器22和通信接口23独立实现,则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(isa,industrystandardarchitecture)总线、外部设备互连(pci,peripheralcomponent)总线或扩展工业标准体系结构(eisa,extendedindustrystandardcomponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果存储器21、处理器22及通信接口23集成在一块芯片上,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式只读存储器(cdrom)。另外,计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。

在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(radiofrequency,rf)等等,或者上述的任意合适的组合。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1