基于异构域迁移的舆情角色识别迁移系统的制作方法

文档序号:16788247发布日期:2019-02-01 19:30阅读:254来源:国知局
基于异构域迁移的舆情角色识别迁移系统的制作方法

本发明涉及一种舆情角色识别迁移系统,涉及数据挖掘和机器学习领域。



背景技术:

迁移学习从源域和目标域的输入空间是否是同一特征空间来说,分为同构迁移学习和异构迁移学习,影响迁移学习效果的因素除了具体模型的选择,领域距离也是一个很重要的因素,在迁移学习界限的相关研究中,研究者们都会首先对领域距离给出定义,因为这在最后的迁移学习界限分析中会用到,然后利用各种已知理论推理得出最终的迁移学习界限,然而,目前关于异构关系数据的单源域到单目标域的迁移学习界限,与在实验数据上的表现趋势有所差距,这可能是因为现有计算方法没有将异构域转换的损失考虑在内,从而导致与在实验数据上的表现趋势有差距。

从国内外文献可以大体看出,如今,迁移学习越来越受到学者的关注与重视,每年出现关于数据挖掘和机器学习的顶级会议以及著名期刊上的有关迁移学习的文章越来越多,研究涉及各个领域,现在国内外异构域迁移学习的研究已有较多成果,研究者们提出了各种异构域转换方法,都只是在最小化异构域转换过程中的损失,但是几乎没有研究者分析这种信息损失对迁移效果的影响,这会给负迁移一个可乘之机,当源域和目标域的领域距离较大时,强行迁移会导致信息损失过大,且源域的知识对目标域的学习不会提供多少有用的知识。所以,给出一个衡量信息损失的测度问题值得深入研究。现有文献中关于领域迁移学习一般是为提高了算法速度而容忍知识域中存在不完整性和矛盾性,比如文献号为cn201410717615.6的基于马尔可夫逻辑网的关联规则迁移学习方法,该文献对迁移学习误差界限没有给相应说明。至于将领域迁移学习如何利用于舆情角色识别中,没现有技术没有记载。



技术实现要素:

本发明的目的是提供一种基于异构域迁移的舆情角色识别迁移系统,为了解决现有技术面对纷繁复杂的网民信息无法进行有效地提取知识,不能在不同领域之间进行迁移学习,进而无法实现知识间接的共享的问题。

本发明为解决上述技术问题采取的技术方案是:

一种基于异构域迁移的舆情角色识别迁移系统,所述系统为基于马尔科夫逻辑网的建立的舆情角色识别迁移模型,包括数据谓词化模块、结构学习模块、知识提取模块、知识迁移模块和参数学习模块,首先利用数据谓词化模块将领域知识谓词化转换成模型可以识别的知识,然后利用结构学习模块进行结构学习并通过知识提取模块提取需要迁移的知识到目标域,利用知识迁移模块完成知识迁移,再通过参数学习模块进行参数学习获得迁移学习后的迁移模型,由模型评估进行模型效果评估,然后调节迁移的知识比以优化迁移模型。

数据谓词化模块基于马尔可夫逻辑网的知识表示形式将源域和目标域都进行数据谓词化。

结构学习模块是在已经定义的谓词的基础上,利用训练数据集训练,得到网络的结构,网络结构使用一系列一阶逻辑语句表示,使用lsm算法生成候选的一阶逻辑子句,每个子句后面都会有相应的wpll值,值越大表示子句表达的知识越有价值;源域和目标域都需要结构学习;使用lsm算法生成比普通的结构学习算法更多的候选子句,用于增大迁移知识的可选择性。

知识提取模块,用于对结构学习得到的一阶逻辑子句提升为二阶子句进行知识抽象化,移除每个谓词的具体含义以实现领域之间迁移,源域和目标域通过结构学习得到的一阶子句,均抽象成二阶子句。

知识迁移模块,用于源域和目标域之间的知识迁移,通过将源域和目标域得到的二阶子句相对应,然后选取在源域和目标域的二阶子句中,使用调节参数调整后,得到的wpll值对应的二阶子句,对应的一阶子句作为目标域结构学习的结果。

参数学习模块,用于对迁移学习得到的目标域网络结构进行参数学习,即优化各个一阶逻辑子句的权重,得到最终的迁移学习舆情角色识别模型。

进一步地,所述基于马尔科夫逻辑网的建立的舆情角色识别迁移模型,将转换复杂度融入领域距离,提出新的领域距离公式,提出单源域到单目标域的迁移学习界限计算过程,具体为:

假设源域空间xs下的一个分布样本集服从分布假设目标域空间xt下的一个分布样本集服从分布假定存在公共域空间xc下的样本集分别对应源域样本集ss和目标域样本集st转换到公共域空间下的样本集,其分布分别从服从于

定义1转换函数集:转换函数集ftr将源域空间xs下的样本xs和目标域空间xt下的样本xt转换到公共域空间xc下,完成领域转换;转换函数集ftr的每个函数满足:ftr:xs/xt→xc;

第一类异构域转换方法,只对源域数据进行了转换,这是一种非对称的域转换方式;第二类异构域转换方法,对源域数据和目标域数据同时进行了转换,这是一种对称的域转换方式,给出两者的形式化定义;

定义2非对称域转换方式:当xt=xc时,转换函数集ftr的转换方式为非对称域转换,此时转换函数集ftr可重写为ftr:xs→xt;

定义3对称域转换方式:当xt≠xc时,转换函数集ftr的转换方式为对称域转换;

先求得非对称域转换过程的迁移学习界限,然后对对称域转换下的迁移学习作相应的变换;

将噪声对函数值的扰动考虑在内,定义了描述转换函数集转换能力的度量,具体见定义4;

定义4经验转换复杂度:给定一个空间x下的分布d|x,样本集s={x1,...,xm}符合分布d|x,转换函数集ftr将空间x下样本转换到另一空间x'下,满足:ftr:x→x',假设集h满足:则关于假设集h的转换函数集ftr的经验转换复杂度定义为:

其中,σ1,σ2,...,σm为独立同分布变量,且服从值为{-1,1},p为0.5的伯努利分布;

定义5转换复杂度:关于假设集h的转换函数集ftr的转换复杂度定义为:

假设集h,均是二分类函数h的集合,满足h:x→{0,1},且函数集均是对称函数集,即满足这在之后的推导中会用到,且f表示真实的标签函数,注意与转换函数ftr的区分,二者含义完全不同,分类误差表示为ε(h)=ε(h,f)=ex~d[|h(x)-f(x)|];

1)、领域距离分解:

迁移学习界限的求取首先要解决的问题是领域距离的测量,领域距离的测量首先对该度量进行分解:

假设分布d1与分布d2属于不同的特征空间,分布d1→2表示由分布d1通过异构域转换得到的与分布d2属于同一特征空间的一个分布,则可以得到:

在不等式(2-3)中,分布d1→2与分布d2属于相同的特征空间,则根据独立同分布数据的距离一致性收敛不等式,有以下推导:

其中,假设另外,u1→2和u2分别代表的是分布d1→2和d2下的样本集,并且为了便于化简,使

不等号右边的部分为并且假设其中都大于0,通过一系列变换和化简可以得到关系数据下真实领域距离与经验之间的差距为:

而且,因为分布d1→2与分布d2属于相同的特征空间,则根据同构下分布之间的经验距离计算公式可以得到:

所以,结合公式(2-5)和(2-6),并且,在此假设源域样本数和目标域样本数相同,都为m,则可以得到同构关系数据的领域距离公式:

其中,d2表示假设集h2的vc维;接下来将注意力集中在的界限推导上,为了便于后续的推导,在此令ed[h(x)]表示领域分布d下假设h的期望值,则根据散度的定义可以得到:

由于假设函数集均具有对称性,因此假设h2满足又因为h2的取值仅可能为0和1,所以上式可以如下继续推导:

以上完成了对领域距离的分解,接下来会对不等式(2-9)右边的具体的推导,得出最终的异构域转换下的领域距离公式;

2)、领域距离计算:

非对称异构域转化下的领域距离为:

对称异构域转换下的领域距离为:

3、单源域到单目标域的迁移学习界限推导:

首先,需要在领域距离与假设误差之间建立关联,给出了对称差异抽象假设空间对于任意的有:

对于每个表示的抽象假设空间集合中的任意两个抽象假设空间下分别具体化到两个领域中的假设集之间的差异;然后,根据该定义和领域距离的定义,可以进行如下推导:

对上式整理可以得到领域距离与假设误差之间的关联公式:

然后根据误差的三角不等式,这里虽然特征空间泛化到了抽象特征空间,但是对误差的三角不等式并没有影响,在此仍然适用,所以对分布d2领域的假设的误差运用误差三角不等式可以得到:

其中,分别表示领域概率分布d1和d2的最小误差假设,λ表示的是在这两个最小误差假设下的误差值之和,当该值较大时,说明领域d1和d2之中,至少有一个领域是很难学习的,不能得到一个表现效果较好的分类器,若是如此,再谈迁移学习是没有意义的,我们进行迁移学习的前提是,参与迁移的领域都必须是可学习的,并且能够找到一个误差较小的模型;只有这样,才能通过异构域转换减小领域距离,从而最终达到减小目标域迁移学习误差的目的;

接下来,基于迁移学习的场景,假设参与训练的样本集s=(ss,st),共含有m个数据,其中目标域样本集st占总样本的比例为β,模型的最终目的是发现一个可以使得目标域分类误差最小的假设;

由于样本包含源域和目标域两个领域的样本,所以最终得到的针对目标域的分类假设函数的分类误差一定是与该假设在两个领域的分类误差相关的,所以在此定义一个关于源域和目标域的经验最小凸组合误差,如下所示:

其中α∈[0,1],从上式中可以看出,用来平衡源域和目中α标域的误差比重,当α为1时,经验最小凸组合误差仅仅由目标域的经验误差决定,当α为0时,经验最小凸组合误差仅仅由源域的经验误差决定;

接下来,需要衡量最小凸组合误差和目标域误差的差异,根据最小凸组合误差的定义和公式(2-36),通过增减项和应用关于误差的三角不等式,可以推导得到:

需要说明的是,之间是存在差距的,两者假设的vc维,前者是后者的两倍;所以对于来说,公式(2-31)和公式(2-32)中涉及的目标域vc维dt应该变为2dt,其余保持不变;

然后,需要考虑经验最小凸组合误差和真实的最小凸组合误差εα(ha)之间的区别,这给出适用于关系数据的误差一致性收敛不等式,如下式所示:

这里,令不等式的右边小于等于θ,结合vc维的泛化误差界限,通过整理化简可以的到,下式至少有1-θ的可能性成立:

其中,τt和τs为固定误差值,大约为0.13;

然后,将公式(2-38)和(2-40)整理,综合可以有如下推导过程:

在此,关于异构关系数据的一对一迁移学习界限推导结束,最终得到的界限公式如下所示:

本发明的有益效果是:

本发明所述的舆情角色识别迁移系统将转换复杂度融入领域距离,提出新的领域距离公式,提出单源域到单目标域的迁移学习界限计算方法。从对本发明的测试可以得出,在目标域训练数据充足的情况下,本发明表现基本与理论一致;迁移模型在真实数据集上的表现,总体来说比较符合的预期,与理论研究的预期走势基本相一致。本发明所述基于异构域迁移的舆情角色识别迁移系统,本发明采用将转换复杂度融入领域距离以及考虑单源域到单目标域的迁移学习界限的技术手段,实现了面对纷繁复杂的网民信息,有效地提取知识,在不同领域之间进行迁移学习,有效地做到知识间接的共享,而且还提高角色识别模型建立的速度。

附图说明

图1是本发明的基于马尔科夫逻辑网角色识别迁移模型建立过程示意图(结构框图),图2是网易新闻领域部分结构示意图(操作界面截图),图3是网易新闻领域知识提取截图(操作界面截图),图4是马尔科夫逻辑网知识迁移过程示意图,图5是不同源域下模型误差界限变化示意图,图6是不同目标域训练样本数下误差界限变化示意图,图7是两源域变化联合误差参数效果图,图8是不同源域个数下误差界限变化示意图,图9是不同目标域样本集下多源域误差界限变化效果图。

具体实施方式

结合附图1-9和相应表格,对本发明明所述的基于异构域迁移的舆情角色识别迁移系统的实现进行如下详尽阐述:

本发明所述的舆情角色识别迁移系统将转换复杂度融入领域距离,提出新的领域距离公式,提出单源域到单目标域的迁移学习界限计算方法。下面对领域距离公式的推导、单源域到单目标域的迁移学习界限的确定详细说明如下:

本发明中的除公知常识性参数和推导过程中的中间参数外,其他参数均已给出定义。

问题定义:假设源域空间xs下的一个分布样本集服从分布假设目标域空间xt下的一个分布样本集服从分布假定存在公共域空间xc下的样本集分别对应源域样本集ss和目标域样本集st转换到公共域空间下的样本集,其分布分别从服从于

定义1转换函数集:转换函数集ftr将源域空间xs下的样本xs和目标域空间xt下的样本xt转换到公共域空间xc下,完成领域转换。转换函数集ftr的每个函数满足:ftr:xs/xt→xc。

通过对各类异构域转换方法的研究,本发明发现,第一类异构域转换方法,只对源域数据进行了转换,这是一种非对称的域转换方式。第二类异构域转换方法,对源域数据和目标域数据同时进行了转换,这是一种对称的域转换方式,下面给出两者的形式化定义。

定义2非对称域转换方式:当xt=xc时,转换函数集ftr的转换方式为非对称域转换,此时转换函数集ftr可重写为ftr:xs→xt。

定义3对称域转换方式:当xt≠xc时,转换函数集ftr的转换方式为对称域转换。

从两种域转换方式可以看出,如果不考虑具体的异构域转换算法,单纯地从形式上来说,非对称域转换过程是对称域转换过程的一部分,而将目标域空间xt下的样本转换到公共域空间xc下,与非对称域转换过程相类似,所以,接下来本发明以首先非对称域转换过程为例进行迁移学习界限的研究与分析,然后对称域转换下的迁移学习作相应的变换即可。

在拉德马赫复杂度的定义中,将噪声对函数值的扰动考虑在内,是本发明的一大亮点。在此,本发明也借鉴这一思想,定义了描述转换函数集转换能力的度量,具体见定义4。

定义4经验转换复杂度:给定一个空间x下的分布d|x,样本集s={x1,...,xm}符合分布d|x,转换函数集ftr将空间x下样本转换到另一空间x'下,满足:ftr:x→x',假设集h满足:则关于假设集h的转换函数集ftr的经验转换复杂度定义为:

其中,σ1,σ2,...,σm为独立同分布变量,且服从值为{-1,1},p为0.5的伯努利分布。

定义5转换复杂度:关于假设集h的转换函数集ftr的转换复杂度定义为:

假设集h,均是二分类函数h的集合,满足h:x→{0,1},且函数集均是对称函数集,即满足这在之后的推导中会用到,且f表示真实的标签函数,注意与转换函数ftr的区分,二者含义完全不同,分类误差表示为ε(h)=ε(h,f)=ex~d[|h(x)-f(x)|]。

1领域距离分解:

迁移学习界限的研究,首先解决的问题就是领域距离的测量,首先对该度量进行分解,做到问题细化。

假设分布d1与分布d2属于不同的特征空间,分布d1→2表示由分布d1通过异构域转换得到的与分布d2属于同一特征空间的一个分布,则可以得到:

在不等式(2-3)中,分布d1→2与分布d2属于相同的特征空间,则根据独立同分布数据的距离一致性收敛不等式,可以有以下推导:

其中,假设另外,u1→2和u2分别代表的是分布d1→2和d2下的样本集,并且为了便于化简,使

不等号右边的部分为并且假设其中都大于0,通过一系列变换和化简可以得到关系数据下真实领域距离与经验之间的差距为:

而且,因为分布d1→2与分布d2属于相同的特征空间,则根据同构下分布之间的经验距离计算公式可以得到:

所以,结合公式(2-5)和(2-6),并且,在此假设源域样本数和目标域样本数相同,都为m,则可以得到同构关系数据的领域距离公式:

其中,d2表示假设集h2的vc维。接下来将注意力集中在的界限推导上,为了便于后续的推导,在此令ed[h(x)]表示领域分布d下假设h的期望值,则根据散度的定义可以得到:

由于假设函数集均具有对称性,因此假设h2满足又因为h2的取值仅可能为0和1,所以上式可以如下继续推导:

以上完成了对领域距离的分解,接下来会对不等式(2-9)右边的具体的推导,得出最终的异构域转换下的领域距离公式。

2领域距离推导:

对于因为这里是关系数据,所以需要将界限推导过程作适当修改。

关于该界限第一个需要说明的地方就是,这里面用到了拉德马赫复杂度,而在关于拉德马赫复杂度的定义中包含了数据独立同分布的条件,显然不满足本发明需要处理的关系数据,不过查文献知该复杂度对于关系数据同样适用,即移除了对数据独立同分布条件的依赖,所以在关于该界限的证明中,关于拉德马赫复杂度部分不需要再作修改。

关于该界限的推导,第二个需要注意的地方是过程中用麦克迪尔米德不等式来证明了关于样本的函数其真实值和期望值之间的差距概率不等式,函数的定义如下所示:

由于麦克迪尔米德不等式的使用也有需要数据是独立同分布的限制,这里采用了关系数据的测试集界限公式,可以得到如下关系:

在此令上述不等式的右边小于等于θ,则通过化简可以得到:

另外,由于对公式(2-11)不等号左边的部分可以进行如下变换:

所以,当不等式(2-12)成立时,通过对公式(2-11)的整理,可以得到,有至少1-θ的可能性保证下式成立:

对于不等式(2-14)的继续推导由于不受是否是关系数据的影响,此时,可以直接给出关于关系数据的函数值期望概率不等式,如公式(2-15)所示:

如此,根据公式(2-15),直接将分布d1和假设集h1带入,就可以得到不等式(2-6)中的上界,如公式(2-16)所示:

接下来,将集中解决不等式(2-9)右边的第二部分,求解e1→2[h2(x')]的上界。

在此假设直接由转换函数集转换所产生的分布为分布d1与分布d1→2之间的差距和分布d1与分布之间的差距之间的差别,存在偏差该偏差与具体的转换算法相关,进行如下定义:

结合不等式(2-9)和不等式(2-17)可以看出,当具体所选择的转换算法转换效果比较差时,会直接导致领域距离过大,继而导致较大的迁移学习误差,这与实际情况相符。

接下来,对继续分析,这里首先对该期望进行变换,假设将由转换函数集ftr对数据集s所在的分布ds进行变换后得到的分布表示为ds',所对应的转换后的数据集表示为s'={x′1,x′2,...,x′m},则可以表示为则有下式成立:

然后使用函数的定义,可以得到:

然后,与之前类似的步骤,使用关系数据的测试集界限公式,然后进行一系列变换可以得到下式,至少以1-θ的概率成立:

之后,本发明再推导出的上界即可。在此假设一个“ghost样本集”,表示为该样本服从于分布ds',并且与样本集s'={x′1,x′2,...,x′m}相互独立,互不影响,则根据期望的性质和两个样本集之间的独立性,显然有成立,则可以对继续推导得到:

然后,由于sup是一个凸函数,可以应用jensen不等式来将里面的期望移到外面,如下所示:

接下来,通过加入转换复杂度中的σ变量,改变上式中两式相减的情况,由于σ为服从值为{-1,1},p为0.5的伯努利分布,所以e[σi]=0,然后继续推导如下:

上式中,将ds'替换回原来的可以得到:

从等式右边可以和看出,该期望与转换函数集ftr和数据集s的分布ds相关,由于在现实中,一旦选定了转换算法,转换函数集ftr就是确定的了,与数据集s的分布ds无关,所以在转换函数集ftr和数据集s的分布ds相互独立的前提下,本发明根据期望的运算法则,可以有公式(2-25)成立:

另外,显然随机扰动变量σ也与转换函数集ftr和数据集s的分布ds相互独立,在此,等式(2-24)可以进行如下推导:

所以,通过这一系列推导,最终得到的上界,如不等式(2-27)所示:

如此,到这里完成了领域距离公式(2-9)中后两部分的全部推导,根据不等式(2-9),不等式(2-16),等式(2-17)和不等式(2-27)的整理,得到异构域的转换距离,如下所示:

其中,rs和rs'分别表示由于数据之间关系所产生的泛化距离,具体值如下所示:

将不等式(2-7)和不等式(2-28)带入不等式(2-3)可以得到的非对称异构域转化下的领域距离为:

在此,需要说明的是,公式(2-3)的领域距离分解对应的是非对称的异构域转换方法,使用上述推导类似的思路,可以得到对称异构域转换下的领域距离为:

3单源域到单目标域的迁移学习界限推导:

首先,需要在领域距离与假设误差之间建立关联,给出了对称差异抽象假设空间对于任意的有:

这里可以发现,对于每个表示的抽象假设空间集合中的任意两个抽象假设空间下分别具体化到两个领域中的假设集之间的差异。然后,根据该定义和领域距离的定义,可以进行如下推导:

对上式整理可以得到领域距离与假设误差之间的关联公式:

然后根据误差的三角不等式,这里虽然特征空间泛化到了抽象特征空间,但是对误差的三角不等式并没有影响,在此仍然适用,所以对分布d2领域的假设的误差运用误差三角不等式可以得到:

其中,分别表示领域概率分布d1和d2的最小误差假设,λ表示的是在这两个最小误差假设下的误差值之和,当该值较大时,说明领域d1和d2之中,至少有一个领域是很难学习的,不能得到一个表现效果较好的分类器,若是如此,再谈迁移学习是没有意义的,我们进行迁移学习的前提是,参与迁移的领域都必须是可学习的,并且能够找到一个误差较小的模型。只有这样,才能通过异构域转换减小领域距离,从而最终达到减小目标域迁移学习误差的目的。

接下来,将本发明之前的研究带入迁移学习的场景,假设参与训练的样本集s=(ss,st),共含有m个数据,其中目标域样本集st占总样本的比例为β,模型的最终目的是发现一个可以使得目标域分类误差最小的假设。

由于样本包含源域和目标域两个领域的样本,所以最终得到的针对目标域的分类假设函数的分类误差一定是与该假设在两个领域的分类误差相关的,所以在此定义一个关于源域和目标域的经验最小凸组合误差,如下所示:

其中α∈[0,1],从上式中可以看出,用来平衡源域和目中α标域的误差比重,当α为1时,经验最小凸组合误差仅仅由目标域的经验误差决定,当α为0时,经验最小凸组合误差仅仅由源域的经验误差决定。

接下来,需要衡量最小凸组合误差和目标域误差的差异,根据最小凸组合误差的定义和公式(2-36),通过增减项和应用关于误差的三角不等式,可以推导得到:

需要说明的是,之间是存在差距的,两者假设的vc维,前者是后者的两倍。所以对于来说,公式(2-31)和公式(2-32)中涉及的目标域vc维dt应该变为2dt,其余保持不变。

然后,需要考虑经验最小凸组合误差和真实的最小凸组合误差εα(ha)之间的区别,这给出适用于关系数据的误差一致性收敛不等式,如下式所示:

这里,令不等式的右边小于等于θ,结合vc维的泛化误差界限,通过整理化简可以的到,下式至少有1-θ的可能性成立:

其中,τt和τs为固定误差值,大约为0.13,其他关于不等式右边的与关系数据有关参数含义同样在第二章中提到过,这里就不再说明了。然后,接下来,本发明通过将公式(2-38)和(2-40)整理,综合可以有如下推导过程:

在此,关于异构关系数据的一对一迁移学习界限推导结束,最终得到的界限公式如下所示:

舆情角色识别迁移系统:

本系统通过利用迁移学习,建立角色识别模型,面对纷繁复杂的网民信息,有效的提取知识,在不同领域之间进行迁移学习,有效的做到知识间接的共享,提高角色识别模型建立的速度,并且使之有较好的表现效果。

首先本系统需要建立马尔科夫逻辑网角色识别迁移模型,首先需要将领域知识谓词化,转换成模型可以识别的知识,然后进行结构学习,提取需要迁移的知识到目标域,再进行参数学习获得迁移学习后的模型,进行模型效果评估,然后调节迁移的知识比,优化迁移模型。模型具体建立过程如图1所示。

(1)数据谓词化

由于马尔科夫逻辑网的输入数据是一系列谓词,所以第一步是将数据谓词化,每个谓词都有具体的含义,一系列谓词组成了模型的知识库,以网易新闻数据中的用户等级属性为例,表示为userlevel(u_id,l_num),代表用户u_id的用户等级为l_num。表1展示了对网易新闻领域涉及的部分谓词含义。

表1网易新闻领域部分谓词含义对照表

谓词的设计直接关系到知识的表示能力,以及后续模型的推理能力,所以应尽可能合理化,贴近现实。这里源域和目标域都需要进行数据谓词化,这是马尔可夫逻辑网的知识表示形式。

(2)结构学习

结构学习是在已经定义的谓词的基础上,利用训练数据集训练,得到网络的结构,这里网络结构使用一系列一阶逻辑语句表示,这里的结构学习与一般的马尔可夫逻辑网的结构学习存在差别,使用lsm算法生成候选的一阶逻辑子句,每个子句后面都会有相应的wpll值,值越大,表示子句表达的知识越有价值。源域和目标域也都需要结构学习。这里使用lsm算法的好处是可以生成比普通的结构学习算法更多的候选子句,增大了迁移知识的可选择性。

图2展示了网易新闻领域结构学习后得到的部分一阶逻辑子句,其中前面的数字表示该一阶逻辑子句的wpll值,值越大表示该条子句越重要。

(3)知识提取

结构学习得到的一阶逻辑子句,其中每个谓词都有具体的领域内的含义,是不能在领域之间迁移的,此处需要将知识抽象化,结合不同的模型,知识抽象化的方法都是不同的,由于马尔科夫逻辑网的知识表示是一阶逻辑子句,在此知识抽象化的方法是将一阶子句提升为二阶子句,移除每个谓词的具体含义,这样达到可以在领域之间迁移的目的。源域和目标域通过结构学习得到的一阶子句,都需要抽象成二阶子句。

图3展示了网易新闻领域的一阶子句转换成二阶的形式,可以发现,不同的一阶逻辑子句可能会拥有相同的二阶形式,所以,在此之后还要对二阶子句进行去重合并,并且需要保留那些一阶子句对应那些二阶的映射关系表,便于后续的知识迁移过程。

(4)知识迁移

源域和目标域之间的知识迁移,是通过将源域和目标域得到的二阶子句相对应,然后选取在源域和目标域的二阶子句中,使用调节参数调整后,得到的wpll值对应的二阶子句,对应的一阶子句作为目标域结构学习的结果。

这里,一对一的迁移模型是仅选取一个源域的一阶逻辑子句进行抽象,多对一的迁移学习模型是选取至少两个源域的一阶逻辑子句进行抽象,都需要使用调节参数调整,这里各个源域样本的比重也是可以调节的。与目标域领域距离较小的源域贡献较多的训练样本,会提高模型的表现效果。具体的知识迁移过程示意图如图4所示。

(5)参数学习

对迁移学习得到的目标域网络结构进行参数学习,即优化各个一阶逻辑子句的权重,得到最终的迁移学习舆情角色识别模型。

基于以上步骤,构建了舆情角色识别迁移系统。本系统使用的是从4个网络平台抓取的舆情数据,包括新浪微博,网易新闻,凯迪社区和天涯论坛,是以主题为线索,获取相关用户得到的数据信息,然后对用户进行人工角色识别打标签,得到的数据集。

表2数据集简介

各个平台可获取的用户信息是不一致的,比如在凯迪社区,可以获取用户等级,但是在天涯论坛是没有这种信息的,这种差别导致了获取的不同领域的信息,其维度和属性所代表的含义都有所差别,导致了领域异构,使得在迁移学习时首先需要进行异构域的转换。

根据前面提供的领域距离测量方法,使用表2中描述的舆情数据集,求得新浪微博,网易新闻,天涯社区和凯迪论坛两两之间的领域距离如表3所示,这里测量过程中采用的模型是贝叶斯分类器。

表3舆情领域距离表

从表3可以看出,新浪微博和凯迪社区之间的领域距离最小,新浪微博和网易新闻之间的领域距离最大,网易新闻与各个领域差别都较大,可能是与该平台本身是新闻类的有关,其他三个领域都是论坛评论类的。

基于上述数据构建马尔科夫逻辑网角色识别迁移模型,然后对该系统进行测试。

首先进行单源域的角色识别迁移测试:

首先观察不同领域距离的源域迁移到目标域得到的模型的误差界限变化,实验将网易新闻、天涯社区和凯迪论坛分别作为源域迁移到目标域,变换联合误差参数α,分别取0.1,0.3,0.5,0.7和0.9这五个值下,得到的迁移模型误差界限,如图5所示。

可以看出,领域距离不同时,模型迁移误差界限随领域距离增大而增大,且不同源域下的迁移模型,达到最小误差界限时,对应的联合误差参数α也不一定相同。

然后观察当增加目标域训练样本时,目标域得到的模型的误差界限变化,实验采用天涯论坛作为源域,设定联合误差参数为0.2,变化目标域训练样本得到的模型的误差界限,如图6所示。

从图6可以看出,随目标域训练样本数的增多,模型的迁移学习误差界限越来越小,该系统表现出了与理论研究一致的趋势。当目标域训练数据达到900时,迁移学习所起的作用相对来说被弱化了。

然后进行多源域的角色识别迁移测试:

首先,选取网易新闻和天涯论坛作为源域,观察随两个源域联合误差参数α的变化,使天涯论坛的参数依次设置为0.1,0.3,0.5,0.7和0.9,网易新闻为剩余的比例,模型迁移误差界限的变化,结果如图7所示。

从图7可以看出随着天涯论坛的域权重越来越高,模型的迁移误差界限先减小后稍微增大,减小是因为天涯论坛与目标域新浪微博领域的距离更近有关,之后稍微增大,可能是与网易新闻领域知识的占比太少有关。

观察源域个数依次增加时,模型迁移误差界限的变化,首先仅选择网易新闻作为源域,然后依次加入天涯社区和凯迪论坛,这里联合误差参数α的设置选择平均到各源域,即使得到的各源域的知识贡献趋于迁移模型误差界限,如图8所示。

从图8可以看出,仅有网易新闻领域作为源域时,模型迁移学习的误差较大,因为网易新浪与新浪微博之间的领域距离较大,添加了天涯社区之后,模型迁移学习的误差界限明显降低,因为加入了新的知识,且该知识与目标域的契合度更高,再加入凯迪社区也作为源域时,模型迁移学习的误差界限有小幅降低,究其原因可能是凯迪社区的知识与另外两个源域的知识有了一定的重合度,表明对于多源域迁移,不一定是源域个数越多越好的,而是在精不在多。

观察在将网易新闻、天涯论坛和凯迪社区作为源域,并且设置联合误差参数依次为0.2、0.4和0.4,观察目标域训练数据变化的情况下,模型迁移学习误差界限的变化情况。

从图9可以看出,随着目标域样本集数量越来越大,模型的迁移学习界限也越来越小,与单源域迁移的情况相比,总图的迁移学习误差界限偏小,这与模型融合了多个领域的知识有关。

整个测试可以得出,在目标域训练数据充足的情况下,本系统表现基本与理论一致;在目标域数据比较少时,表现效果与源域的选择有关;迁移模型在真实数据集上的表现,总体来说比较符合本发明的预期,与理论研究的预期走势基本相一致。

本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1