基于改进人工免疫系统的链接预测方法及存储介质与流程

文档序号:17444412发布日期:2019-04-17 05:19阅读:188来源:国知局
基于改进人工免疫系统的链接预测方法及存储介质与流程

本发明涉及网络链接预测技术领域,特别涉及一种基于改进的人工免疫系统的链接预测方法。



背景技术:

社会网络可以看作是一种以节点表示个体或其他实体,以边来表示节点间的交互或关系的图结构。基于这种关系结构,大量个体围绕着某个事件进行交互并彼此影响,其中,个体发表文本信息的可见性和真实关系的不易见性,使得利用动态交互网络预测网络结构成为当前的研究热点。作为关系结构分析中最为基础的问题,链接预测具有广泛的实际应用价值,其不但能够分析社会网络中的缺失数据,而且可被应用到其他领域,如分子生物学、犯罪调查、信息检索和推荐系统。此外,对链接预测方法的研究还有助于深入理解社会网络的演化机理。综上所述,除广阔的应用前景外,链接预测还具有重要的理论意义。

近年来,研究者提出了很多解决链接预测的相关算法,这些算法一般是基于监督学习的链接预测、基于概率模型的链接预测、基于节点相似度的链接预测等。

基于节点相似度的链接预测。根据预先设定的相似度评分函数对节点间的相似度进行打分,然后根据打分值将所有没被发现的链接进行排序,相似度分数越高则两节点间存在链接的可能性越大。该方法仅考虑网络拓扑结构,而忽略了网络其他因素,例如时间因素,从而导致预测结果差强人意。

基于概率模型的链接预测。首先利用社会网络中的节点或者边构造一个统计模型,然后利用该统计模型进行链接预测。统计模型构建是该方法的核心,将直接影响后续链接预测的结果。该方法主要存在两点缺点:一是获取节点信息的难度很大,无法获得足够的先验知识,因此统计模型构建非常困难;二是算法的复杂性较高,因此在实际应用中具有一定难度。

基于监督学习的链接预测。根据已知的网络信息获取链接关系,并在这些链接关系中提取相关的特征属性构建分类器,然后根据该分类器对未知网络进行二类划分,即判断链接关系存在或者不存在。该方法的主要缺点是社会网络中的节点不是简单的统计上的独立采样点,节点间存在着联系,并不满足传统的机器学习条件。

综上所述,动态社会网络中关于有向链接预测的研究目前还处于起步阶段,很多问题的提出及研究方法都源于静态网络和无向网络,如何对链接的方向性和网络的动态性加以考虑、如何量化不同链接特征的重要性以及如何合理地融合多维特征成为现有技术亟需解决的技术问题。



技术实现要素:

本发明的目的在于提出一种基于改进的人工免疫系统的链接预测方法,以克服现有技术中存在的忽视链接方向性和网络动态性、不同链接特征重要性的量化不合理以及多维特征融合复杂度过高的缺陷,进而提高动态社会网络中有向链接预测的精度。

为达此目的,本发明采用以下技术方案:

一种基于改进人工免疫系统的链接预测方法,包括如下步骤:

特征表示步骤s110:

通过社交媒体获取用户的个人特征信息、基于时间片流的用户关系特征信息,和用户发表状态信息,利用上述信息解析得到用户概要特征,用户动态关系特征和用户动态发表内容特征;

特征参数学习步骤s120:针对特征表示步骤中得到的三类特征,分析各个特征与链接关系的相关性,删除相对冗余的特征,计算并分配剩余特征的权重,所述链接关系位于不同用户之间,包括三种情况,即用户是否关注另一用户,用户是否被另一用户所关注,以及两个用户之间不存在任何关注关系;

链接预测步骤s130:利用用户概要特征、用户动态关系特征和用户动态发布内容特征,设计面向链接预测的人工免疫系统构成表示;计算每一个抗体的亲和力阈值,对约简后的抗体集合中的每一个抗体进行克隆与变异,并基于构建的人工免疫系统模型进行链接预测。

可选的,所述社交媒体包括新浪微博、facebook。

可选的,在特征表示步骤中,集合表示链接特征,并结合函数描述,给出了链接特征的形式化表示。

可选的,在特征表示步骤s110中,

用户概要特征包括:互粉数、粉丝数、关注数、性别、省份、城市、账户创建时间和账户认证类型,可选的,具有离散特征的性别、省份、城市、账户创建时间和账户认证类型特征在原始数据集中以不同的数值表示其所属类别;

用户动态关系特征包括:利用改进的salton度量标准、改进的jaccard度量标准和改进的preferentialattachment度量标准,衡量表示用户动态关系特征;

其中所述改进的salton度量标准为:

在时间片流[0,tn]上,用户u和用户v的salton值的计算公式如下:

其中,所述的β∈[0,1],βn-i表示时间片ti的权重;n表示时间片流[0,tn]上包含的时间片总数;sa(u,v,ti)表示用户u和用户v在第i个时间片ti上的salton值,其计算公式如下:

其中,所述的γin(u,ti)和γin(v,ti)分别为用户u和用户v在时间片ti上的入链接用户集合;γout(u,ti)和γout(v,ti)分别为用户u和用户v在时间片ti上的出链接用户集合;入链接和出链接由用户间的关注关系决定;|γ(x)|表示集合γ(x)的元素数量,din(u,ti)和din(v,ti)分别为用户u和用户v在时间片ti上的入度;dout(u,ti)和dout(v,ti)分别为用户u和用户v在时间片ti上的出度;

所述改进的jaccard度量标准为:

在时间片流[0,tn)上,用户u和用户v的jaccard值的计算公式如下:

其中,所述的ja(u,v,ti)表示用户u和用户v在第i个时间片ti上的jaccard值,其计算公式如下:

所述改进的preferentialattachment度量标准为在时间片流[0,tn]上,用户u和用户v的preferentialattachment值的计算公式如下:

其中,所述的pa(u,v,ti)表示用户u和用户v在第i个时间片ti上的preferentialattachment值,其计算公式如下:

所述用户动态发布内容特征为:统计单一时间片上正向情感统计单一时间片上的正向情感词数和负向情感词数,计算单一时间片上的用户心情指数,并最终计算时间流上的用户心情指数,具体包括在时间片流[0,tn]上,用户u的动态发布内容特征计算公式如下:

其中,所述的em(u,ti)表示用户u在时间片ti上的心情指数,即某个用户在时间片ti上发布的微博文本中所表达出的情感,其计算公式如下:

em(u,ti)=pn(u,ti)/nn(u,ti)

其中,所述的pn(u,ti)和nn(u,ti)分别表示用户u在时间片ti上发表的社交文本集合中使用的包含在中英文情感分析用词语集中的正向情感词数和负向情感词数。

可选的,特征参数学习步骤s120具体包括:

相关性分析步骤s121:应用肯德尔系数分析各个特征与链接类别之间的相关性,其计算公式如下:

其中,所述的τi,l表示随机变量特征i,即各个特征i与链接类别l之间的相关性,τi,l的取值范围在-1到1之间,当τi,l为1时,表示随机变量特征i与链接类别l拥有一致的等级相关性,当τi,l为-1时,表示随机变量特征i与链接类别l拥有完全相反的等级相关性,当τi,l为0时,表示随机变量特征i与链接类别l是相互独立的,k表示参与相关性分析的随机变量数量;n表示随机变量特征i与链接类别l的维数;vil和vll分别表示随机变量特征i和链接类别l第l个实例的值;njk表示第j个随机变量中第k个元素拥有重复元素的数量;

所有特征平均相关性计算步骤s122:基于步骤s121中得到的相关性分析结果,计算所有特征的平均相关性,其计算公式如下:

其中,所述的avgτ为所有特征的平均相关性,r表示特征维数;

冗余特征判断删除步骤s123:判断特征i与链接类别之间的相关性τi,l是否达到平均水平,若未达到,即|τi,l|<avgτ,则将特征i定义为冗余特征,将其从特征集合中移除;

特征权重计算分配步骤s124:对于剩余的特征,计算并分配的特征权重,

其中,所述的ωi为特征i的权重。

可选的,在相关性分析步骤s121中,k值为2。

可选的,链接预测步骤s130具体包括:

面向链接预测的人工免疫系统构成表示步骤s131在人工免疫系统构成表示方面,以链接表示为人工免疫系统中的微生物,微生物包括抗原和抗体,所述链接中包括作为训练的,识别效果好的链接和作为测试验证的链接,其中以作为训练的,识别效果好的链接作为抗原,以作为测试验证的链接作为抗体,以上一步骤中的链接的特征值序以及相应的权重值相乘后的值表示为人工免疫系统中微生物的基因,即抗原或者抗体的基因,以一个成熟的检测器表示人工免疫系统中的一个记忆细胞,以一个检测器能够准确识别链接类别的能力表示为人工免疫系统中的一个抗体的适应度,以检测器与链接之间的匹配程度表示为人工免疫系统中的亲和力,以算法的迭代次数表示人工免疫系统的增殖代数;

亲和力阈值计算步骤s132:

设定每一个抗体ab的抗体初始阈值θab,在接下来的迭代步骤中根据链接预测结果对θab的值进行如下修改直到迭代次数达到g次:

其中,所述的δ表示单调递减学习速率;affinity(ab,ag)表示抗体ab与抗原ag间的亲和力,其计算公式如下:

其中,所述的λ∈[0,1]表示一个衰减因子;lifeab∈{1,2,…,n表示抗体ab的产生代数;分别表示抗体ab与抗原ag的特征值向量,r表示特征值的数量;表示特征取值;djs(vab,vag)表示抗体ab与抗原ag间的j-s散度,其计算公式如下:

其中,所述的r表示vab和vag中各特征取值的平均分布,即dkl(vab∥r)和dkl(vag||r)分别表示vab与r之间和vag与r之间的k-l散度,其计算公式如下:

计算abtemp中每一个抗体ab的适应度,其计算公式如下:

其中,所述的numcorrect(ab)和numincorrect(ab)分别表示抗体ab准确识别的抗原总数和ab识别错误的抗原总数;

从abtemp中删除那些适应度小于预先设定阈值ε的抗体,并将约简后的abtemp加入到ab*和ab中,并清空abtemp,令classab和classag分别表示抗体ab与抗原ag的类型,对于ag中的每一个抗原ag:如果affinity(ab,ag)≤θab且classab=classag,则为假阴性,将ag加入到abnew中,由于ag与相似抗原间的亲和力会更高,因而将其产生代数设置为ab的下一代,即lifeab+1代;

克隆与变异步骤s133:

计算ab*中的每一个抗体ab的克隆数目,即抗体ab的变异次数,其计算公式如下:

其中,所述的β表示一个克隆比例因子;

对ab*中的每一个抗体ab的每一维特征进行变异,则ab的第i维特征的变异的范围,其计算公式如下:

其中,所述的ri表示第i维特征的取值范围,其计算公式如下:

ri=upi-downi

其中,所述的upi和downi分别表示第i维特征的上限值和下限值,则变异后的抗体ab*的第i维特征的取值,其计算公式如下:

其中,所述的ρ∈[0,1]表示一个服从标准正态分布的随机值;

将变异后的抗体和abnew中的抗体加入到abtemp中,将其产生代数设置为ab的下一代,即lifeab+1代,并从ag中删除abnew中包含的抗体,清空ab*和abnew,

其中ab*、abnew、abtemp和ab均为在计算过程中使用的集合;

链接预测步骤s134:

循环进行步骤s132和步骤s133,直到进行g次迭代后,将abtemp中的抗体加入到ab中,并将ab中每一个抗体的亲和力阈值设为0.5,修正ab中每一个抗体的亲和力阈值,计算ab中每一个抗体的适应度,如果某一抗体的适应度大于或者等于预先设定适应度阈值ε,那么,将其加入到记忆细胞集合mc中,

计算未知链接与mc中每一个记忆细胞间的亲和力,根据与未知链接间具有最高亲和力的记忆细胞的类型与阈值,对未知链接的类别进行识别,如果该亲和力大于该记忆细胞的阈值且大于其与其他所有记忆细胞的亲和力,那么,未知链接的类别与该记忆细胞的类型相同。

可选的,在亲和力阈值计算步骤s132:抗体初始阈值θab为0.5。

可选的,链接预测步骤s134中,对于未知链接的类别与该记忆细胞的类型的判断具体为:

假设未知链接为l,记忆细胞集合为mc,计算未知链接l与mc中|mc|个抗体的亲和力集合{affinity(m1,l),affinity(m2,l),,affinity(m|mc|,l)},并从上述集合中选出且与affinity(mi,l)值最高的那个记忆细胞,设为mmax,则未知链接l的链接类型与记忆细胞mmax的链接类别相同。

本发明还公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于改进的人工免疫系统的链接预测方法。

本发明提出一种基于改进的人工免疫系统的链接预测方法,基于用户网络结构信息和用户发布内容信息的时间序列,构建用户动态关系特征和用户动态发布内容特征;通过对链接特征进行相关性分析,根据特征的重要性赋予其权重以得到带有权重的训练集合;最后,通过重新定义亲和力度量标准、多样化的亲和力阈值以及标准正态分布变异因子,构建基于改进的人工免疫算法的链接预测模型。本发明不仅能够较好地适用于链接特征的多样性,还能够使系统保持较高的准确性,实现了链接存在性及方向性的预测。

附图说明

图1是根据本发明具体实施例的基于改进人工免疫系统的链接预测方法的流程图;

图2是根据本发明具体实施例的特征预测步骤的流程图;

图3是根据本发明具体实施例的特征参数学习步骤实现冗余特征的分析以及特征权重的分配的流程图;

图4是根据本发明具体实施例的链接预测步骤中基于改进的人工免疫系统的进行链接预测的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

本发明主要针对社交媒体,获取用户个人特征信息、随时间的用户关系特征信息,以及随时间的用户发表状态信息,提取这三类的特征,分析上述特征与不同用户之间的链接关系的相关性,删除冗余特征,计算剩余特征的权重,所述不同用户的链接关系包含有三种,即用户是否关注另一用户,用户是否被另一用户所关注,以及两个用户之间不存在任何关注关系;最终利用上述的特征信息和权重,利用改进的人工免疫模型,进行用户与未知用户之间的链接关系的预测。

在社交媒体中,用户u和用户v之间的链接类别定义如下:

若用户u和用户v之间不存在链接,则用户u和用户v之间的链接类别为无链接;

若用户u和用户v之间存在链接,且链接由用户u指向用户v,则用户u和用户v之间的链接类别为正向链接;

若用户u和用户v之间存在链接,且链接由用户v指向用户u,则用户u和用户v之间的链接类别为负向链接。

例如在新浪微博中,如果用户u关注了用户v,则用户u和用户v之间的链接类别为正向链接;如果用户v关注了用户u,则用户u和用户v之间的链接类别为负向链接;如果用户u和用户v之间没有关注,则用户u和用户v之间的链接类别为无链接。

具体的,参见图1,示出了根据本发明具体实施例的基于改进人工免疫系统的链接预测方法的流程图。

特征表示步骤s110:

通过社交媒体获取用户的个人特征信息、基于时间片流的用户关系特征信息,和用户发表状态信息,利用上述信息解析得到用户概要特征,用户动态关系特征和用户动态发表内容特征。

其中所述社交媒体包括新浪微博、facebook等各类不同的社交媒体。

该步骤包括用户特征信息的采集和用户特征信息的表示两个方面。

用户特征信息的采集为:在用户最基本的特征基础上,还需对用户的行为,即用户发表的评论状态进行深入挖掘。在一个具体的示例中,本发明将网络看作一个动态的时间片流,每一个时间片表示一天并且一个时间片越久,其重要性越低,权重越小,同一时间片内的用户关系和用户发布内容集合记录在同一个文件中。

用户特征信息的表示即:采集得到用户概要特征,用户动态关系特征和用户动态发表内容特征,将这三类特征作为链接特征的表示,以实现链接的预测打下基础。

在具体的实施中,利用集合表示链接特征,并结合函数描述,给出了链接特征的形式化表示。

具体的,参见图2,示出了特征表示步骤的具体示例:

在该步骤中,用户概要特征包括:互粉数、粉丝数、关注数、性别、省份、城市、账户创建时间和账户认证类型,可选的,具有离散特征的性别、省份、城市、账户创建时间和账户认证类型特征在原始数据集中以不同的数值表示其所属类别。

用户动态关系特征包括:利用改进的salton度量标准、改进的jaccard度量标准和改进的preferentialattachment度量标准,衡量表示用户动态关系特征。

其中所述改进的salton度量标准为:

在时间片流[0,tn]上,用户u和用户v的salton值的计算公式如下:

其中,所述的β∈[0,1],βn-i表示时间片ti的权重;n表示时间片流[0,tn]上包含的时间片总数;sa(u,v,ti)表示用户u和用户v在第i个时间片ti上的salton值,其计算公式如下:

其中,所述的γin(u,ti)和γin(v,ti)分别为用户u和用户v在时间片ti上的入链接用户集合;γout(u,ti)和γout(v,ti)分别为用户u和用户v在时间片ti上的出链接用户集合;入链接和出链接由用户间的关注关系决定;|γ(x)|表示集合γ(x)的元素数量,din(u,ti)和din(v,ti)分别为用户u和用户v在时间片ti上的入度;dout(u,ti)和dout(v,ti)分别为用户u和用户v在时间片ti上的出度;

所述改进的jaccard度量标准为:

在时间片流[0,tn]上,用户u和用户v的jaccard值的计算公式如下:

其中,所述的ja(u,v,ti)表示用户u和用户v在第i个时间片ti上的jaccard值,其计算公式如下:

所述改进的preferentialattachment度量标准为在时间片流[0,tn]上,用户u和用户v的preferentialattachment值的计算公式如下:

其中,所述的pa(u,v,ti)表示用户u和用户v在第i个时间片ti上的preferentialattachment值,其计算公式如下:

所述用户动态发布内容特征为:统计单一时间片上正向情感统计单一时间片上的正向情感词数和负向情感词数,计算单一时间片上的用户心情指数,并最终计算时间流上的用户心情指数,具体包括在时间片流[0,tn]上,用户u的动态发布内容特征计算公式如下:

其中,所述的em(u,ti)表示用户u在时间片ti上的心情指数,即某个用户在时间片ti上发布的微博文本中所表达出的情感,其计算公式如下:

em(u,ti)=pn(u,ti)/nn(u,ti)

其中,所述的pn(u,ti)和nn(u,ti)分别表示用户u在时间片ti上发表的社交文本集合中使用的包含在中英文情感分析用词语集中的正向情感词数和负向情感词数。在一个可选的实施例中,上述中英文情感分析用词语集可以从知网、cnki等等网络文库中获取。

在本步骤中,所有计算得到的特征可以放入链接特征数据库中。

特征参数学习步骤s120:针对特征表示步骤中得到的三类特征,分析各个特征与链接关系的相关性,删除相对冗余的特征,计算并分配剩余特征的权重,所述链接关系位于不同用户之间,包括三种情况,即用户是否关注另一用户,用户是否被另一用户所关注,以及两个用户之间不存在任何关注关系。

对于冗余特征分析:传统方法忽略了特征与链接类别之间的相关性,增加了时间和空间上的代价。本发明利用相关性分析方法,在预测链接之前,分析特征与链接类别之间的相关性,对相对冗余的特征进行删减,以降低计算量,提高计算效率。

对于特征权重分配:传统链接预测方法未考虑各个特征对于链接预测的重要性差别,导致预测结果被大量相关性较小的特征所支配。与传统方法不同,本发明通过特征与链接类别之间的肯德尔相关系数为其分配权重,特征与链接类别越相关,则其权重就越高,达到了抑制弱相关特征影响的目的。

具体的,参见图3,示出了特征参数学习步骤实现冗余特征的分析以及特征权重的分配的流程图,包括如下步骤。

相关性分析步骤s121:应用肯德尔系数分析各个特征与链接类别之间的相关性,其计算公式如下:

其中,所述的τi,l表示随机变量特征i,即各个特征i与链接类别l之间的相关性,τi,l的取值范围在-1到1之间,当τi,l为1时,表示随机变量特征i与链接类别l拥有一致的等级相关性,当τi,l为-1时,表示随机变量特征i与链接类别l拥有完全相反的等级相关性,当τi,l为0时,表示随机变量特征i与链接类别l是相互独立的,k表示参与相关性分析的随机变量数量,在一个可选的实施例中,k值为2;n表示随机变量特征i与链接类别l的维数;vil和vll分别表示随机变量特征i和链接类别l第l个实例的值;njk表示第j个随机变量中第k个元素拥有重复元素的数量;

所有特征平均相关性计算步骤s122:基于步骤s121中得到的相关性分析结果,计算所有特征的平均相关性,其计算公式如下:

其中,所述的avgτ为所有特征的平均相关性,r表示特征维数。

冗余特征判断删除步骤s123:判断特征i与链接类别之间的相关性τi,l是否达到平均水平,若未达到,即|τi,l|<avgτ,则将特征i定义为冗余特征,将其从特征集合中移除;

特征权重计算分配步骤s124:对于剩余的特征,计算并分配的特征权重,

其中,所述的ωi为特征i的权重。

链接预测步骤s130:利用用户概要特征、用户动态关系特征和用户动态发布内容特征,设计面向链接预测的人工免疫系统构成表示;计算每一个抗体的亲和力阈值,对约简后的抗体集合中的每一个抗体进行克隆与变异,并基于构建的人工免疫系统模型进行链接预测。

对于面向链接预测的人工免疫系统构成表示

传统链接预测方法未能较好地适应个体的变化,在很大程度上影响了数据处理的速度和准确率。与传统方法不同,本发明通过融合用户概要特征、用户动态关系特征和用户动态发布内容特征,设计面向链接预测的人工免疫系统构成表示,并构建基于改进的人工免疫算法的学习方法以预测社会网络中链接的存在性与方向性。

对于亲和力阈值计算

在传统人工免疫算法中,所有抗体均采用一个共同的阈值,导致每一个抗体仅能覆盖一个特定的空间,而不能发挥其最大的效力。与传统方法不同,本发明为每一个抗体计算一个亲和力阈值并根据预测结果不断动态修正。

对于克隆与变异

在传统人工免疫算法采用均匀的变异算子会使得变异后的取值均匀地分布在其取值范围。然而,如果变异的范围太小,那么,识别范围不能被扩展,失去了变异的意义;如果变异的范围过大,可能会漏掉最佳的解决方案。与传统方法不同,本发明采用高斯分布作为变异算子使得变异后的取值服从标准正态分布,不仅能够降低变异范围过大或过小的概率,还能够更迅速地找到最佳的解决方案。

对于链接预测

本发明根据与未知链接间具有最高亲和力的记忆细胞的类型与阈值,对未知链接的类别进行识别。

具体的,参见图4,示出了根据链接预测步骤中基于改进的人工免疫系统的进行链接预测的流程图,具体包括如下步骤:

面向链接预测的人工免疫系统构成表示步骤s131在人工免疫系统构成表示方面,以链接表示为人工免疫系统中的微生物,微生物包括抗原和抗体,所述链接中包括作为训练的,识别效果好的链接和作为测试验证的链接,其中以作为训练的,识别效果好的链接作为抗原,以作为测试验证的链接作为抗体,以上一步骤中的链接的特征值序以及相应的权重值相乘后的值表示为人工免疫系统中微生物的基因,即抗原或者抗体的基因,以一个成熟的检测器表示人工免疫系统中的一个记忆细胞,以一个检测器能够准确识别链接类别的能力表示为人工免疫系统中的一个抗体的适应度,以检测器与链接之间的匹配程度表示为人工免疫系统中的亲和力,以算法的迭代次数表示人工免疫系统的增殖代数。

亲和力阈值计算步骤s132:

设定每一个抗体ab的抗体初始阈值θab,在一个可选的实施例中,初始阈值θab设置为0.5,在接下来的迭代步骤中根据链接预测结果对θab的值进行如下修改直到迭代次数达到g次:

其中,所述的δ表示单调递减学习速率;affinity(ab,ag)表示抗体ab与抗原ag间的亲和力,其计算公式如下:

其中,所述的λ∈[0,1]表示一个衰减因子;lifeab∈{1,2,…,n表示抗体ab的产生代数;分别表示抗体ab与抗原ag的特征值向量,r表示特征值的数量;表示特征取值;djs(vab,vag)表示抗体ab与抗原ag间的j-s散度,其计算公式如下:

其中,所述的r表示vab和vag中各特征取值的平均分布,即dkl(vab∥r)和dkl(vag||r)分别表示vab与r之间和vag与r之间的k-l散度,其计算公式如下:

计算abtemp中每一个抗体ab的适应度,其计算公式如下:

其中,所述的numcorrect(ab)和numincorrect(ab)分别表示抗体ab准确识别的抗原总数和ab识别错误的抗原总数;

从abtemp中删除那些适应度小于预先设定阈值ε的抗体,并将约简后的abtemp加入到ab*和ab中,并清空abtemp,令classab和classag分别表示抗体ab与抗原ag的类型,对于ag中的每一个抗原ag:如果affinity(ab,ag)≤θab且classab=classag,则为假阴性,将ag加入到abnew中,由于ag与相似抗原间的亲和力会更高,因而将其产生代数设置为ab的下一代,即lifeab+1代。

克隆与变异步骤s133:

计算ab*中的每一个抗体ab的克隆数目,即抗体ab的变异次数,其计算公式如下:

其中,所述的β表示一个克隆比例因子;

对ab*中的每一个抗体ab的每一维特征进行变异,则ab的第i维特征的变异的范围,其计算公式如下:

其中,所述的ri表示第i维特征的取值范围,其计算公式如下:

ri=upi-downi

其中,所述的upi和downi分别表示第i维特征的上限值和下限值,则变异后的抗体ab*的第i维特征的取值,其计算公式如下:

其中,所述的ρ∈[0,1]表示一个服从标准正态分布的随机值;

将变异后的抗体和abnew中的抗体加入到abtemp中,将其产生代数设置为ab的下一代,即lifeab+1代,并从ag中删除abnew中包含的抗体,清空ab*和abnew。

其中ab*、abnew、abtemp和ab均为在计算过程中使用的集合。

链接预测步骤s134循环进行步骤s132和步骤s133,直到进行g次迭代后,将abtemp中的抗体加入到ab中,并将ab中每一个抗体的亲和力阈值设为0.5,修正ab中每一个抗体的亲和力阈值,计算ab中每一个抗体的适应度,如果某一抗体的适应度大于或者等于预先设定适应度阈值ε,那么,将其加入到记忆细胞集合mc中,

计算未知链接与mc中每一个记忆细胞间的亲和力,根据与未知链接间具有最高亲和力的记忆细胞的类型与阈值,对未知链接的类别进行识别,如果该亲和力大于该记忆细胞的阈值且大于其与其他所有记忆细胞的亲和力,那么,未知链接的类别与该记忆细胞的类型相同。

具体的,假设未知链接为l,记忆细胞集合为mc,计算未知链接l与mc中|mc|个抗体的亲和力集合{affinity(m1,l),affinity(m2,l),,affinity(m|mc|,l)},并从上述集合中选出且与affinity(mi,l)值最高的那个记忆细胞,设为mmax,则未知链接l的链接类型与记忆细胞mmax的链接类别相同。

因此,通过该方法,利用已有的社交网络数据,实现对新用户之间的链接关系的预测。

在一个具体的实施例中,为确保实验结果的可靠性,拟采用10折交叉验证利用准确率、召回率和f1值对实验结果进行评估。首先,随机将数据集分成10份,然后,在每一折交叉验证中,取9份数据作为训练集合a,余下的1份数据记作b,作为测试集合。

本发明还公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的基于改进的人工免疫系统的链接预测方法。

与现有技术相比本发明的有益效果是:

本发明提出一种基于改进的人工免疫系统的链接预测方法,基于用户网络结构信息和用户发布内容信息的时间序列,构建用户动态关系特征和用户动态发布内容特征;通过对链接特征进行相关性分析,根据特征的重要性赋予其权重以得到带有权重的训练集合;最后,通过重新定义亲和力度量标准、多样化的亲和力阈值以及标准正态分布变异因子,构建基于改进的人工免疫算法的链接预测模型。本发明不仅能够较好地适用于链接特征的多样性,还能够使系统保持较高的准确性,实现了链接存在性及方向性的预测。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1