样本标签处理方法及装置、社群划分方法及装置与流程

文档序号:18145094发布日期:2019-07-10 11:35阅读:242来源:国知局
样本标签处理方法及装置、社群划分方法及装置与流程

本说明书实施例涉及数据处理技术领域,尤其涉及一种样本标签处理方法及装置、社群划分方法及装置。



背景技术:

机器学习是研究如何使用机器来模拟人类学习活动的一门学科,其利用大量的样本数据进行训练,获得各种形式的数据模型来解决实际问题。机器学习通常可以分为四类:有监督学习、无监督学习、半监督学习以及强化学习,其中,有监督学习、无监督学习以及半监督学习的主要区别在于用于训练的样本是否具有标签(label)。有监督学习是从标签化样本集中推断出函数的机器学习任务;无监督学习是从类别未知(没有被标记)的样本集中推断出函数的机器学习任务;半监督学习只有小部分样本具有标签,是一种有监督学习和无监督学习都可以使用的学习方法。在实际应用中,经常会遇到需要采用有监督学习或者半监督学习解决问题、但是样本标签不准确的情况。



技术实现要素:

本说明书实施例提供及一种样本标签处理方法及装置、社群划分方法及装置。

第一方面,本说明书实施例提供一种样本标签处理方法,包括:

获取样本集,所述样本集中的部分样本具有预设标签;

根据所述样本集中各个样本之间的关联关系,将所述样本集划分为h个群组,h为正整数;

对所述h个群组进行l次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,l为正整数;

其中,每次所述迭代处理包括:

根据当前每个样本的标签信息确定每个群组的群组特征;

根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组;

为所述目标群组中不具有所述预设标签的样本添加所述预设标签;

对所述非目标群组中具有所述预设标签的样本删除所述预设标签。

第二方面,本说明书实施例提供一种社群划分方法,包括:

根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

计算所述关系网络图的每个节点的度;

按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问所述关系网络图的每个节点包括:

判断当前节点是否已加入任意一个群组;

若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;

根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

将所述一个以上扩展节点加入所述新群组。

第三方面,本说明书实施例提供另一种社群划分方法,包括:

根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

计算所述关系网络图的每个节点的度;

按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问所述关系网络图的每个节点包括:

判断当前节点是否已加入任意一个群组;

若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;

根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

对每个扩展节点进行入群处理;

其中,所述入群处理包括:

判断所述扩展节点已加入的群组数量是否小于第一预设阈值;

若所述扩展节点已加入的群组数量小于所述第一预设阈值,则将所述扩展节点加入所述新群组。

第四方面,本说明书实施例提供一种样本标签处理装置,包括:

样本集获取模块,用于获取样本集,所述样本集中的部分样本具有预设标签;

样本集划分模块,用于根据所述样本集中各个样本之间的关联关系,将所述样本集划分为h个群组,h为正整数;

迭代处理模块,用于对所述h个群组进行l次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,l为正整数;

其中,所述迭代处理模块包括:

特征确定模块,用于根据当前每个样本的标签信息确定每个群组的群组特征;

群组确定模块,用于根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组;

标签添加模块,用于为所述目标群组中不具有所述预设标签的样本添加所述预设标签;

标签删除模块,用于对所述非目标群组中具有所述预设标签的样本删除所述预设标签。

第五方面,本说明书实施例提供一种社群划分装置,包括:

网络图生成模块,用于根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

节点度计算模块,用于计算所述关系网络图的每个节点的度;

访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问模块包括:

第一判断模块,用于判断当前节点是否已加入任意一个群组;

新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;

扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

第一加入模块,用于将所述一个以上扩展节点加入所述新群组。

第六方面,本说明书实施例提供另一种社群划分装置,包括:

网络图生成模块,用于根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

节点度计算模块,用于计算所述关系网络图的每个节点的度;

访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问模块包括:

第一判断模块,用于判断当前节点是否已加入任意一个群组;

新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;

扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

入群处理模块,用于对每个扩展节点进行入群处理;

其中,所述入群处理模块包括:

第二判断模块,用于判断所述扩展节点已加入的群组数量是否小于第一预设阈值;

第二加入模块,用于在所述扩展节点已加入的群组数量小于所述第一预设阈值时,将所述扩展节点加入所述新群组。

第七方面,本说明书实施例提供一种服务器,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述样本标签处理方法和社群划分方法。

第八方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现上述样本标签处理方法和社群划分方法。

本说明书实施例有益效果如下:

本说明书实施例中,根据各个样本之间的关联关系,将部分样本具有预设标签的样本集划分为h个群组,并根据每个群组的群组特征获得具有所述预设标签的样本聚集的目标群组和除所述目标群组外的非目标群组,通过为所述目标群组中不具有所述预设标签的样本添加所述预设标签实现扩散,通过对所述非目标群组中具有所述预设标签的样本删除所述预设标签实现提纯,并通过多次的迭代处理重新实现扩散和提纯,提高样本的准确性和召回率。本说明书实施例提供的样本标签处理方法,通过直接对群组进行定性再对个体定性做调整,所有计算都在群组内,降低了计算的复杂度;每次迭代处理时只需要获得每个群组的群组特征,而不用对每个样本计算更新,因而计算成本非常低;收敛条件易达到,一般进行四至五次迭代处理即可退出。与现有的lpa(labelpropagationalgorithm,标签传播算法)相比,样本准确性和召回率更高;支持单标签或少标签启动,且单标签、少标签、多标签的扩散提纯都可以同步进行。

附图说明

图1为本说明书实施例的样本标签处理的应用场景示意图;

图2为本说明书实施例的样本标签处理方法的流程图;

图3为本说明书实施例的将样本集划分为h个群组的流程图;

图4为本说明书一种实施例的社群划分方法的流程图;

图5为本说明书实施例的关系网络图的示意图;

图6为本说明书另一种实施例的社群划分方法的流程图;

图7和图8为本说明书实施例的群组的示意图;

图9为本说明书实施例的样本标签处理装置的结构示意图;

图10为本说明书实施例的服务器的结构示意图。

具体实施方式

为了更好地理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细说明,而不是对本说明书技术方案的限定。在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。

请参见图1,为本说明书实施例的样本标签处理应用场景示意图。其中,样本标签处理装置100采用特定的迭代算法,对准确性和召回率低、无法支持策略应用和模型训练的样本进行标签处理,获得准确性和召回率高的输出样本,并将所述输出样本提供给模型训练装置200,由所述模型训练装置200根据所述输出样本进行模型训练,获得能够解决某一特定问题的有监督学习模型或者半监督学习模型。

第一方面,本说明书实施例提供一种样本标签处理方法。图2是所述样本标签处理方法的流程图,所述样本标签处理方法包括步骤s201至步骤s207。

s201,获取样本集,所述样本集中的部分样本具有预设标签。

在机器学习领域,样本是指数据的特定实例,样本的集合即为所述样本集。根据机器学习解决的具体问题不同,样本的表现形式也不一样。比如采用机器学习对网络交易中的风险用户进行识别,则样本对应为用户;再比如采用机器学习对文本进行分类,则样本对应为文本。样本可分为有标签样本和无标签样本,标签是需要预测的数据,例如可以是商品未来的价格、图片中显示的物品种类、音频剪辑的含义等任何数据。在本说明书实施例中,所述样本集中的样本为准确性和召回率低、无法支持策略应用和模型训练的样本。以对网络交易中的风险用户进行识别为例,样本准确性和召回率低体现在无风险的用户被添加了风险标签,有风险的用户未被添加风险标签。

所述样本集中的部分样本具有所述预设标签,部分样本不具有所述预设标签。所述预设标签可以为某一种具体标签,也可以为某几种具体标签所属的某类标签。例如,对于网络交易中的风险行为,所述风险行为包括但不限于欺诈类风险行为、底线类风险行为、经营类风险行为以及金融类风险行为,若仅需要识别出进行风险行为的用户,而不关心进行风险行为的用户具体进行的是哪种风险行为,则所述预设标签为风险标签;若需要识别出进行某种具体风险行为的用户,则所述预设标签为该种具体风险标签,例如欺诈风险标签。需要说明的是,所述样本集中的样本总数量以及具有所述预设标签的样本数量由实际应用确定,本说明书实施例对此不进行限定。所述样本集中的样本可以通过网络爬虫技术获取,也可以是从某个数据库中提取,还可以是从其他系统或渠道获取,本说明书实施例对此不进行限定。

s202,根据所述样本集中各个样本之间的关联关系,将所述样本集划分为h个群组,h为正整数。

所述关联关系可以为设备关系、网络关系、社交关系以及社区关系等。若所述样本集中存在天然的群组,例如存在聊天群、特定社区群、特定网络群或特定设备环境群等,则将每个天然的群组划分为一个群组,否则应用社群分割或社群发现算法进行群组识别。参考图3,本说明书实施例提供一种将所述样本集划分为h个群组的具体实现方法,包括步骤s301和步骤s302。

s301,根据所述样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图。

所述关系网络图是由若干个节点构成的一种图结构,每个节点对应表征一个样本,两个样本之间的关系采用连线表示。例如,若样本a和样本b之间具有关联关系,则采用连线连接样本a对应的节点和样本b对应的节点;若样本a和样本b之间无关联关系,则样本a对应的节点和样本b对应的节点之间无连线。需要说明的是,所述关系网络图可以为无向图,也可以为有向图,具体根据实际需求而定。

s302,对所述关系网络图进行社群划分,获得所述h个群组。

参考图4,本说明书实施例提供一种快速的社群划分方法,包括步骤s401至步骤s405。

s401,计算所述关系网络图的每个节点的度。

某个节点的度为与该节点相关联的边的条数。若所述关系网络图为有向图,则所述关系网络图的每个节点的度为入度和出度之和。其中,某个节点的入度为指向该节点的边的条数,某个节点的出度为从该节点指出的边的条数。获得所述关系网络图的每个节点的度之后,按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点,其中,所述访问所述关系网络图的每个节点包括步骤s402至步骤s405。需要说明的是,对于两个以上节点的度相同的节点,可按任意顺序进行访问。

s402,判断当前节点是否已加入任意一个群组。

若当前节点未加入任意一个群组,则执行步骤s403,生成以当前节点为中心的新群组,否则访问下一个节点。所述生成以当前节点为中心的新群组,即即新建一个群组,且将当前节点加入所述新群组。

s404,根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数。

根据复杂网络的经典理论,任意两个节点只需要n步就可以建立连接。n的取值可根据实际需求进行设置,n的取值越小,可能会漏掉重要连接;n的取值越大,计算量越大。在一种可选实现方式中,n的取值为3。进一步,若所述关系网络图为有向图,则所述n条边依次从所述扩展节点指向当前节点或者从当前节点指向所述扩展节点。

s405,将所述一个以上扩展节点加入所述新群组。

本说明书实施例提供的社群划分方法,基于复杂网络的经典理论实现了低时间复杂度下快速进行社群分割。以所述关系网络图如图5所示的无向图且n的取值为1为例,以下对图4所示的社群划分方法进行详细说明:

图5所示的关系网络图共有a、b、c、d、e、f、g七个节点,计算各节点的度对应为3、3、4、3、3、2、2;按照节点的度从大到小的顺序首先访问c节点,由于c节点未加入任意一个群组,生成以c节点为中心的新群组;由于a节点、b节点、d节点以及e节点是通过1条边与c节点相关联的节点,因而将a节点、b节点、d节点以及e节点确定为扩展节点,并将a节点、b节点、d节点以及e节点加入以c节点为中心的新群组。采用相同的方法,依次访问剩余的其他节点,由于a节点、b节点、d节点以及e节点均已加入以c节点为中心的群组,因而访问f节点或者g节点,将e节点和g节点加入以f节点为中心的新群组,或者将e节点和f节点加入以g节点为中心的新群组,最终获得两个群组:由a节点、b节点、c节点、d节点以及e节点构成的群组以及由e节点、f节点以及g节点构成的群组。

图4所示的社群划分方法,对于一些处于核心位置的节点,可能会频繁参与各个群组的计算,使后续步骤的处理速度变慢。参考图6,本说明书实施例提供另一种快速的社群划分方法,包括步骤s601至步骤s606。

s601,计算所述关系网络图的每个节点的度。

某个节点的度为与该节点相关联的边的条数。若所述关系网络图为有向图,则所述关系网络图的每个节点的度为入度和出度之和。其中,某个节点的入度为指向该节点的边的条数,某个节点的出度为从该节点指出的边的条数。获得所述关系网络图的每个节点的度之后,按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点,其中,所述访问所述关系网络图的每个节点包括步骤s602至步骤s606。需要说明的是,对于两个以上节点的度相同的节点,可按任意顺序进行访问。

s602,判断当前节点是否已加入任意一个群组。

若当前节点未加入任意一个群组,则执行步骤s603,生成以当前节点为中心的新群组,否则访问下一个节点。所述生成以当前节点为中心的新群组,即即新建一个群组,且将当前节点加入所述新群组。

s604,根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数。

根据复杂网络的经典理论,任意两个节点只需要n步就可以建立连接。n的取值可根据实际需求进行设置,n的取值越小,可能会漏掉重要连接;n的取值越大,计算量越大。在一种可选实现方式中,n的取值为3。进一步,若所述关系网络图为有向图,则所述n条边依次从所述扩展节点指向当前节点或者从当前节点指向所述扩展节点。获得所述一个以上扩展节点后,对每个扩展节点进行入群处理,其中,所述入群处理包括步骤s605和步骤s606。需要说明的是,可以同时对每个扩展节点进行入群处理,也可以依次对每个扩展节点进行入群处理,本说明书实施例对此不进行限定。

s605,判断所述扩展节点已加入的群组数量是否小于第一预设阈值。

所述第一预设阈值的取值可根据实际应用进行设置,所述第一预设阈值的取值越小,可能会漏掉一些群组;所述第一预设阈值的取值越大,计算量越大。

若所述扩展节点已加入的群组数量小于所述第一预设阈值,则执行步骤s606,将所述扩展节点加入所述新群组。

仍以所述关系网络图如图5所示的无向图、n的取值为1且所述第一预设阈值的取值也为1为例,以下对图6所示的社群划分方法进行详细说明:

图5所示的关系网络图共有a、b、c、d、e、f、g七个节点,计算各节点的度对应为3、3、4、3、3、2、2;按照节点的度从大到小的顺序首先访问c节点,由于c节点未加入任意一个群组,生成以c节点为中心的新群组;由于a节点、b节点、d节点以及e节点是通过1条边与c节点相关联的节点,因而将a节点、b节点、d节点以及e节点确定为扩展节点;由于a节点、b节点、d节点以及e节点未加入任何一个群组,即a节点、b节点、d节点以及e节点已加入的群组数量均为0,小于所述第一预设阈值,因而将a节点、b节点、d节点以及e节点加入以c节点为中心的新群组。采用相同的方法,依次访问剩余的其他节点,由于a节点、b节点、d节点以及e节点均已加入以c节点为中心的群组,因而访问f节点或者g节点,若访问f节点,扩展节点为e节点和g节点,若访问g节点,扩展节点为e节点和f节点;由于e节点已经加入了以c节点为中心的新群组,即e节点已加入的群组数量为1,不小于所述第一预设阈值,因而不能将e节点加入以f节点或者g节点为中心的新群组,仅将g节点加入以f节点为中心的新群组,或者将f节点加入以g节点为中心的新群组,最终获得两个群组:由a节点、b节点、c节点、d节点以及e节点构成的群组以及由f节点和g节点构成的群组。

在实际应用中,由于所述样本集中的样本数量较大,根据所述样本集中各个样本之间的关联关系通常会将所述样本集划分为两个以上群组,即h为不小于2的正整数,在极端情况下可能会出现将所述样本集划分为一个群组的情况。继续参考图1,将所述样本集划分为h个群组之后,对所述h个群组进行l次迭代处理,直至满足收敛条件,l为正整数。其中,每次所述迭代处理包括步骤s203至步骤s206。

s203,根据当前每个样本的标签信息确定每个群组的群组特征。

所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签。进行首次迭代处理时,当前每个样本的标签信息为所述样本集中每个样本的标签信息;进行第二次以及第二次以上迭代处理时,当前每个样本的标签信息为进行上一次迭代处理之后每个样本的标签信息。所述群组特征作为确定目标群组的依据,其具体内容可以根据实际情况而定,只要保证能够根据所述群组特征确定出所述目标群组即可,其中,所述目标群组为具有所述预设标签的样本聚集的群组。在一种可选实现方式中,所述群组特征包括群组标签浓度;在另一种可选实现方式中,所述群组特征除包括所述群组标签浓度外,还可以包括群组规模。其中,所述群组规模为所述群组特征对应的群组中所有样本的数量,所述群组标签浓度为所述群组特征对应的群组中具有所述预设标签的样本的数量与所有样本的数量之比。

s204,根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组。

具体地,判断每个群组特征是否满足预设条件;若所述群组特征满足所述预设条件,则将所述群组特征对应的群组确定为所述目标群组,否则将所述群组特征对应的群组确定为所述非目标群组。所述判断每个群组特征是否满足预设条件,可以依次对每个群组特征进行判断,也可以同时对每个群组特征进行判断,本说明书实施例对此不进行限定。所述预设条件根据所述群组特征和机器学习解决的具体问题确定,以机器学习解决的具体问题为识别团体风险行为、所述群组特征包括所述群组规模和所述群组标签浓度为例,所述预设条件可以为所述群组规模大于预设数量且所述群组标签浓度大于预设百分数。

s205,为所述目标群组中不具有所述预设标签的样本添加所述预设标签。

以所述目标群组包括10个样本为例,若其中7个样本具有所述预设标签,则为剩余的3个样本添加所述预设标签。通过为所述目标群组中不具有所述预设标签的样本添加所述预设标签,实现标签扩散。

s206,对所述非目标群组中具有所述预设标签的样本删除所述预设标签。

以所述非目标群组包括10个样本为例,若其中3个样本具有所述预设标签,则对该3个样本删除所述预设标签。通过对所述非目标群组中具有所述预设标签的样本删除所述预设标,实现标签提纯。需要说明的是,本说明书实施例并不限定步骤s205和步骤s206的执行顺序,即可以先执行步骤s205,再执行步骤s206;也可以先执行步骤s206,再执行步骤s205。

每次迭代处理完成后,判断是否满足所述收敛条件。若满足所述收敛条件,则执行步骤s207,将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,否则进行下一次迭代处理,其中,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签。所述收敛条件可以为迭代次数l达到预设次数,所述预设次数可根据实际经验进行设置。所述收敛条件还可以为:满足其中,a为进行当前迭代处理添加的所述预设标签的数量,b为进行当前迭代处理删除的所述预设标签的数量,m为进行当前迭代处理之前每个群组中具有所述预设标签的样本的数量之和,ε为第二预设阈值。当然,所述收敛条件还可以为其他条件,本说明书实施例对此不进行限定。

若所述群组特征包括所述群组规模和所述群组标签浓度,所述预设条件为所述群组规模大于6且所述群组标签浓度大于0.5,所述收敛条件为满足且所述第二预设阈值ε为0.2,以所述一个以上群组如图7所示的群组r、群组s以及群组t为例,其中,黑色圆点表示具有所述预设标签的样本,白色圆点表示不具有所述预设标签的样本,以下对所述迭代处理进行详细说明:

计算图7所示的群组r的群组规模为11、群组标签浓度为8/11,群组s的群组规模为6、群组标签浓度为2/6,群组t的群组规模为7、群组标签浓度为5/7。因此,将群组r和群组t确定为所述目标群组,将群组s确定为所述非目标群组。为群组r和群组t中不具有所述预设标签的样本添加所述预设标签,对群组s中具有所述预设标签的样本删除所述预设标签,当前迭代处理输出的群组如图8所示。由于当前迭代处理添加的所述预设标签的数量为2,当前迭代处理删除的所述预设标签的数量为1,上一次迭代处理输出的每个群组中具有所述预设标签的样本的数量之和为11,即因而当前迭代处理结束后满足所述收敛条件,停止所述迭代处理,将图8所示的群组r、群组s以及群组t中每个样本的标签信息作为处理结果。

本说明书实施例中,通过直接对群组进行定性再对个体定性做调整,所有计算都在群组内,降低了计算的复杂度;每次迭代处理时只需要获得每个群组的群组特征,而不用对每个样本计算更新,因而计算成本非常低;收敛条件易达到,一般进行四至五次迭代处理即可退出。与现有的lpa(labelpropagationalgorithm,标签传播算法)相比,获得的样本准确性和召回率更高;支持单标签或少标签启动,且单标签、少标签、多标签的扩散提纯都可以同步进行。

第二方面,基于同一发明构思,本说明书实施例提供一种社群划分方法,包括:

根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

计算所述关系网络图的每个节点的度;

按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问所述关系网络图的每个节点包括:

判断当前节点是否已加入任意一个群组;

若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;

根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

将所述一个以上扩展节点加入所述新群组。

本说明书实施例第二方面提供的社群划分方法,基于复杂网络的经典理论实现了低时间复杂度下快速进行社群分割,具体可参考对步骤s401至步骤s405的描述,在此不再赘述。

第三方面,基于同一发明构思,本说明书实施例提供另一种社群划分方法,包括:

根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

计算所述关系网络图的每个节点的度;

按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问所述关系网络图的每个节点包括:

判断当前节点是否已加入任意一个群组;

若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;

根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

对每个扩展节点进行入群处理;

其中,所述入群处理包括:

判断所述扩展节点已加入的群组数量是否小于第一预设阈值;

若所述扩展节点已加入的群组数量小于所述第一预设阈值,则将所述扩展节点加入所述新群组。

本说明书实施例第三方面提供的社群划分方法,不仅基于复杂网络的经典理论实现了低时间复杂度下快速进行社群分割,而且限制了一些处于核心位置的节点重复加入群组的数量,使其不会频繁参与各个群组的计算,从而使后续步骤的处理速度变快,具体可参考对步骤s601至步骤s606的描述,在此不再赘述。

第四方面,基于同一发明构思,本说明书实施例提供一种样本标签处理装置。图9是所述样本标签处理装置的结构示意图,所述样本标签处理装置包括:

样本集获取模块901,用于获取样本集,所述样本集中的部分样本具有预设标签;

样本集划分模块902,用于根据所述样本集中各个样本之间的关联关系,将所述样本集划分为h个群组,h为正整数;

迭代处理模块903,用于对所述h个群组进行l次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,l为正整数;

其中,所述迭代处理模块903包括:

特征确定模块9031,用于根据当前每个样本的标签信息确定每个群组的群组特征;

群组确定模块9032,用于根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组;

标签添加模块9033,用于为所述目标群组中不具有所述预设标签的样本添加所述预设标签;

标签删除模块9034,用于对所述非目标群组中具有所述预设标签的样本删除所述预设标签。

在一种可选实现方式中,所述样本集划分模块902包括:

网络图生成模块,用于根据所述样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

社群划分模块,用于对所述关系网络图进行社群划分,获得所述h个群组。

在一种可选实现方式中,所述社群划分模块包括:

节点度计算模块,用于计算所述关系网络图的每个节点的度;

访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问模块包括:

第一判断模块,用于判断当前节点是否已加入任意一个群组;

新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;

扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

第一加入模块,用于将所述一个以上扩展节点加入所述新群组。

在一种可选实现方式中,所述社群划分模块包括:

节点度计算模块,用于计算所述关系网络图的每个节点的度;

访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问模块包括:

第一判断模块,用于判断当前节点是否已加入任意一个群组;

新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;

扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

入群处理模块,用于对每个扩展节点进行入群处理;

其中,所述入群处理模块包括:

第二判断模块,用于判断所述扩展节点已加入的群组数量是否小于第一预设阈值;

第二加入模块,用于在所述扩展节点已加入的群组数量小于所述第一预设阈值时,将所述扩展节点加入所述新群组。

在一种可选实现方式中,所述关系网络图为有向图,所述关系网络图的每个节点的度为入度和出度之和,所述n条边依次从所述扩展节点指向当前节点或者从当前节点指向所述扩展节点。

在一种可选实现方式中,所述群组特征包括:

群组规模和群组标签浓度;或

群组标签浓度;

其中,所述群组规模为所述群组特征对应的群组中所有样本的数量,所述群组标签浓度为所述群组特征对应的群组中具有所述预设标签的样本的数量与所有样本的数量之比。

在一种可选实现方式中,所述群组确定模块9032包括:

第三判断模块,用于判断每个群组特征是否满足预设条件;

目标群组确定模块,用于在所述群组特征满足所述预设条件时,将所述群组特征对应的群组确定为所述目标群组;

非目标群组确定模块,用于在所述群组特征不满足所述预设条件时,将所述群组特征对应的群组确定为所述非目标群组。

在一种可选实现方式中,所述收敛条件包括:

l达到预设次数;或,

满足其中,a为进行当前迭代处理添加的所述预设标签的数量,b为进行当前迭代处理删除的所述预设标签的数量,m为进行当前迭代处理之前每个群组中具有所述预设标签的样本的数量之和,ε为第二预设阈值。

在一种可选实现方式中,h为不小于2的正整数。

第五方面,基于同一发明构思,本说明书实施例提供一种社群划分装置,包括:

网络图生成模块,用于根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

节点度计算模块,用于计算所述关系网络图的每个节点的度;

访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问模块包括:

第一判断模块,用于判断当前节点是否已加入任意一个群组;

新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;

扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

第一加入模块,用于将所述一个以上扩展节点加入所述新群组。

第六方面,基于同一发明构思,本说明书实施例提供一种社群划分装置,包括:

网络图生成模块,用于根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;

节点度计算模块,用于计算所述关系网络图的每个节点的度;

访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;

其中,所述访问模块包括:

第一判断模块,用于判断当前节点是否已加入任意一个群组;

新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;

扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过n条边相关联的节点,n为正整数;

入群处理模块,用于对每个扩展节点进行入群处理;

其中,所述入群处理模块包括:

第二判断模块,用于判断所述扩展节点已加入的群组数量是否小于第一预设阈值;

第二加入模块,用于在所述扩展节点已加入的群组数量小于所述第一预设阈值时,将所述扩展节点加入所述新群组。

第七方面,基于与前述实施例中样本标签处理方法和社群划分方法同样的发明构思,本发明还提供一种服务器。参考图10,所述服务器包括存储器1004、处理器1002及存储在所述存储器1004上并可在所述处理器1002上运行的计算机程序,所述处理器1002执行所述计算机程序时实现前文所述样本标签处理方法和社群划分方法的任一方法的步骤。

在图10中,总线架构(用总线1000来代表),所述总线1000可以包括任意数量的互联的总线和桥,所述总线1000将包括由所述处理器1002代表的一个或多个处理器和所述存储器1004代表的存储器的各种电路链接在一起。所述总线1000还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口1005在所述总线1000和接收器1001和发送器1003之间提供接口。所述接收器1001和所述发送器1003可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。所述处理器1002负责管理所述总线1000和通常的处理,而所述存储器1004可以被用于存储所述处理器1002在执行操作时所使用的数据。

第八方面,基于与前述实施例中样本标签处理方法和社群划分方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现前文所述样本标签处理方法和社群划分方法的步骤。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1