本申请涉及自然语言处理及社交网络领域,特别涉及一种互联网用户数据处理方法、装置及系统。
背景技术:
近几年来,随着互联网的迅猛发展,社交网络产品越来越多,如微博、论坛和贴吧等。社交网络产品的出现使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变,互联网用户既可以在社交网络产品上发表自己的言论,也可以评论其他用户发表的内容,使得社交网络产品既具有媒体传播特性,又具有社交网络特性。
目前,社交网络产品具备的媒体传播特性和社交网络特性,吸引了众多研究人员对社交网络产品上的用户数据进行分析研究。其中,对社交网络产品上的用户数据进行分析研究中,识别用户的婚姻类型是比较重要的,因为能够识别出互联网用户的婚姻类型将有利于社交网络产品企业制定精准的广告投放及进行相关分析,以此来帮助社交网络产品企业更好的开发社交网络产品。
但是,目前尚不存在一种行之有效的方法来识别出互联网用户的婚姻类型。
技术实现要素:
为解决上述技术问题,本申请实施例提供一种互联网用户数据处理方法、装置及系统,以达到实现对互联网用户的婚姻类型的识别的目的,技术方案如下:
一种互联网用户数据处理方法,包括:
分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为互联网用户发表的内容;
使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,所述最大熵分类器为使用发言者为已婚的正类样本和发言者为未婚的负类样本训练而成的;
将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;
比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;
在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;
在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负;
在所述待测样本的类别为正时,确定所述待测样本的发言者的婚姻类型为已婚;
在所述待测样本的类别为负时,确定所述待测样本的发言者的婚姻类型为未婚。
优选的,所述使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程,包括:
使用最大熵目标函数公式
其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为负类,每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
优选的,所述最大熵分类器的训练过程包括:
获取多个不同的正类样本和多个不同的负类样本;
分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词,得到多个训练词特征;
依据公式
其中,该a为训练样本预设类别,该b为训练词特征,pλ(a|b)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,
利用gis算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值;
利用gis算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
优选的,分别对待测样本中的各个语句进行分词,得到多个词特征的过程,包括:
利用fudannlp-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特征。
优选的,所述待测样本为互联网用户在微博上发表的内容。
优选的,所述待测样本为互联网用户在贴吧上发表的内容。
一种婚姻类型分类装置,包括:
第一分词单元,用于分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为互联网用户发表的内容;
第一计算单元,用于使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,所述最大熵分类器为使用发言者为已婚的正类样本和发言者为未婚的负类样本训练而成的;
第二计算单元,用于将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;
比较单元,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第一确定单元确定所述待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第二确定单元确定所述待测样本的类别为负;
第三确定单元,用于在所述待测样本的类别为正时,确定所述待测样本的发言者的婚姻类型为已婚;
第四确定单元,用于在所述待测样本的类别为负时,确定所述待测样本的发言者的婚姻类型为未婚。
优选的,所述第一计算单元包括:
第一计算子单元,用于使用最大熵目标函数公式
其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为负类,每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
优选的,所述第一分词单元包括:
分词子单元,用于利用fudannlp-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特征。
一种婚姻类型分类系统,包括:最大熵分类器训练装置和如上述任意一项所述的婚姻类型分类装置,其中所述最大熵分类器训练装置包括:获取单元、第二分词单元、第三计算单元、第四计算单元和第五计算单元;
所述获取单元,用于获取多个不同的正类样本和多个不同的负类样本;
所述第二分词单元,用于分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词,得到多个训练词特征;
第三计算单元,用于依据公式
其中,该a为训练样本预设类别,该b为训练词特征,pλ(a|b)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,
所述第四计算单元,用于利用gis算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值;
所述第五计算单元,用于利用gis算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
与现有技术相比,本申请的有益效果为:
在本申请中,使用最大熵分类器计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。
在预测出待测样本的类别为正时,确定出待测样本的发言者的婚姻类型为已婚,在预测出待测样本的类别为负时,确定出待测样本的发言者的婚姻类型为未婚,从而实现了对互联网用户的婚姻类型的识别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的互联网用户数据处理方法的一种流程图;
图2是本申请提供的最大熵分类器的训练的一种流程图;
图3是本申请提供的婚姻类型分类装置的一种逻辑结构示意图;
图4是本申请提供的婚姻类型分类系统的一种逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
请参见图1,其示出了本申请提供的互联网用户数据处理方法的一种流程图,可以包括以下步骤:
步骤s11:分别对待测样本中的各个语句进行分词,得到多个词特征。
其中,所述待测样本为互联网用户发表的内容。
在本实施例中,由于对待测样本中各个语句进行分词的过程相同,因此仅对待测样本中任意一个语句进行分词的过程进行说明,例如,对“今天我非常高兴”进行分词,则分词后得到的词特征分别为“今天”、“我”、“非常”、“高兴”。
步骤s12:使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率。
在本实施例中,最大熵分类器为使用发言者为已婚的正类样本和发言者为未婚的负类样本训练而成的。
其中,使用发言者为已婚的正类样本和发言者为未婚的负类样本训练而成的最大熵分类器可以对待测样本的发言者的婚姻类型进行分类,确定待测样本的发言者的婚姻类型是已婚或未婚。
在本实施例中,使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率具体为:使用最大熵分类器,计算每个词特征在所述待测样本预设为正类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,以及使用最大熵分类器,计算每个词特征在所述待测样本预设为正类时,对应的待分类正预测子条件概率和待分类负预测子条件概率。
步骤s13:将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率。
步骤s14:比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小。
在比较结果为所述待分类正预测条件概率最大的情况下,执行步骤s15,在比较结果为所述待分类负预测条件概率最大的情况下,执行步骤s16。
步骤s15:确定所述待测样本的类别为正。
步骤s16:确定所述待测样本的类别为负。
步骤s17:在所述待测样本的类别为正时,确定所述待测样本的发言者的婚姻类型为已婚。
步骤s18:在所述待测样本的类别为负时,确定所述待测样本的发言者的婚姻类型为未婚。
在本申请中,使用最大熵分类器计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。
在预测出待测样本的类别为正时,确定出待测样本的发言者的婚姻类型为已婚,在预测出待测样本的类别为负时,确定出待测样本的发言者的婚姻类型为未婚,从而实现了对互联网用户的婚姻类型的识别。
进一步的,由于婚姻分类结果是由最大熵分类器根据待测样本的全部文本内容,计算所有词特征的待分类正预测子条件概率和待分类负预测子条件概率之后得到的,因此有效的提高了婚姻类型分类性能,使分类正确率更加精确。
在本实施例中,分别对待测样本中的各个语句进行分词,得到多个词特征的过程具体可以为:利用fudannlp-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特征。
在本实施例中,上述待测样本具体可以但不局限于为互联网用户在微博上发表的内容或互联网用户在贴吧上发表的内容。
在待测样本为互联网用户在贴吧上发表的内容时,待测样本具体为贴吧中帖子的标题和对应的用户评价内容。相应的,训练样本可以为互联网用户在贴吧上发表的内容或互联网用户在微博上发表的内容。
在待测样本为互联网用户在微博上发表的内容时,训练样本可以为互联网用户在贴吧上发表的内容或互联网用户在微博上发表的内容。
实施例二
在本实施例中,示出的是使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的具体过程。
使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的具体过程为:
使用最大熵目标函数公式
其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为负类,每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
在本实施例中,使用最大熵目标函数公式
在本实施例中,预设词特征集合为在训练最大熵分类器的过程中,对各个训练样本中的各个语句进行分词后,得到的词特征的集合。
实施例三
在本实施例中,示出的是最大熵分类器的训练过程,请参见图2,可以包括以下步骤:
步骤s21:获取多个不同的正类样本和多个不同的负类样本。
在本实施例中,正类样本的发言者为已婚,负类样本的发言者为未婚。即从正类样本的内容可以确定正类样本的发言者是已婚,从负类样本的内容可以确定负类样本的发言者是未婚。
其中,正类样本的发言者为已婚,负类样本的发言者为未婚,是为了训练出来的最大熵分类器可以对待测样本的发言者的婚姻类型进行分类,确定待测样本的发言者的婚姻类型是已婚或未婚。
步骤s22:分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词,得到多个训练词特征。
步骤s23:依据公式
其中,该a为训练样本预设类别,该b为训练词特征,pλ(a|b)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,
在本实施例中,依据公式
步骤s24:利用gis算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值。
利用gis算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征各自的正预测条件概率收敛的原理为已有的原理,在此不再赘述。
在本实施例中,每个训练词特征值各自的正预测条件概率收敛即每个训练词特征各自的正预测条件概率达到最大值。
步骤s25:利用gis算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
利用gis算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征各自的负预测条件概率收敛的原理为已有的原理,在此不再赘述。
在本实施例中,每个训练词特征值各自的负预测条件概率收敛即每个训练词特征各自的负预测条件概率达到最大值。
在本实施例中,在得到每个训练词特征各自对应的特征函数值的正最优权值及每个训练词特征各自对应的特征函数值的负最优权值后,公式
在对待测样本的发言者进行婚姻类型分类时,即可以使用λi已知的
实施例四
与上述方法实施例相对应,本实施例提供了一种婚姻类型分类装置,请参见图3,婚姻类型分类装置包括:第一分词单元31、第一计算单元32、第二计算单元33、比较单元34、第一确定单元35、第二确定单元36、第三确定单元37和第四确定单元38。
第一分词单元31,用于分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为互联网用户发表的内容。
第一计算单元32,用于使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,所述最大熵分类器为使用发言者为已婚的正类样本和发言者为未婚的负类样本训练而成的。
第二计算单元33,用于将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率。
比较单元34,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第一确定单元35确定所述待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第二确定单元36确定所述待测样本的类别为负。
第三确定单元37,用于在所述待测样本的类别为正时,确定所述待测样本的发言者的婚姻类型为已婚。
第四确定单元38,用于在所述待测样本的类别为负时,确定所述待测样本的发言者的婚姻类型为未婚。
在本实施例中,第一计算单元32具体可以包括:第一计算子单元。
第一计算子单元,用于使用最大熵目标函数公式
其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为负类,每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
在本实施例中,第一分词单元31具体可以包括:分词子单元。
分词子单元,用于利用fudannlp-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特征。
实施例五
在本实施例中,提供了一种婚姻类型分类系统,请参见图4,婚姻类型分类系统包括:最大熵分类器训练装置41和婚姻类型分类装置42。
婚姻类型分类装置42的具体结构请参见实施例四示出的婚姻类型分类装置,在此不再赘述。
最大熵分类器训练装置41具体包括:获取单元411、第二分词单元412、第三计算单元413、第四计算单元414和第五计算单元415。
获取单元411,用于获取多个不同的正类样本和多个不同的负类样本。
第二分词单元412,用于分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词,得到多个训练词特征。
第三计算单元413,用于依据公式
其中,该a为训练样本预设类别,该b为训练词特征,pλ(a|b)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,
第四计算单元414,用于利用gis算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值;
第五计算单元415,用于利用gis算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种互联网用户数据处理方法、装置及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。