一种互联网用户数据处理方法、装置及系统的制作方法

文档序号:10513038阅读:401来源:国知局
一种互联网用户数据处理方法、装置及系统的制作方法
【专利摘要】本申请提供了一种互联网用户数据处理方法、装置及系统,互联网用户数据处理方法使用最大熵分类器计算每个词特征对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观预测子条件概率;确定待测样本的类别为正或负或客观,实现了使用最大熵分类器对待测样本类别的预测。在待测样本的类别为正时,确定出待测样本的发言者的学历类型为大专以上,在待测样本的类别为负时,确定出待测样本的发言者的学历类型为高中及中专,在待测样本的类别为客观时,确定待测样本的发言者的学历类型为初中以下,从而实现了对互联网用户的学历类型的识别。
【专利说明】
一种互联网用户数据处理方法、装置及系统
技术领域
[0001] 本申请涉及自然语言处理及社交网络领域,特别涉及一种互联网用户数据处理方 法、装置及系统。
【背景技术】
[0002] 近几年来,随着互联网的迅猛发展,社交网络产品越来越多,如微博、论坛和贴吧 等。社交网络产品的出现使得互联网用户由被动地接受互联网信息向主动创造互联网信息 转变,互联网用户既可以在社交网络产品上发表自己的言论,也可以评论其他用户发表的 内容,使得社交网络产品既具有媒体传播特性,又具有社交网络特性。
[0003] 目前,社交网络产品具备的媒体传播特性和社交网络特性,吸引了众多研究人员 对社交网络产品上的用户数据进行分析研究。其中,对社交网络产品上的用户数据进行分 析研究中,识别用户的学历类型是比较重要的,因为能够识别出互联网用户的学历类型将 有利于社交网络产品企业制定精准的广告投放及进行相关分析,以此来帮助社交网络产品 企业更好的开发社交网络产品。
[0004] 但是,目前尚不存在一种行之有效的方法来识别出互联网用户的学历类型。

【发明内容】

[0005] 为解决上述技术问题,本申请实施例提供一种互联网用户数据处理方法、装置及 系统,以达到实现对互联网用户的学历类型的识别的目的,技术方案如下:
[0006] -种互联网用户数据处理方法,包括:
[0007] 分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为 互联网用户发表的内容;
[0008] 使用最大熵分类器,计算每个词特征在所述待测样本预设为正类、负类和客观类 时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观预测子条件 概率,所述最大熵分类器为使用发言者为大专以上学历的正类样本、发言者为高中及中专 学历的负类样本和发言者为初中以下学历的客观类样本训练而成的;
[0009] 将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条 件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条 件概率,及将各个词特征对应的待分类客观预测子条件概率进行乘运算,得到待分类客观 预测条件概率;
[0010]比较所述待分类正预测条件概率、所述待分类负预测条件概率和所述待分类客观 预测条件概率的大小;
[0011] 在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类 别为正;
[0012] 在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类 别为负;
[0013] 在比较结果为所述待分类客观预测条件概率最大的情况下,确定所述待测样本的 类别为客观;
[0014] 在所述待测样本的类别为正时,确定所述待测样本的发言者的学历类型为大专以 上;
[0015] 在所述待测样本的类别为负时,确定所述待测样本的发言者的学历类型为高中及 中专;
[0016] 在所述待测样本的类别为客观时,确定所述待测样本的发言者的学历类型为初中 以下。
[0017]优选的,所述使用最大熵分类器,计算每个词特征在所述待测样本预设为正类、负 类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观 预测子条件概率的过程,包括:
[0018] 使用最大熵目标函数公式
,分别计算每个词特征在a 分别为+1、-1和〇时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类 客观预测子条件概率,其中,该a为待测样本预设类别,该b为词特征,PUalb)为待分类预测 子条件概率,exp()为自然数e为底的指数函数,fd )为二值特征函数,所述
为特征函数值fi(a,b)在a为+1时的正最优权值或在a为-1时的负最 优权值或在a为0时的客观最优权值且相同b对应的不同特征函数值的权值相同,

个词特征对应的k个特征函数值进行求和的函数,k等于3,i = l, 2,…,k,为对a为不同值 时对应的数据进行求和的函数;
[0019] 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,所述a为0表示所述待测样本预设为客观类,在计算待分类正预测子条件概率时, 若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为〇,在计算 待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应 的负最优权值,否则λ为0,在计算待分类客观预测子条件概率时,若词特征包含在所述预设 词特征集合中,则λ为该词特征对应的客观最优权值,否则λ为0。
[0020] 优选的,所述最大熵分类器的训练过程包括:
[0021] 获取多个不同的正类样本、多个不同的负类样本和多个不同的客观类样本;
[0022] 分别对各个所述正类样本中的各个语句、各个所述负类样本中的各个语句和各个 所述客观类样本中的各个语句进行分词,得到多个训练词特征;
[0023]
,分别计算每个训练词特征在a分别为+1、_ 1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率;
[0024] 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,exp 0为自然数e为底的指数函数,f i ()为二值特征函数,
,λ?为特征函数值fi (a,b)的权值且相同b对应的不同特征函数值的权值相同,
为对每个训练词特征对应的k 个特征函数值进行求和的函数,k等于3,i = l,2,~,k
为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知;
[0025] 利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征 各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ作 为每个训练词特征各自对应的特征函数值的正最优权值;
[0026] 利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征 各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作 为每个训练词特征各自对应的特征函数值的负最优权值;
[0027] 利用GIS算法,调整每个训练词特征对应的客观预测条件概率,直至每个训练词特 征各自的客观预测条件概率收敛,并将每个训练词特征各自收敛的客观预测条件概率对应 的λ作为每个训练词特征各自对应的特征函数值的客观最优权值。
[0028] 优选的,分别对待测样本中的各个语句进行分词,得到多个词特征的过程,包括: [0029]利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特 征。
[0030] 优选的,所述待测样本为互联网用户在微博上发表的内容。
[0031] 优选的,所述待测样本为互联网用户在贴吧上发表的内容。
[0032] 一种学历类型分类装置,包括:
[0033] 第一分词单元,用于分别对待测样本中的各个语句进行分词,得到多个词特征,其 中,所述待测样本为互联网用户发表的内容;
[0034] 第一计算单元,用于使用最大熵分类器,计算每个词特征在所述待测样本预设为 正类、负类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分 类客观预测子条件概率,所述最大熵分类器为使用发言者为大专以上学历的正类样本、发 言者为高中及中专学历的负类样本和发言者为初中以下学历的客观类样本训练而成的;
[0035] 第二计算单元,用于将各个词特征对应的待分类正预测子条件概率进行乘运算, 得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算, 得到待分类负预测条件概率,及将各个词特征对应的待分类客观预测子条件概率进行乘运 算,得到待分类客观预测条件概率;
[0036] 比较单元,用于比较所述待分类正预测条件概率、所述待分类负预测条件概率和 所述待分类客观预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的情 况下,触发第一确定单元确定所述待测样本的类别为正,在比较结果为所述待分类负预测 条件概率最大的情况下,触发第二确定单元确定所述待测样本的类别为负,在比较结果为 所述待分类客观预测条件概率最大的情况下,触发第三确定单元确定所述待测样本的类别 为客观;
[0037] 第四确定单元,用于在所述待测样本的类别为正时,确定所述待测样本的发言者 的学历类型为大专以上;
[0038] 第五确定单元,用于在所述待测样本的类别为负时,确定所述待测样本的发言者 的学历类型为高中及中专;
[0039]第六确定单元,用于在所述待测样本的类别为客观时,确定所述待测样本的发言 者的学历类型为初中以下。
[0040]优选的,所述第一计算单元包括:
[0041 ]第一计算子单元,用于使用最大熵目标函数公式
别计算每个词特征在a分别为+1、_1和0时,对应的待分类正预测子条件概率、待分类负预测 子条件概率和待分类客观预测子条件概率,其中,该a为待测样本预设类别,该b为词特征, PUa|b)为待分类预测子条件概率,expO为自然数e为底的指数函数,为二值特征函数,
,为特征函数值fi (a,b)在a为+1时的正最优权值或在a为-1时的 负最优权值或在a为0时的客观最优权值且相同b对应的不同特征函数值的权值相同
对每个词特征对应的k个特征函数值进行求和的函数,k等于3,i = 1,2,…,k,
为对a为不 同值时对应的数据进行求和的函数;
[0042]其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,所述a为0表示所述待测样本预设为客观类,在计算待分类正预测子条件概率时, 若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为〇,在计算 待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应 的负最优权值,否则λ为0,在计算待分类客观预测子条件概率时,若词特征包含在所述预设 词特征集合中,则λ为该词特征对应的客观最优权值,否则λ为0。
[0043]优选的,所述第一分词单元包括:
[0044] 分词子单元,用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分 词,得到多个词特征。
[0045] -种学历类型分类系统,包括:最大熵分类器训练装置和如上述任意一项所述的 学历类型分类装置,其中所述最大熵分类器训练装置包括:获取单元、第二分词单元、第三 计算单元、第四计算单元和第五计算单元;
[0046] 所述获取单元,用于获取多个不同的正类样本、多个不同的负类样本和多个不同 的客观类样本;
[0047] 所述第二分词单元,用于分别对各个所述正类样本中的各个语句、各个所述负类 样本中的各个语句和各个所述客观类样本中的各个语句进行分词,得到多个训练词特征;
[0048]第三计算单元,用于依据公式
,分别计算每个训练词 特征在a分别为+1、_1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概 率;
[0049]其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,exp ()为自然数e为底的指数函数,f i ()为二值特征函数
,λ?为特征函数值f i (a,b)的权值且相同b对应的不同特征函数值的权值相同
为对每个训练词特征对应的k 个特征函数值进行求和的函数,k等于3,i = l,2,~,k,为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知;
[0050] 所述第四计算单元,用于利用GIS算法,调整每个训练词特征对应的正预测条件概 率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正 预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值;
[0051] 所述第五计算单元,用于利用GIS算法,调整每个训练词特征对应的负预测条件概 率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负 预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的负最优权值;
[0052] 第六计算单元,用于利用GIS算法,调整每个训练词特征对应的客观预测条件概 率,直至每个训练词特征各自的客观预测条件概率收敛,并将每个训练词特征各自收敛的 客观预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的客观最优权值。 [0053]与现有技术相比,本申请的有益效果为:
[0054]在本申请中,使用最大熵分类器计算每个词特征在所述待测样本预设为正类、负 类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观 预测子条件概率;将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类 正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类 负预测条件概率,将各个词特征对应的待分类客观预测子条件概率进行乘运算,得到待分 类客观预测条件概率;比较所述待分类正预测条件概率、所述待分类负预测条件概率和所 述待分类客观预测条件概率的大小;在比较结果为所述待分类正预测条件概率最大的情况 下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况 下,确定所述待测样本的类别为负,在比较结果为所述待分类客观预测条件概率最大的情 况下,确定所述待测样本的类别为客观,实现了使用最大熵分类器对待测样本类别的预测。 [0055]在预测出待测样本的类别为正时,确定出待测样本的发言者的学历类型为大专以 上,在预测出待测样本的类别为负时,确定出待测样本的发言者的学历类型为高中及中专, 在预测出待测样本的类别为客观时,确定待测样本的发言者的学历类型为初中以下,从而 实现了对互联网用户的学历类型的识别。
【附图说明】
[0056]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
[0057]图1是本申请提供的互联网用户数据处理方法的一种流程图;
[0058] 图2是本申请提供的最大熵分类器的训练的一种流程图;
[0059] 图3是本申请提供的学历类型分类装置的一种逻辑结构示意图;
[0060] 图4是本申请提供的学历类型分类系统的一种逻辑结构示意图。
【具体实施方式】
[0061] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本申请保护的范围。
[0062] 实施例一
[0063]请参见图1,其示出了本申请提供的互联网用户数据处理方法的一种流程图,可以 包括以下步骤:
[0064] 步骤S11:分别对待测样本中的各个语句进行分词,得到多个词特征。
[0065] 其中,所述待测样本为互联网用户发表的内容。
[0066] 在本实施例中,由于对待测样本中各个语句进行分词的过程相同,因此仅对待测 样本中任意一个语句进行分词的过程进行说明,例如,对"今天我非常高兴"进行分词,则分 词后得到的词特征分别为"今天"、"我"、"非常"、"高兴"。
[0067] 步骤S12:使用最大熵分类器,计算每个词特征在所述待测样本预设为正类、负类 和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观预 测子条件概率。
[0068]在本实施例中,最大熵分类器为使用发言者为大专以上学历的正类样本、发言者 为高中及中专学历的负类样本和发言者为初中以下学历的客观类样本训练而成的。
[0069]其中,使用发言者为大专以上学历的正类样本、发言者为高中及中专学历的负类 样本和发言者为初中以下学历的客观类样本训练而成的最大熵分类器可以对待测样本的 发言者的学历类型进行分类,确定待测样本的发言者的学历类型是大专以上或高中及中专 或初中以下。
[0070]在本实施例中,使用最大熵分类器,计算每个词特征在所述待测样本预设为正类、 负类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客 观预测子条件概率的过程即使用最大熵分类器,计算每个词特征在所述待测样本预设为正 类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观预测子条 件概率,及使用最大熵分类器,计算每个词特征在所述待测样本预设为负类时,对应的待分 类正预测子条件概率、待分类负预测子条件概率和待分类客观预测子条件概率,及使用最 大熵分类器,计算每个词特征在所述待测样本预设为客观类时,对应的待分类正预测子条 件概率、待分类负预测子条件概率和待分类客观预测子条件概率。
[0071] 步骤S13:将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类 正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类 负预测条件概率,及将各个词特征对应的待分类客观预测子条件概率进行乘运算,得到待 分类客观预测条件概率。
[0072] 步骤S14:比较所述待分类正预测条件概率、所述待分类负预测条件概率和所述待 分类客观预测条件概率的大小。
[0073] 在比较结果为所述待分类正预测条件概率最大的情况下,执行步骤S15,在比较结 果为所述待分类负预测条件概率最大的情况下,执行步骤S16,在比较结果为所述待分类客 观预测条件概率最大的情况下,执行步骤S17。
[0074]步骤S15:确定所述待测样本的类别为正。
[0075] 步骤S16:确定所述待测样本的类别为负。
[0076] 步骤S17:确定所述待测样本的类别为客观。
[0077] 步骤S18:在所述待测样本的类别为正时,确定所述待测样本的发言者的学历类型 为大专以上。
[0078] 在本实施例中,大专以上具体指大专、大学、硕士或博士。
[0079] 步骤S19:在所述待测样本的类别为负时,确定所述待测样本的发言者的学历类型 为高中及中专。
[0080] 步骤S110:在所述待测样本的类别为客观时,确定所述待测样本的发言者的学历 类型为初中以下。
[0081] 在本实施例中,初中以下具体指初中、小学或小学以下。
[0082] 在本申请中,使用最大熵分类器计算每个词特征在所述待测样本预设为正类、负 类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观 预测子条件概率;将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类 正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类 负预测条件概率,将各个词特征对应的待分类客观预测子条件概率进行乘运算,得到待分 类客观预测条件概率;比较所述待分类正预测条件概率、所述待分类负预测条件概率和所 述待分类客观预测条件概率的大小;在比较结果为所述待分类正预测条件概率最大的情况 下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况 下,确定所述待测样本的类别为负,在比较结果为所述待分类客观预测条件概率最大的情 况下,确定所述待测样本的类别为客观,实现了使用最大熵分类器对待测样本类别的预测。
[0083] 在预测出待测样本的类别为正时,确定出待测样本的发言者的学历类型为大专以 上,在预测出待测样本的类别为负时,确定出待测样本的发言者的学历类型为高中及中专, 在预测出待测样本的类别为客观时,确定待测样本的发言者的学历类型为初中以下,从而 实现了对互联网用户的学历类型的识别。
[0084] 进一步的,由于学历分类结果是由最大熵分类器根据待测样本的全部文本内容, 计算所有词特征的待分类正预测子条件概率和待分类负预测子条件概率之后得到的,因此 有效的提高了学历类型分类性能,使分类正确率更加精确。
[0085] 在本实施例中,分别对待测样本中的各个语句进行分词,得到多个词特征的过程 具体可以为:利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个 词特征。
[0086] 在本实施例中,上述待测样本具体可以但不局限于为互联网用户在微博上发表的 内容或互联网用户在贴吧上发表的内容。
[0087] 在待测样本为互联网用户在贴吧上发表的内容时,待测样本具体为贴吧中帖子的 标题和对应的用户评价内容。相应的,训练样本可以为互联网用户在贴吧上发表的内容或 互联网用户在微博上发表的内容。
[0088]在待测样本为互联网用户在微博上发表的内容时,训练样本可以为互联网用户在 贴吧上发表的内容或互联网用户在微博上发表的内容。
[0089] 实施例二
[0090] 在本实施例中,示出的是使用最大熵分类器,计算每个词特征在所述待测样本预 设为正类、负类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和 待分类客观预测子条件概率的具体过程。
[0091] 使用最大熵分类器,计算每个词特征在所述待测样本预设为正类、负类和客观类 时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观预测子条件 概率的具体过程为:
[0092] 使用最大熵目标函数公式
,分别计算每个词特征在a 分别为+1、-1和〇时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类 客观预测子条件概率,其中,该a为待测样本预设类别,该b为词特征,PUa|b)为待分类预测 子条件概率,exp()为自然数e为底的指数函数,fd )为二值特征函数,所述
.,\为特征函数值fi(a,b)在a为+1时的正最优权值或在a为-1时的负最 优权值或在a为0时的客观最优权值且相同b对应的不同特征函数值的权值相同:
为对每 个词特征对应的k个特征函数值进行求和的函数,k等于3,i = l, 2,…,k
为对a为不同值 时对应的数据进行求和的函数。
[0093] 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,所述a为0表示所述待测样本预设为客观类,在计算待分类正预测子条件概率时, 若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为〇,在计算 待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应 的负最优权值,否则λ为0,在计算待分类客观预测子条件概率时,若词特征包含在所述预设 词特征集合中,则λ为该词特征对应的客观最优权值,否则λ为0。
[0094] 在本实施例中,使用最大熵目标函数公式
,分别计算 每个词特征在a分别为+1、_1和0时,对应的待分类正预测子条件概率、待分类负预测子条件 概率和待分类客观预测子条件概率的具体过程即使用最大熵目标函数公式
,计算每个词特征在a分别为+1时,对应的待分类正预测子条 件概率、待分类负预测子条件概率和待分类客观预测子条件概率,及使用最大熵目标函数
,计算每个词特征在a分别为-1时,对应的待分类正预测 子条件概率、待分类负预测子条件概率和待分类客观预测子条件概率,及使用最大熵目标
,计算每个词特征在a分别为0时,对应的待分类正预 测子条件概率、待分类负预测子条件概率和待分类客观预测子条件概率。
[0095] 在本实施例中,预设词特征集合为在训练最大熵分类器的过程中,对各个训练样 本中的各个语句进行分词后,得到的词特征的集合。
[0096] 实施例三
[0097] 在本实施例中,示出的是最大熵分类器的训练过程,请参见图2,可以包括以下步 骤:
[0098] 步骤S21:获取多个不同的正类样本、多个不同的负类样本和多个不同的客观类样 本。
[0099] 在本实施例中,正类样本的发言者的学历类型为大专以上,负类样本的发言者的 学历类型为高中及中专,客观类样本的发言者的学历类型为初中以下。即从正类样本的内 容可以确定正类样本的发言者的学历类型是大专以上,从负类样本的内容可以确定负类样 本的发言者的学历类型是高中及中专,从客观类样本的内容可以确定客观类样本的发言者 的学历类型是初中以下。
[0100] 其中,正类样本的发言者的学历类型为大专以上,负类样本的发言者的学历类型 为高中及中专,客观类样本的发言者的学历类型为初中以下,是为了训练出来的最大熵分 类器可以对待测样本的发言者的学历类型进行分类,确定待测样本的发言者的学历类型是 大专以上或高中及中专或初中以下。
[0101] 步骤S22:分别对各个所述正类样本中的各个语句、各个所述负类样本中的各个语 句和各个所述客观类样本中的各个语句进行分词,得到多个训练词特征。
[0102]
,分别计算每个训练词特征在a分 别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率。
[0103] 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,exp 0为自然数e为底的指数函数,f i ()为二值特征函数,
,Ai为特征函数值f i (a,b)的权值且相同b对应的不同特征函数值的权值相同,
为对每个训练词特征对应的k 个特征函数值进行求和的函数,k等于3,i = l,2,~,k:为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知。
[0104] 在本实施例中,
,分别计算每个训练词特征 在a分别为+1、_1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率的具 体过程即依据公式
,分别计算每个训练词特征在a分别为+1 时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,及依据公式
,分别计算每个训练词特征在a分别为-1时,对应的正预测条 件概率、负预测条件概率和客观预测条件概率,.
分别计算每个训练词特征在a分别为0时,对应的正预测条件概率、负预测条件概率和客观 预测条件概率。
[0105] 步骤S24:利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训 练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对 应的λ作为每个训练词特征各自对应的特征函数值的正最优权值。
[0106] 利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征 各自的正预测条件概率收敛的原理为已有的原理,在此不再赘述。
[0107] 在本实施例中,每个训练词特征值各自的正预测条件概率收敛即每个训练词特征 各自的正预测条件概率达到最大值。
[0108] 步骤S25:利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训 练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对 应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
[0109] 利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征 各自的负预测条件概率收敛的原理为已有的原理,在此不再赘述。
[0110] 在本实施例中,每个训练词特征值各自的负预测条件概率收敛即每个训练词特征 各自的负预测条件概率达到最大值。
[0111] 步骤S26:利用GIS算法,调整每个训练词特征对应的客观预测条件概率,直至每个 训练词特征各自的客观预测条件概率收敛,并将每个训练词特征各自收敛的客观预测条件 概率对应的λ作为每个训练词特征各自对应的特征函数值的客观最优权值。
[0112] 利用GIS算法,调整每个训练词特征对应的客观预测条件概率,直至每个训练词特 征各自的客观预测条件概率收敛的原理为已有的原理,在此不再赘述。
[0113] 在本实施例中,每个训练词特征值各自的客观预测条件概率收敛即每个训练词特 征各自的客观预测条件概率达到最大值。
[0114] 在本实施例中,在得到每个训练词特征各自对应的特征函数值的正最优权值、每 个训练词特征各自对应的特征函数值的负最优权值及每个训练词特征各自对应的特征函 数值的客观最优权值后
中的λ?为已知值,完成了对最大 熵分类器的训练。
[0115] 在对待测样本的发言者进行学历类型分类时,即可以使用λ ,已知的
公式(即训练完成的最大熵分类器)进行分类。
[0116] 实施例四
[0117] 与上述方法实施例相对应,本实施例提供了一种学历类型分类装置,请参见图3, 学历类型分类装置包括:第一分词单元31、第一计算单元32、第二计算单元33、比较单元34、 第一确定单元35、第二确定单元36、第三确定单元37、第四确定单元38、第五确定单元39和 第六确定单元310。
[0118] 第一分词单元31,用于分别对待测样本中的各个语句进行分词,得到多个词特征, 其中,所述待测样本为互联网用户发表的内容。
[0119] 第一计算单元32,用于使用最大熵分类器,计算每个词特征在所述待测样本预设 为正类、负类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待 分类客观预测子条件概率,所述最大熵分类器为使用发言者为大专以上学历的正类样本、 发言者为高中及中专学历的负类样本和发言者为初中以下学历的客观类样本训练而成的。 [0120]第二计算单元33,用于将各个词特征对应的待分类正预测子条件概率进行乘运 算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运 算,得到待分类负预测条件概率,及将各个词特征对应的待分类客观预测子条件概率进行 乘运算,得到待分类客观预测条件概率。
[0121] 比较单元34,用于比较所述待分类正预测条件概率、所述待分类负预测条件概率 和所述待分类客观预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的 情况下,触发第一确定单元35确定所述待测样本的类别为正,在比较结果为所述待分类负 预测条件概率最大的情况下,触发第二确定单元36确定所述待测样本的类别为负,在比较 结果为所述待分类客观预测条件概率最大的情况下,触发第三确定单元37确定所述待测样 本的类别为客观。
[0122] 第四确定单元38,用于在所述待测样本的类别为正时,确定所述待测样本的发言 者的学历类型为大专以上。
[0123] 第五确定单元39,用于在所述待测样本的类别为负时,确定所述待测样本的发言 者的学历类型为高中及中专。
[0124] 第六确定单元310,用于在所述待测样本的类别为客观时,确定所述待测样本的发 言者的学历类型为初中以下。
[0125] 在本实施例中,第一计算单元32具体可以包括:第一计算子单元。
[0126] 第一计算子单元,用于使用最大熵目标函数公式
别计算每个词特征在a分别为+1、_1和0时,对应的待分类正预测子条件概率、待分类负预测 子条件概率和待分类客观预测子条件概率,其中,该a为待测样本预设类别,该b为词特征, PUa|b)为待分类预测子条件概率,expO为自然数e为底的指数函数,为二值特征函数,
Ai为特征函数值fi (a,b)在a为+1时的正最优权值或在a为-1时的
负最优权值或在a为0时的客观最优权值且相同b对应的不同特征函数值的权值相同
对每个词特征对应的k个特征函数值进行求和的函数,k等于3,i = 1,2,…,k,为对a为不 同值时对应的数据进行求和的函数;
[0127] 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,所述a为0表示所述待测样本预设为客观类,在计算待分类正预测子条件概率时, 若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为〇,在计算 待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应 的负最优权值,否则λ为0,在计算待分类客观预测子条件概率时,若词特征包含在所述预设 词特征集合中,则λ为该词特征对应的客观最优权值,否则λ为0。在本实施例中,第一分词单 元31具体可以包括:分词子单元。
[0128] 分词子单元,用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分 词,得到多个词特征。
[0129] 实施例五
[0130] 在本实施例中,提供了一种学历类型分类系统,请参见图4,学历类型分类系统包 括:最大熵分类器训练装置41和学历类型分类装置42。
[0131] 学历类型分类装置42的具体结构请参见实施例四示出的学历类型分类装置,在此 不再赘述。
[0132] 最大熵分类器训练装置41具体包括:获取单元411、第二分词单元412、第三计算单 元413、第四计算单元414、第五计算单元415和第六计算单元416。
[0133] 获取单元411,用于获取多个不同的正类样本、多个不同的负类样本和多个不同的 客观类样本。
[0134] 第二分词单元412,用于分别对各个所述正类样本中的各个语句、各个所述负类样 本中的各个语句和各个所述客观类样本中的各个语句进行分词,得到多个训练词特征。
[0135] 第三计算单元413,
,.分别计算每个训 练词特征在a分别为+1、_1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件 概率;
[0136] 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,exp ()为自然数e为底的指数函数,f i ()为二值特征函数
Ai为特征函数值f i (a,b)的权值且相同b对应的不同特征函数值的权值相同
为对每个训练词特征对应的k 个特征函数值进行求和的函数,k等于3,i = l,2,~,k,
为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知。
[0137] 第四计算单元414,用于利用GIS算法,调整每个训练词特征对应的正预测条件概 率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正 预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值;
[0138] 第五计算单元415,用于利用GIS算法,调整每个训练词特征对应的负预测条件概 率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负 预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的负最优权值。
[0139] 第六计算单元416,用于利用GIS算法,调整每个训练词特征对应的客观预测条件 概率,直至每个训练词特征各自的客观预测条件概率收敛,并将每个训练词特征各自收敛 的客观预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的客观最优权 值。
[0140]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。 对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参 见方法实施例的部分说明即可。
[0141] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作 之间存在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意 在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那 些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者 设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排 除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0142] 以上对本申请所提供的一种互联网用户数据处理方法、装置及系统进行了详细介 绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只 是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申 请的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理 解为对本申请的限制。
【主权项】
1. 一种互联网用户数据处理方法,其特征在于,包括: 分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为互联 网用户发表的内容; 使用最大熵分类器,计算每个词特征在所述待测样本预设为正类、负类和客观类时,对 应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观预测子条件概率, 所述最大熵分类器为使用发言者为大专以上学历的正类样本、发言者为高中及中专学历的 负类样本和发言者为初中以下学历的客观类样本训练而成的; 将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概 率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概 率,及将各个词特征对应的待分类客观预测子条件概率进行乘运算,得到待分类客观预测 条件概率; 比较所述待分类正预测条件概率、所述待分类负预测条件概率和所述待分类客观预测 条件概率的大小; 在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为 正; 在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为 负; 在比较结果为所述待分类客观预测条件概率最大的情况下,确定所述待测样本的类别 为客观; 在所述待测样本的类别为正时,确定所述待测样本的发言者的学历类型为大专以上; 在所述待测样本的类别为负时,确定所述待测样本的发言者的学历类型为高中及中 专; 在所述待测样本的类别为客观时,确定所述待测样本的发言者的学历类型为初中以 下。2. 根据权利要求1所述的方法,其特征在于,所述使用最大熵分类器,计算每个词特征 在所述待测样本预设为正类、负类和客观类时,对应的待分类正预测子条件概率、待分类负 预测子条件概率和待分类客观预测子条件概率的过程,包括: 使用最大熵目标函数公式,分别计算每个词特征在a分别 -a ?':Ι 为+1、-1和0时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客观 预测子条件概率,其中,该a为待测样本预设类别,该b为词特征,PUab)为待分类预测子条 件概率,exp()为自然数e为底的指数函数,fd)为二值特征函数,所述.Xi为特征函数值fi(a,b)在a为+1时的正最优权值或在a为-1时的负最优权值或在a为0时的 客观最优权值且相同b对应的不同特征函数值的权值相同,t为对每个词特征对应的k个特 ?-1 征函数值进行求和的函数,k等于3,1 = 1,2,一上,1为对&为不同值时对应的数据进行求和 ? 的函数; 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为 负类,所述a为0表示所述待测样本预设为客观类,在计算待分类正预测子条件概率时,若词 特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为0,在计算待分 类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应的负 最优权值,否则λ为0,在计算待分类客观预测子条件概率时,若词特征包含在所述预设词特 征集合中,则λ为该词特征对应的客观最优权值,否则λ为〇。3. 根据权利要求1所述的方法,其特征在于,所述最大熵分类器的训练过程包括: 获取多个不同的正类样本、多个不同的负类样本和多个不同的客观类样本; 分别对各个所述正类样本中的各个语句、各个所述负类样本中的各个语句和各个所述 客观类样本中的各个语句进行分词,得到多个训练词特征;依据公另 _:,分别计算每个训练词特征在a分别为+1、_1和0 (: 时,对应的正预测条件概率、负预测条件概率和客观预测条件概率; 其中,该a为训练样本预设类别,该b为训练词特征,PJa I b)为预测条件概率,exp()为自 然数e为底的指数函数,fi()为二值特征函数、为特征函数值f i(a,b) 的权值且相同b对应的不同特征函数值的权值相同,;^为对每个训练词特征对应的k个特征 ?~1· 函数值进行求和的函数,k等于3,1 = 1,2,一上,1为对&为不同值时对应的数据进行求和的 a 函数,所述\的初始值已知; 利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征各自 的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每 个训练词特征各自对应的特征函数值的正最优权值; 利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征各自 的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每 个训练词特征各自对应的特征函数值的负最优权值; 利用GIS算法,调整每个训练词特征对应的客观预测条件概率,直至每个训练词特征各 自的客观预测条件概率收敛,并将每个训练词特征各自收敛的客观预测条件概率对应的λ 作为每个训练词特征各自对应的特征函数值的客观最优权值。4. 根据权利要求1所述的方法,其特征在于,分别对待测样本中的各个语句进行分词, 得到多个词特征的过程,包括: 利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特征。5. 根据权利要求1所述的方法,其特征在于,所述待测样本为互联网用户在微博上发表 的内容。6. 根据权利要求1所述的方法,其特征在于,所述待测样本为互联网用户在贴吧上发表 的内容。7. -种学历类型分类装置,其特征在于,包括: 第一分词单元,用于分别对待测样本中的各个语句进行分词,得到多个词特征,其中, 所述待测样本为互联网用户发表的内容; 第一计算单元,用于使用最大熵分类器,计算每个词特征在所述待测样本预设为正类、 负类和客观类时,对应的待分类正预测子条件概率、待分类负预测子条件概率和待分类客 观预测子条件概率,所述最大熵分类器为使用发言者为大专以上学历的正类样本、发言者 为高中及中专学历的负类样本和发言者为初中以下学历的客观类样本训练而成的; 第二计算单元,用于将各个词特征对应的待分类正预测子条件概率进行乘运算,得到 待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到 待分类负预测条件概率,及将各个词特征对应的待分类客观预测子条件概率进行乘运算, 得到待分类客观预测条件概率; 比较单元,用于比较所述待分类正预测条件概率、所述待分类负预测条件概率和所述 待分类客观预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的情况 下,触发第一确定单元确定所述待测样本的类别为正,在比较结果为所述待分类负预测条 件概率最大的情况下,触发第二确定单元确定所述待测样本的类别为负,在比较结果为所 述待分类客观预测条件概率最大的情况下,触发第三确定单元确定所述待测样本的类别为 客观; 第四确定单元,用于在所述待测样本的类别为正时,确定所述待测样本的发言者的学 历类型为大专以上; 第五确定单元,用于在所述待测样本的类别为负时,确定所述待测样本的发言者的学 历类型为高中及中专; 第六确定单元,用于在所述待测样本的类别为客观时,确定所述待测样本的发言者的 学历类型为初中以下。8. 根据权利要求7所述的装置,其特征在于,所述第一计算单元包括: 第一计算子单元,用于使用最大熵目标函数公式,分别计 算每个词特征在a分别为+1、_1和0时,对应的待分类正预测子条件概率、待分类负预测子条 件概率和待分类客观预测子条件概率,其中,该a为待测样本预设类别,该b为词特征,Ρλ(a b)为待分类预测子条件概率,expO为自然数e为底的指数函数,fK)为二值特征函数,所述 I \Jfh e a , Ai为特征函数值f i (a, b)在a为+1时的正最优权值或在a为-1时的负最优 \{)jjthers 权值或在a为0时的客观最优权值且相同b对应的不同特征函数值的权值相同,Σ为对每个 词特征对应的k个特征函数值进行求和的函数,k等于3,i = 1,2,…,k,Σ:为对a为不同值时 a 对应的数据进行求和的函数; 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为 负类,所述a为0表示所述待测样本预设为客观类,在计算待分类正预测子条件概率时,若词 特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为0,在计算待分 类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应的负 最优权值,否则λ为0,在计算待分类客观预测子条件概率时,若词特征包含在所述预设词特 征集合中,则λ为该词特征对应的客观最优权值,否则λ为〇。9. 根据权利要求7所述的装置,其特征在于,所述第一分词单元包括: 分词子单元,用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词, 得到多个词特征。10. -种学历类型分类系统,其特征在于,包括:最大熵分类器训练装置和如权利要求 7-9任意一项所述的学历类型分类装置,其中所述最大熵分类器训练装置包括:获取单元、 第二分词单元、第三计算单元、第四计算单元和第五计算单元; 所述获取单元,用于获取多个不同的正类样本、多个不同的负类样本和多个不同的客 观类样本; 所述第二分词单元,用于分别对各个所述正类样本中的各个语句、各个所述负类样本 中的各个语句和各个所述客观类样本中的各个语句进行分词,得到多个训练词特征; 第三计算单元,用于依据公式,分别计算每个训练词特征 在a分别为+1、_1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率; 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,expO为自 然数e为底的指数函数,f i ()为二值特征函数,:,Xi为特征函数值f i (a,b) 的权值且相同b对应的不同特征函数值的权值相同,?为对每个训练词特征对应的k个特征 ;.-1. 函数值进行求和的函数,k等于3,1 = 1,2,一上,1为对&为不同值时对应的数据进行求和的 a 函数,所述\的初始值已知; 所述第四计算单元,用于利用GIS算法,调整每个训练词特征对应的正预测条件概率, 直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测 条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值; 所述第五计算单元,用于利用GIS算法,调整每个训练词特征对应的负预测条件概率, 直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测 条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值; 第六计算单元,用于利用GIS算法,调整每个训练词特征对应的客观预测条件概率,直 至每个训练词特征各自的客观预测条件概率收敛,并将每个训练词特征各自收敛的客观预 测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的客观最优权值。
【文档编号】G06Q30/02GK105869073SQ201610221212
【公开日】2016年8月17日
【申请日】2016年4月11日
【发明人】李寿山, 殷昊, 周国栋, 李军辉
【申请人】苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1