一种互联网用户数据处理方法、装置及系统的制作方法

文档序号:10512164阅读:177来源:国知局
一种互联网用户数据处理方法、装置及系统的制作方法
【专利摘要】本申请提供了一种互联网用户数据处理方法、装置及系统,互联网用户数据处理方法使用最大熵分类器计算每个词特征对应的待分类正预测子条件概率和待分类负预测子条件概率;计算得到待分类正预测条件概率,及计算得到待分类负预测条件概率;在待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本的发言者的职业类型为学生,在预测出待测样本的类别为负时,确定出待测样本的发言者的职业类型为非学生,从而实现了对互联网用户的职业类型的识别。
【专利说明】
一种互联网用户数据处理方法、装置及系统
技术领域
[0001] 本申请涉及自然语言处理及社交网络领域,特别涉及一种互联网用户数据处理方 法、装置及系统。
【背景技术】
[0002] 近几年来,随着互联网的迅猛发展,社交网络产品越来越多,如微博、论坛和贴吧 等。社交网络产品的出现使得互联网用户由被动地接受互联网信息向主动创造互联网信息 转变,互联网用户既可以在社交网络产品上发表自己的言论,也可以评论其他用户发表的 内容,使得社交网络产品既具有媒体传播特性,又具有社交网络特性。
[0003] 目前,社交网络产品具备的媒体传播特性和社交网络特性,吸引了众多研究人员 对社交网络产品上的用户数据进行分析研究。其中,对社交网络产品上的用户数据进行分 析研究中,识别用户的职业类型是比较重要的,因为能够识别出互联网用户的职业类型将 有利于社交网络产品企业制定精准的广告投放及进行相关分析,以此来帮助社交网络产品 企业更好的开发社交网络产品。
[0004] 但是,目前尚不存在一种行之有效的方法来识别出互联网用户的职业类型。

【发明内容】

[0005] 为解决上述技术问题,本申请实施例提供一种互联网用户数据处理方法、装置及 系统,以达到实现对互联网用户的职业类型的识别的目的,技术方案如下:
[0006] -种互联网用户数据处理方法,包括:
[0007] 分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为 互联网用户发表的内容;
[0008] 使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应 的待分类正预测子条件概率和待分类负预测子条件概率,所述最大熵分类器为使用发言者 为学生的正类样本和发言者为非学生的负类样本训练而成的;
[0009] 将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条 件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条 件概率;
[0010]比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;
[0011] 在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类 别为正;
[0012] 在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类 别为负;
[0013] 在所述待测样本的类别为正时,确定所述待测样本的发言者的职业类型为学生;
[0014] 在所述待测样本的类别为负时,确定所述待测样本的发言者的职业类型为非学 生。
[0015] 优选的,所述使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和 负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程,包括:
[0016] 使用最大熵目标函数公式
,分别计算每个词特征在a 分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该a 为待测样本预设类别,该b为词特征,PUa | b)为待分类预测子条件概率,exp()为自然数e为 底的指数函数,f i ()为二值特征函数,
为特征函数值f i (a,b)在a为+ 1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同,
为对每个词特征对应的k个特征函数值进行求和的函数,k等于2,i = 1,2,…,k
为对a 为不同值时对应的数据进行求和的函数;
[0017] 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为 该词特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含 在所述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
[0018] 优选的,所述最大熵分类器的训练过程包括:
[0019] 获取多个不同的正类样本和多个不同的负类样本;
[0020] 分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行 分词,得到多个训练词特征;
[0021] 依据公式
分别计算每个训练词特征在a分别为+ 1 和-1时,对应的正预测条件概率和负预测条件概率;
[0022]其中,该a为训练样本预设类别,该b为训练词特征,PUa |b)为预测条件概率,exp ()为自然数e为底的指数函数,f i ()为二值特征函数,
Ai为特征函数值f i (a,b)的权值且相同b对应的不同特征函数值的权值相同,
为对每个训练词特征对应的k 个特征函数值进行求和的函数,k等于2,i = l,2,~,k:
为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知;
[0023]利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特 征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ 作为每个训练词特征各自对应的特征函数值的正最优权值;
[0024]利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征 各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作 为每个训练词特征各自对应的特征函数值的负最优权值。
[0025]优选的,分别对待测样本中的各个语句进行分词,得到多个词特征的过程,包括: [0026]利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特 征。
[0027]优选的,所述待测样本为互联网用户在微博上发表的内容。
[0028]优选的,所述待测样本为互联网用户在贴吧上发表的内容。
[0029] 一种职业类型分类装置,包括:
[0030]第一分词单元,用于分别对待测样本中的各个语句进行分词,得到多个词特征,其 中,所述待测样本为互联网用户发表的内容;
[0031] 第一计算单元,用于使用最大熵分类器,计算每个词特征在所述待测样本预设为 正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,所述最大熵 分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的;
[0032] 第二计算单元,用于将各个词特征对应的待分类正预测子条件概率进行乘运算, 得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算, 得到待分类负预测条件概率;
[0033] 比较单元,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的 大小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第一确定单元确定所 述待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第 二确定单元确定所述待测样本的类别为负;
[0034]第三确定单元,用于在所述待测样本的类别为正时,确定所述待测样本的发言者 的职业类型为学生;
[0035]第四确定单元,用于在所述待测样本的类别为负时,确定所述待测样本的发言者 的职业类型为非学生。
[0036]优选的,所述第一计算单元包括:
[0037] 第一计算子单元,用于使用最大熵目标函数公式 分别计算每个词特征在a分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预 测子条件概率,其中,该a为待测样本预设类别,该b为词特征,PUa|b)为待分类预测子条件 概率,exp ()为自然数e为底的指数函数,f i ()为二值特征函数,
,Ai为特 征函数值f i (a,b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同 特征函数值的权值相同
为对每个词特征对应的k个特征函数值进行求和的函数,k等于 2,i = 1,2,…,k,
为对a为不同值时对应的数据进行求和的函数;
[0038] 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为 该词特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含 在所述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
[0039]优选的,所述第一分词单元包括:
[0040] 分词子单元,用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分 词,得到多个词特征。
[0041 ] -种职业类型分类系统,包括:最大熵分类器训练装置和如上述任意一项所述的 职业类型分类装置,其中所述最大熵分类器训练装置包括:获取单元、第二分词单元、第三 计算单元、第四计算单元和第五计算单元;
[0042]所述获取单元,用于获取多个不同的正类样本和多个不同的负类样本;
[0043]所述第二分词单元,用于分别对各个所述正类样本中的各个语句和各个所述负类 样本中的各个语句进行分词,得到多个训练词特征;
[0044] 第三计算单元,用于依据公式
,分别计算每个训练词 特征在a分别为+1和-1时,对应的正预测条件概率和负预测条件概率;
[0045] 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,exp ()为自然数e为底的指数函数,f i ()为二值特征函数,
,Xi为特征函数值f i (a,b)的权值且相同b对应的不同特征函数值的权值相同
为对每个训练词特征对应的k 个特征函数值进行求和的函数,k等于2,i = l,2,~,k,
为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知;
[0046] 所述第四计算单元,用于利用GIS算法,调整每个训练词特征对应的正预测条件概 率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正 预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值;
[0047]所述第五计算单元,用于利用GIS算法,调整每个训练词特征对应的负预测条件概 率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负 预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的负最优权值。
[0048] 与现有技术相比,本申请的有益效果为:
[0049] 在本申请中,使用最大熵分类器计算每个词特征在所述待测样本预设为正类和负 类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个词特征对应的 待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的 待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;比较所述待分类正预 测条件概率和所述待分类负预测条件概率的大小;在比较结果为所述待分类正预测条件 概率最大的情况下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件 概率最大的情况下,确定所述待测样本的类别为负,实现了使用最大熵分类器对待测样本 类别的预测。
[0050] 在预测出待测样本的类别为正时,确定出待测样本的发言者的职业类型为学生, 在预测出待测样本的类别为负时,确定出待测样本的发言者的职业类型为非学生,从而实 现了对互联网用户的职业类型的识别。
【附图说明】
[0051] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
[0052] 图1是本申请提供的互联网用户数据处理方法的一种流程图;
[0053] 图2是本申请提供的最大熵分类器的训练的一种流程图;
[0054]图3是本申请提供的职业类型分类装置的一种逻辑结构示意图;
[0055] 图4是本申请提供的职业类型分类系统的一种逻辑结构示意图。
【具体实施方式】
[0056] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本申请保护的范围。
[0057] 实施例一
[0058]请参见图1,其示出了本申请提供的互联网用户数据处理方法的一种流程图,可以 包括以下步骤:
[0059] 步骤S11:分别对待测样本中的各个语句进行分词,得到多个词特征。
[0060] 其中,所述待测样本为互联网用户发表的内容。
[0061] 在本实施例中,由于对待测样本中各个语句进行分词的过程相同,因此仅对待测 样本中任意一个语句进行分词的过程进行说明,例如,对"今天我非常高兴"进行分词,则分 词后得到的词特征分别为"今天"、"我"、"非常"、"高兴"。
[0062] 步骤S12:使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类 时,对应的待分类正预测子条件概率和待分类负预测子条件概率。
[0063] 在本实施例中,最大熵分类器为使用发言者为学生的正类样本和发言者为非学生 的负类样本训练而成的。
[0064] 其中,使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的最 大熵分类器可以对待测样本的发言者的职业类型进行分类,确定待测样本的发言者的职业 类型是学生或非学生。
[0065] 在本实施例中,使用最大熵分类器,计算每个词特征在所述待测样本预设为正类 和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率具体为:使用最大 熵分类器,计算每个词特征在所述待测样本预设为正类时,对应的待分类正预测子条件概 率和待分类负预测子条件概率,及使用最大熵分类器,计算每个词特征在所述待测样本预 设为负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率。
[0066] 步骤S13:将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类 正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类 负预测条件概率。
[0067] 步骤S14:比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小。
[0068] 在比较结果为所述待分类正预测条件概率最大的情况下,执行步骤S15,在比较结 果为所述待分类负预测条件概率最大的情况下,执行步骤S16。
[0069]步骤S15:确定所述待测样本的类别为正。
[0070] 步骤S16:确定所述待测样本的类别为负。
[0071] 步骤S17:在所述待测样本的类别为正时,确定所述待测样本的发言者的职业类型 为学生。
[0072] 步骤S18:在所述待测样本的类别为负时,确定所述待测样本的发言者的职业类型 为非学生。
[0073] 在本申请中,使用最大熵分类器计算每个词特征在所述待测样本预设为正类和负 类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个词特征对应的 待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的 待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;比较所述待分类正预 测条件概率和所述待分类负预测条件概率的大小;在比较结果为所述待分类正预测条件概 率最大的情况下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概 率最大的情况下,确定所述待测样本的类别为负,实现了使用最大熵分类器对待测样本类 别的预测。
[0074] 在预测出待测样本的类别为正时,确定出待测样本的发言者的职业类型为学生, 在预测出待测样本的类别为负时,确定出待测样本的发言者的职业类型为非学生,从而实 现了对互联网用户的职业类型的识别。
[0075] 进一步的,由于职业分类结果是由最大熵分类器根据待测样本的全部文本内容, 计算所有词特征的待分类正预测子条件概率和待分类负预测子条件概率之后得到的,因此 有效的提高了职业类型分类性能,使分类正确率更加精确。
[0076] 在本实施例中,分别对待测样本中的各个语句进行分词,得到多个词特征的过程 具体可以为:利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个 词特征。
[0077] 在本实施例中,上述待测样本具体可以但不局限于为互联网用户在微博上发表的 内容或互联网用户在贴吧上发表的内容。
[0078] 在待测样本为互联网用户在贴吧上发表的内容时,待测样本具体为贴吧中帖子的 标题和对应的用户评价内容。相应的,训练样本可以为互联网用户在贴吧上发表的内容或 互联网用户在微博上发表的内容。
[0079] 在待测样本为互联网用户在微博上发表的内容时,训练样本可以为互联网用户在 贴吧上发表的内容或互联网用户在微博上发表的内容。
[0080] 实施例二
[0081 ]在本实施例中,示出的是使用最大熵分类器,计算每个词特征在所述待测样本预 设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的具体过 程。
[0082] 使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应 的待分类正预测子条件概率和待分类负预测子条件概率的具体过程为:
[0083] 使用最大熵目标函数公式
,分别计算每个词特征在a 分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该a 为待测样本预设类别,该b为词特征,PUa | b)为待分类预测子条件概率,exp()为自然数e为 底的指数函数,f i ()为二值特征函数,
,h为特征函数值f i (a,b)在a为+ 1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同,
为对每个词特征对应的k个特征函数值进行求和的函数,k等于2,i = 1,2,…,k,
为不同值时对应的数据进行求和的函数。
[0084] 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负, 在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词特征对 应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所述预设 词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
[0085] 在本实施例中,使用最大熵目标函数
,分别计算 每个词特征在a分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件 概率具体为:使用最大熵目标函数公式
,分别计算每个词特 征在a分别为+1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,及使用最 大熵目标函数公式
,分别计算每个词特征在a分别为-1时,对 应的待分类正预测子条件概率和待分类负预测子条件概率。
[0086] 在本实施例中,预设词特征集合为在训练最大熵分类器的过程中,对各个训练样 本中的各个语句进行分词后,得到的词特征的集合。
[0087] 实施例三
[0088]在本实施例中,示出的是最大熵分类器的训练过程,请参见图2,可以包括以下步 骤:
[0089] 步骤S21:获取多个不同的正类样本和多个不同的负类样本。
[0090]在本实施例中,正类样本的发言者为学生,负类样本的发言者为非学生。即从正类 样本的内容可以确定正类样本的发言者是学生,从负类样本的内容可以确定负类样本的发 言者是非学生。
[0091] 其中,正类样本的发言者为学生,负类样本的发言者为非学生,是为了训练出来的 最大熵分类器可以对待测样本的发言者的职业类型进行分类,确定待测样本的发言者的职 业类型是学生或非学生。
[0092] 步骤S22:分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个 语句进行分词,得到多个训练词特征。
[0093]
,分别计算每个训练词特征在a分 别为+1和-1时,对应的正预测条件概率和负预测条件概率。
[0094] 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,exp ()为自然数e为底的指数函数,f i ()为二值特征函数,
,为特征函数值f i (a,b)的权值且相同b对应的不同特征函数值的权值相同,
为对每个训练词特征对应的k 个特征函数值进行求和的函数,k等于2,i = l,2,~,k
为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知。
[0095] 在本实施例中,
分别计算每个训练词特征 在a分别为+ 1和-1时,对应的正预测条件概率和负预测条件概率具体为:依据公式
分别计算每个训练词特征在a分别为+1时,对应的正预测条 件概率和负预测条件概率及依据公式
1分别计算每个训练词 特征在a分别为-1时,对应的正预测条件概率和负预测条件概率。
[0096]步骤S24:利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训 练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对 应的λ作为每个训练词特征各自对应的特征函数值的正最优权值。
[0097] 利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征 各自的正预测条件概率收敛的原理为已有的原理,在此不再赘述。
[0098] 在本实施例中,每个训练词特征值各自的正预测条件概率收敛即每个训练词特征 各自的正预测条件概率达到最大值。
[0099] 步骤S25:利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训 练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对 应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
[0100] 利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征 各自的负预测条件概率收敛的原理为已有的原理,在此不再赘述。
[0101] 在本实施例中,每个训练词特征值各自的负预测条件概率收敛即每个训练词特征 各自的负预测条件概率达到最大值。
[0102] 在本实施例中,在得到每个训练词特征各自对应的特征函数值的正最优权值及每 个训练词特征各自对应的特征函数值的负最优权值后,公式
中的\为已知值,完成了对最大熵分类器的训练。
[0103] 在对待测样本的发言者进行职业类型分类时,即可以使用λ,已知的
公式(即训练完成的最大熵分类器)进行分类。
[0104] 实施例四
[0105] 与上述方法实施例相对应,本实施例提供了一种职业类型分类装置,请参见图3, 职业类型分类装置包括:第一分词单元31、第一计算单元32、第二计算单元33、比较单元34、 第一确定单元35、第二确定单元36、第三确定单元37和第四确定单元38。
[0106] 第一分词单元31,用于分别对待测样本中的各个语句进行分词,得到多个词特征, 其中,所述待测样本为互联网用户发表的内容。
[0107] 第一计算单元32,用于使用最大熵分类器,计算每个词特征在所述待测样本预设 为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,所述最大 熵分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的。
[0108] 第二计算单元33,用于将各个词特征对应的待分类正预测子条件概率进行乘运 算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运 算,得到待分类负预测条件概率。
[0109] 比较单元34,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率 的大小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第一确定单元35确 定所述待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触 发第二确定单元36确定所述待测样本的类别为负。
[0110]第三确定单元37,用于在所述待测样本的类别为正时,确定所述待测样本的发言 者的职业类型为学生。
[0111] 第四确定单元38,用于在所述待测样本的类别为负时,确定所述待测样本的发言 者的职业类型为非学生。
[0112] 在本实施例中,第一计算单元32具体可以包括:第一计算子单元。
[0113] 第一计算子单元,用于使用最大熵目标函数公式 分别计算每个词特征在a分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预 测子条件概率,其中,该a为待测样本预设类别,该b为词特征,PUa|b)为待分类预测子条件 概率,exp 〇为自然数e为底的指数函数,f i ()为二值特征函数:
,λ?为特 征函数值f i (a,b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同 特征函数值的权值相同
为对每个词特征对应的k个特征函数值进行求和的函数,k等于 2,i = l,2,~,k,
为对a为不同值时对应的数据进行求和的函数;
[0114] 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预 设为负类,每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负, 在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词特征对 应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所述预设 词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
[0115] 在本实施例中,第一分词单元31具体可以包括:分词子单元。
[0116] 分词子单元,用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分 词,得到多个词特征。
[0117]实施例五
[0118] 在本实施例中,提供了一种职业类型分类系统,请参见图4,职业类型分类系统包 括:最大熵分类器训练装置41和职业类型分类装置42。
[0119] 职业类型分类装置42的具体结构请参见实施例四示出的职业类型分类装置,在此 不再赘述。
[0120]最大熵分类器训练装置41具体包括:获取单元411、第二分词单元412、第三计算单 元413、第四计算单元414和第五计算单元415。
[0121]获取单元411,用于获取多个不同的正类样本和多个不同的负类样本。
[0122]第二分词单元412,用于分别对各个所述正类样本中的各个语句和各个所述负类 样本中的各个语句进行分词,得到多个训练词特征。
[0123] 第三计算单元413,用于依据公式
,分别计算每个训 练词特征在a分别为+1和-1时,对应的正预测条件概率和负预测条件概率;
[0124] 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,exp ()为自然数e为底的指数函数,f i ()为二值特征函数,
,:λ?为特征函数值f i (a,b)的权值且相同b对应的不同特征函数值的权值相同:
为对每个训练词特征对应的k
个特征函数值进行求和的函数,k等于2,i = l,2,~,k,为对a为不同值时对应的数据进行 求和的函数,所述\的初始值已知。
[0125] 第四计算单元414,用于利用GIS算法,调整每个训练词特征对应的正预测条件概 率,直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正 预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值;
[0126] 第五计算单元415,用于利用GIS算法,调整每个训练词特征对应的负预测条件概 率,直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负 预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的负最优权值。
[0127] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。 对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参 见方法实施例的部分说明即可。
[0128] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作 之间存在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意 在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那 些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者 设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排 除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0129] 以上对本申请所提供的一种互联网用户数据处理方法、装置及系统进行了详细介 绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只 是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申 请的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应 理解为对本申请的限制。
【主权项】
1. 一种互联网用户数据处理方法,其特征在于,包括: 分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为互联 网用户发表的内容; 使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待 分类正预测子条件概率和待分类负预测子条件概率,所述最大熵分类器为使用发言者为学 生的正类样本和发言者为非学生的负类样本训练而成的; 将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概 率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概 率; 比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小; 在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为 正; 在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为 负; 在所述待测样本的类别为正时,确定所述待测样本的发言者的职业类型为学生; 在所述待测样本的类别为负时,确定所述待测样本的发言者的职业类型为非学生。2. 根据权利要求1所述的方法,其特征在于,所述使用最大熵分类器,计算每个词特征 在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子 条件概率的过程,包括:使用最大熵目标函数公¥ -,分别计算每个词特征在a分别 )) a /-I 为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该a为待 测样本预设类别,该b为词特征,PUa | b)为待分类预测子条件概率,exp()为自然数e为底的 指数函数,fd)为二值特征函数,所対4为特征函数值fi(a,b)在a为+1时 的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同,Σ 为对每个词特征对应的k个特征函数值进行求和的函数,k等于2,? = 1,2,···Λ,Σ为对a为 a 不同值时对应的数据进行求和的函数; 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为 负类,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词 特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所 述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。3. 根据权利要求1所述的方法,其特征在于,所述最大熵分类器的训练过程包括: 获取多个不同的正类样本和多个不同的负类样本; 分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词, 得到多个训练词特征; 依据公¥分别计算每个训练词特征在a分别为+1和-1时, 对应的正预测条件概率和负预测条件概率; 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,expO为自 然数e为底的指数函数,f i ()为二值特征函数,λ?为特征函数值f i (a,b)的 权值且相同b对应的不同特征函数值的权值相同,t为对每个训练词特征对应的k个特征函 数值进行求和的函数,k等于2,1 = 1,2,一上,1为对&为不同值时对应的数据进行求和的 a 函数,所述\的初始值已知; 利用GIS算法,调整每个训练词特征对应的正预测条件概率,直至每个训练词特征各自 的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每 个训练词特征各自对应的特征函数值的正最优权值; 利用GIS算法,调整每个训练词特征对应的负预测条件概率,直至每个训练词特征各自 的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每 个训练词特征各自对应的特征函数值的负最优权值。4. 根据权利要求1所述的方法,其特征在于,分别对待测样本中的各个语句进行分词, 得到多个词特征的过程,包括: 利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词,得到多个词特征。5. 根据权利要求1所述的方法,其特征在于,所述待测样本为互联网用户在微博上发表 的内容。6. 根据权利要求1所述的方法,其特征在于,所述待测样本为互联网用户在贴吧上发表 的内容。7. -种职业类型分类装置,其特征在于,包括: 第一分词单元,用于分别对待测样本中的各个语句进行分词,得到多个词特征,其中, 所述待测样本为互联网用户发表的内容; 第一计算单元,用于使用最大熵分类器,计算每个词特征在所述待测样本预设为正类 和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,所述最大熵分类 器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的; 第二计算单元,用于将各个词特征对应的待分类正预测子条件概率进行乘运算,得到 待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到 待分类负预测条件概率; 比较单元,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大 小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第一确定单元确定所述 待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第二 确定单元确定所述待测样本的类别为负; 第三确定单元,用于在所述待测样本的类别为正时,确定所述待测样本的发言者的职 业类型为学生; 第四确定单元,用于在所述待测样本的类别为负时,确定所述待测样本的发言者的职 业类型为非学生。8. 根据权利要求7所述的装置,其特征在于,所述第一计算单元包括:第一计算子单元,用于使用最大熵目标函数公式 -,分别计 ) a i=i 算每个词特征在a分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条 件概率,其中,该a为待测样本预设类别,该b为词特征,PUa | b)为待分类预测子条件概率, exp ()为自然数e为底的指数函数,f i ()为二值特征函数,所过,Ai为特征函 数值fi (a,b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征 函数值的权值相同,?为对每个词特征对应的k个特征函数值进行求和的函数,k等于2,i = /^1. 1,2,…,k,Σ为对a为不同值时对应的数据进行求和的函数; a. 其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为 负类,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词 特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所 述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为〇。9. 根据权利要求7所述的装置,其特征在于,所述第一分词单元包括: 分词子单元,用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词, 得到多个词特征。10. -种职业类型分类系统,其特征在于,包括:最大熵分类器训练装置和如权利要求 7-9任意一项所述的职业类型分类装置,其中所述最大熵分类器训练装置包括:获取单元、 第二分词单元、第三计算单元、第四计算单元和第五计算单元; 所述获取单元,用于获取多个不同的正类样本和多个不同的负类样本; 所述第二分词单元,用于分别对各个所述正类样本中的各个语句和各个所述负类样本 中的各个语句进行分词,得到多个训练词特征; 第三计算单元,用于依据公式,分别计算每个训练词特征 αι=ι 在a分别为+1和-1时,对应的正预测条件概率和负预测条件概率; 其中,该a为训练样本预设类别,该b为训练词特征,PUa|b)为预测条件概率,expO为自 然数e为底的指数函数,f i ()为二值特征函数,为特征函数值f i (a,b)的 权值且相同b对应的不同特征函数值的权值相同,?为对每个训练词特征对应的k个特征函 /-1 数值进行求和的函数,k等于2,1 = 1,2,一上,[为对&为不同值时对应的数据进行求和的函 数,所述\的初始值已知; 所述第四计算单元,用于利用GIS算法,调整每个训练词特征对应的正预测条件概率, 直至每个训练词特征各自的正预测条件概率收敛,并将每个训练词特征各自收敛的正预测 条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值; 所述第五计算单元,用于利用GIS算法,调整每个训练词特征对应的负预测条件概率, 直至每个训练词特征各自的负预测条件概率收敛,并将每个训练词特征各自收敛的负预测 条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
【文档编号】G06F17/27GK105868180SQ201610221211
【公开日】2016年8月17日
【申请日】2016年4月11日
【发明人】王礼敏, 李寿山, 周国栋, 王红玲
【申请人】苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1