一种互联网用户数据处理方法、装置及系统的制作方法

文档序号：10512164阅读：177来源：国知局

一种互联网用户数据处理方法、装置及系统的制作方法
【专利摘要】本申请提供了一种互联网用户数据处理方法、装置及系统，互联网用户数据处理方法使用最大熵分类器计算每个词特征对应的待分类正预测子条件概率和待分类负预测子条件概率；计算得到待分类正预测条件概率，及计算得到待分类负预测条件概率；在待分类正预测条件概率最大的情况下，确定待测样本的类别为正；在待分类负预测条件概率最大的情况下，确定待测样本的类别为负，实现了使用最大熵分类器对待测样本类别的预测。在预测出待测样本的类别为正时，确定出待测样本的发言者的职业类型为学生，在预测出待测样本的类别为负时，确定出待测样本的发言者的职业类型为非学生，从而实现了对互联网用户的职业类型的识别。
【专利说明】
一种互联网用户数据处理方法、装置及系统
技术领域
[0001] 本申请涉及自然语言处理及社交网络领域，特别涉及一种互联网用户数据处理方法、装置及系统。
【背景技术】
[0002] 近几年来，随着互联网的迅猛发展，社交网络产品越来越多，如微博、论坛和贴吧等。社交网络产品的出现使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变，互联网用户既可以在社交网络产品上发表自己的言论，也可以评论其他用户发表的内容，使得社交网络产品既具有媒体传播特性，又具有社交网络特性。
[0003] 目前，社交网络产品具备的媒体传播特性和社交网络特性，吸引了众多研究人员对社交网络产品上的用户数据进行分析研究。其中，对社交网络产品上的用户数据进行分析研究中，识别用户的职业类型是比较重要的，因为能够识别出互联网用户的职业类型将有利于社交网络产品企业制定精准的广告投放及进行相关分析，以此来帮助社交网络产品企业更好的开发社交网络产品。
[0004] 但是，目前尚不存在一种行之有效的方法来识别出互联网用户的职业类型。

【发明内容】

[0005] 为解决上述技术问题，本申请实施例提供一种互联网用户数据处理方法、装置及系统，以达到实现对互联网用户的职业类型的识别的目的，技术方案如下：
[0006] -种互联网用户数据处理方法，包括：
[0007] 分别对待测样本中的各个语句进行分词，得到多个词特征，其中，所述待测样本为互联网用户发表的内容；
[0008] 使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率，所述最大熵分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的；
[0009] 将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；
[0010]比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小；
[0011] 在比较结果为所述待分类正预测条件概率最大的情况下，确定所述待测样本的类别为正；
[0012] 在比较结果为所述待分类负预测条件概率最大的情况下，确定所述待测样本的类别为负；
[0013] 在所述待测样本的类别为正时，确定所述待测样本的发言者的职业类型为学生；
[0014] 在所述待测样本的类别为负时，确定所述待测样本的发言者的职业类型为非学生。
[0015] 优选的，所述使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率的过程，包括：
[0016] 使用最大熵目标函数公式
，分别计算每个词特征在a 分别为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，其中，该a 为待测样本预设类别，该b为词特征，PUa | b)为待分类预测子条件概率，exp()为自然数e为底的指数函数，f i ()为二值特征函数，
为特征函数值f i (a，b)在a为+ 1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同，
为对每个词特征对应的k个特征函数值进行求和的函数，k等于2，i = 1，2，…，k
为对a 为不同值时对应的数据进行求和的函数；
[0017] 其中，所述a为+1表示所述待测样本预设为正类，所述a为-1表示所述待测样本预设为负类，在计算待分类正预测子条件概率时，若词特征包含在预设词特征集合中，则λ为该词特征对应的正最优权值，否则λ为0,在计算待分类负预测子条件概率时，若词特征包含在所述预设词特征集合中，则λ为该词特征对应的负最优权值，否则λ为0。
[0018] 优选的，所述最大熵分类器的训练过程包括：
[0019] 获取多个不同的正类样本和多个不同的负类样本；
[0020] 分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词，得到多个训练词特征；
[0021] 依据公式
分别计算每个训练词特征在a分别为+ 1 和-1时，对应的正预测条件概率和负预测条件概率；
[0022]其中，该a为训练样本预设类别，该b为训练词特征，PUa |b)为预测条件概率，exp ()为自然数e为底的指数函数，f i ()为二值特征函数，
Ai为特征函数值f i (a，b)的权值且相同b对应的不同特征函数值的权值相同，
为对每个训练词特征对应的k 个特征函数值进行求和的函数，k等于2，i = l，2，~，k:
为对a为不同值时对应的数据进行求和的函数，所述\的初始值已知；
[0023]利用GIS算法，调整每个训练词特征对应的正预测条件概率，直至每个训练词特征各自的正预测条件概率收敛，并将每个训练词特征各自收敛的正预测条件概率对应的λ 作为每个训练词特征各自对应的特征函数值的正最优权值；
[0024]利用GIS算法，调整每个训练词特征对应的负预测条件概率，直至每个训练词特征各自的负预测条件概率收敛，并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
[0025]优选的，分别对待测样本中的各个语句进行分词，得到多个词特征的过程，包括： [0026]利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词，得到多个词特征。
[0027]优选的，所述待测样本为互联网用户在微博上发表的内容。
[0028]优选的，所述待测样本为互联网用户在贴吧上发表的内容。
[0029] 一种职业类型分类装置，包括：
[0030]第一分词单元，用于分别对待测样本中的各个语句进行分词，得到多个词特征，其中，所述待测样本为互联网用户发表的内容；
[0031] 第一计算单元，用于使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率，所述最大熵分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的；
[0032] 第二计算单元，用于将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；
[0033] 比较单元，用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小，在比较结果为所述待分类正预测条件概率最大的情况下，触发第一确定单元确定所述待测样本的类别为正，在比较结果为所述待分类负预测条件概率最大的情况下，触发第二确定单元确定所述待测样本的类别为负；
[0034]第三确定单元，用于在所述待测样本的类别为正时，确定所述待测样本的发言者的职业类型为学生；
[0035]第四确定单元，用于在所述待测样本的类别为负时，确定所述待测样本的发言者的职业类型为非学生。
[0036]优选的，所述第一计算单元包括：
[0037] 第一计算子单元，用于使用最大熵目标函数公式分别计算每个词特征在a分别为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，其中，该a为待测样本预设类别，该b为词特征，PUa|b)为待分类预测子条件概率，exp ()为自然数e为底的指数函数，f i ()为二值特征函数，
，Ai为特征函数值f i (a，b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同
为对每个词特征对应的k个特征函数值进行求和的函数，k等于 2，i = 1，2，…，k，
为对a为不同值时对应的数据进行求和的函数；
[0038] 其中，所述a为+1表示所述待测样本预设为正类，所述a为-1表示所述待测样本预设为负类，在计算待分类正预测子条件概率时，若词特征包含在预设词特征集合中，则λ为该词特征对应的正最优权值，否则λ为0,在计算待分类负预测子条件概率时，若词特征包含在所述预设词特征集合中，则λ为该词特征对应的负最优权值，否则λ为0。
[0039]优选的，所述第一分词单元包括：
[0040] 分词子单元，用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词，得到多个词特征。
[0041 ] -种职业类型分类系统，包括:最大熵分类器训练装置和如上述任意一项所述的职业类型分类装置，其中所述最大熵分类器训练装置包括:获取单元、第二分词单元、第三计算单元、第四计算单元和第五计算单元；
[0042]所述获取单元，用于获取多个不同的正类样本和多个不同的负类样本；
[0043]所述第二分词单元，用于分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词，得到多个训练词特征；
[0044] 第三计算单元，用于依据公式
，分别计算每个训练词特征在a分别为+1和-1时，对应的正预测条件概率和负预测条件概率；
[0045] 其中，该a为训练样本预设类别，该b为训练词特征，PUa|b)为预测条件概率，exp ()为自然数e为底的指数函数，f i ()为二值特征函数，
，Xi为特征函数值f i (a，b)的权值且相同b对应的不同特征函数值的权值相同
为对每个训练词特征对应的k 个特征函数值进行求和的函数，k等于2，i = l，2，~，k，
为对a为不同值时对应的数据进行求和的函数，所述\的初始值已知；
[0046] 所述第四计算单元，用于利用GIS算法，调整每个训练词特征对应的正预测条件概率，直至每个训练词特征各自的正预测条件概率收敛，并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值；
[0047]所述第五计算单元，用于利用GIS算法，调整每个训练词特征对应的负预测条件概率，直至每个训练词特征各自的负预测条件概率收敛，并将每个训练词特征各自收敛的负预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的负最优权值。
[0048] 与现有技术相比，本申请的有益效果为：
[0049] 在本申请中，使用最大熵分类器计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小；在比较结果为所述待分类正预测条件概率最大的情况下，确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况下，确定所述待测样本的类别为负，实现了使用最大熵分类器对待测样本类别的预测。
[0050] 在预测出待测样本的类别为正时，确定出待测样本的发言者的职业类型为学生，在预测出待测样本的类别为负时，确定出待测样本的发言者的职业类型为非学生，从而实现了对互联网用户的职业类型的识别。
【附图说明】
[0051] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0052] 图1是本申请提供的互联网用户数据处理方法的一种流程图；
[0053] 图2是本申请提供的最大熵分类器的训练的一种流程图；
[0054]图3是本申请提供的职业类型分类装置的一种逻辑结构示意图；
[0055] 图4是本申请提供的职业类型分类系统的一种逻辑结构示意图。
【具体实施方式】
[0056] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。
[0057] 实施例一
[0058]请参见图1，其示出了本申请提供的互联网用户数据处理方法的一种流程图，可以包括以下步骤：
[0059] 步骤S11:分别对待测样本中的各个语句进行分词，得到多个词特征。
[0060] 其中，所述待测样本为互联网用户发表的内容。
[0061] 在本实施例中，由于对待测样本中各个语句进行分词的过程相同，因此仅对待测样本中任意一个语句进行分词的过程进行说明，例如，对"今天我非常高兴"进行分词，则分词后得到的词特征分别为"今天"、"我"、"非常"、"高兴"。
[0062] 步骤S12:使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率。
[0063] 在本实施例中，最大熵分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的。
[0064] 其中，使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的最大熵分类器可以对待测样本的发言者的职业类型进行分类，确定待测样本的发言者的职业类型是学生或非学生。
[0065] 在本实施例中，使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率具体为:使用最大熵分类器，计算每个词特征在所述待测样本预设为正类时，对应的待分类正预测子条件概率和待分类负预测子条件概率，及使用最大熵分类器，计算每个词特征在所述待测样本预设为负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率。
[0066] 步骤S13:将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率。
[0067] 步骤S14:比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小。
[0068] 在比较结果为所述待分类正预测条件概率最大的情况下，执行步骤S15,在比较结果为所述待分类负预测条件概率最大的情况下，执行步骤S16。
[0069]步骤S15:确定所述待测样本的类别为正。
[0070] 步骤S16:确定所述待测样本的类别为负。
[0071] 步骤S17:在所述待测样本的类别为正时，确定所述待测样本的发言者的职业类型为学生。
[0072] 步骤S18:在所述待测样本的类别为负时，确定所述待测样本的发言者的职业类型为非学生。
[0073] 在本申请中，使用最大熵分类器计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;在比较结果为所述待分类正预测条件概率最大的情况下，确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况下，确定所述待测样本的类别为负，实现了使用最大熵分类器对待测样本类别的预测。
[0074] 在预测出待测样本的类别为正时，确定出待测样本的发言者的职业类型为学生，在预测出待测样本的类别为负时，确定出待测样本的发言者的职业类型为非学生，从而实现了对互联网用户的职业类型的识别。
[0075] 进一步的，由于职业分类结果是由最大熵分类器根据待测样本的全部文本内容，计算所有词特征的待分类正预测子条件概率和待分类负预测子条件概率之后得到的，因此有效的提高了职业类型分类性能，使分类正确率更加精确。
[0076] 在本实施例中，分别对待测样本中的各个语句进行分词，得到多个词特征的过程具体可以为:利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词，得到多个词特征。
[0077] 在本实施例中，上述待测样本具体可以但不局限于为互联网用户在微博上发表的内容或互联网用户在贴吧上发表的内容。
[0078] 在待测样本为互联网用户在贴吧上发表的内容时，待测样本具体为贴吧中帖子的标题和对应的用户评价内容。相应的，训练样本可以为互联网用户在贴吧上发表的内容或互联网用户在微博上发表的内容。
[0079] 在待测样本为互联网用户在微博上发表的内容时，训练样本可以为互联网用户在贴吧上发表的内容或互联网用户在微博上发表的内容。
[0080] 实施例二
[0081 ]在本实施例中，示出的是使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率的具体过程。
[0082] 使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率的具体过程为：
[0083] 使用最大熵目标函数公式
，分别计算每个词特征在a 分别为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，其中，该a 为待测样本预设类别，该b为词特征，PUa | b)为待分类预测子条件概率，exp()为自然数e为底的指数函数，f i ()为二值特征函数，
，h为特征函数值f i (a，b)在a为+ 1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同，
为对每个词特征对应的k个特征函数值进行求和的函数，k等于2，i = 1，2，…，k，
为不同值时对应的数据进行求和的函数。
[0084] 其中，所述a为+1表示所述待测样本预设为正类，所述a为-1表示所述待测样本预设为负类，每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负，在计算待分类正预测子条件概率时，若词特征包含在预设词特征集合中，则λ为该词特征对应的正最优权值，否则λ为0，在计算待分类负预测子条件概率时，若词特征包含在所述预设词特征集合中，则λ为该词特征对应的负最优权值，否则λ为0。
[0085] 在本实施例中，使用最大熵目标函数
，分别计算每个词特征在a分别为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率具体为:使用最大熵目标函数公式
，分别计算每个词特征在a分别为+1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，及使用最大熵目标函数公式
，分别计算每个词特征在a分别为-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率。
[0086] 在本实施例中，预设词特征集合为在训练最大熵分类器的过程中，对各个训练样本中的各个语句进行分词后，得到的词特征的集合。
[0087] 实施例三
[0088]在本实施例中，示出的是最大熵分类器的训练过程，请参见图2,可以包括以下步骤：
[0089] 步骤S21:获取多个不同的正类样本和多个不同的负类样本。
[0090]在本实施例中，正类样本的发言者为学生，负类样本的发言者为非学生。即从正类样本的内容可以确定正类样本的发言者是学生，从负类样本的内容可以确定负类样本的发言者是非学生。
[0091] 其中，正类样本的发言者为学生，负类样本的发言者为非学生，是为了训练出来的最大熵分类器可以对待测样本的发言者的职业类型进行分类，确定待测样本的发言者的职业类型是学生或非学生。
[0092] 步骤S22:分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词，得到多个训练词特征。
[0093]
,分别计算每个训练词特征在a分别为+1和-1时，对应的正预测条件概率和负预测条件概率。
[0094] 其中，该a为训练样本预设类别，该b为训练词特征，PUa|b)为预测条件概率，exp ()为自然数e为底的指数函数，f i ()为二值特征函数，
，为特征函数值f i (a，b)的权值且相同b对应的不同特征函数值的权值相同，
为对每个训练词特征对应的k 个特征函数值进行求和的函数，k等于2，i = l，2，~，k
为对a为不同值时对应的数据进行求和的函数，所述\的初始值已知。
[0095] 在本实施例中，
分别计算每个训练词特征在a分别为+ 1和-1时，对应的正预测条件概率和负预测条件概率具体为：依据公式
分别计算每个训练词特征在a分别为+1时，对应的正预测条件概率和负预测条件概率及依据公式
1分别计算每个训练词特征在a分别为-1时，对应的正预测条件概率和负预测条件概率。
[0096]步骤S24:利用GIS算法，调整每个训练词特征对应的正预测条件概率，直至每个训练词特征各自的正预测条件概率收敛，并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值。
[0097] 利用GIS算法，调整每个训练词特征对应的正预测条件概率，直至每个训练词特征各自的正预测条件概率收敛的原理为已有的原理，在此不再赘述。
[0098] 在本实施例中，每个训练词特征值各自的正预测条件概率收敛即每个训练词特征各自的正预测条件概率达到最大值。
[0099] 步骤S25:利用GIS算法，调整每个训练词特征对应的负预测条件概率，直至每个训练词特征各自的负预测条件概率收敛，并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
[0100] 利用GIS算法，调整每个训练词特征对应的负预测条件概率，直至每个训练词特征各自的负预测条件概率收敛的原理为已有的原理，在此不再赘述。
[0101] 在本实施例中，每个训练词特征值各自的负预测条件概率收敛即每个训练词特征各自的负预测条件概率达到最大值。
[0102] 在本实施例中，在得到每个训练词特征各自对应的特征函数值的正最优权值及每个训练词特征各自对应的特征函数值的负最优权值后，公式
中的\为已知值，完成了对最大熵分类器的训练。
[0103] 在对待测样本的发言者进行职业类型分类时，即可以使用λ,已知的
公式(即训练完成的最大熵分类器)进行分类。
[0104] 实施例四
[0105] 与上述方法实施例相对应，本实施例提供了一种职业类型分类装置，请参见图3，职业类型分类装置包括:第一分词单元31、第一计算单元32、第二计算单元33、比较单元34、第一确定单元35、第二确定单元36、第三确定单元37和第四确定单元38。
[0106] 第一分词单元31，用于分别对待测样本中的各个语句进行分词，得到多个词特征，其中，所述待测样本为互联网用户发表的内容。
[0107] 第一计算单元32,用于使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率，所述最大熵分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的。
[0108] 第二计算单元33,用于将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率。
[0109] 比较单元34,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小，在比较结果为所述待分类正预测条件概率最大的情况下，触发第一确定单元35确定所述待测样本的类别为正，在比较结果为所述待分类负预测条件概率最大的情况下，触发第二确定单元36确定所述待测样本的类别为负。
[0110]第三确定单元37，用于在所述待测样本的类别为正时，确定所述待测样本的发言者的职业类型为学生。
[0111] 第四确定单元38，用于在所述待测样本的类别为负时，确定所述待测样本的发言者的职业类型为非学生。
[0112] 在本实施例中，第一计算单元32具体可以包括:第一计算子单元。
[0113] 第一计算子单元，用于使用最大熵目标函数公式分别计算每个词特征在a分别为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，其中，该a为待测样本预设类别，该b为词特征，PUa|b)为待分类预测子条件概率，exp 〇为自然数e为底的指数函数，f i ()为二值特征函数：
，λ?为特征函数值f i (a，b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同
为对每个词特征对应的k个特征函数值进行求和的函数，k等于 2，i = l，2，~，k，
为对a为不同值时对应的数据进行求和的函数；
[0114] 其中，所述a为+1表示所述待测样本预设为正类，所述a为-1表示所述待测样本预设为负类，每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负，在计算待分类正预测子条件概率时，若词特征包含在预设词特征集合中，则λ为该词特征对应的正最优权值，否则λ为0，在计算待分类负预测子条件概率时，若词特征包含在所述预设词特征集合中，则λ为该词特征对应的负最优权值，否则λ为0。
[0115] 在本实施例中，第一分词单元31具体可以包括:分词子单元。
[0116] 分词子单元，用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词，得到多个词特征。
[0117]实施例五
[0118] 在本实施例中，提供了一种职业类型分类系统，请参见图4,职业类型分类系统包括:最大熵分类器训练装置41和职业类型分类装置42。
[0119] 职业类型分类装置42的具体结构请参见实施例四示出的职业类型分类装置，在此不再赘述。
[0120]最大熵分类器训练装置41具体包括:获取单元411、第二分词单元412、第三计算单元413、第四计算单元414和第五计算单元415。
[0121]获取单元411，用于获取多个不同的正类样本和多个不同的负类样本。
[0122]第二分词单元412,用于分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词，得到多个训练词特征。
[0123] 第三计算单元413,用于依据公式
，分别计算每个训练词特征在a分别为+1和-1时，对应的正预测条件概率和负预测条件概率；
[0124] 其中，该a为训练样本预设类别，该b为训练词特征，PUa|b)为预测条件概率，exp ()为自然数e为底的指数函数，f i ()为二值特征函数，
，:λ?为特征函数值f i (a，b)的权值且相同b对应的不同特征函数值的权值相同：
为对每个训练词特征对应的k
个特征函数值进行求和的函数，k等于2，i = l，2，~，k，为对a为不同值时对应的数据进行求和的函数，所述\的初始值已知。
[0125] 第四计算单元414,用于利用GIS算法，调整每个训练词特征对应的正预测条件概率，直至每个训练词特征各自的正预测条件概率收敛，并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值；
[0126] 第五计算单元415,用于利用GIS算法，调整每个训练词特征对应的负预测条件概率，直至每个训练词特征各自的负预测条件概率收敛，并将每个训练词特征各自收敛的负预测条件概率对应的Μ乍为每个训练词特征各自对应的特征函数值的负最优权值。
[0127] 需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0128] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语"包括"、"包含"或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括一个……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0129] 以上对本申请所提供的一种互联网用户数据处理方法、装置及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。
【主权项】
1. 一种互联网用户数据处理方法，其特征在于，包括：分别对待测样本中的各个语句进行分词，得到多个词特征，其中，所述待测样本为互联网用户发表的内容；使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率，所述最大熵分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的；将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小；在比较结果为所述待分类正预测条件概率最大的情况下，确定所述待测样本的类别为正；在比较结果为所述待分类负预测条件概率最大的情况下，确定所述待测样本的类别为负；在所述待测样本的类别为正时，确定所述待测样本的发言者的职业类型为学生；在所述待测样本的类别为负时，确定所述待测样本的发言者的职业类型为非学生。2. 根据权利要求1所述的方法，其特征在于，所述使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率的过程，包括：使用最大熵目标函数公￥ -，分别计算每个词特征在a分别 )) a /-I 为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，其中，该a为待测样本预设类别，该b为词特征，PUa | b)为待分类预测子条件概率，exp()为自然数e为底的指数函数，fd)为二值特征函数，所対4为特征函数值fi(a，b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同，Σ 为对每个词特征对应的k个特征函数值进行求和的函数，k等于2，? = 1，2，···Λ，Σ为对a为 a 不同值时对应的数据进行求和的函数；其中，所述a为+1表示所述待测样本预设为正类，所述a为-1表示所述待测样本预设为负类，在计算待分类正预测子条件概率时，若词特征包含在预设词特征集合中，则λ为该词特征对应的正最优权值，否则λ为0，在计算待分类负预测子条件概率时，若词特征包含在所述预设词特征集合中，则λ为该词特征对应的负最优权值，否则λ为0。3. 根据权利要求1所述的方法，其特征在于，所述最大熵分类器的训练过程包括：获取多个不同的正类样本和多个不同的负类样本；分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词，得到多个训练词特征；依据公￥分别计算每个训练词特征在a分别为+1和-1时，对应的正预测条件概率和负预测条件概率；其中，该a为训练样本预设类别，该b为训练词特征，PUa|b)为预测条件概率，expO为自然数e为底的指数函数，f i ()为二值特征函数，λ?为特征函数值f i (a，b)的权值且相同b对应的不同特征函数值的权值相同，t为对每个训练词特征对应的k个特征函数值进行求和的函数，k等于2，1 = 1，2，一上，1为对&为不同值时对应的数据进行求和的 a 函数，所述\的初始值已知；利用GIS算法，调整每个训练词特征对应的正预测条件概率，直至每个训练词特征各自的正预测条件概率收敛，并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值；利用GIS算法，调整每个训练词特征对应的负预测条件概率，直至每个训练词特征各自的负预测条件概率收敛，并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。4. 根据权利要求1所述的方法，其特征在于，分别对待测样本中的各个语句进行分词，得到多个词特征的过程，包括：利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词，得到多个词特征。5. 根据权利要求1所述的方法，其特征在于，所述待测样本为互联网用户在微博上发表的内容。6. 根据权利要求1所述的方法，其特征在于，所述待测样本为互联网用户在贴吧上发表的内容。7. -种职业类型分类装置，其特征在于，包括：第一分词单元，用于分别对待测样本中的各个语句进行分词，得到多个词特征，其中，所述待测样本为互联网用户发表的内容；第一计算单元，用于使用最大熵分类器，计算每个词特征在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率，所述最大熵分类器为使用发言者为学生的正类样本和发言者为非学生的负类样本训练而成的；第二计算单元，用于将各个词特征对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个词特征对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；比较单元，用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小，在比较结果为所述待分类正预测条件概率最大的情况下，触发第一确定单元确定所述待测样本的类别为正，在比较结果为所述待分类负预测条件概率最大的情况下，触发第二确定单元确定所述待测样本的类别为负；第三确定单元，用于在所述待测样本的类别为正时，确定所述待测样本的发言者的职业类型为学生；第四确定单元，用于在所述待测样本的类别为负时，确定所述待测样本的发言者的职业类型为非学生。8. 根据权利要求7所述的装置，其特征在于，所述第一计算单元包括：第一计算子单元，用于使用最大熵目标函数公式 -，分别计 ) a i=i 算每个词特征在a分别为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，其中，该a为待测样本预设类别，该b为词特征，PUa | b)为待分类预测子条件概率， exp ()为自然数e为底的指数函数，f i ()为二值特征函数，所过，Ai为特征函数值fi (a，b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同，?为对每个词特征对应的k个特征函数值进行求和的函数，k等于2，i = /^1. 1，2，…，k，Σ为对a为不同值时对应的数据进行求和的函数； a. 其中，所述a为+1表示所述待测样本预设为正类，所述a为-1表示所述待测样本预设为负类，在计算待分类正预测子条件概率时，若词特征包含在预设词特征集合中，则λ为该词特征对应的正最优权值，否则λ为0，在计算待分类负预测子条件概率时，若词特征包含在所述预设词特征集合中，则λ为该词特征对应的负最优权值，否则λ为〇。9. 根据权利要求7所述的装置，其特征在于，所述第一分词单元包括：分词子单元，用于利用FudanNLP-1.6.1工具分别对待测样本中的各个语句进行分词，得到多个词特征。10. -种职业类型分类系统，其特征在于，包括:最大熵分类器训练装置和如权利要求 7-9任意一项所述的职业类型分类装置，其中所述最大熵分类器训练装置包括:获取单元、第二分词单元、第三计算单元、第四计算单元和第五计算单元；所述获取单元，用于获取多个不同的正类样本和多个不同的负类样本；所述第二分词单元，用于分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词，得到多个训练词特征；第三计算单元，用于依据公式，分别计算每个训练词特征 αι=ι 在a分别为+1和-1时，对应的正预测条件概率和负预测条件概率；其中，该a为训练样本预设类别，该b为训练词特征，PUa|b)为预测条件概率，expO为自然数e为底的指数函数，f i ()为二值特征函数，为特征函数值f i (a，b)的权值且相同b对应的不同特征函数值的权值相同，?为对每个训练词特征对应的k个特征函 /-1 数值进行求和的函数，k等于2，1 = 1，2，一上，[为对&为不同值时对应的数据进行求和的函数，所述\的初始值已知；所述第四计算单元，用于利用GIS算法，调整每个训练词特征对应的正预测条件概率，直至每个训练词特征各自的正预测条件概率收敛，并将每个训练词特征各自收敛的正预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的正最优权值；所述第五计算单元，用于利用GIS算法，调整每个训练词特征对应的负预测条件概率，直至每个训练词特征各自的负预测条件概率收敛，并将每个训练词特征各自收敛的负预测条件概率对应的λ作为每个训练词特征各自对应的特征函数值的负最优权值。
【文档编号】G06F17/27GK105868180SQ201610221211
【公开日】2016年8月17日
【申请日】2016年4月11日
【发明人】王礼敏, 李寿山, 周国栋, 王红玲
【申请人】苏州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王礼敏;李寿山;周国栋;王红玲;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：基于新型神经网络的自然语言并列结构的自动识别方法
上一篇：一种智能问答方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。