一种数据挖掘处理系统及方法_5

文档序号:8299034阅读:来源:国知局
出模块的具体实现),还包括高自信度亲戚关系抽取模块(图9中种子词构 造模块的具体实现)。
[0161] 以所述具有指示特征的用户关系为亲戚关系为例说明,如图5所示的由策略选择 子单元和策略执行子单元构成的数据分类单元,可以具体为图4中的亲戚关系分类模块, 该亲戚关系分类模块可以根据多种数据源分别预测用户的亲戚关系,由于不同数据源的数 据特性不一样,需要采用不同的操作逻辑来有针对性地处理具有不同性质的数据源,如针 对系统实施例一提及的数据类型一和数据类型二这种短文本类型采取一种处理逻辑(第 一策略作为分类策略),对针对系统实施例一提及的数据类型三这种长文本类型采取另一 种处理逻辑(第二策略为分类策略)。本实施例是针对第二策略执行的。
[0162] 本实施例针对第二策略,最大的特点是不是随机采取一个种子词,而是将采用第 一策略对所述短文本数据(数据类型一和数据类型二)进行识别得到的所述具有指示特征 的用户关系(如亲戚关系)来构造种子词。
[0163] 对于数据为:论坛的互动数据,比如对于頂空间的互动说说数据,其文本长(平均 有54个字),而且含有的噪音词比较多,其亲戚类别的概率分布跟系统实施例二描述中提 及的頂好友离线数据和手机頂通讯录对应的概率分布不一样。为此,采用所述第二策略来 更有效地识别頂空间互动说说数据中的亲戚关系。关键点是在用于种子词的选取不是随 机的,而是基于頂好友离线数据和手机頂通讯录识别得到的亲戚关系作为种子词,将该种 子词经高自信度亲戚关系抽取模块选取后得到正样本种子词和负样本种子词,输入分类训 练模块进行分类训练,这里需要指出的是,所述分类训练模块可以为基于支持向量机(SVM) 技术的训练分类器。
[0164] 训练分类器的正、负样本种子词构造如下:
[0165] 根据基于图6生成的前面两类数据(頂好友离线数据和手机頂通讯录)的亲戚 关系识别结果,抽取那些在多个维度同时预测为亲戚关系的用户关系对,比如在頂好友备 注,頂好友分组等多个维度的文字同时被预测为亲戚的关系对。这些亲戚关系对具有高自 信度。这些关系对在頂空间说说数据中的互动记录(评论转发用词)可以被看成是正样 本种子词。相应地,我们从图6生成的亲戚关系识别结果中抽取那些没有在任何一个维度 被预测为亲戚的关系对,用他们的互动记录作为负样本种子词。基于语义向量生成模块生 成语义向量,对正负样本产生对应的语义向量输入训练分类器进行分类训练。
[0166] 首先利用语义向量生成模块,将数据以向量空间中的向量表示,之后用分类训练 模块对数据所存在的亲戚关系进行识别分类。具体地,语义向量生成模块基于向量空间模 型(VSM),用0/1表示方式把数据表示成向量空间中的空间向量(可以是点向量),然后用 分类训练模块在向量空间中找出一个分割平面。
[0167] 0/1表示方式是让数据如一条文本中的每个词作为向量的一个元素(也可以称为 向量的一个维度),向量的总维度为全部文本的总词数。当把某一条文本表示成向量时,向 量的每一维度对应的词若在该文本出现,则该维度的值就为1,否则为0。对于0/1表示方 式,举例来说,如一条文本"爸爸什么时候回家",经过分词可以得到"爸爸〃、〃什么〃、〃时 候"、"回家"四个词,如果将该文本以向量表示,该向量具有四个维度。0/1表示方式是将 所有的中文词做属性,如果中文词有10万维,那么这个文本表示出来的向量为[0,0,0, 1, ….,..,1,. . .,0,. . .,1,. . .,1,0, 0],且这个向量只有在〃爸爸〃、〃什么〃、〃回家"这四个 词对应的维度上面的值为1,其他都是为0。对于海量数据的短文本类型,如果运用0/1方 式的向量表示,那么维度会非常大(因为向量的维度为文本的总词量)。
[0168] 由于上述0/1向量表示方式的维度很大,计算困难,而且不能反映同义或者意思 相近的文本间的相似性,超高维度会严重损害分类训练模块的处理效率以及性能,而且,基 于0/1表示方法,语义上相近的词不能用其对应的向量的余弦夹角反应出来。譬如用0/1 表示方法把"爸爸"跟"父亲"表示成向量,这两个语义相似的词的余弦夹角却为0,这会 非常负面地影响分类的效果。
[0169] 考虑到上述0/1向量表示方式的缺点,改进方案是:采用固定维度的语义向量表 示方式,而不是用全部文本的总词数作为向量的总维度。
[0170] 对于这种改进方案,首先学习数据的文本,得出每个词的一个固定维度(比如200 维)的语义向量。以下描述如何建立语义向量。
[0171] 比如文本"爸爸什么时候回家",经过分词可以有〃爸爸〃,〃什么〃,〃时候",〃回 家〃四个词,每个词对应一个语义向量,譬如"爸爸〃对应[0. 1,0.2,0. 1,...,0.5],"什 么〃对应[0? 2, 0? 1,0? 3,? ? ?,0? 3]时候〃对应[0? 1,0? 2, 0? 2,? ? ?,0? 1]回家〃对应 [0. 0, 0. 1,0. 0, ...,0. 1],那么整个文本"深圳豪放花园"就表示成一个语义向量,这个语义 向量就是把文本中每个词的语义向量加起来,比如[0. 1,0. 2, 0. 1,...,0. 5] + [0. 2, 0. 1,0. 3,? ? ?,0? 3] + [0. 1,0? 2, 0? 2,? ? ?,0? 1] + [0. 0, 0? 1,0? 0,? ? ?,0? 1] = [0? 4, 0? 6, 0? 6,? ? ?,1]。 经过归一化后,将[0? 4, 0? 6, 0? 6,? ? ?,1]变成[0? 2, 0? 3, 0? 3,? ? ?,0? 5]表示。
[0172] 可见:对于同一个文本,用上述0/1表不方式表不成一个10万多维向量[0,0 ,0, 1,,1,? ? ?,0,? ? ?,1,? ? ?,1,0, 0],变成了 一个固定维度(譬如200维的向量) [0. 2, 0. 3, 0. 3, ...,0. 5],维度减少了很多,计算量随之减少很多,从而提高了分类训练模 块的处理效率以及性能。另外,由于语义向量能更好地度量词之间的上下文语境,其能更好 地计算相似度,譬如能识别出〃爸爸〃跟〃老豆〃在某个语境下面是相似的,那么就能更好 计算"爸爸什么时候回家",〃老豆什么时候回家〃这两个文本的相似度。
[0173] 概括地说,语义向量是利用神经网络为每个词寻找一个连续向量空间中的表示。 它考虑到词在上下文的语境,利用词之间在同一语境共同出现的频率刻画词的相关性特 征,譬如〃猫〃跟〃狗〃经常在同一语境中共同出现,那么其基于语义向量的距离就小于〃 猫〃跟〃苹果〃对应的距离。
[0174] 具体地,语义向量需要能涵盖词的上下文语境信息。这样语义相似的词,其对 应向量的余弦夹角值会比较大。我们用条件概率P来刻画词的上下文语境,也就是每个 词的概率只受前面出现过的词的影响,即PW|Wl,. . .,Wh)。为了简化计算,一般只考虑 每个词受其前n-1个词的影响,即P(Wi |Wi_n+1,. . .,Wi_i)。一个好的语义向量应该能极大 化每一个词的条件概率P(Wi |Wi_n+1,. . .,Wi_i)。我们用一个三层的神经网络模型来优化出 此概率的最值。该神经网络的输入层是上文n-1个词,每个词对应一个语义向量,记住 C(Wi_n+1),. . .,COvJ,其中C是所有词向量的集合,每个向量的维度为m。把这n-1个向量 首尾相接拼起来,形成一个(n-l)m维的向量,记作X。接着用一个非线性的隐含层为x建 模,即tanh(Hx+d),其中d为偏置项,tanh为激活函数。神经网络的输出层是一个|V|维的 预测结果,其中V是词的集合,参考以下公式(1):
[0175] y = softmax(U ? tanh (Hx+d)+ffx+b) (1)
[0176] 其中softmax是激活函数,U(|V|Xh的矩阵,h是隐含层的层数)是隐含层到输出 层的参数;W(|V|X(n-l)m的矩阵)是从输入层直接到输出层的一个线性变换。这个预测 结果y的第i维度yi表示下一个词为i的概率,即yi=P(Wi|wi_n+1,...,Wg)。
[0177] 用反向传播(BackPropagation)算法求解这个神经网络,进而得到词的语义向量 集合C(词Wi对应的语义向量就是C(Wi))。在求解过程中,需要统计每个词前面(n-1)个 语境词以及其相关的频率信息,我们用頂空间说说的数据做语料库来统计相关频率信息。
[0178] 本发明实施例采用将文本以向量来表示的好处是:
[0179] 现有技术通过关键字来匹配,是针对文本处理,且需要找很多的关键词,不仅费劲 而且可能找不全导致准确率不能得到保证;而本发明实施例为了分类更精确,不是简单通 过文本进行分类,而是将文本表示成为数学上可分析处理的向量形式,需要先对文本进行 词条切分,得到构成文本的各个词后再处理。通过VSM将文本表示为向量形式,所述VSM是 一个统计模型,主要用于将数据中的文本映射为由一组规范化正交词条矢量张成的向量空 间中的一个数据点(点向量)。在将文本表示成数学上可分析处理的向量形式后,在此基 础上,基于概率和基于距离进行分类,比如,基于距离,将文本看成向量空间中的一个数据 点,通过计算数据点之间的距离进行分类,分类的过程是一个机器学习的过程,这些数据点 (点向量)是n维实空间中的点,在用分类训练模块在向量空间中找出一个分割平面,如图 8所示为一个分割平面,将不同类的数据点分离开以实现数据分类,最好是能够把这些数 据点通过一个n-1维的超平面分开,通常这个被称为线性分类器,不限于本发明实施例的 SVM,有很多分类器都符合这个要求。如果能找到一个分类最佳的平面(最大间隔超平面), 即使得属于两个不同类的数据点间隔最大的那个面,分类效果就更好了。
[0180] 基于上述系统实施例一至三,所述系统还包括的数据扩散单元用于根据正反关系 和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用 户关系相关的用户信息,以所述具有指示特征的用户关系为亲戚关系举例描述如下:
[0181] 如图11所示为图4中亲戚关系扩展单元中各自功能模块的一具体实现示意图,亲 戚关系扩散单元用于通过扩散关系得到亲戚的亲戚。一个扩散关系表如以下表1所示。
【主权项】
1. 一种数据挖掘处理系统,其特征在于,所述系统包括:数据获取单元、数据分类单 元、数据处理单元;其中, 所述数据获取单元,用于获取数据,输出所述数据给所述数据分类单元,所述数据分为 多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系; 所述数据分类单元,用于对所述多种数据类型按照分类策略进行综合分析,以从所述 数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据 处理单元; 所述数据处理单元,用于根据所述
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1