一种数据挖掘处理系统及方法_4

文档序号:8299034阅读:来源:国知局
向量的总维度。
[0133] 对于这种改进方案,首先学习数据的文本,得出每个词的一个固定维度(比如200 维)的语义向量。以下描述如何建立语义向量。
[0134] 比如文本"爸爸什么时候回家",经过分词可以有"爸爸〃,〃什么〃,〃时候",〃 回家〃四个词,每个词对应一个语义向量,譬如"爸爸〃对应[0. 1,0.2,0. 1,...,0.5], "什么〃对应[0? 2, 0? 1,0? 3, ? ? ?,0? 3]时候〃对应[0? 1,0? 2, 0? 2, ? ? ?,0? 1]回 家〃对应[0.0,0. 1,0. 0,...,0. 1],那么整个文本"爸爸什么时候回家"就表示成一 个语义向量,这个语义向量就是把文本中每个词的语义向量加起来,比如[0. 1,0.2 ,0. 1, . . . , 0. 5] + [0, 2, 0. 1, 0. 3, , 0. 3] + [0. 1, 0. 2, 0. 2, , 0. 1] + [0. 0, 0. 1, 0. 0, ? ? ?,0? 1] = [0? 4, 0? 6, 0? 6, ? ? ?,1]。经过归一化后,将[0? 4, 0? 6, 0? 6, ? ? ?,1]变成 [0? 2, 0? 3, 0? 3, ? ? ?,0? 5]表不。
[0135]可见:对于同一个文本,用上述0/1表不方式表不成一个10万多维向量[0,0 ,0, 1,…?,? ?,1,? ? ?,0, ? ? ?,1,? ? ?,1,0, 0],变成了 一个固定维度(譬如200维的向量) [0. 2, 0. 3, 0. 3,...,0. 5],维度减少了很多,计算量随之减少很多,从而提高了分类训练模 块的处理效率以及性能。另外,由于语义向量能更好地度量词之间的上下文语境,其能更好 地计算相似度,譬如能识别出〃爸爸〃跟〃老豆〃在某个语境下面是相似的,那么就能更好 计算"爸爸什么时候回家",〃老豆什么时候回家〃这两个文本的相似度。
[0136] 概括地说,语义向量是利用神经网络为每个词寻找一个连续向量空间中的表示。 它考虑到词在上下文的语境,利用词之间在同一语境共同出现的频率刻画词的相关性特 征,譬如〃猫〃跟〃狗〃经常在同一语境中共同出现,那么其基于语义向量的距离就小于〃 猫〃跟〃苹果〃对应的距离。
[0137] 具体地,语义向量需要能涵盖词的上下文语境信息。这样语义相似的词,
[0138] 其对应向量的余弦夹角值会比较大。我们用条件概率P来刻画词的上下文语境, 也就是每个词的概率只受前面出现过的词的影响,即P(Wi|Wl,. . .,Wg)。为了简化计算,一 般只考虑每个词受其前n-1个词的影响,即P(Wi |Wi_n+1,. . .,Wh)。一个好的语义向量应该 能极大化每一个词的条件概率P(Wi| Wi_n+1,. . .,Wh)。我们用一个三层的神经网络模型来优 化出此概率的最值。该神经网络的输入层是上文n-1个词,每个词对应一个语义向量,记住 C(Wi_n+1),. . .,COvJ,其中C是所有词向量的集合,每个向量的维度为m。把这n-1个向量 首尾相接拼起来,形成一个(n-l)m维的向量,记作X。接着用一个非线性的隐含层为x建 模,即tanh(Hx+d),其中d为偏置项,tanh为激活函数。神经网络的输出层是一个|V|维的 预测结果,其中V是词的集合,参考以下公式(1):
[0139] y=softmax(U?tanh (Hx+d)+ffx+b) (1)
[0140] 其中softmax是激活函数,U(|V|Xh的矩阵,h是隐含层的层数)是隐含层到输出 层的参数;W(|V|X(n_l)m的矩阵)是从输入层直接到输出层的一个线性变换。这个预测 结果y的第i维度yi表示下一个词为i的概率,即yi=P(Wi|wi_n+1,...,Wg)。
[0141] 用反向传播(BackPropagation)算法求解这个神经网络,进而得到词的语义向量 集合C(词Wi对应的语义向量就是C(Wi))。在求解过程中,需要统计每个词前面(n-1)个 语境词以及其相关的频率信息,我们用頂空间说说的数据做语料库来统计相关频率信息。
[0142] 本发明实施例采用将文本以向量来表示的好处是:
[0143] 现有技术通过关键字来匹配,是针对文本处理,且需要找很多的关键词,不仅费劲 而且可能找不全导致准确率不能得到保证;而本发明实施例为了分类更精确,不是简单通 过文本进行分类,而是将文本表示成为数学上可分析处理的向量形式,需要先对文本进行 词条切分,得到构成文本的各个词后再处理。通过VSM将文本表示为向量形式,所述VSM是 一个统计模型,主要用于将数据中的文本映射为由一组规范化正交词条矢量张成的向量空 间中的一个数据点(点向量)。在将文本表示成数学上可分析处理的向量形式后,在此基 础上,基于概率和基于距离进行分类,比如,基于距离,将文本看成向量空间中的一个数据 点,通过计算数据点之间的距离进行分类,分类的过程是一个机器学习的过程,这些数据点 (点向量)是n维实空间中的点,在用分类训练模块在向量空间中找出一个分割平面,如图 8所示为一个分割平面,将不同类的数据点分离开以实现数据分类,最好是能够把这些数 据点通过一个n-1维的超平面分开,通常这个被称为线性分类器,不限于本发明实施例的 SVM,有很多分类器都符合这个要求。如果能找到一个分类最佳的平面(最大间隔超平面), 即使得属于两个不同类的数据点间隔最大的那个面,分类效果就更好了。
[0144] 系统实施例三:
[0145] 本发明实施例的一种数据挖掘处理系统,如图5所示,所述系统包括:数据获取单 元、数据分类单元、数据处理单元。其中,数据获取单元用于获取数据,输出所述数据给所述 数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示 特征的用户关系。数据分类单元用于对所述多种数据类型按照分类策略进行综合分析,以 从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所 述数据处理单元。数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据 对所述信息的分析结果来发送推荐信息。
[0146] 这里需要指出的是,所述数据分类单元包括:策略选择子单元和策略执行子单元。 其中,策略选择子单元用于解析所述多种数据类型的特性参数,当所述多种数据类型中部 分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类 型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所 述分类策略。策略执行子单元用于采用所述第二策略对所述长文本数据进行所述具有指示 特征的用户关系的识别时,将采用第一策略对所述短文本数据进行识别得到的所述具有指 示特征的用户关系来构造种子词,将所述种子词作为参考基准,将具有所述多种数据类型 的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所 述数据中识别出所述具有指示特征的用户关系。
[0147] 采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能 从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据 类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类 策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩 瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也 能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系 收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的 准确度。
[0148] 而且,数据分类单元细分为策略选择子单元和策略执行子单元,策略选择子单元 对应不同的数据选择不同的分类策略,本实施例以系统实施例一提及的长文本类型为例, 长文本类型属于数据量小且文本内容长的数据类型,也可以说其特征参数用于表征所述数 据量小且文本内容长的特性,策略选择子单元能解析出该特征参数,通过与预设的阈值进 行比对,判断出为所述长文本类型,则选择第二策略作为分类策略,通过策略执行子单元来 执行所述第二策略,所述第二策略即为:将采用第一策略对所述短文本数据进行识别得到 的所述具有指示特征的用户关系来构造种子词,将所述种子词作为参考基准,将具有所述 多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分 类训练,以从所述数据中识别出所述具有指示特征的用户关系。
[0149] 如图9所示为图5中策略执行子单元的组成结构示意图,所述策略执行子单元包 括以下两种实现方案,第一种实现方案:向量生成模块不是采用固定维度,第二种实现方 案:向量生成模块采用固定维度。
[0150] 所述策略执行子单元的第一种实现方案为:
[0151] 种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有 指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系 形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的 用户关系形成的用户关系数据对作为负样本种子词。
[0152] 向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所 述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数。
[0153] 分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对 应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用 户关系。
[0154] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0155] 所述策略执行子单元的第二种实现方案为:
[0156] 种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有 指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系 形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的 用户关系形成的用户关系数据对作为负样本种子词;
[0157] 向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量 空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
[0158] 分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对 应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用 户关系;
[0159] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0160] 如图10所示为应用图9中策略执行子单元的一应用场景示意图,包括:语义向量 生成模块(图9中向量生成模块的具体实现)、分类训练模块、预测亲戚关系输出模块(图 9中分析结果输
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1