一种数据挖掘处理系统及方法_3

文档序号:8299034阅读:来源:国知局
友很可能相互之间是亲戚。
[0103] 综上所述,由于用以分析所述具有指示特征的用户关系的数据,比如分析亲戚关 系的数据来自于多个数据源,每个数据源对应一种数据类型,因此,所述数据被划分为多种 数据类型。所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互 动行为中的至少两种数据类型,由于能有效综合地考虑用户的个人属性特征,社交拓扑结 构,以及社交网络互动的信息,因此,具备多种数据类型的所述数据能从不同维度上表征用 户关系链中具有指示特征的用户关系,从而,采用本发明实施例,基于所述数据分析所述具 有指示特征的用户关系,是一种综合分析,能确保识别所述具有指示特征的用户关系足够 精确,本发明实施例区别于现有技术用关键字这种单一匹配机制,更加优越。
[0104] 以所述具有指示特征的用户关系为亲戚关系为例,看一下用现有技术关键字这种 单一匹配机制的缺点如下:
[0105] 一、未能综合考虑并合理分析各种能判断亲戚关系的因素:
[0106] 影响是否存在亲戚关系的因素有很多,譬如用户被IM好友备注为"爸爸";用户 加入一个名叫"亲人"的群;在社交拓扑结构上面亲戚的亲戚可能也是亲戚等。要准确分 析每个影响因素,分析的方法需要有针对性。简单根据关键字匹配来对各类不同性质的数 据判断亲戚关系太粗暴,效果不好。譬如在頂空间用户的互动中,关键字匹配会错误地判 断互动帖子"爸爸去哪儿"对应的用户存在亲戚关系。另外,每个影响亲戚关系的因素的 指示作用也不一样。譬如在手机通讯录里面备注为〃爸爸〃的好友,比在頂空间用户的互 动中提到"爸爸"的好友,更加有可能是用户的亲戚。现有关键字匹配的单一机制并不能 综合考虑各种影响因素。
[0107] 二、挖掘亲戚关系的覆盖率不足:
[0108] 表达亲戚关系的词语很多,譬如〃爸爸〃就有〃爹〃,〃父亲〃,甚至是〃爸比〃,〃 老豆〃等表述。现有关键字匹配的单一机制很难把所有可能的关键词都全部枚举。特别是 在互动中有些用语可能没有亲戚的关键词出现,但它们却能指示亲戚关系,譬如在IM空间 互动帖子,如〃什么时候回来吃饭呢〃的双方比较可能存在亲戚关系。
[0109] 而本发明实施例由于是综合各种数据类型的数据,数据能从不同维度上表征用户 关系链中具有指示特征的用户关系,采用综合分析机制,能规避上述现有技术存在的缺点, 从而能精准识别出具有指示特征的用户关系,如亲戚关系,能为提高推送信息的准确度提 供保证。
[0110] 因为,用户间的各种社交互动关系隐含着大量的信息推荐可能性,譬如每逢节假 日,亲戚朋友之间都会产生大量的相互祝福行为。另一方面,参与社交交互的有各种类型的 人,譬如包括自己的亲戚,老师,同学,同事,陌生人,甚至是中介推销等。在这些人群中,亲 戚关系的用户具有很大的信息推荐可能性,譬如广告商(e.g.餐馆,保健用品)可以有针对 性地投放给有亲戚关系的用户,帮助他们更容易找到合适的应用、产品、或者服务;可以给 用户推荐其亲戚,辅助其扩展已有用户关系链,增加用户黏性,为用户推荐信息,提高用户 体验。
[0111] 后续实施例也存在上述系统实施例一中的各种组合可能,为了简化描述,不做赘 述。
[0112] 系统实施例二:
[0113] 本发明实施例的一种数据挖掘处理系统,如图5所示,所述系统包括:数据获取单 元、数据分类单元、数据处理单元。其中,数据获取单元用于获取数据,输出所述数据给所述 数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示 特征的用户关系。数据分类单元用于对所述多种数据类型按照分类策略进行综合分析,以 从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所 述数据处理单元。数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据 对所述信息的分析结果来发送推荐信息。
[0114] 这里需要指出的是,所述数据分类单元包括:策略选择子单元和策略执行子单元。 其中,策略选择子单元用于解析所述多种数据类型的特性参数,当所述多种数据类型中每 一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第 一策略作为所述分类策略。策略执行子单元用于采用所述第一策略对所述短文本数据进行 所述具有指示特征的用户关系的识别时,随机提取种子词,所述种子词能表征具有指示特 征的用户关系,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待 分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有 指示特征的用户关系。
[0115] 采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能 从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据 类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类 策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩 瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也 能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系 收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的 准确度。
[0116] 而且,数据分类单元细分为策略选择子单元和策略执行子单元,策略选择子单元 对应不同的数据选择不同的分类策略,本实施例以系统实施例一提及的短文本类型为例, 短文本类型属于数据量大且文本内容短的数据类型,也可以说其特征参数用于表征所述数 据量大且文本内容短的特性,策略选择子单元能解析出该特征参数,通过与预设的阈值进 行比对,判断出为所述短文本类型,则选择第一策略作为分类策略,通过策略执行子单元来 执行所述第一策略,所述第一策略即为:随机提取种子词,所述种子词能表征具有指示特征 的用户关系,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分 析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指 示特征的用户关系。
[0117] 如图6所示为图5中策略执行子单元的组成结构示意图,所述策略执行子单元包 括以下两种实现方案,第一种实现方案:向量生成模块不是采用固定维度,第二种实现方 案:向量生成模块采用固定维度。
[0118] 所述策略执行子单元的第一种实现方案为:
[0119] 向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所 述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数。
[0120] 分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的 分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
[0121] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0122] 所述策略执行子单元的第二种实现方案为:
[0123] 向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量 空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到。
[0124] 分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的 分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
[0125] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0126] 如图7所示为应用图6中策略执行子单元的一应用场景示意图,包括:语义向量生 成模块(图6中向量生成模块的具体实现)、分类训练模块、预测亲戚关系输出模块(图6 中分析结果输出模块的具体实现)。
[0127] 以所述具有指示特征的用户关系为亲戚关系为例说明,如图5所示的由策略选择 子单元和策略执行子单元构成的数据分类单元,可以具体为图4中的亲戚关系分类模块, 该亲戚关系分类模块可以根据多种数据源分别预测用户的亲戚关系,由于不同数据源的数 据特性不一样,需要采用不同的操作逻辑来有针对性地处理具有不同性质的数据源,如针 对系统实施例一提及的数据类型一和数据类型二这种短文本类型采取一种处理逻辑(第 一策略作为分类策略),对针对系统实施例一提及的数据类型三这种长文本类型采取另一 种处理逻辑(第二策略为分类策略)。本实施例是针对第一策略执行的,针对第二策略的描 述请见后续系统实施例三的描述,这里不做赘述。
[0128] 本实施例针对第一策略,最大的特点是随机采取一个种子词。对于数据为:IM好 友的离线数据和手机頂通讯录的联系人,譬如頂用户个人属性(好友备注,好友分组等), 頂的圈子名称,頂群名称,考虑到这类数据文本很短(一般只有若干个词语),属于所述短 文本类型,随机采取一个亲戚的种子词输入分类训练模块进行分类训练,这里需要指出的 是,所述分类训练模块可以为基于支持向量机(SVM)技术的训练分类器,利用所述亲戚的 种子词来识别这两种数据类型的数据所存在的亲戚关系。
[0129] 首先利用语义向量生成模块,将数据以向量空间中的向量表示,之后用分类训练 模块对数据所存在的亲戚关系进行识别分类。具体地,语义向量生成模块基于向量空间模 型(VSM),用0/1表示方式把数据表示成向量空间中的空间向量(可以是点向量),然后用 分类训练模块在向量空间中找出一个分割平面。
[0130] 0/1表示方式是让数据如一条文本中的每个词作为向量的一个元素(也可以称为 向量的一个维度),向量的总维度为全部文本的总词数。当把某一条文本表示成向量时,向 量的每一维度对应的词若在该文本出现,则该维度的值就为1,否则为0。对于0/1表示方 式,举例来说,如一条文本"爸爸什么时候回家",经过分词可以得到"爸爸〃、〃什么〃、〃时 候"、"回家"四个词,如果将该文本以向量表示,该向量具有四个维度。0/1表示方式是将 所有的中文词做属性,如果中文词有10万维,那么这个文本表示出来的向量为[0, 0, 0, 1, ….,..,1,. . .,0,. . .,1,. . .,1,0, 0],且这个向量只有在〃爸爸〃、〃什么〃、〃时候〃、〃回 家"这四个词对应的维度上面的值为1,其他都是为0。对于海量数据的短文本类型,如果运 用0/1方式的向量表示,那么维度会非常大(因为向量的维度为文本的总词量)。
[0131] 由于上述0/1向量表示方式的维度很大,计算困难,而且不能反映同义或者意思 相近的文本间的相似性,超高维度会严重损害分类训练模块的处理效率以及性能,而且,基 于0/1表示方法,语义上相近的词不能用其对应的向量的余弦夹角反应出来。譬如用0/1 表示方法把"爸爸"跟"父亲"表示成向量,这两个语义相似的词的余弦夹角却为0,这会 非常负面地影响分类的效果。
[0132] 考虑到上述0/1向量表示方式的缺点,改进方案是:采用固定维度的语义向量表 示方式,而不是用全部文本的总词数作为
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1