一种数据挖掘处理系统及方法_2

文档序号:8299034阅读:来源:国知局
述具有指示特征的用户关系,包括:
[0053] 根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述 固定维度基于所述数据中每个词的上下文语境信息得到;
[0054] 根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分 割平面,以识别出所述具有指示特征的用户关系。
[0055] 优选地,所述对所述多种数据类型按照分类策略进行综合分析,以从所述数据中 分析得到具有指示特征的用户关系,包括:
[0056] 解析所述多种数据类型的特性参数,当所述多种数据类型中部分数据类型的特征 参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类型的特征参数高于 预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所述分类策略;
[0057] 执行所述第二策略,将采用第一策略对所述短文本数据进行识别得到的所述具有 指示特征的用户关系来构造种子词;
[0058] 将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的 训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有 指示特征的用户关系。
[0059] 优选地,所述将采用第一策略对所述短文本数据进行识别得到的所述具有指示特 征的用户关系来构造种子词,包括:
[0060] 将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为 正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数 据对作为负样本种子词。
[0061] 优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据 作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识 别出所述具有指示特征的用户关系,包括:
[0062] 根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词 作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
[0063] 根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向 量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
[0064] 优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据 作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识 别出所述具有指示特征的用户关系,包括:
[0065] 根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述 固定维度基于所述数据中每个词的上下文语境信息得到;
[0066] 根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向 量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
[0067] 优选地,所述方法还包括:
[0068] 根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与 所述具有指示特征的用户关系相关的用户信息。
[0069] 本发明实施例的数据挖掘处理系统包括:数据获取单元、数据分类单元、数据处理 单元;其中,数据获取单元用于获取数据,输出所述数据给所述数据分类单元,所述数据分 为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;所述数据 分类单元用于对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到 具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元;所述 数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析 结果来发送推荐信息。
[0070] 采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能 从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据 类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类 策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩 瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也 能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系 收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的 准确度。
【附图说明】
[0071] 图1为本发明系统实施例的一组成结构示意图;
[0072] 图2为本发明系统实施例的一组成结构示意图;
[0073] 图3为本发明系统实施例的一组成结构示意图;
[0074] 图4为应用本发明系统实施例的一应用场景示意图;
[0075] 图5为本发明系统实施例的一组成结构示意图;
[0076] 图6为图5中策略执行子单元的组成结构示意图;
[0077] 图7为应用图6中各模块的一应用场景示意图;
[0078] 图8为一分割平面将不同数据点分离实现分类的示意图;
[0079] 图9为图5中策略执行子单元的组成结构示意图;
[0080] 图10为应用图9中各|旲块的一应用场景不意图;
[0081] 图11为应用图4中亲戚关系扩展单元各功能模块的一实现示意图;
[0082] 图12为正反关系扩散示意图;
[0083] 图13为传递关系扩散不意图;
[0084] 图14为本发明方法实施例的实现流程图;
[0085] 图15为本发明方法实施例的实现流程图;
[0086] 图16为本发明方法实施例的实现流程图。
【具体实施方式】
[0087] 下面结合附图对技术方案的实施作进一步的详细描述。
[0088] 系统实施例一:
[0089] 本发明实施例的一种数据挖掘处理系统,如图1所示,所述系统包括:数据获取单 元、数据分类单元、数据处理单元。其中,数据获取单元用于获取数据,输出所述数据给所述 数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示 特征的用户关系。数据分类单元用于对所述多种数据类型按照分类策略进行综合分析,以 从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所 述数据处理单元。数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据 对所述信息的分析结果来发送推荐信息。
[0090] 采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能 从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据 类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类 策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩 瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也 能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系 收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的 准确度。
[0091] 在本发明实施例一优选实施方式中,所述多种数据类型包括表征用户个人属性、 表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型。
[0092] 在本发明实施例一优选实施方式中,如图2所示,所述系统还包括:数据扩散单 元,所述数据扩散单元位于所述数据分类单元和所述数据处理单元之间,所述数据扩散单 元用于根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所 述具有指示特征的用户关系相关的用户信息。
[0093] 在本发明实施例一优选实施方式中,如图3所示,所述系统还包括:数据输出单 元,数据输出单元位于所述数据扩散单元和所述数据处理单元之间,所述数据输出单元用 于将根据数据分类单元得到的所述具有指示特征的用户关系,以及将进一步根据数据扩散 单元得到的与所述具有指示特征的用户关系相关的用户信息输出给数据处理单元进行处 理。
[0094] 如图4所示为应用本发明系统实施例的一应用场景示意图,图4中包括数据获取 单元、亲戚关系分类单元(图3中数据分类单元的具体实现)、亲戚关系扩散单元(图3中 数据扩散单元的具体实现)、亲戚关系输出单元(图3中数据输出单元的具体实现)、及数 据处理单元。数据获取单元从多个数据源获取用以分析所述具有指示特征的用户关系的 数据,本应用场景中,所述具有指示特征的用户关系以亲戚关系为例,经过亲戚关系分类单 元-亲戚关系扩散单元-亲戚关系输出单元,将识别出的所述亲戚关系送至数据处理单元 进行处理,数据处理单元根据所述亲戚关系收集信息以更新N个应用的数据库,根据对所 述信息的分析结果,采用不同应用来发送推荐信息,必然能提高为用户推荐信息的准确度。 其中,所述N个应用包括:IM好友推荐应用,IM好友亲密度估计应用及各种广告推荐平台如 广点通。
[0095] 本应用场景中的多个数据源包括:
[0096] 数据类型一:即时通讯(IM)应用的离线数据;
[0097] 数据类型二:本地通讯应用如手机通讯录中的联系人数据;
[0098] 数据类型三:各大论坛、互动平台如搜狗问问、微博如新浪微博等用户间交互时产 生的互动数据。
[0099] 其中,数据类型一和数据类型二通常表征用户个人属性,比如在IM应用的用户联 系人上备注有用户个人属性为"爸爸"、"妈妈"、"姑姑"等,则通过这种备注就能知道某几个 用户间是否存在亲戚关系;同理,数据类型二也可以采用这种备注,且数据类型二由于能备 注的项目和文字量比数据类型一要大,还可以备注用户个人属性为:用户家庭地址,邮编号 等,如果某几个用户备注一样的家庭住址,就说明这些用户间存在亲戚关系,或者通过邮编 号知道某几个用户在同一个地区或者同一个街道等,也可以为亲戚关系的判断起到影响作 用。总的来说,数据类型一和数据类型二都属于数据量大,文本内容短的数据类型,也可以 说,二者都属于短文本类型。
[0100] 数据类型三:由于是各大论坛、互动平台如搜狗问问、微博如新浪微博等用户间交 互时产生的互动数据,比如,"爸爸去哪儿了","几点回家吃饭"等等,属于数据量不大,文本 内容长的数据类型,也可以说,数据类型三属于长文本类型。
[0101] 另外,数据类型一-数据类型三都能揭示出用户社交拓扑结构。
[0102] 就上述数据源举例来说,能通过上述数据获取单元接入多个数据源的数据,包括 頂好友的离线数据,手机頂通讯录的联系人库,頂空间的互动说说(包括评论转发)。其 中,IM好友的离线数据有IM用户个人属性(譬如好友备注,好友分组等),IM的圈子信息, 頂群的信息(譬如群名称),頂社交关系链等。这些数据在不同维度上指示亲戚关系,譬 如一个頂群名叫〃亲人群〃,那么里面每个群
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1