一种数据挖掘处理系统及方法

文档序号:8299034阅读:458来源:国知局
一种数据挖掘处理系统及方法
【技术领域】
[0001] 本发明涉及互联网通讯的挖掘技术,尤其涉及一种数据挖掘处理系统及方法。
【背景技术】
[0002] 本申请发明人在实现本申请实施例技术方案的过程中,至少发现相关技术中存在 如下技术问题:
[0003] 随着互联网技术的飞速发展以及社会结构的变迁,越来越多的人在网络上,手机 里寻求沟通,联系和交往,并由此产生海量的人与人之间的交互行为,基于这种交互行为能 得到用户间多种类型的关系链。用户间多种类型的关系链可以应用于社会生活的方方面 面,服务提供商通过各种应用,比如手机客户端的预约订餐应用来为用户提供服务。
[0004] 通过对用户间多种类型的关系链可以更好的分析用户需求,从而为用户提供更好 的服务,比如,推荐用户需要的用于购物的APP应用,帮助用户进行所需物品的导购指引, 又如,为用户推荐所需的餐厅及餐厅特色服务,或者保健产品等等,总之,一旦能精确地获 得该用户间多种类型的关系链,就能基于该用户间多种类型的关系链所得到的数据库为用 户提供最好的服务,实现为用户精准地推荐各种实用应用的目的,同时,在提供服务的过程 中,服务提供商也能通过这种推荐及用户购买力的评估来更新自身应用的数据库。
[0005] 用户间多种类型的关系链中存在一些具有指示特征的用户关系,举例来说,比如 指示某种亲戚关系,亲戚关系的用户可能会对同一个或同一类应用所能提供的服务感兴 趣,因此,采用这种亲戚关系对于改善应用自身的数据库以及经过这种数据库的改善为用 户精准地推荐信息起到了决定性作用。可见,如果能挖掘出用户关系链中这种具有指示特 征的用户关系,就能将其作为有效数据来提高数据有效性,以避免无效数据大量占用在数 据库导致数据冗余,从而通过这种数据有效性的提高能实现为用户精准地推荐信息的目 的。如何挖掘出该具有指示特征的用户关系以提高为用户推荐信息的准确度是要解决的技 术问题。
[0006] 然而,要从浩瀚的互联网通讯的数据中挖掘出该具有指示特征的用户关系看似简 单,实际操作起来并不容易,而且还要确保挖掘出的该具有指示特征的用户关系的准确度 就更不容易做到了,仍以所述具有指示特征的用户关系为某种亲戚关系为例,目前的现有 技术是通过简单的关键字匹配来实现,比如,在通讯录里面为某一个用户备注为"爸爸",为 另一个用户备注为"姑姑",则这两个用户之间可能是亲戚关系;另外,表达亲戚关系的词语 很多,譬如"爸爸"就有"爹","父亲"等表述,上述关键字匹配的方式很难把所有可能的关 键词都全部枚举,可见,相关技术中并未存在解决上述问题的有效方案。

【发明内容】

[0007] 有鉴于此,本发明实施例希望提供一种数据挖掘处理系统及方法,能从浩瀚的互 联网通讯的数据中挖掘出用户关系链中特定的具有指示特征的用户关系,以提高为用户推 荐信息的准确度。
[0008] 本发明实施例的技术方案是这样实现的:
[0009] 本发明实施例的一种数据挖掘处理系统,所述系统包括:数据获取单元、数据分类 单元、数据处理单元;其中,
[0010] 所述数据获取单元,用于获取数据,输出所述数据给所述数据分类单元,所述数据 分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;
[0011] 所述数据分类单元,用于对所述多种数据类型按照分类策略进行综合分析,以从 所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述 数据处理单元;
[0012] 所述数据处理单元,用于根据所述具有指示特征的用户关系收集信息,以根据对 所述信息的分析结果来发送推荐信息。
[0013] 优选地,所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征 用户互动行为中的至少两种数据类型。
[0014] 优选地,所述数据分类单元,包括:
[0015] 策略选择子单元,用于解析所述多种数据类型的特性参数,当所述多种数据类型 中每一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选 择第一策略作为所述分类策略;
[0016] 策略执行子单元,用于采用所述第一策略对所述短文本数据进行所述具有指示特 征的用户关系的识别时,随机提取种子词,所述种子词能表征具有指示特征的用户关系,将 所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与 所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关 系。
[0017] 优选地,所述策略执行子单元,包括:
[0018] 向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所 述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
[0019] 分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的 分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
[0020] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0021] 优选地,所述策略执行子模块,包括:
[0022] 向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量 空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
[0023] 分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的 分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
[0024] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0025] 优选地,所述数据分类单元,包括:
[0026] 策略选择子单元,用于解析所述多种数据类型的特性参数,当所述多种数据类型 中部分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数 据类型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作 为所述分类策略;
[0027] 策略执行子单元,用于采用所述第二策略对所述长文本数据进行所述具有指示特 征的用户关系的识别时,将采用第一策略对所述短文本数据进行识别得到的所述具有指示 特征的用户关系来构造种子词,将所述种子词作为参考基准,将具有所述多种数据类型的 所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述 数据中识别出所述具有指示特征的用户关系。
[0028] 优选地,所述策略执行子单元,包括:
[0029] 种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有 指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系 形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的 用户关系形成的用户关系数据对作为负样本种子词;
[0030] 向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所 述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
[0031] 分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对 应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用 户关系;
[0032] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0033] 优选地,所述策略执行子单元,包括:
[0034] 种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有 指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系 形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的 用户关系形成的用户关系数据对作为负样本种子词;
[0035] 向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量 空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
[0036] 分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对 应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用 户关系;
[0037] 分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
[0038] 优选地,所述系统还包括:数据扩散单元,所述数据扩散单元位于所述数据分类单 元和所述数据处理单元之间;
[0039] 所述数据扩散单元,用于根据正反关系和传递关系,对所述具有指示特征的用户 关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息。
[0040] 本发明实施例的一种数据挖掘处理方法,所述方法包括:
[0041] 获取数据,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有 指示特征的用户关系;
[0042] 对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有 指示特征的用户关系;
[0043]根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发 送推荐信息。
[0044] 优选地,所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征 用户互动行为中的至少两种数据类型。
[0045] 优选地,所述对所述多种数据类型按照分类策略进行综合分析,以从所述数据中 分析得到具有指示特征的用户关系,包括:
[0046] 解析所述多种数据类型的特性参数,当所述多种数据类型中每一种数据类型的特 征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第一策略作为所述分 类策略;
[0047] 执行所述第一策略,随机提取种子词,所述种子词能表征具有指示特征的用户关 系;
[0048] 将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的 训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特 征的用户关系。
[0049] 优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据 作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所 述具有指示特征的用户关系,包括:
[0050] 根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词 作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
[0051] 根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分 割平面,以识别出所述具有指示特征的用户关系。
[0052] 优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据 作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1