一种数据处理方法及装置的制造方法

文档序号:10725735阅读:381来源:国知局
一种数据处理方法及装置的制造方法
【专利摘要】本发明实施例提供一种数据处理方法及装置,其中的方法可包括:获取待处理的社交行为数据流;对所述社交行为数据流进行预处理,将所述社交行为数据流从数据空间转换为低维特征空间向量;将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈进行计算处理,以完成对所述社交行为数据流中隐含特征的提取。采用本发明实施例可通过多层级的RBM栈自动提取出社交行为数据流中抽象的隐含特征,提高效率,减小研发成本。
【专利说明】
一种数据处理方法及装置
技术领域
[0001 ]本发明涉及通信技术领域,具体涉及一种数据处理方法及装置。
【背景技术】
[0002] 在很多场景下,都需要通过建模来对数据进行分类或者预测,而建模技术有一个 重要特点,就是需要提取大量样本数据的特征,而数学模型主要是负责分类或预测。在模型 的运用不出差错的前提下,所提取的特征的好坏就成为整个系统性能的瓶颈,因此,通常一 个开发团队中更多的人力是投入到发掘更好的特征上去。
[0003] 传统的特征提取方法通常是人工设定特征类型并选取特征,这就需要扎实的先验 知识,而人在特定阶段的认知能力是有限的,得到的特征容易片面或者无法构建深层潜在 的特征;针对社交行为数据规模大,维度丰富的问题,现有的方法已经不能够满足提取有效 特征的任务,因此,人工设计样本特征不是一个可扩展的途径。

【发明内容】

[0004] 本发明实施例提供一种数据处理方法及装置,可通过多层级的RBM( Restricted Boltzmann Machines,受限玻尔兹曼机)栈自动提取出社交行为数据流中抽象的隐含特征, 提高效率,减小研发成本。
[0005] 本发明第一方面提供一种数据处理方法,包括:
[0006] 获取待处理的社交行为数据流;
[0007] 对所述社交行为数据流进行预处理,将所述社交行为数据流从数据空间转换为低 维特征空间向量;
[0008] 将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈进行计算处理, 以完成对所述社交行为数据流中隐含特征的提取。
[0009 ]本发明第二方面提供一种数据处理装置,包括:
[0010] 获取模块,用于获取待处理的社交行为数据流;
[0011] 预处理模块,用于对所述社交行为数据流进行预处理,将所述社交行为数据流从 数据空间转换为低维特征空间向量;
[0012] 计算模块,用于将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈 进行计算处理,以完成对所述社交行为数据流中隐含特征的提取。
[0013] 实施本发明实施例,具有如下有益效果:
[0014] 本发明实施例,获取待处理的社交行为数据流,对该社交行为数据流进行预处理, 将社交行为数据流从数据空间转换为低维特征空间向量,将该低维特征空间向量输入至多 层级的RBM栈进行计算处理,以完成对社交行为数据流中隐含特征的提取,这种方式通过预 处理将社交行为数据流转换为RBM可以识别的低维特征空间向量,并进一步通过RBM自动提 取社交行为数据流中抽象的隐含特征,提高效率,减小研发成本。
【附图说明】
[0015] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0016] 图1为本发明实施例提供的一种数据处理方法的流程图;
[0017] 图2为本发明实施例提供的一种特征自编码装置图;
[0018]图3为本发明实施例提供的一种预处理装置图;
[0019] 图4为本发明实施例提供的一种输出矩阵格式示意图;
[0020] 图5为本发明实施例提供的一种单个RBM结构示意图;
[0021 ]图6为本发明实施例提供的一种RBM枝的结构不意图;
[0022]图7为本发明实施例提供的一种数据处理装置的结构示意图;
[0023]图8为本发明实施例提供的一种预处理模块的结构示意图。
【具体实施方式】
[0024]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0025] 下面将结合附图1-附图6,对本发明实施例提供的数据处理方法进行详细介绍。
[0026] 请参照图1,为本发明实施例提供的一种数据处理方法的流程图;该方法可包括以 下步骤S100-步骤S102。
[0027] S100,获取待处理的社交行为数据流;
[0028] 本发明实施例中,社交行为数据流为流式数据,该数据流为系统采集的各个用户 在各种客户端上进行的社交行为数据,比如,各个用户在网络应用进行的分享行为、加入兴 趣爱好群组行为以及互动行为等行为数据,和/或各个用户利用各种支付应用进行的支付 行为数据,以及各个用户在各种购物应用进行的购物行为数据等等,本发明对此不作限定。 各种社交行为数据根据行为发生时间构成数据流。
[0029] 需要说明的是,该社交行为数据流中包括多个类型的社交行为数据,可以根据社 交行为数据的功能进行类型划分,例如,社交行为数据流可以包括互动类型的社交行为数 据,支付类型的社交行为数据,游戏类型的社交行为数据等等。
[0030] S101,对所述社交行为数据流进行预处理,将所述社交行为数据流从数据空间转 换为低维特征空间向量;
[0031] 本发明实施例中,将该社交行为数据流进行预处理,从而获得该社交行为数据流 的低维特征空间向量,RBM只能够识别低维特征空间向量,无法识别原始数据,因此需要进 行该转换,可选的,该低维特征空间向量包括但不限于社交行为数据发生的次数、天数等 等。
[0032] 可选的,在对社交行为数据流从数据空间转换为低维特征空间向量之前,还包括 以下步骤S10;
[0033] S10,将所述社交行为数据流进行分类处理,获得所述多个类型的社交行为数据 流;
[0034] 具体的,社交行为数据流中包括多个类型的社交行为数据,各个类型的社交行为 数据之间根据时间交叉排列,形成数据流,该社交行为数据流中各个社交行为数据均标识 有产生该社交行为数据的应用标识以及该社交行为数据的内容,系统根据产生该社交行为 数据应用标识以及社交行为数据的内容,可以将该社交行为数据进行类型的划分处理,比 如,某个网络应用产生的社交行为数据为用户发送评论的行为,则将该社交行为数据确定 为互动类型的社交行为数据。需要说明的是,将属于某一个类型的所有社交行为数据按照 发生时间排列,可以形成该类型的社交行为数据流。
[0035] 进一步可选的,将该社交行为数据流进行预处理可以包括以下步骤S11;
[0036] S11,将所述多个类型的社交行为数据流中每个类型的社交行为数据流进行预处 理,获得归一化矩阵,以实现将所述社交行为数据流从数据空间转换为低维特征空间向量;
[0037] 具体的,将待处理的社交行为数据流中多个类型的社交行为数据流中每个类型的 社交行为数据流进行预处理,获得归一化矩阵,该归一化矩阵即是低维特征空间向量,可选 的,该归一化矩阵中包括该多个类型社交行为数据中每个类型社交行为数据的归一化统计 量,该预处理过程可以包括对每个类型的社交行为数据流进行统计处理以及归一化处理。 [0038]如图3所示,数据预处理模块由若干子模块组成,如图所示;数据预处理模块输入 为社交行为的流式数据,输出为经过变换的归一化矩阵M;数据预处理模块包含观测装置子 模块、归一化装置子模块以及重构子模块。
[0039] 可选的,将该多个类型的社交行为数据流中每个类型的社交行为数据流进行预处 理可以包括以下步骤:
[0040] 步骤一,针对每个类型的所述社交行为数据流,采用第一观测函数,对所述社交行 为数据流进行第一观测处理,获得该类型社交行为数据对应的第一观测值,所述第一观测 函数为该类型社交行为数据的统计函数。
[0041] 具体的,针对每个类型的社交行为数据流,采用第一观测函数对社交行为数据流 进行第一观测处理,需要说明的是,一个类型的社交行为数据流采用一种第一观测函数进 行处理,如图3所示,社交行为数据流进入预处理模块,进行分类处理后,一个类型的社交行 为数据流对应一个第一观测函数f,如图所示,第一观测函数的个数存在η个,分别是f^fs、 ?ν··?·η。一个类型的社交行为数据流进行第一观测处理后,可以获得该类型社交行为数据对 应的第一观测值,即是第一观测函数f输出的为对社交行为数据流进行处理后的第一观测 值。
[0042] 如图3所示,观测装置子模块F包含一组观测函数(心3233,一匕)^支持纵向扩 展,其中f n为对流式数据在特定功能点(特定类型社交行为数据)的观测函数,fn输出值为观 测点的观测值,包含但不限于特定类型社交行为的次数、天数等观测值。
[0043]可选的,第一观测函数为统计函数,第一观测值为经过统计函数处理后的统计量, 每个类型的第一观测函数可以不同,某个类型的社交行为数据流经过第一观测函数处理后 得到的第一观测值即是该类型社交行为数据的统计量。
[0044]步骤二,针对每个类型的所述社交行为的第一观测值,采用第二观测函数,对所述 社交行为数据的第一观测值进行第二观测处理,获得该类型社交行为数据对应的第二观测 值,所述第二观测函数为该类型社交行为数据的归一化函数。
[0045] 具体的,针对每个类型的社交行为数据的第一观测值,可以进一步采用第二观测 函数,对该类型的社交行为数据的统计量进行第二观测处理,获得该类型社交行为数据对 应的第二观测值。一个类型的社交行为数据对应一种第二观测函数,如图3所示,一个类型 的社交行为数据流通过一种第一观测函数处理之后,获得该类型社交行为数据的第一观测 值,再将该类型社交行为数据的第一观测值输入一种第二观测函数,得到该类型社交行为 数据的第二观测值,即是一个类型的社交行为数据流输入处理后,得到一种第二观测值。
[0046] 可选的,该第二观测函数可以是该类型社交行为数据的归一化函数,第二观测值 为该类型社交行为数据的归一化统计量。
[0047] 如图3所示,归一化装置子模块F'包含一组观测函数出',5',6',~匕')^'支持 纵向扩展,其中f n '为特定观测点归一化函数,接收观测装置F输出的第一观测值,输出归一 化后的第二观测值;f'η与f n的转换关系如下所示:
[0049] 步骤三,将所述多个类型中每个类型社交行为数据的第二观测值重构形成归一化 矩阵。
[0050] 具体的,将该多个类型中每个类型社交行为数据的第二观测值形成归一化矩阵, 如图3所示,所有类型的社交行为数据经过第一观测函数以及第二观测函数处理后,输入重 构子模块进行归一化矩阵的形成,最后输出归一化矩阵M。
[0051] 进一步可选的,所述将所述多个类型中每个类型社交行为数据的第二观测值重构 形成归一化矩阵,包括:
[0052]以所述多个类型的类型数量为矩阵的列,将所述多个类型中每个类型社交行为数 据的第二观测值重构形成归一化矩阵。
[0053]具体的,在将多个类型中每个类型的社交行为数据的第二观测值重构形成归一化 矩阵,形成方式可以有多种,以下以两种可选的实施方式作为举例说明:
[0054] 作为一种可选的实施方式,以所述多个类型的类型数量为矩阵的列,以所述不同 采集周期的周期数量为矩阵的行,将所述多个类型中每个类型社交行为数据的第二观测值 重构形成归一化矩阵。
[0055] 或者,作为另一种可选的实施方式,以所述多个类型的类型数量为矩阵的列,形成 所述不同采集周期的周期数量个数的归一化矩阵,一种采集周期中所述多个类型的每个类 型社交行为数据的第二观测值重构形成一个归一化矩阵。
[0056] 具体的,如图3所示,重构子模块接收到归一化装置F'输出归一化后的η个第二观 测值,将这些第二观测值按照观测函数的编号,序列化成一个η维向量,将此η维向量转换为 归一化矩阵。
[0057]重构模块在生成归一化矩阵时通常采用以下方式,若社交行为数据流中包含多个 不同采集周期采集的社交行为数据,将社交行为数据流按照一定周期(例如秒、分、时、日、 周、月等)采集到的多组不同时间维度的归一化统计量序列化向量;图4给出了一种输出的 归一化矩阵的格式,行表示不同采集周期维度,列表示不同的类型,即是该归一化矩阵的行 数为不同采集周期的数量,例如第一行为以周为采集周期采集的数据形成的η维向量,第二 行为以月为采集周期采集的数据形成的η维向量,第三行为以周为采集周期采集的数据形 成的η维向量,每一行都有η列,每一列代表一个类型。
[0058]可选的,也可以将不同采集周期的数据重构到多个不同的矩阵中,如以天为采集 周期的向量序列化到一个归一化矩阵中,以月为采集周期的向量序列化到另外一个归一化 矩阵中。
[0059] S102,将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈进行计算 处理,以完成对所述社交行为数据流中隐含特征的提取。
[0060] 可选的,所述将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM进行 计算处理,包括:
[0061] 每次向所述多层级的RBM栈输入所述归一化矩阵的一行元素,一个元素对应一个 输入端;
[0062] 通过串联的所述多个RBM逐层对所述归一化矩阵进行计算处理,以提取所述社交 行为数据流中的隐含特征。
[0063]本发明实施例中,隐含特征可以包括社交行为数据流中隐含的规律,该规律能够 反映社交行为数据的本质,通过提取该隐含特征可以更加有利于数据建模的准确性。
[0064] 本发明实施例中,所述多层级的RBM栈由多个RBM串联构成。如图6所示,RBM栈由多 个(RBM1、RBM2、RBM3、RBM4 · · · RBMn)串联构成。
[0065]数据预处理模块将原始数据转换到RBM可以识别的低维特征空间;该多层级的RBM 栈接收数据预处理模块输出的低维特征空间向量,图5展示了单个RBM的结构。RBM是一类具 有两层结构、对称连接且无自反馈的随机神经网络模型,层间全连接,层内无连接。每次向 所述多层级的RBM栈输入归一化矩阵的一行元素,其中一行元素中的一个元素对应一个输 入端,如图5所示的i 1~in;通过串联的所述多个RBM逐层对所述归一化矩阵的每一行元素进 行计算处理,以提取所述社交行为数据流中的隐含特征,即是归一化矩阵的每一行元素均 会经过该多层级的RBM栈逐层处理。
[0066]本发明实施例将基于深度学习层次组件的特征变量表达方法应用多层堆叠的RBM 栈,将社交行为数据转化为深度学习网络可以识别的数据序列,利用特征编码器(上述的预 处理模块和多层级的RBM栈)将社交行为数据从数据空间映射至特征空间,自动地发现隐藏 在数据中的模式和规律,提取抽象的隐含特征,自动完成特征表达的任务。
[0067]深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分 析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无 监督学习的一种。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是 一种深度学习结构。
[0068]深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数 据的分布式特征表示。大数据中蕴含的宝贵价值成为人们处理大数据的驱动力,利用大数 据技术可以搜集更多的数据维度来加强弱相关数据的描述能力。深度学习通过构建具有很 多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预 测的准确性。即通过"深度模型"的手段,来实现"特征学习"是目的。
[0069] RBM是构建深度学习模型的基础组件;基于RBM组成的网络采用无监督学习的方 法,最大可能的拟合输入数据。通过逐层特征变换,将样本在原空间的特征表示变换到一个 新特征空间,从而使分类或预测更加容易。与人工构造特征的方法相比,利用深度学习层次 组件来学习大数据特征,更能够刻画数据的丰富内在信息。
[0070] 本发明实施例基于对比散度的快速学习算法训练各层RBM;其训练过程如下:第一 步充分训练第一个RBM,固定第一个RBM的权重和偏移量;第二步使用其隐性神经元的状态, 作为第二个RBM的输入向量;第三步充分训练第二个RBM后,将第二个RBM堆叠在第一个RBM 的上方;如图6所示,由若干个RBM堆叠而成的RMB栈输出经过无监督学习得到隐含特征。 [0071]本发明实施例,获取待处理的社交行为数据流,对该社交行为数据流进行预处理, 将社交行为数据流从数据空间转换为低维特征空间向量,将该低维特征空间向量输入至多 层级的RBM栈进行计算处理,以完成对社交行为数据流中隐含特征的提取,这种方式通过预 处理将社交行为数据流转换为RBM可以识别的低维特征空间向量,并进一步通过RBM自动提 取社交行为数据流中抽象的隐含特征,提高效率,减小研发成本。
[0072] 实现本发明技术方案的特征自编码器如图2所示,特征自编码器主要包含数据预 处理器和多层级的RBM栈组成;预处理器主要包含预处理模块,预处理模块用于对社交行为 数据流进行预处理,具体结构可以采用图3所示的结构。RBM栈由若干堆叠的RBM组成;主要 采用深度学习算法对预处理器输出的数据进行计算,得到社交行为数据流的隐含特征,该 隐含特征用于数据建模使用。
[0073] 下面将结合附图7-附图8,对本发明实施例提供的一种数据处理装置进行详细介 绍。
[0074]请参照图7,为本发明实施例提供的一种数据处理装置的结构示意图,如图所示, 该数据处理装置包括获取模块100、预处理模块101以及计算模块102。
[0075]获取模块100,用于获取待处理的社交行为数据流。
[0076]本发明实施例中,社交行为数据流为流式数据,该数据流为系统采集的各个用户 在各种客户端上进行的社交行为数据,比如,各个用户在网络应用进行的分享行为、加入兴 趣爱好群组行为以及互动行为等行为数据,和/或各个用户利用各种支付应用进行的支付 行为数据,以及各个用户在各种购物应用进行的购物行为数据等等,本发明对此不作限定。 各种社交行为数据根据行为发生时间构成数据流。
[0077]需要说明的是,该社交行为数据流中包括多个类型的社交行为数据,可以根据社 交行为数据的功能进行类型划分,例如,社交行为数据流可以包括互动类型的社交行为数 据,支付类型的社交行为数据,游戏类型的社交行为数据等等。
[0078]预处理模块101,用于对所述社交行为数据流进行预处理,将所述社交行为数据流 从数据空间转换为低维特征空间向量。
[0079] 本发明实施例中,将该社交行为数据流进行预处理,从而获得该社交行为数据流 的低维特征空间向量,RBM只能够识别低维特征空间向量,无法识别原始数据,因此需要进 行该转换,可选的,该低维特征空间向量包括但不限于社交行为数据发生的次数、天数等 等。
[0080] 可选的,本发明实施例的数据处理装置还包括分类模块103。
[0081] 分类模块103,用于将所述社交行为数据流进行分类处理,获得多个类型的社交行 为数据流。
[0082] 具体的,社交行为数据流中包括多个类型的社交行为数据,各个类型的社交行为 数据之间根据时间交叉排列,形成数据流,该社交行为数据流中各个社交行为数据均标识 有产生该社交行为数据的应用标识以及该社交行为数据的内容,系统根据产生该社交行为 数据应用标识以及社交行为数据的内容,可以将该社交行为数据进行类型的划分处理,比 如,某个网络用产生的社交行为数据为用户发送评论的行为,则将该社交行为数据确定为 互动类型的社交行为数据。需要说明的是,将属于某一个类型的所有社交行为数据按照发 生时间排列,可以形成该类型的社交行为数据流。
[0083] 所述预处理模块101具体用于将所述多个类型的社交行为数据流中每个类型的社 交行为数据流进行预处理,获得归一化矩阵,以实现将所述社交行为数据流从数据空间转 换为低维特征空间向量。
[0084] 具体的,将待处理的社交行为数据流中多个类型的社交行为数据流中每个类型的 社交行为数据流进行预处理,获得归一化矩阵,可选的,该归一化矩阵中包括该多个类型社 交行为数据中每个类型社交行为数据的归一化统计量,该预处理过程可以包括对每个类型 的社交行为数据流进行统计处理以及归一化处理。
[0085]如图3所示,数据预处理模块由若干子模块组成,如图所示;数据预处理装置输入 为社交行为的流式数据,输出为经过变换的归一化矩阵;数据预处理模块包含观测装置子 模块、归一化装置子模块以及重构子模块。
[0086] 进一步可选的,如图8所示,预处理模块101可以包括观测装置子模块1010、归一化 装置子模块1 〇 11以及重构子模块1 〇 12。
[0087] 观测装置子模块1010,用于针对每个类型的所述社交行为数据流,采用第一观测 函数,对所述社交行为数据流进行第一观测处理,获得该类型社交行为数据对应的第一观 测值,所述第一观测函数为该类型社交行为数据的统计函数。
[0088] 具体的,针对每个类型的社交行为数据流,采用第一观测函数对社交行为数据流 进行第一观测处理,需要说明的是,一个类型的社交行为数据流采用一种第一观测函数进 行处理,如图3所示,社交行为数据流进入预处理模块,进行分类处理后,一个类型的社交行 为数据流对应一个第一观测函数f,如图所示,第一观测函数的个数存在η个,分别是f^fs、 ?ν··?·η。一个类型的社交行为数据流进行第一观测处理后,可以获得该类型社交行为数据对 应的第一观测值,即是第一观测函数f输出的为对社交行为数据流进行处理后的第一观测 值。
[0089] 如图3所示,观测装置子模块F包含一组观测函数(心3233,一匕)^支持纵向扩 展,其中f n为对流式数据在特定功能点(特定类型社交行为数据)的观测函数,fn输出值为观 测点的观测值,包含但不限于特定类型社交行为的次数、天数等观测值。
[0090] 可选的,第一观测函数为统计函数,第一观测值为经过统计函数处理后的统计量, 每个类型的第一观测函数可以不同,某个类型的社交行为数据流经过第一观测函数处理后 得到的第一观测值即是该类型社交行为数据的统计量。
[0091] 第二处理子单元10111,用于针对每个类型的所述社交行为数据的第一观测值,采 用第二观测函数,对所述社交行为数据的第一观测值进行第二观测处理,获得该类型社交 行为数据对应的第二观测值,所述第二观测函数为该类型社交行为数据的归一化函数;
[0092] 具体的,针对每个类型的社交行为数据的第一观测值,可以进一步采用第二观测 函数,对该类型的社交行为数据的统计量进行第二观测处理,获得该类型社交行为数据对 应的第二观测值。一个类型的社交行为数据对应一种第二观测函数,如图3所示,一个类型 的社交行为数据流通过一种第一观测函数处理之后,获得该类型社交行为数据的第一观测 值,再将该类型社交行为数据的第一观测值输入一种第二观测函数,得到该类型社交行为 数据的第二观测值,即是一个类型的社交行为数据流输入处理后,得到一种第二观测值。
[0093] 可选的,该第二观测函数可以是该类型社交行为数据的归一化函数,第二观测值 为该类型社交行为数据的归一化统计量。
[0094] 如图3所示,归一化装置子模块F '包含一组观测函数(f i ',f 2 ',f 3 ',…fn '),F '支持 纵向扩展,其中f n '为特定观测点归一化函数,接收观测装置F输出的第一观测值,输出归一 化后的第二观测值;fn '与fn的转换关系如下所示:
[0096]重构子模块1012,用于将所述多个类型中每个类型社交行为数据的第二观测值重 构形成归一化矩阵。
[0097]具体的,将该多个类型中每个类型社交行为数据的第二观测值重构形成归一化矩 阵,如图3所示,所有类型的社交行为数据经过第一观测函数以及第二观测函数处理后,输 入重构子模块进行归一化矩阵的形成,最后输出归一化矩阵M。
[0098]所述重构子模块1012具体用于以所述多个类型的类型数量为矩阵的列,将所述多 个类型中每个类型社交行为数据的第二观测值重构形成归一化矩阵。
[0099] 以所述多个类型的类型数量为矩阵的列,将所述多个类型中每个类型社交行为数 据的第二观测值重构形成归一化矩阵。
[0100] 具体的,在将多个类型中每个类型的社交行为数据的第二观测值重构形成归一化 矩阵,形成方式可以有多种,以下以两种可选的实施方式作为举例说明:
[0101 ]作为一种可选的实施方式,以所述多个类型的类型数量为矩阵的列,以所述不同 采集周期的周期数量为矩阵的行,将所述多个类型中每个类型社交行为数据的第二观测值 重构形成归一化矩阵;或者,
[0102] 作为另一种可选的实施方式,以所述多个类型的类型数量为矩阵的列,形成所述 不同采集周期的周期数量个数的归一化矩阵,一种采集周期中所述多个类型的每个类型社 交行为数据的第二观测值重构形成一个归一化矩阵。
[0103] 具体的,如图3所示,重构子模块接收到归一化装置F'输出归一化后的η个第二观 测值,将这些第二观测值按照观测函数的编号,序列化成一个η维向量,将此η维向量转换为 归一化矩阵。
[0104] 重构模块在生成归一化矩阵时通常采用以下方式,若社交行为数据流中包含多个 不同采集周期采集的社交行为数据,将社交行为数据流按照一定周期(例如秒、分、时、日、 周、月等)采集到的多组不同时间维度的归一化统计量序列化向量;图4给出了一种输出的 归一化矩阵的格式,行表示不同采集周期维度,列表示不同的类型,即是该归一化矩阵的行 数为不同采集周期的数量,例如第一行为以周为采集周期采集的数据形成的η维向量,第二 行为以月为采集周期采集的数据形成的η维向量,第三行为以周为采集周期采集的数据形 成的η维向量,每一行都有η列,每一列代表一个类型。
[0105] 可选的,也可以将不同采集周期的数据重构到多个不同的矩阵中,如以天为采集 周期的向量序列化到一个归一化矩阵中,以月为采集周期的向量序列化到另外一个归一化 矩阵中。
[0106] 计算模块102具体用于所述低维特征空间向量输入至多层级的受限玻尔兹曼机 RBM进行计算处理,以完成对所述社交行为数据流中隐含特征的提取。
[0107] 可选的,所述将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈进 行计算处理,包括:
[0108] 每次向所述多层级的RBM栈输入所述归一化矩阵的一行元素,一个元素对应一个 输入端;
[0109] 通过串联的所述多个RBM逐层对所述归一化矩阵进行计算处理,以提取所述社交 行为数据流中的隐含特征。
[0110] 本发明实施例中,隐含特征可以包括社交行为数据流中隐含的规律,该规律能够 反映社交行为数据的本质,通过提取该隐含特征可以更加有利于数据建模的准确性。
[0111] 本发明实施例中,所述多层级的受限玻尔兹曼机(Restricted Boltzmann Mach ine s,RBM)栈由多个RBM串联构成。如图6所示,RBM栈由多个(RBM 1、RBM2、RBM3、 RBM4. . .RBMn)串联构成。
[0112]数据预处理模块将原始数据转换到RBM可以识别的低维特征空间;该多层级的RBM 栈接收数据预处理模块输出的低维特征空间向量,图5展示了单个RBM的结构。RBM是一类具 有两层结构、对称连接且无自反馈的随机神经网络模型,层间全连接,层内无连接。每次向 所述多层级的RBM栈输入归一化矩阵的一行元素,其中一行元素中的一个元素对应一个输 入端,如图5所示的i 1~in;通过串联的所述多个RBM逐层对所述归一化矩阵的每一行元素进 行计算处理,以提取所述社交行为数据流中的隐含特征,即是归一化矩阵的每一行元素均 会经过该多层级RBM栈逐层处理。
[0113]本发明实施例将基于深度学习层次组件的特征变量表达方法应用多层堆叠的 RBM,将社交行为数据转化为深度学习网络可以识别的数据序列,利用特征编码器(上述的 预处理模块和多层级的RBM栈)将社交行为数据从数据空间映射至特征空间,自动地发现隐 藏在数据中的模式和规律,提取抽象的隐含特征,自动完成特征表达的任务。
[0114]深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分 析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无 监督学习的一种。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是 一种深度学习结构。
[0115] 深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数 据的分布式特征表示。大数据中蕴含的宝贵价值成为人们处理大数据的驱动力,利用大数 据技术可以搜集更多的数据维度来加强弱相关数据的描述能力。深度学习通过构建具有很 多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预 测的准确性。即通过"深度模型"的手段,来实现"特征学习"是目的。
[0116] RBM是构建深度学习模型的基础组件;基于RBM组成的网络采用无监督学习的方 法,最大可能的拟合输入数据。通过逐层特征变换,将样本在原空间的特征表示变换到一个 新特征空间,从而使分类或预测更加容易。与人工构造特征的方法相比,利用深度学习层次 组件来学习大数据特征,更能够刻画数据的丰富内在信息。
[0117]本发明实施例基于对比散度的快速学习算法训练各层RBM;其训练过程如下:第一 步充分训练第一个RBM,固定第一个RBM的权重和偏移量;第二步使用其隐性神经元的状态, 作为第二个RBM的输入向量;第三步充分训练第二个RBM后,将第二个RBM堆叠在第一个RBM 的上方;如图6所示,由若干个RBM堆叠而成的RMB栈输出经过无监督学习得到隐含特征。 [0118]本发明实施例,获取待处理的社交行为数据流,对该社交行为数据流进行预处理, 将社交行为数据流从数据空间转换为低维特征空间向量,将该低维特征空间向量输入至多 层级的RBM栈进行计算处理,以完成对社交行为数据流中隐含特征的提取,这种方式通过预 处理将社交行为数据流转换为RBM可以识别的低维特征空间向量,并进一步通过RBM自动提 取社交行为数据流中抽象的隐含特征,提高效率,减小研发成本。
[0119] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以 通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,附图7-附图8所示数据处理装置对应的程序可存储在设备的可读存储介质内,并被该设 备中的至少一个处理器执行,以实现上述数据处理方法,该方法包括图1中方法实施例所述 的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM) 或随机存储记忆体(Random Access Memory,RAM)等。
[0120] 以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范 围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1. 一种数据处理方法,其特征在于,包括: 获取待处理的社交行为数据流; 对所述社交行为数据流进行预处理,将所述社交行为数据流从数据空间转换为低维特 征空间向量; 将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈进行计算处理,以完 成对所述社交行为数据流中隐含特征的提取。2. 如权利要求1所述的方法,其特征在于,所述对所述社交行为数据流进行预处理,将 所述社交行为数据流从数据空间转换为低维特征空间向量之前还包括: 将所述社交行为数据流进行分类处理,获得多个类型的社交行为数据流; 所述对所述社交行为数据流进行预处理,将所述社交行为数据流从数据空间转换为低 维特征空间向量,包括: 将所述多个类型的社交行为数据流中每个类型的社交行为数据流进行预处理,获得归 一化矩阵,以实现将所述社交行为数据流从数据空间转换为低维特征空间向量。3. 如权利要求2所述的方法,其特征在于,所述将所述多个类型的社交行为数据流中每 个类型的社交行为数据流进行预处理,获得归一化矩阵,包括: 针对每个类型的所述社交行为数据流,采用第一观测函数,对所述社交行为数据流进 行第一观测处理,获得该类型社交行为数据对应的第一观测值,所述第一观测函数为该类 型社交行为数据的统计函数; 针对每个类型的所述社交行为数据的所述第一观测值,采用第二观测函数,对所述社 交行为数据的所述第一观测值进行第二观测处理,获得该类型社交行为数据对应的第二观 测值,所述第二观测函数为该类型社交行为数据的归一化函数; 将所述多个类型中每个类型社交行为数据的第二观测值进行重构形成归一化矩阵。4. 如权利要求3所述的方法,其特征在于,所述将所述多个类型中每个类型社交行为数 据的第二观测值进行重构形成归一化矩阵,包括: 以所述多个类型的类型数量为矩阵的列,将所述多个类型中每个类型社交行为数据的 第二观测值重构形成归一化矩阵。5. 如权利要求4所述的方法,其特征在于,若所述社交行为数据流中包含多个不同采集 周期采集的社交行为数据; 所述以所述多个类型的类型数量为矩阵的列,将所述多个类型中每个类型社交行为数 据的第二观测值重构形成归一化矩阵,包括: 以所述多个类型的类型数量为矩阵的列,以所述不同采集周期的周期数量为矩阵的 行,将所述多个类型中每个类型社交行为数据的第二观测值重构形成归一化矩阵;或者, 以所述多个类型的类型数量为矩阵的列,形成所述不同采集周期的周期数量个数的归 一化矩阵,一种采集周期中所述多个类型的每个类型社交行为数据的第二观测值重构形成 一个归一化矩阵。6. 如权利要求4或5所述的方法,其特征在于,所述多层级的RBM栈包括多个RBM串联构 成; 所述将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈进行计算处理, 包括: 每次向所述多层级的RBM栈输入所述归一化矩阵的一行元素,一个元素对应一个输入 端; 通过串联的所述多个RBM逐层对所述归一化矩阵进行计算处理,以提取所述社交行为 数据流中的隐含特征。7. -种数据处理装置,其特征在于,包括: 获取模块,用于获取待处理的社交行为数据流; 预处理模块,用于对所述社交行为数据流进行预处理,将所述社交行为数据流从数据 空间转换为低维特征空间向量; 计算模块,用于将所述低维特征空间向量输入至多层级的受限玻尔兹曼机RBM栈进行 计算处理,以完成对所述社交行为数据流中隐含特征的提取。8. 如权利要求7所述的装置,其特征在于,所述装置还包括: 分类模块,用于将所述社交行为数据流进行分类处理,获得多个类型的社交行为数据 流; 所述预处理模块具体用于将所述多个类型的社交行为数据流中每个类型的社交行为 数据流进行预处理,获得归一化矩阵,以实现将所述社交行为数据流从数据空间转换为低 维特征空间向量。9. 如权利要求8所述的装置,其特征在于,所述预处理模块包括: 观测装置子模块,用于针对每个类型的所述社交行为数据流,采用第一观测函数,对所 述社交行为数据流进行第一观测处理,获得该类型社交行为数据对应的第一观测值,所述 第一观测函数为该类型社交行为数据的统计函数; 归一化装置子模块,用于针对每个类型的所述社交行为数据的所述第一观测值,采用 第二观测函数,对所述社交行为数据的所述第一观测值进行第二观测处理,获得该类型社 交行为数据对应的第二观测值,所述第二观测函数为该类型社交行为数据的归一化函数; 重构子模块,用于将所述多个类型中每个类型社交行为数据的第二观测值重构形成归 一化矩阵。10. 如权利要求9所述的装置,其特征在于,所述重构子模块具体用于以所述多个类型 的类型数量为矩阵的列,将所述多个类型中每个类型社交行为数据的第二观测值重构形成 归一化矩阵。11. 如权利要求10所述的装置,其特征在于,若所述社交行为数据流中包含多个不同采 集周期采集的社交行为数据; 所述重构子模块具体用于以所述多个类型的类型数量为矩阵的列,以所述不同采集周 期的周期数量为矩阵的行,将所述多个类型中每个类型社交行为数据的第二观测值重构形 成归一化矩阵;或者, 以所述多个类型的类型数量为矩阵的列,形成所述不同采集周期的周期数量个数的归 一化矩阵,一种采集周期中所述多个类型的每个类型社交行为数据的第二观测值重构形成 一个归一化矩阵。12. 如权利要求10或11所述的装置,其特征在于,所述多层级的RBM栈包括多个RBM串联 构成; 所述计算模块具体用于每次向所述多层级的RBM栈输入所述归一化矩阵的一行元素, 一个元素对应一个输入端; 通过串联的所述多个RBM逐层对所述归一化矩阵进行计算处理,以提取所述社交行为 数据流中的隐含特征。
【文档编号】G06K9/62GK106096638SQ201610394934
【公开日】2016年11月9日
【申请日】2016年6月3日 公开号201610394934.7, CN 106096638 A, CN 106096638A, CN 201610394934, CN-A-106096638, CN106096638 A, CN106096638A, CN201610394934, CN201610394934.7
【发明人】段培, 陈谦, 刘志斌
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1