一种用于确定对象类型的方法与设备的制造方法

文档序号:10624926阅读:204来源:国知局
一种用于确定对象类型的方法与设备的制造方法
【专利摘要】本申请的目的是提供一种确定对象类型的方法与设备。具体地,获取已分别标注对象类型的样本对象数据,其中,所述对象类型包括正常类型或异常类型;根据所述样本对象数据的分布特征信息,确定对应的判别模型;根据所述样本对象数据训练所述判别模型;利用训练所得的所述判别模型确定目标对象的所述对象类型。与现有技术相比,本申请通过获取标注对象类型的样本对象数据,根据样本对象数据的分布特征确定判别模型,并对其进行训练,使得判别模型可以确定目标对象的所述对象类型,从而缩短判别模型的建立时间,减轻手工调整的工作量,提升判别模型的训练效率,最终提高对象类型的检测精度,降低误判率。
【专利说明】
-种用于确定对象类型的方法与设备
技术领域
[0001] 本申请设及计算机领域,尤其设及一种用于确定对象类型的技术。
【背景技术】
[0002] 随着互联网深入生活的各方面,大量的对象数据充斥在网络中,为便于网络管理 W及分类,从而提升网络用户体验W及提高管理效率,需要对运些对象类型进行区分,例如 商品交易中的商品类型、论坛中的帖子类型、用户类型等等。
[0003] 目前,在本领域的现有技术中,大多通过设定对象数据的置信区间的范围来确定 判别的上限值和下限值,从而确定对象类型。传统方法中,会因为人工设定范围不准确造成 对象类型的误判,且因为人工设定的局限性,置信区间无法很好的适应不同类别对象的变 化,需要针对不同类别的对象进行阔值调试,使得其在缺乏灵活性和普适性的同时,增加了 很多人工维护的工作量。

【发明内容】

[0004] 本申请的目的是提供一种确定对象类型的方法与设备。
[0005] 根据本申请的一个方面,提供了一种确定对象类型的方法,包括:
[0006] 获取已分别标注对象类型的样本对象数据,其中,所述对象类型包括正常类型或 异常类型;
[0007] 根据所述样本对象数据的分布特征信息,确定对应的判别模型;
[0008] 根据所述样本对象数据训练所述判别模型;
[0009] 利用训练所得的所述判别模型确定目标对象的所述对象类型。
[0010] 根据本申请的另一方面,还提供了一种确定对象类型的设备,包括:
[0011] 第一装置,用于获取已分别标注对象类型的样本对象数据,其中,所述对象类型包 括正常类型或异常类型;
[0012] 第二装置,用于根据所述样本对象数据的分布特征信息,确定对应的判别模型;
[0013] 第Ξ装置,用于根据所述样本对象数据训练所述判别模型;
[0014] 第四装置,用于利用训练所得的所述判别模型确定目标对象的所述对象类型。
[0015] 与现有技术相比,本申请通过获取标注对象类型的样本对象数据,根据样本对象 数据的分布特征确定判别模型,并用样本对象对判别模型进行训练,使得判别模型可W确 定目标对象的所述对象类型,从而缩短判别模型的建立时间,减轻手工调整的工作量,提升 判别模型的训练效率,最终提高对象类型的检测精度,降低误判率。进一步,本申请可对标 注数据进行预处理,从而提高数据质量,减少噪声数据使得判别模型更加准确。
【附图说明】
[0016] 通过阅读参照W下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显:
[0017] 图1示出根据本申请一个方面的一种用于确定对象类型的设备的示意图;
[0018] 图2示出根据本申请一个优选实施例的一种用于确定对象类型的设备的示意图;
[0019] 图3示出根据本申请另一个优选实施例的一种用于确定对象类型的设备中第五 装置的示意图;
[0020] 图4示出根据本申请另一个优选实施例的一种用于确定对象类型的设备中第一 单元的示意图;
[0021] 图5示出根据本申请另一个方面的一种用于确定对象类型的方法流程图;
[0022] 图6示出根据本申请另一个方面的一种用于确定对象类型的方法流程图;
[0023] 图7示出根据本申请一个优选实施例的步骤S5流程图;
[0024] 图8示出根据本申请另一个优选实施例的步骤S51流程图。
[0025] 附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0026] 下面结合附图对本申请作进一步详细描述。
[0027] 在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个 处理器(CPU)、输入/输出接口、网络接口和内存。
[0028] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/ 或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质 的示例。
[0029] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可W由任何方法 或技术来实现信息存储。信息可W是计算机可读指令、数据结构、程序的模块或其他数据。 计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、 动态随机存取存储器值RAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电 可擦除可编程只读存储器巧EPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘值VD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性 存储设备或任何其他非传输介质,可用于存储可W被计算设备访问的信息。按照本文中的 界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信 号和载波。
[0030] 图1示出根据本申请一个方面的一种用于确定对象类型的设备1的示意图。其中, 所述设备1包括第一装置11、第二装置12、第Ξ装置13和第四装置14。
[0031] 其中,所述设备1的第一装置11获取已分别标注对象类型的样本对象数据,其中, 所述对象类型包括正常类型或异常类型;第二装置12根据所述样本对象数据的分布特征 信息,确定对应的判别模型;第Ξ装置13根据所述样本对象数据训练所述判别模型;第四 装置14利用训练所得的所述判别模型确定目标对象的所述对象类型。
[0032] 具体地,第一装置11获取已分别标注对象类型的样本对象数据,其中,所述对象 类型包括正常类型或异常类型。在此,样本对象数据为需要进行类型判别对象的基本数据, 其来源可从历史数据或者从数据库中进行提取,例如,在电商网络中对商品正常和异常类 型进行判别的时候,可W从商品数据库W及历史审核数据中提取样本商品数据。运些数据 可W包括帮助判别对象类型的各种特征,如对象的行为特征或者内容特征等等,例如,在判 别电商网络的样本商品数据中,图片颜色或者内容描述的关键字可w用来帮助区分商品的 不同类型,或者在判别论坛帖子类型的样本数据中,发帖者的个人资料信息W及发帖时间 和内容习惯用语可W帮助区别正常发帖和非正常发帖,基于运些数据的特征,可W对样本 数据进行标注,从而帮助得到可靠的判别模型,标注的方式可W是数据本身就是历史审核 数据从而可W直接得到被标注过类型的样本数据,或者直接在提取到样本数据之后对其进 行标注。标注的类型可W包括正确类型或异常类型,亦可W为其它类型,并不限于此。
[0033] 本领域技术人员应能理解上述提取W及标注样本对象数据的方式仅为举例,其他 现有的或今后可能出现的提取W及标注样本对象数据的方式如可适用于本发明,也应包含 在本发明保护范围W内,并在此W引用方式包含于此。
[0034] 接着,第二装置12根据所述样本对象数据的分布特征信息,确定对应的判别模 型。在此,样本对象数据根据被标注的类型不同会呈现出不同的数据分布,在统计学理论中 不同的数据分布规律对应不同的数据模型,因此,准确的数据模型可W更好地拟合数据规 律。在建立判别模型的过程中,可W对样本对象数据进行细致的分析,而使得所建立的判别 模型更加的准备,可W反应数据的内在规律,从而提高判别的准确性,尽可能避免判别模型 偏差而导致的误判。例如,在阿里己己的淘宝平台上对商品是否异常进行判断时,通过分析 所获取的样本商品的正常类型数据,发现其统计分布符合高斯分布,因此可用高斯分布对 商品数据进行建模,其所得数据模型如下所示:
[0035]
[0036] 其中,μ为商品数据均值,σ为商品数据的标准差。
[0037] 本领域技术人员应能理解上述确定判别模型的方式仅为举例,其他现有的或今后 可能出现的确定判别模型的方式如可适用于本发明,也应包含在本发明保护范围W内,并 在此W引用方式包含于此。
[0038] 进一步地,所述判别模型的参数包括基于训练学习参数确定的置信区间。如上所 述,根据样本数据分布规律建立的判别模型,包括两部分参数:一部分是待计算的判别模型 中的参数,如均值和方差等等;一部分是需要调整的置信区间,其中,置信区间通过需要训 练的学习参数来确定对象数据的真是置信区间范围,即落在置信区间范围内的为某种类型 的对象,落在置信区间范围外的则为另一种类型。仍W淘宝平台对商品是否异常判断为例, 依据正常商品类型符合高斯分布建立判别模型,该模型的参数包括待计算的均值μ和标 准差S,需要调整的置信区间,可W通过设置标准差的倍数k来确定,具体如下式所示:
[0039] region = [ μ -k*s, μ +k*s]
[0040] 其中,region为置信区间,k为需要训练的学习参数。
[0041] 接着,第Ξ装置13根据所述样本对象数据训练所述判别模型。在此,对判别模型 的训练可W采用自动学习的方法,如梯度下降的迭代优化方法,同时,采用有监督的机器学 习算法调整判别模型从而对样本数据进行拟合,如BP算法可根据标注样本数据进行学习 后,调整判别模型中的各参数来拟合样本数据结果。例如,在阿里己己的淘宝平台上对商品 是否异常进行判断时,可W设定一定的梯度步长进行梯度下降的迭代优化,在学习样本数 据过程中,若判别模型参数所得的结果与样本数据有偏差,可W将结果进行反馈,并据此进 行参数调整,并再次进行学习,直至参数收敛,得出正确的判别模型。在大数据背景下,采用 自动学习的方法训练判别模型,可w更好地对海量数据进行处理,并能够很快的得出准确 的判别模型。
[0042] 本领域技术人员应能理解上述训练判别模型的方式仅为举例,其他现有的或今后 可能出现的训练判别模型的方式如可适用于本发明,也应包含在本发明保护范围W内,并 在此W引用方式包含于此。
[0043] 接着,第四装置14利用训练所得的所述判别模型确定目标对象的所述对象类型。 在此,经过训练后的判别模型已经能够很好的对样本对象数据进行拟合,可W依据其数据 分布的特征对新的对象数据进行判别,从而确定对象的类型。仍W在阿里己己的淘宝平台 上对商品是否异常进行判断为例,得出判别模型之后可W利用该模型对样本商品数据运一 类的商品进行判断是否异常,若为正常商品其数据在所述置信区间范围内,若为非正常商 品则其数据在所述置信区间范围之外。
[0044] 优选地,所述设备1还包括第六装置(未出示),所述第六装置可W通过利用新采 集的对象数据重新进行训练,更新所述判别模型。在此,因为不同类型的数据所对应的数据 分布不一样,因此即使是对同一种类型进行判断,若对象数据不属于一个种类,可能会需要 对判别模型进行修正,例如,在电商平台中,母婴类的商品和衣帽类的商品在判断是否异常 时,其数据分布是不同的,故而需要重新输入样本对象数据,对判别模型进行修正,从而更 有针对性的进行判别,降低误判率,提高判别模型的准确性。
[0045] 优选地,所述第Ξ装置用于初始化所述训练学习参数,并计算所述置信区间。在 此,在确定判别模型开始训练时,需要对判别模型的参数W及置信区间的用于训练的学习 参数的范围进行初始化。参数初始化所对应的值对于后面的训练的时间影响很大,若初始 化参数的值与最终和样本对象数据拟合的参数值偏差过大,会因为需要多次迭代反馈和纠 正偏差导致训练过程被拉长,从而降低了训练的效率,因此可W根据W往对某类对象类型 的训练经验对参数进行初始化,从而提升训练效率和准确性。例如,在阿里己己的淘宝平 台上对商品是否异常进行判断时,梯度下降学习率为0. 01,训练参数k的取值范围为[0, 100],一般高斯分布的经验值在3左右,置信率大约为99%。
[0046] 本领域技术人员应能理解上述初始化判别模型参数的方式仅为举例,其他现有的 或今后可能出现的初始化判别模型参数的方式如可适用于本发明,也应包含在本发明保护 范围W内,并在此W引用方式包含于此。
[0047] 更优选地,在采用梯度下降的迭代优化方法对判别模型进行训练时,可W利用残 差对参数阶梯度进行调整,其中,残差为所述置信区间与样本标记值的差值,根据调整后的 所述参数阶梯度重新计算所述判别模型参数和所述置信区间,直至所述残差收敛。具体地, 残差在每次迭代中被计算出之后,会根据其偏差的程度,对迭代的阶梯度进行调整,例如残 差相差过大,可将参数阶梯度调大,从而使得收敛的速度变快。接着,经过调整的参数阶梯 度会进行反馈,在下一轮迭代优化中应用至对判别模型参数和置信区间的计算中,运一过 程将持续到残差收敛,得到正确的判别模型为止。
[0048] 图2示出根据本申请一个优选实施例的一种用于确定对象类型的设备1的示意 图。其中所述设备1包括第一装置11、第二装置12、第Ξ装置13、第四装置14和第五装置 15。
[0049] 其中,所述设备1的第一装置11获取已分别标注对象类型的样本对象数据,其中, 所述对象类型包括正常类型或异常类型;第二装置12根据所述样本对象数据的分布特征 信息,确定对应的判别模型;第Ξ装置13根据预处理后的所述样本对象数据训练所述判别 模型;第四装置14利用训练所得的所述判别模型确定目标对象的所述对象类型;第五装置 15用于对所述样本对象数据进行预处理。
[0050] 具体地,设备1的第一装置、第二装置和第四装置与图1中的相同或相似,在此不 再寶述。
[0051] 第五装置15对所述样本对象数据进行预处理。在此,因为所获取的样本对象数据 中不可避免的会存在噪声数据,运些噪声数据会影响对于对象类型判别的准确性。在分析 样本对象数据分布W及利用样本对象数据进行判别模型训练时,会导致最终所得出的判别 模型不准确,从而导致误判。例如,在阿里己己的淘宝平台上对商品是否异常进行判断时, 样本商品数据若没有经过预处理,会有一些特殊的商品数据跟样本中其它商品数据差异较 大,从而跳离正常变化趋势,在运些商品数据在训练过程中若输入判别模型对参数进行校 正,会使得判别模型中原来已经校正趋于正确的参数再次偏离,从而加大了判别模型的训 练时间,或者使得判别模型不准确。因此,对样本对象数据进行预处理可W提高数据质量, 减少数据噪声,从而提升判别模型的准确性和适应性,降低误判率。
[0052] 进一步地,在训练判别模型之前对样本对象数据进行归一化处理,使得其数据的 分布特征更加的明显,从而可W使判别模型在训练时收敛的更快,且获得更高的准确率。具 体地,使得一些分布细部不平整的数据,其分布更加平滑,从而更加凸显数据本身的特征, 运样的样本对象数据会使得最终所得的判别模型拟合地更加准确,从而提升其判别对象类 型时的准确率。
[0053] 相应地,第Ξ装置13根据预处理后的所述样本对象数据训练所述判别模型。在 此,经过预处理的样本数据对象数据降低了噪声数据的干扰,使得在采用梯度下降的迭代 优化方法进行训练时,出现误差的几率变小,从而拟合样本数据更加顺利,即每次迭代与样 本对象数据出现偏差的次数可能会变小,同时参数的收敛会更加的可控和迅速,使得训练 的时间也降低,提高了训练的效率。例如,在阿里己己的淘宝平台上对商品是否异常进行判 断时,经过预处理的样本商品上数据中偏离数据分布和变化趋势的噪声点减少,从而在训 练过程中数据输入判别模型时参数会快速收敛与样本数据拟合。
[0054] 图3示出根据本申请另一个优选实施例的一种用于确定对象类型的设备1中第五 装置15的示意图。其中所述第五装置15包括第一单元151或第二单元152。更优选地,该 第五装置同时包括该第一单元151和该第二单元152。
[0055] 其中,第一单元151根据所述分布特征信息,对所述样本对象数据进行异常数据 清洗;第二单元152对所述样本对象数据进行归一化处理。
[0056] 具体地,第一单元151根据所属分布特征信息,对所述样本对象数据进行异常数 据清洗。在此,对样本对象数据进行异常数据清洗是对样本对象数据进行预处理的一种方 式,可通过数据清洗公式等方法将会影响到模型准确性和健壮性的噪声数据剔除,从而使 得跳跃在数据分布之外影响偏离数据总体特征的数据清除,使得数据分布特征更加清晰。 例如,某个数据分布呈现平滑的曲线状态,但有若干偏离平滑曲线的点在曲线的上下波动 地很厉害,运样的数据会在训练判别模型时误导学习机制,导致参数无法及时收敛或者有 偏移,从而延长训练时间且判别模型参数会不准确。因此,对样本对象数据进行异常数据清 洗可w缩短判别模型的训练时间w及提升判别模型的准确性。 阳057] 接着,第二单元152对所述样本对象数据进行归一化处理。在此,可在样本对象数 据噪声数据不多或者已经被清洗的情况下,对样本对象数据进行归一化处理。其中,归一化 处理是在训练判别模型开始之前,是通过将样本对象数据进行例如取均值W及标准差归一 化等处理,从而使得数据分布特征更加地明显,进而提升判别模型的训练速度,获得更准确 的判别模型。
[0058] 优选地,所述归一化处理包括W下至少任一项:
[0059] 对所述样本对象数据进行去均值操作;
[0060] 对所述样本对象数据进行标准归一化操作。
[0061] 其中,对所述样本对象数据进行去均值操作,W在阿里己己的淘宝平台上对商品 是否异常进行判断为例,可W对其样本对象数据进行如下操作:
[0062]
[0063] 其中,X为样本对象数据点,i为样本对象数据的编号,η为样本对象数据大小。
[0064] 接着,对所述样本数据进行标准归一化操作,可W依据下式进行操作: 闺.Υ…'=7
[0066] 其中,X为对样本数据进行去均值操作中所得的结果。
[0067] 本领域技术人员应能理解上述对样本对象数据进行归一化处理的方式仅为举例, 其他现有的或今后可能出现的对样本对象数据进行归一化处理的方式如可适用于本发明, 也应包含在本发明保护范围W内,并在此W引用方式包含于此。
[0068] 图4示出根据本申请另一个优选实施例的一种用于确定对象类型的设备1中第一 单元151的示意图。其中所述第一单元151包括第一子单元1511和第二子单元1512。
[0069] 其中,第一子单元1511根据所述分布特征信息,确定所述样本对象数据的统计特 征信息;第二子单元1512根据所述统计特征信息清除所述样本对象数据中的异常数据点。
[0070] 具体地,第一子单元1511根据所述分布特征信息,确定所述样本对象数据的统计 特征信息。其中,样本对象数据的统计特征信息可W是均值W及标准差等运些可W表征样 本数据特征的值。样本对象统计特征信息,通过对其进行计算,可W得出可W判断噪声数 据是否需要剔除的特征点。例如,在阿里己己的淘宝平台上对商品是否异常进行判断时, 可首先对商品数据按照价格进行排序,并计算商品数据的均值和标准差,其中,对商品数据 排序的意义在于可W保证异常数据分布在呈正太分布的总体曲线两侧,接着计算出下式的 值,可用来判断该数据点是否为噪声数据:
[0071]
[0072] 其中,X为样本商品数据点,mean狂)为计算数据X平均值的函数,S为商品数据的 标准差。
[0073] 本领域技术人员应能理解上述确定样本对象数据的统计特征信息的方式仅为举 例,其他现有的或今后可能出现的确定样本对象数据的统计特征信息的方式如可适用于本 发明,也应包含在本发明保护范围W内,并在此W引用方式包含于此。
[0074] 接着,第二子单元1512根据所述统计特征信息清除所述样本对象数据中的异常 数据点。其中,异常数据点即为噪声数据,其偏离样本对象数据的总体分布,会对判别模型 的训练时间和准确性产生影响,从而导致最终在判别对象数据类型时误判率上升。根据上 述所得统计特征信息,结合数据清洗公式可W对噪声数据进行清洗。例如,在阿里己己的 淘宝平台上对商品是否异常进行判断时,数据清洗公式可W依据统计学中的化ompson Tau test的数据清洗公式的改进版,对异常数据进行清洗,其具体如下式所示: 阳0巧]
[0076] 其中,η为样本大小,t"/2为学生t分布的临界值,在统计学中学生t-分布被经常 应用在对呈现正太分布的总体的均值进行估计,是对两个样本均值差异进行显著性测试的 学生t测定的基础。
[0077] 优选地,在应用数据清洗公式进行数据清洗预处理时,可首先跟据所述统计特征 信息检测所述样本对象数据中的数据点是否超出所述样本对象数据所对应的拒绝域。其 中,拒绝域为所述数据清洗公式所涵括的范围,根据数据统计特征所计算出的值与所述拒 绝域进行比较。将所述样本对象数据中超出所述数据域的数据点作为异常数据点剔除。例 如,在阿里己己的淘宝平台上对商品是否异常进行判断时,会比较上文所述体现数据统计 特征的判断值σ W及拒绝域RejectRegion的大小,若判断值σ大于拒绝域的值,则该点 为噪声数据需要被剔除,反之,若判断值σ小于拒绝域的值则无需剔除。
[0078] 本领域技术人员应能理解上述清洗异常数据的方式仅为举例,其他现有的或今后 可能出现的清洗异常数据的方式如可适用于本发明,也应包含在本发明保护范围W内,并 在此W引用方式包含于此。
[0079] 在一个优选的实施例(参照图1)中,该设备1还包括第屯装置(未示出),该第屯 装置利用所述判别模型对其他已标注对象类型的对象数据进行检测,W获得对应的感受性 曲线;进而可根据所述感受性曲线优化调整所述判别模型的参数。其中,感受性曲线(R0C 曲线)是将用于训练的样本对象数据之外的测试数据输入判别模型中,从而获得的可W表 征判别模型所代表的数据分布特征的曲线。在某些场景下,对判别对象类型的准确度比较 高,例如在阿里己己淘宝平台需要对非正常商品的类型进行严格的控制,W保障正常商品 的销售,维护平台销售环境,此时可W将测试数据输入判别模型,画出R0C曲线,通过对其 曲线进行观察,微调置信区间的训练学习参数k,使得误判率下降至一个可接受的范围。
[0080] 本领域技术人员应能理解上述获得对应的感受性曲线的方式仅为举例,其他现有 的或今后可能出现的获得对应的感受性曲线的方式如可适用于本发明,也应包含在本发明 保护范围W内,并在此W引用方式包含于此。
[0081] 图5示出根据本申请另一个方面的一种用于确定对象类型的方法流程图。
[0082] 其中,在步骤S1中用于确定对象类型的设备1获取已分别标注对象类型的样本对 象数据,其中,所述对象类型包括正常类型或异常类型;在步骤S2中设备1根据所述样本对 象数据的分布特征信息,确定对应的判别模型;在步骤S3中设备1根据所述样本对象数据 训练所述判别模型;在步骤S4中设备1利用训练所得的所述判别模型确定目标对象的所述 对象类型。
[0083] 具体地,在步骤S1中设备1获取已分别标注对象类型的样本对象数据,其中,所述 对象类型包括正常类型或异常类型。在此,样本对象数据为需要进行类型判别对象的基本 数据,其来源可从历史数据或者从数据库中进行提取,例如,在电商网络中对商品正常和异 常类型进行判别的时候,可W从商品数据库W及历史审核数据中提取样本商品数据。运些 数据可W包括帮助判别对象类型的各种特征,如对象的行为特征或者内容特征等等,例如, 在判别电商网络的样本商品数据中,图片颜色或者内容描述的关键字可W用来帮助区分商 品的不同类型,或者在判别论坛帖子类型的样本数据中,发帖者的个人资料信息W及发帖 时间和内容习惯用语可W帮助区别正常发帖和非正常发帖,基于运些数据的特征,可W对 样本数据进行标注,从而帮助得到可靠的判别模型,标注的方式可W是数据本身就是历史 审核数据从而可W直接得到被标注过类型的样本数据,或者直接在提取到样本数据之后对 其进行标注。标注的类型可W包括正确类型或异常类型,亦可W为其它类型,并不限于此。
[0084] 本领域技术人员应能理解上述提取W及标注样本对象数据的方式仅为举例,其他 现有的或今后可能出现的提取W及标注样本对象数据的方式如可适用于本发明,也应包含 在本发明保护范围W内,并在此W引用方式包含于此。
[0085] 接着,在步骤S2中设备1根据所述样本对象数据的分布特征信息,确定对应的判 别模型。在此,样本对象数据根据被标注的类型不同会呈现出不同的数据分布,在统计学理 论中不同的数据分布规律对应不同的数据模型,因此,准确的数据模型可W更好地拟合数 据规律。在建立判别模型的过程中,可W对样本对象数据进行细致的分析,而使得所建立的 判别模型更加的准备,可W反应数据的内在规律,从而提高判别的准确性,尽可能避免判别 模型偏差而导致的误判。例如,在阿里己己的淘宝平台上对商品是否异常进行判断时,通过 分析所获取的样本商品的正常类型数据,发现其统计分布符合高斯分布,因此可用高斯分 布对商品数据进行建模,其所得数据模型如下所示:
[0086]
[0087] 其中,μ为商品数据均值,σ为商品数据的标准差。
[0088] 本领域技术人员应能理解上述确定判别模型的方式仅为举例,其他现有的或今后 可能出现的确定判别模型的方式如可适用于本发明,也应包含在本发明保护范围W内,并 在此W引用方式包含于此。
[0089] 进一步地,所述判别模型的参数包括基于训练学习参数确定的置信区间。如上所 述,根据样本数据分布规律建立的判别模型,包括两部分参数:一部分是待计算的判别模型 中的参数,如均值和方差等等;一部分是需要调整的置信区间,其中,置信区间通过需要训 练的学习参数来确定对象数据的真是置信区间范围,即落在置信区间范围内的为某种类型 的对象,落在置信区间范围外的则为另一种类型。仍W淘宝平台对商品是否异常判断为例, 依据正常商品类型符合高斯分布建立判别模型,该模型的参数包括待计算的均值μ和标 准差S,需要调整的置信区间,可W通过设置标准差的倍数k来确定,具体如下式所示:
[0090] region = [ μ -k*s, μ +k*s]
[0091] 其中,region为置信区间,k为需要训练的学习参数。
[0092] 接着,在步骤S3中设备1根据所述样本对象数据训练所述判别模型。在此,对判 别模型的训练可W采用自动学习的方法,如梯度下降的迭代优化方法,同时,采用有监督的 机器学习算法调整判别模型从而对样本数据进行拟合,如BP算法可根据标注样本数据进 行学习后,调整判别模型中的各参数来拟合样本数据结果。例如,在阿里己己的淘宝平台上 对商品是否异常进行判断时,可W设定一定的梯度步长进行梯度下降的迭代优化,在学习 样本数据过程中,若判别模型参数所得的结果与样本数据有偏差,可W将结果进行反馈,并 据此进行参数调整,并再次进行学习,直至参数收敛,得出正确的判别模型。在大数据背景 下,采用自动学习的方法训练判别模型,可W更好地对海量数据进行处理,并能够很快的得 出准确的判别模型。
[0093] 本领域技术人员应能理解上述训练判别模型的方式仅为举例,其他现有的或今后 可能出现的训练判别模型的方式如可适用于本发明,也应包含在本发明保护范围W内,并 在此W引用方式包含于此。
[0094] 接着,在步骤S4中设备1利用训练所得的所述判别模型确定目标对象的所述对象 类型。在此,经过训练后的判别模型已经能够很好的对样本对象数据进行拟合,可W依据其 数据分布的特征对新的对象数据进行判别,从而确定对象的类型。仍W在阿里己己的淘宝 平台上对商品是否异常进行判断为例,得出判别模型之后可W利用该模型对样本商品数据 运一类的商品进行判断是否异常,若为正常商品其数据在所述置信区间范围内,若为非正 常商品则其数据在所述置信区间范围之外。 阳0巧]优选地,所述设备1还包括在步骤S6 (未出示),在所述步骤S6中设备1可W通 过利用新采集的对象数据重新进行训练,更新所述判别模型。在此,因为不同类型的数据所 对应的数据分布不一样,因此即使是对同一种类型进行判断,若对象数据不属于一个种类, 可能会需要对判别模型进行修正,例如,在电商平台中,母婴类的商品和衣帽类的商品在判 断是否异常时,其数据分布是不同的,故而需要重新输入样本对象数据,对判别模型进行修 正,从而更有针对性的进行判别,降低误判率,提高判别模型的准确性。
[0096] 优选地,在所述步骤S3中设备1用于初始化所述训练学习参数,并计算所述置信 区间。在此,在确定判别模型开始训练时,需要对判别模型的参数W及置信区间的用于训练 的学习参数的范围进行初始化。参数初始化所对应的值对于后面的训练的时间影响很大, 若初始化参数的值与最终和样本对象数据拟合的参数值偏差过大,会因为需要多次迭代反 馈和纠正偏差导致训练过程被拉长,从而降低了训练的效率,因此可W根据W往对某类对 象类型的训练经验对参数进行初始化,从而提升训练效率和准确性。例如,在阿里己己的淘 宝平台上对商品是否异常进行判断时,梯度下降学习率为0.01,训练参数k的取值范围为 [0,100],一般高斯分布的经验值在3左右,置信率大约为99%。
[0097] 本领域技术人员应能理解上述初始化判别模型参数的方式仅为举例,其他现有的 或今后可能出现的初始化判别模型参数的方式如可适用于本发明,也应包含在本发明保护 范围W内,并在此W引用方式包含于此。
[009引更优选地,在采用梯度下降的迭代优化方法对判别模型进行训练时,可W利用残 差对参数阶梯度进行调整,其中,残差为所述置信区间与样本标记值的差值,根据调整后的 所述参数阶梯度重新计算所述判别模型参数和所述置信区间,直至所述残差收敛。具体地, 残差在每次迭代中被计算出之后,会根据其偏差的程度,对迭代的阶梯度进行调整,例如残 差相差过大,可将参数阶梯度调大,从而使得收敛的速度变快。接着,经过调整的参数阶梯 度会进行反馈,在下一轮迭代优化中应用至对判别模型参数和置信区间的计算中,运一过 程将持续到残差收敛,得到正确的判别模型为止。
[0099] 图6示出根据本申请另一个方面的一种用于确定对象类型的方法流程图。
[0100] 其中,在步骤S1中设备1获取已分别标注对象类型的样本对象数据,其中,所述对 象类型包括正常类型或异常类型;在步骤S2中设备1根据所述样本对象数据的分布特征信 息,确定对应的判别模型;在步骤S3中设备1根据预处理后的所述样本对象数据训练所述 判别模型;在步骤S4中设备1利用训练所得的所述判别模型确定目标对象的所述对象类 型;在步骤S5中设备1用于对所述样本对象数据进行预处理。
[0101] 具体地,所述设备1的步骤S1、步骤S2和步骤S4与图5中的相同或相似,在此不 再寶述。 阳102] 在步骤S5中设备1用于对所述样本对象数据进行预处理。在此,因为所获取的样 本对象数据中不可避免的会存在噪声数据,运些噪声数据会影响对于对象类型判别的准确 性。在分析样本对象数据分布W及利用样本对象数据进行判别模型训练时,会导致最终所 得出的判别模型不准确,从而导致误判。例如,在阿里己己的淘宝平台上对商品是否异常进 行判断时,样本商品数据若没有经过预处理,会有一些特殊的商品数据跟样本中其它商品 数据差异较大,从而跳离正常变化趋势,在运些商品数据在训练过程中若输入判别模型对 参数进行校正,会使得判别模型中原来已经校正趋于正确的参数再次偏离,从而加大了判 别模型的训练时间,或者使得判别模型不准确。因此,对样本对象数据进行预处理可W提高 数据质量,减少数据噪声,从而提升判别模型的准确性和适应性,降低误判率。
[0103] 进一步地,在训练判别模型之前对样本对象数据进行归一化处理,使得其数据的 分布特征更加的明显,从而可W使判别模型在训练时收敛的更快,且获得更高的准确率。具 体地,使得一些分布细部不平整的数据,其分布更加平滑,从而更加凸显数据本身的特征, 运样的样本对象数据会使得最终所得的判别模型拟合地更加准确,从而提升其判别对象类 型时的准确率。
[0104] 相应地,在步骤S3中设备1根据预处理后的所述样本对象数据训练所述判别模 型。在此,经过预处理的样本数据对象数据降低了噪声数据的干扰,使得在采用梯度下降的 迭代优化方法进行训练时,出现误差的几率变小,从而拟合样本数据更加顺利,即每次迭代 与样本对象数据出现偏差的次数可能会变小,同时参数的收敛会更加的可控和迅速,使得 训练的时间也降低,提高了训练的效率。例如,在阿里己己的淘宝平台上对商品是否异常进 行判断时,经过预处理的样本商品上数据中偏离数据分布和变化趋势的噪声点减少,从而 在训练过程中数据输入判别模型时参数会快速收敛与样本数据拟合。
[01化]图7示出根据本申请一个优选实施例的步骤S5流程图。 阳106] 其中,在步骤S51中设备1根据所述分布特征信息,对所述样本对象数据进行异常 数据清洗;在步骤S52中设备1对所述样本对象数据进行归一化处理。 阳107] 具体地,在步骤S51中设备1根据所属分布特征信息,对所述样本对象数据进行异 常数据清洗。在此,对样本对象数据进行异常数据清洗是对样本对象数据进行预处理的一 种方式,可通过数据清洗公式等方法将会影响到模型准确性和健壮性的噪声数据剔除,从 而使得跳跃在数据分布之外影响偏离数据总体特征的数据清除,使得数据分布特征更加清 晰。例如,某个数据分布呈现平滑的曲线状态,但有若干偏离平滑曲线的点在曲线的上下波 动地很厉害,运样的数据会在训练判别模型时误导学习机制,导致参数无法及时收敛或者 有偏移,从而延长训练时间且判别模型参数会不准确。因此,对样本对象数据进行异常数据 清洗可w缩短判别模型的训练时间w及提升判别模型的准确性。
[0108] 接着,在步骤S52中设备1对所述样本对象数据进行归一化处理。在此,可在样本 对象数据噪声数据不多或者已经被清洗的情况下,对样本对象数据进行归一化处理。其中, 归一化处理是在训练判别模型开始之前,是通过将样本对象数据进行例如取均值W及标准 差归一化等处理,从而使得数据分布特征更加地明显,进而提升判别模型的训练速度,获得 更准确的判别模型。 阳109] 优选地,所述归一化处理包括W下至少任一项:
[0110] 对所述样本对象数据进行去均值操作; 阳111 ] 对所述样本对象数据进行标准归一化操作。
[0112] 其中,对所述样本对象数据进行去均值操作,W在阿里己己的淘宝平台上对商品 是否异常进行判断为例,可W对其样本对象数据进行如下操作: 阳11引
[0114] 其中,X为样本对象数据点,i为样本对象数据的编号,η为样本对象数据大小。
[0115] 接着,对所述样本数据进行标准归一化操作,可W依据下式进行操作: 阳116]
[0117] 其中,X为对样本数据进行去均值操作中所得的结果。
[0118] 本领域技术人员应能理解上述对样本对象数据进行归一化处理的方式仅为举例, 其他现有的或今后可能出现的对样本对象数据进行归一化处理的方式如可适用于本发明, 也应包含在本发明保护范围W内,并在此W引用方式包含于此。
[0119] 图8示出根据本申请另一个优选实施例的步骤S51流程图。
[0120] 其中,在步骤S511中设备1根据所述分布特征信息,确定所述样本对象数据的统 计特征信息;在步骤S512中设备1根据所述统计特征信息清除所述样本对象数据中的异常 数据点。 阳121] 具体地,在步骤S511中设备1根据所述分布特征信息,确定所述样本对象数据的 统计特征信息。其中,样本对象数据的统计特征信息可W是均值W及标准差等运些可W表 征样本数据特征的值。样本对象统计特征信息,通过对其进行计算,可W得出可W判断噪声 数据是否需要剔除的特征点。例如,在阿里己己的淘宝平台上对商品是否异常进行判断时, 可首先对商品数据按照价格进行排序,并计算商品数据的均值和标准差,其中,对商品数据 排序的意义在于可W保证异常数据分布在呈正太分布的总体曲线两侧,接着计算出下式的 值,可用来判断该数据点是否为噪声数据: 阳1。]
[0123] 其中,X为样本商品数据点,mean佩为计算数据X平均值的函数,S为商品数据的 标准差。
[0124] 本领域技术人员应能理解上述确定样本对象数据的统计特征信息的方式仅为举 例,其他现有的或今后可能出现的确定样本对象数据的统计特征信息的方式如可适用于本 发明,也应包含在本发明保护范围W内,并在此W引用方式包含于此。
[01巧]接着,在步骤S512中设备1根据所述统计特征信息清除所述样本对象数据中的异 常数据点。其中,异常数据点即为噪声数据,其偏离样本对象数据的总体分布,会对判别模 型的训练时间和准确性产生影响,从而导致最终在判别对象数据类型时误判率上升。根据 上述所得统计特征信息,结合数据清洗公式可W对噪声数据进行清洗。例如,在阿里己己的 淘宝平台上对商品是否异常进行判断时,数据清洗公式可W依据统计学中的化ompson Tau test的数据清洗公式的改进版,对异常数据进行清洗,其具体如下式所示: 阳 126]
[0127] 其中,η为样本大小,t。/2为学生t分布的临界值,在统计学中学生t-分布被经常 应用在对呈现正太分布的总体的均值进行估计,是对两个样本均值差异进行显著性测试的 学生t测定的基础。
[0128] 优选地,在应用数据清洗公式进行数据清洗预处理时,可首先跟据所述统计特征 信息检测所述样本对象数据中的数据点是否超出所述样本对象数据所对应的拒绝域。其 中,拒绝域为所述数据清洗公式所涵括的范围,根据数据统计特征所计算出的值与所述拒 绝域进行比较。将所述样本对象数据中超出所述数据域的数据点作为异常数据点剔除。例 如,在阿里己己的淘宝平台上对商品是否异常进行判断时,会比较上文所述体现数据统计 特征的判断值σ W及拒绝域RejectRegion的大小,若判断值σ大于拒绝域的值,则该点 为噪声数据需要被剔除,反之,若判断值σ小于拒绝域的值则无需剔除。
[0129] 本领域技术人员应能理解上述清洗异常数据的方式仅为举例,其他现有的或今后 可能出现的清洗异常数据的方式如可适用于本发明,也应包含在本发明保护范围W内,并 在此W引用方式包含于此。
[0130] 在一个优选的实施例(参照图1)中,该设备1还包括步骤S7(未示出),在步骤 S7运种设备1利用所述判别模型对其他已标注对象类型的对象数据进行检测,W获得对应 的感受性曲线;进而可根据所述感受性曲线优化调整所述判别模型的参数。其中,感受性曲 线(R0C曲线)是将用于训练的样本对象数据之外的测试数据输入判别模型中,从而获得的 可W表征判别模型所代表的数据分布特征的曲线。在某些场景下,对判别对象类型的准确 度比较高,例如在阿里己己淘宝平台需要对非正常商品的类型进行严格的控制,W保障正 常商品的销售,维护平台销售环境,此时可W将测试数据输入判别模型,画出R0C曲线,通 过对其曲线进行观察,微调置信区间的训练学习参数k,使得误判率下降至一个可接受的范 围。 阳131 ] 本领域技术人员应能理解上述获得对应的感受性曲线的方式仅为举例,其他现有 的或今后可能出现的获得对应的感受性曲线的方式如可适用于本发明,也应包含在本发明 保护范围W内,并在此W引用方式包含于此。
[0132] 对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在 不背离本申请的精神或基本特征的情况下,能够W其他的具体形式实现本申请。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所设及的权利要求。此 夕F,显然"包括"一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多 个单元或装置也可w由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来 表示名称,而并不表示任何特定的顺序。
【主权项】
1. 一种用于确定对象类型的方法,包括: 获取已分别标注对象类型的样本对象数据,其中,所述对象类型包括正常类型或异常 类型; 根据所述样本对象数据的分布特征信息,确定对应的判别模型; 根据所述样本对象数据训练所述判别模型; 利用训练所得的所述判别模型确定目标对象的所述对象类型。2. 根据权利要求1所述的方法,其中,该方法还包括: 对所述样本对象数据进行预处理; 其中,所述根据所述样本对象数据训练所述判别模型包括: 根据预处理后的所述样本对象数据训练所述判别模型。3. 根据权利要求2所述的方法,其中,所述对所述样本对象数据进行预处理包括: 根据所述分布特征信息,对所述样本对象数据进行异常数据清洗; 或 对所述样本对象数据进行归一化处理。4. 根据权利要求3所述的方法,其中,所述根据所述分布特征信息,对所述样本对象数 据进行异常数据清洗包括: 根据所述分布特征信息,确定所述样本对象数据的统计特征信息; 根据所述统计特征信息清除所述样本对象数据中的异常数据点。5. 根据权利要求4所述的方法,其中,所述根据所述统计特征信息清除所述样本对象 数据中的异常数据点包括: 根据所述统计特征信息检测所述样本对象数据中的数据点是否超出所述样本对象数 据所对应的拒绝域; 将所述样本对象数据中超出所述数据域的数据点作为异常数据点剔除。6. 根据权利要求3至5中任一项所述的方法,其中,所述归一化处理包括以下至少任一 项: 对所述样本对象数据进行去均值操作; 对所述样本对象数据进行标准归一化操作。7. 根据权利要求1至6中任一项所述的方法,其中,所述判别模型的参数包括基于训练 学习参数确定的置信区间。8. 根据权利要求7所述的方法,其中,所述根据所述样本对象数据训练所述判别模型 包括: 初始化所述训练学习参数,并计算所述置信区间; 利用残差对参数阶梯度进行调整,其中,残差为所述置信区间与样本标记值的差值,根 据调整后的所述参数阶梯度重新计算所述判别模型参数和所述置信区间,直至所述残差收 敛。9. 根据权利要求7或8中所述的方法,其中,该方法还包括: 利用所述判别模型对其他已标注对象类型的对象数据进行检测,以获得对应的感受性 曲线; 根据所述感受性曲线优化调整所述判别模型的参数。10. 根据权利要求1至9中任一项所述的方法,其中,该方法还包括: 通过利用新采集的对象数据重新进行训练,更新所述判别模型。11. 一种用于确定对象类型的设备,包括: 第一装置,用于获取已分别标注对象类型的样本对象数据,其中,所述对象类型包括正 常类型或异常类型; 第二装置,用于根据所述样本对象数据的分布特征信息,确定对应的判别模型; 第三装置,用于根据所述样本对象数据训练所述判别模型; 第四装置,用于利用训练所得的所述判别模型确定目标对象的所述对象类型。12. 根据权利要求11所述的设备,其中,该设备还包括: 第五装置,用于对所述样本对象数据进行预处理; 其中,所述第三装置用于: 根据预处理后的所述样本对象数据训练所述判别模型。13. 根据权利要求12所述的方法,其中,所述第五装置包括: 第一单元,用于根据所述分布特征信息,对所述样本对象数据进行异常数据清洗;或 第二单元,用于对所述样本对象数据进行归一化处理。14. 根据权利要求13所述的设备,其中,所述第一单元包括: 第一子单元,用于根据所述分布特征信息,确定所述样本对象数据的统计特征信息; 第二子单元,用于根据所述统计特征信息清除所述样本对象数据中的异常数据点。15. 根据权利要求14所述的设备,其中,所述第二子单元用于: 根据所述统计特征信息检测所述样本对象数据中的数据点是否超出所述样本对象数 据所对应的拒绝域; 将所述样本对象数据中超出所述数据域的数据点作为异常数据点剔除。16. 根据权利要求13至15中任一项所述的设备,其中,所述归一化处理包括以下至少 任一项: 对所述样本对象数据进行去均值操作; 对所述样本对象数据进行标准归一化操作。17. 根据权利要求11至16中任一项所述的设备,其中,所述判别模型的参数包括基于 训练学习参数确定的置信区间。18. 根据权利要求17所述的方法,其中,所述第三装置用于: 初始化所述训练学习参数,并计算所述置信区间; 利用残差对参数阶梯度进行调整,其中,残差为所述置信区间与样本标记值的差值,根 据调整后的所述参数阶梯度重新计算所述判别模型参数和所述置信区间,直至所述残差收 敛。19. 根据权利要求17或18中所述的设备,其中,该设备还包括第七装置,用于: 利用所述判别模型对其他已标注对象类型的对象数据进行检测,以获得对应的感受性 曲线; 根据所述感受性曲线优化调整所述判别模型的参数。20. 根据权利要求11至19中任一项所述的设备,其中,该设备还包括: 第六装置,用于通过利用新采集的对象数据重新进行训练,更新所述判别模型。
【文档编号】G06F17/30GK105989157SQ201510094572
【公开日】2016年10月5日
【申请日】2015年3月3日
【发明人】谢世鹏
【申请人】阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1