一种基于大数据的趋势曲线局部特征的匹配方法及终端的制作方法

文档序号:10553358阅读:740来源:国知局
一种基于大数据的趋势曲线局部特征的匹配方法及终端的制作方法
【专利摘要】本发明提供一种基于大数据的趋势曲线局部特征的匹配方法及终端,所述方法包括以下步骤:步骤100,输入需要处理的曲线数据;步骤200,对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;步骤300,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输出。本发明通过对曲线数据进行两次筛处理,从而获取高相似度的匹配曲线;在二次筛选处理过程中通过对曲线数据进行水平伸缩处理和采用波峰波谷识别法将波峰波谷区域设置为敏感识别区域,并加大对波峰波谷区域的相似度识别权值,再利用加权DTW距离计算法进行距离值计算,使得距离值的计算相似度准确性更高。
【专利说明】
一种基于大数据的趋势曲线局部特征的匹配方法及终端
技术领域
[0001] 本发明涉及大数据领域,尤其涉及一种基于大数据的趋势曲线局部特征的匹配方 法及终端。
【背景技术】
[0002] 目前,相似曲线匹配问题的实现方案有以下三种:(1)皮尔逊相关系数法;(2)最小 二乘法曲线拟合法;(3)DTW(Dynamic Time Warping)动态时间规整算法,其中,皮尔逊相关 系数法和最小二乘曲线拟合法只能处理长度相等的两个曲线,而对于长度不同的曲线在计 算相似度时会产生极大的误差,这种误差基本导致结果失去参考价值;DTW算法虽然能够很 好的解决两段长度不相等的离散曲线相似度计算问题,但其无法避免在曲线上的细节在处 理过程中干扰相似度的计算。

【发明内容】

[0003] 为了解决上述问题,本发明提供一种基于大数据的趋势曲线局部特征的匹配方法 及终端的设计方案。
[0004] -种基于大数据的趋势曲线局部特征的匹配方法,所述方法包括:
[0005] 输入需要处理的曲线数据;
[0006] 对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;
[0007] 对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段 并输出;
[0008] 其中,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,具体包括:对 曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩处理,获取拉伸后的曲线数 据;识别所述拉伸后的曲线数据的敏感区域;对敏感区域的曲线数据进行加权DTW距离计 算,并计算产生距离值;对所述距离值进行DTW距离排序,获取匹配曲线片段并输出。
[0009] 具体的,所述对输入的曲线数据进行初步筛选处理,具体包括:对输入的曲线数据 进行正则化处理、平滑处理和垂直伸缩处理,获取拉伸后的曲线数据;对所述拉伸后的曲线 数据进行DTW距离计算,并计算产生距离值;对所述距离值进行DTW距离排序,获得初步筛选 数据段集合。
[0010] 具体的,识别所述拉伸后的曲线数据的敏感区域,具体包括:通过高斯滤波法将所 述拉伸后的曲线数据处理并得到平滑的曲线;设原始的曲线数据序列为x(t),经过滤波处 理后的曲线数据序列为f(t),则有: 2(7
[0011] x(t) = ^ Wtx(t + I) i=-2cr
[0012] 其中
,〇表示滤波步长参数,i表示数据节点w的下标,j 与i含义相同;设曲线数据总长度为len,则d二0.1 * kid表示经验数据;根据曲线的斜 率判断波峰和波谷的位置,若某一点的前向斜率与后向斜率相反,则该点为波峰或波谷点。
[0013] 具体的,识别所述拉伸后的曲线数据的敏感区域还包括:若两个相邻的波峰波谷 之间的垂直距离差小于预设阈值9,则剔除该波峰波谷;当确定波峰和波谷点后,设波峰或 波谷点的坐标为《 i,则坐标区间为[? i-0,《 i+0]的所有采样点均被认为属于敏感区域, 其中0表示敏感区域识别区间参数。
[0014] 具体的,对敏感区域的曲线数据进行加权DTW距离计算包括:设Y(i)为参考曲线的 数据集,Z(j)为对比曲线的数据集,y(i)为参考曲线数据集的敏感区域标记集合,z(j)为对 比曲线数据集的敏感区域标记集合,有以下定义: 〇 i/" F(i)e非敏感区域
[0015] >;(〇 = 1 1 波峰敏感区域 ?-1 波谷敏感区域 〇 if Z(i)e非敏感区域
[0016] z(i) = 1 i/"Z(〇e 波峰敏感区域 1 i/Z(〇e波谷敏感区域
[0017] 则若警告DTW路径搜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下 标,则该点对的距离S为: (p(Y^a),Z(hJ) ,'/'y(a)二 z⑷=0 (y(a),Z(/})) _ p - z{h) ^ 0
[0019] 其中,少(?)表示距离度量函数,屮(?Z(b))表示欧式距离,且
,p(〇<p<l)表示敏感区域加权系数
[0020] -种基于大数据的趋势曲线局部特征的匹配终端,所述终端包括:
[0021] 输入模块,用于输入需要处理的曲线数据;初步筛选模块,用于对输入的曲线数据 进行初步筛选处理,获取初步筛选数据段集合;二次筛选模块,用于对所述初步筛选数据段 集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输出;其中,所述二次筛选模块 包括:
[0022] 处理单元,用于对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩 处理、获取拉伸后的曲线数据;
[0023]识别单元,用于识别所述拉伸后的曲线数据的敏感区域;
[0024]加权计算单元,用于对敏感区域关注识别的曲线数据进行加权DTW距离计算、并计 算产生距离值;
[0025]排序单元,用于对所述距离值进行DTW距离排序、获取匹配曲线片段并输出。
[0026]具体的,所述初步筛选模块包括:
[0027] 处理单元,用于对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处理、获 取拉伸后的曲线数据;
[0028] 计算单元,用于对所述拉伸后的曲线数据进行DTW距离计算、并计算产生距离值;
[0029] 排序单元,用于对所述距离值进行DTW距离排序、获得初步筛选数据段集合。
[0030] 具体的,所述识别单元具体用于:通过高斯滤波法将所述拉伸后的曲线数据处理 并得到平滑的曲线;设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为 則,则有:
[0031] x(£) = ^ WjX(t + t) i=-20
[0032] 其中:
,〇表示滤波步长参数,i表示数据节点w的下标,j 与i含义相同;设曲线数据总长度为len,则3二0.1 *表示经验数据;根据曲线的斜 率判断波峰和波谷的位置,若某一点的前向斜率与后向斜率相反,则该点为波峰或波谷点。
[0033] 具体的,还包括差异度检测模块,用于若两个相邻的波峰波谷之间的垂直距离差 小于预设阈值9,则剔除该波峰波谷;当确定波峰和波谷点后,设波峰或波谷点的坐标为《 i,则坐标区间为[?1_0,《1+0]的所有采样点均被认为属于敏感区域,其中0表示敏感区域 识别区间参数。
[0034] 具体的,所述加权计算单元具体用于:设Y(i)为参考曲线的数据集,Z(j)为对比曲 线的数据集,y(i)为参考曲线数据集的敏感区域标记集合,z(j)为对比曲线数据集的敏感 区域标记集合,有以下定义: '〇 非敏感区域
[0035] y(i) = 1 yr⑴e波峰敏感区域 i/1⑴e波谷敏感区域 〇 if Z⑴e非敏感区域
[0036] Z(〇二.1 i/Z⑴d皮峰敏感区域 "_1 i/Z⑴d皮谷敏感区域
[0037] 则若警告DTW路径搜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下 标,则该点对的距离S为: (p(y{cL),Z(b)) [f y(0) - z(b) - 0
[0038] a 二,,、,、、 J K J (p p - z(b) ^ 0
[0039] 其中,例:)表示距离度量函数,炉(F(?(h))表示欧式距离,且
P(0<P<1)表示敏感区域加权系数。
[0040] 综上所述,本发明具有以下有益效果:通过对曲线数据进行两次筛处理,从而获取 高相似度的匹配曲线;在二次筛选处理过程中通过对曲线数据进行水平伸缩处理和采用波 峰波谷识别法将波峰波谷区域设置为敏感识别区域,并加大对波峰波谷区域的相似度识别 权值,再利用加权DTW距离计算法进行距离值计算,使得距离值的计算相似度准确性更高, 本发明在计算机集群中,通过opencl实现并发计算,效率更高。
【附图说明】
[0041] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0042] 图1为本发明实施例提供的基于大数据的趋势曲线局部特征的识别与匹配方法的 流程图。
[0043] 图2为本发明实施例提供的基于大数据的趋势曲线局部特征的识别与匹配方法中 的步骤200的子流程图。
[0044] 图3为本发明实施例提供的基于大数据的趋势曲线局部特征的识别与匹配方法中 的步骤300的子流程图。
[0045] 图4为本发明实施例提供的基于大数据的趋势曲线局部特征的识别与匹配方法中 的某一样本曲线的示意图。
[0046] 图5为本发明实施例提供的基于大数据的趋势曲线局部特征的识别与匹配方法中 的某一样本曲线滤波处理后的示意图。
[0047] 图6为本发明实施例提供的基于大数据的趋势曲线局部特征的识别与匹配方法中 的某一样本曲线通过波峰波谷识别确定参考曲线和对比曲线的敏感区域后的示意图。
[0048] 图7为图6中所述的样本曲线被识别为匹配点对的示意图。
[0049] 图8为图4中所述的样本曲线进行波峰波谷差异度检测步骤的示意图。
[0050] 图9为本发明实施例提供的基于大数据的趋势曲线局部特征的匹配终端的功能框 图。
[0051] 图10为本发明实施例提供的基于大数据的趋势曲线局部特征的匹配终端中的二 次筛选模块的子功能框图。
[0052] 图11为本发明实施例提供的基于大数据的趋势曲线局部特征的匹配终端中的初 次筛选模块的子功能框图。
【具体实施方式】
[0053]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0054]图1示出了本发明实施例一提供的一种基于大数据的趋势曲线局部特征的匹配方 法的流程图,包括以下步骤:
[0055]步骤100,输入需要处理的曲线数据;
[0056]步骤200,对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;
[0057]步骤300,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配 曲线片段并输出。
[0058]请参看图2,在本发明的实施例中,所述的对当前曲线数据进行初步筛选处理的步 骤,具体包括:
[0059] 步骤201,对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处理,获取拉 伸后的曲线数据;
[0060] 在本实施例中,由于曲线数据的绝对值可能不是同一数量级,而曲线识别则是识 别相对变化趋势而非绝对变化趋势,因此需对曲线数据进行正则化处理,所述正则化处理, 使得参与识别的曲线数据段处于同一数量级,进而保证之后的DTW距离计算是相对距离计 算;所述平滑处理,可以通过平滑处理过滤掉毛刺细节,而只保留曲线数据的大趋势;所述 垂直伸缩处理,可以拉伸一些形态相似但价格幅值存在差距的曲线数据,这样能够使当前 曲线数据与参考数据保持基本相近的幅值再进行DTW距离计算,使得本发明能够筛选出这 类"形似"但数值幅值不相似的曲线。
[0061] 步骤202,对所述拉伸后的曲线数据进行DTW距离计算,并计算产生距离值;
[0062]步骤203,对所述距离值进行DTW距离排序,获得初步筛选数据段集合。
[0063]请参看图3,在本发明的实施例中,所述的对所述初步筛选数据段集合中的曲线数 据进行二次筛选处理的步骤,具体包括(其中所述正则化处理、平滑处理、垂直伸缩处理与 初步筛选处理的步骤相同,因此不再详述):
[0064]步骤301,对初步筛选数据段集合的曲线数据进行正则化处理、平滑处理、垂直伸 缩处理和水平伸缩处理,获取拉伸后的曲线数据;
[0065]在本实施例中,所述水平伸缩处理可以在保持曲线形态不变的情况下拉伸或者收 缩至任意比例长度,使得参考曲线数据和对比曲线数据在保持形态不变的情况下变得长度 相等或近似,在二次筛选处理过程中能够提高相似度匹配精度。
[0066]步骤302,识别所述拉伸后的曲线数据的敏感区域;
[0067]请参看图4和图5,分别示出了某一样本曲线的示意图和经过滤波处理后的样本曲 线的示意图。在图4和图5中,该样本曲线中波峰区域为N、M,波谷区域为F。具体的,在本步骤 302中,所述识别所述拉伸后的曲线数据的敏感区域,具体包括:
[0068]步骤3021,通过高斯滤波法将所述拉伸后的曲线数据处理并得到较为平滑的曲 线;
[0069]步骤3022,设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为 f⑴,则有:
[0070] f (t) = E?=-2〇- + 〇 r
[0071] 其中,
〇表示滤波步长参数,i表示数据节点w的下标,j 与i含义相同;
[0072] 步骤3023,设曲线数据总长度为len,则有二0.1 * Zen,5表示经验数据;需要 说明的是,9可以根据实际情况调整,一般来说8越大,滤波力度越大;
[0073] 步骤3024,当滤波力度足够时,整个曲线已经在各个区间区域基本呈单调递增或 递减趋势,便可以根据曲线的斜率判断波峰和波谷的位置,若某一点的前向斜率与后向斜 率相反,则认为该点为波峰或波谷点。
[0074]步骤303,对敏感区域的曲线数据进行加权DTW距离计算,并计算产生距离值;
[0075]请参见图6示出了某一样本曲线通过波峰波谷识别确定参考曲线和对比曲线的敏 感区域后,标记这些区域的数据点,其中,图6中参考曲线为P、对比曲线为P',参考曲线P的 标记数据点为〇、〇',对比曲线P'的标记数据点为K、K',在进行DTW距离计算时,如果匹配的 点对同时属于各自曲线的标记数据点构成的敏感区域,则计算点对距离时乘以一个小于1 的加权系数。这样一来,两段曲线的敏感区域数据点匹配上的越多,最终的加权DTW距离和 就越小,能够更好地反应曲线敏感区域对整体形态相似度的贡献。具体的,在本步骤303中, 所述对敏感区域的曲线数据进行加权DTW距离计算的方法包括如下:设Y(i)为参考曲线的 数据集,Z(j)为对比曲线的数据集,对应地有y(i)为参考曲线数据集的敏感区域标记集合, z(j)则为对比曲线数据集的敏感区域标记集合,有以下定义: (〇 i/" F(〇e非敏感区域
[0076] >'(〇 = I 1 i/r(i)d皮峰敏感区域 (-1 i/y(i)d皮谷敏感区域 〇 i/Z(i)e非敏感区域
[0077] z(〇 = 1 i/Z(〇e波峰敏感区域 (―1 i/Z(〇e波谷敏感区域
[0078] 则若警告DTW路径搜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下 标,则该点对的距离S为: w(Y{a),Z(by) if y(a) - z(b) - 0
[0079] S 二,,、,,、、 )i (p Z{b)j p i/v(a) = z(b) ^ 0
[0080] 其中,#()表示距离度量函数4(?Z(b))表示欧式距离,且
,P(0<P<1)表示敏感区域加权系数。
[0081] 具体的,用户可以根据自己的关注程度需求设定合理的P,P值越小表示对敏感区 域的关注度越大,敏感区域对最终的DTW距离值影响就越大。例如,图7所示的点对G,在DTW 路径搜寻中被识别为匹配点对,并且根据敏感区域识别,这两个数据点都属于各自曲线的 敏感区域,因此在计算欧式距离时,需要乘以加权系数P。
[0082]步骤304,对所述距离值进行DTW距离排序,获取匹配曲线片段并输出。
[0083]值得一提的是,对应上述识别所述拉伸后的曲线数据的敏感区域的具体步骤,本 发明一种基于大数据的趋势曲线局部特征的匹配方法,其还可以包括以下步骤:
[0084]步骤3021',通过高斯滤波法将所述拉伸后的曲线数据处理并得到平滑的曲线; [0085]步骤3022',设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为 則,则有:
[0086] x(t) = W[X(t + 0 ,
[0087] 其中,〇表示滤波步长参数,i表示数据节点w的下标,j 与i含义相同;
[0088] 步骤3023',设曲线数据总长度为len,则有:0.1 * leil j表示经验数据;
[0089 ]步骤3024 ',根据曲线的斜率判断波峰和波谷的位置,若某一点的前向斜率与后向 斜率相反,则该点为波峰或波谷点;
[0090] 步骤3025',若发现两个相邻的波峰波谷之间的垂直距离差小于预设阈值0,则认 为这一对波峰波谷属于干扰点,则剔除该波峰波谷;当确定波峰和波谷点后,设波峰或波谷 点的坐标为w i,则坐标区间为[? i-0, ? i+0]的所有采样点均被认为属于敏感区域,其中0 表示敏感区域识别区间参数。
[0091] 具体的,请参看图8,由于曲线数据经过滤波处理,当滤波力度不够而导致少量一 些干扰波峰或者波谷,如图中的干扰波峰R1、干扰波谷R2,便可以进行以上相邻波峰波谷差 异度检测步骤进行检测。当发现两个相邻的波峰波谷之间的垂直距离差小于预设阈值9,则 认为这一对波峰波谷属于干扰点,应当予以剔除;当确定波峰和波谷点后,设波峰的坐标为 w 1、波谷的坐标为〇2,则坐标区间为[? 1-0,《 1+0]、[ ?2-0,《2+0]的所有采样点均被认 为属于敏感区域,其中0表示敏感区域识别区间参数,可根据需求自行设定。
[0092] 请参看图9,对应上述基于大数据的趋势曲线局部特征的匹配方法,本发明还提出 一种基于大数据的趋势曲线局部特征的匹配终端,包括:
[0093]输入模块11,用于输入需要处理的曲线数据;
[0094] 初步筛选模块12,用于对输入的曲线数据进行初步筛选处理,获取初步筛选数据 段集合;
[0095] 二次筛选模块13,用于对所述初步筛选数据段集合中的曲线数据进行二次筛选处 理,获取匹配曲线片段并输出。
[0096] 其中,请参看图10,所述二次筛选模块13包括:
[0097] 处理单元131,用于对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平 伸缩处理,获取拉伸后的曲线数据;
[0098]识别单元132,用于识别所述拉伸后的曲线数据的敏感区域;
[00"]加权计算单元133,用于对敏感区域的曲线数据进行加权DTW距离计算,并计算产 生距离值;
[0100]排序单元134,用于对所述距离值进行DTW距离排序,获取匹配曲线片段并输出。
[0101 ]具体的,请参看图11,在本发明实施例中,所述初步筛选模块11,包括:
[0102] 处理单元111,用于对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处 理,获取拉伸后的曲线数据;
[0103] 计算单元112,用于对所述拉伸后的曲线数据进行DTW距离计算,并计算产生距离 值;
[0104] 排序单元113,用于对所述距离值进行DTW距离排序,获得初步筛选数据段集合。
[0105] 本发明实施例中所述的识别单元132具体用于:通过高斯滤波法将所述拉伸后的 曲线数据处理并得到平滑的曲线;设原始的曲线数据序列为x(t),经过滤波处理后的曲线 数据序列为我t),则有: 20-
[0106] f (t) = ^ wtx(t -f i) i = - 2〇'
[0107] 其中,_ 表示滤波步长参数,i表示数据节点w的下标,j 与i含义相同;设曲线数据总长度为len,则Q = 〇.l * terwQ,表示经验数据,可以根据情况 调整,一般来说8越大,滤波力度越大;根据曲线的斜率判断波峰和波谷的位置,若某一点的 前向斜率与后向斜率相反,则该点为波峰或波谷点。
[0108] 具体的,在本发明实施例中,还包括差异度检测模块14,用于若两个相邻的波峰波 谷之间的垂直距离差小于预设阈值9,则剔除该波峰波谷;当确定波峰和波谷点后,设波峰 或波谷点的坐标为《 i,则坐标区间为[? i-0,《 i+0]的所有采样点均被认为属于敏感区 域,其中0表示敏感区域识别区间参数。
[0109] 本发明实施例中所述的加权计算单元133具体用于:设Y(i)为参考曲线的数据集, Z(j)为对比曲线的数据集,y(i)为参考曲线数据集的敏感区域标记集合,z(j)为对比曲线 数据集的敏感区域标记集合,有以下定义: ^ 〇 i/r〇非敏感区域
[0110] y(0 二.1 i/K(i)e波峰敏感区域 (一 1 i/ K(i)e波谷敏感区域 f 〇 ⑴e非敏感区域
[0111] z(〇 = I 1 i/Z(i)e 波峰敏感区域 (―1 i/Z(i)e波谷敏感区域
[0112] 则若警告DTW路径搜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下 标,则该点对的距离S为: <p(K(a),Z(/))) if y(〇) = z(h) - 0
[0113] 谷= {/.,.、,、、 ,、 (p ? p ify{ci) - z{b) ^ 0
[0114] 其中,识(?)表示距离度量函数,寧(F(?Z(b))表示欧式距离,且
,P(0<P<1)表示敏感区域加权系数。
[0115] 相比现有技术,本发明的有益效果在于:通过以上方法和终端对曲线数据进行两 次筛处理,从而获取高相似度的匹配曲线;在二次筛选处理过程中通过对曲线数据进行水 平伸缩处理和采用波峰波谷识别法将波峰波谷区域设置为敏感识别区域,并加大对波峰波 谷区域的相似度识别权值,再利用加权DTW距离计算法进行距离值计算,使得距离值的计算 相似度准确性更高,并克服了准确性受曲线局部细节的影响;本发明在计算机集群的应用 中,通过opencl实现并发计算,效率更高。
[0116]本实施例只是本发明的较优实施方式,未进行详细描述的部分均采用公知的成熟 技术。需要说明的是,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可 根据本发明作出各种相应的改变和变形,但这些改变和变形都应属于本发明所附的权利要 求的保护范围。
【主权项】
1. 一种基于大数据的趋势曲线局部特征的匹配方法,其特征在于,所述方法包括: 输入需要处理的曲线数据; 对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合; 对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输 出;其中,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,具体包括: 对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩处理,获取拉伸后的 曲线数据; 识别所述拉伸后的曲线数据的敏感区域; 对敏感区域的曲线数据进行加权DTW距离计算,并计算产生距离值; 对所述距离值进行DTW距离排序,获取匹配曲线片段并输出。2. 如权利要求1所述的方法,其特征在于,所述对输入的曲线数据进行初步筛选处理, 具体包括: 对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处理,获取拉伸后的曲线数 据; 对所述拉伸后的曲线数据进行DTW距离计算,并计算产生距离值; 对所述距离值进行DTW距离排序,获得初步筛选数据段集合。3. 如权利要求1所述的方法,其特征在于,识别所述拉伸后的曲线数据的敏感区域,具 体包括: 通过高斯滤波法将所述拉伸后的曲线数据处理并得到平滑的曲线; 设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为宠狂),则有:其中表示滤波步长参数,i表示数据节点W的下标,j与i含 义相同;设曲线数据总长度为len,则8 = 0.1 * Zen, S表示经验数据; 根据曲线的斜率判断波峰和波谷的位置,若某一点的前向斜率与后向斜率相反,则该 点为波峰或波谷点。4. 如权利要求3所述的方法,其特征在于,识别所述拉伸后的曲线数据的敏感区域还包 括:若两个相邻的波峰波谷之间的垂直距离差小于预设阔值9,则剔除该波峰波谷;当确定 波峰和波谷点后,设波峰或波谷点的坐标为《i,则坐标区间为[?1-0,《1+0]的所有采样 点均被认为属于敏感区域,其中e表示敏感区域识别区间参数。5. 如权利要求1所述的方法,其特征在于,对敏感区域的曲线数据进行加权DTW距离计 算包括:设Y(i)为参考曲线的数据集,Z(j)为对比曲线的数据集,y(i)为参考曲线数据集的 敏感区域标记集合,z(j)为对比曲线数据集的敏感区域标记集合,有W下定义:则若警告DTW路径捜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下标,贝U 该点对的距离S六其中,取0表示距离度量函数,餐(y〇), Z(W)表示欧式距离,且表示敏感区域加权系数。6. -种基于大数据的趋势曲线局部特征的匹配终端,其特征在于,包括: 输入模块,用于输入需要处理的曲线数据; 初步筛选模块,用于对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合; 二次筛选模块,用于对所述初步筛选数据段集合中的曲线数据进行二次筛选处理、获 取匹配曲线片段并输出;其中,所述二次筛选模块包括: 处理单元,用于对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩处 理、获取拉伸后的曲线数据; 识别单元,用于识别所述拉伸后的曲线数据的敏感区域; 加权计算单元,用于对敏感区域的曲线数据进行加权DTW距离计算,并计算产生距离 值; 排序单元,用于对所述距离值进行DTW距离排序、获取匹配曲线片段并输出。7. 如权利要求6所述的终端,其特征在于,所述初步筛选模块包括: 处理单元,用于对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处理、获取拉 伸后的曲线数据; 计算单元,用于对所述拉伸后的曲线数据进行DTW距离计算、并计算产生距离值; 排序单元,用于对所述距离值进行DTW距离排序、获得初步筛选数据段集合。8. 如权利要求6所述的终端,其特征在于,所述识别单元具体用于: 通过高斯滤波法将所述拉伸后的曲线数据处理并得到平滑的曲线; 设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为f(t),则有:其中O表示滤波步长参数,i表示数据节点W的下标,j与i含 义相同; 设曲线数据总长度为len,则d = (U *: ten,团表示经验数据; 根据曲线的斜率判断波峰和波谷的位置,若某一点的前向斜率与后向斜率相反,则该 点为波峰或波谷点。9. 如权利要求8所述的终端,其特征在于,还包括差异度检测模块,用于若两个相邻的 波峰波谷之间的垂直距离差小于预设阔值9,则剔除该波峰波谷;当确定波峰和波谷点后, 设波峰或波谷点的坐标为《 i,则坐标区间为[?i-e,《 i+e]的所有采样点均被认为属于敏 感区域,其中e表示敏感区域识别区间参数。10. 如权利要求6所述的终端,其特征在于,所述加权计算单元具体用于:设Y( i)为参考 曲线的数据集,Z(j)为对比曲线的数据集,y(i)为参考曲线数据集的敏感区域标记集合,Z (j)为对比曲线数据集的銳威区域标巧集合,有Pi下吿父:则若警告DTW路径捜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下标,贝U 该点对的距离S为:其中,與()表示距离度站鸣数,與(的)表示欧式距离,且表示敏感区域加权系数。
【文档编号】G06K9/62GK105913062SQ201610264725
【公开日】2016年8月31日
【申请日】2016年4月26日
【发明人】吴子铎
【申请人】深圳前海云汉金融科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1