一种数据过滤、构造数据滤波器的方法及装置的制造方法_2

文档序号:9471405阅读:来源:国知局
量分别进行归一化操 作,使所述k个检测向量的L2范数为1 ;其中,所述特定分布满足:从所述特定分布中获得 的任意向量,在进行归一化操作后,其L2范数均为1。
[0049] 结合第四方面或第四方面的第一种可能的实现方式,在第四方面的第二种可能的 实现方式中,所述装置还包括操作模块,用于:对所述k段样本子向量分别进行归一化操 作;
[0050] 所述执行模块用于将所述k段样本子向量分别与预设的k个检测向量中相应的检 测向量进行特定运算,获得k个第二运算结果,具体为:将归一化操作后的所述k段样本子 向量分别与所述k个检测向量中相应的检测向量进行所述特定运算,获得所述k个第二运 算结果。
[0051] 本发明的第五方面,提供一种数据过滤装置,包括:处理器,存储器;
[0052] 其中,所述存储器用于存储处理器执行程序所需的指令,所述处理器用于读取所 述存储器存储的指令来执行如下方法:将待测向量进行分段,获得k个待测子向量;将所述 k个待测子向量分别与预设的k个检测向量中相应的检测向量进行内积运算,获得k个第一 运算结果;确定其中值最大的第一运算结果,获取该第一运算结果所对应的检测向量的标 识;其中,检测向量与标识为一一对应的关系;将所述待测向量按照获取的、与值最大的第 一运算结果所对应的检测向量的标识映射到预设的数据滤波器中,通过所述数据滤波器确 定是否将所述待测向量滤除。
[0053] 结合第五方面,在第五方面的第一种可能的实现方式中,所述处理器还用于读取 所述存储器存储的指令来执行如下方法:在将待测向量进行分段,获得k个待测子向量之 后,对所述k个待测子向量分别进行归一化操作;
[0054] 所述处理器用于将所述k个待测子向量分别与预设的k个检测向量中相应的检测 向量进行内积运算,获得k个第一运算结果,具体为:将归一化操作后的所述k个待测子向 量分别与所述k个检测向量中相应的检测向量进行所述内积运算,获得所述k个第一运算 结果。
[0055] 结合第五方面或第五方面的第一种可能的实现方式,在第五方面的第二种可能的 实现方式中,所述处理器还用于读取所述存储器存储的指令来执行如下方法:在将待测向 量进行分段,获得k个待测子向量之前,构造所述数据滤波器。
[0056] 结合第五方面的第二种可能的实现方式,在第五方面的第三种可能的实现方式 中,所述处理器用于构造所述数据滤波器,具体为:
[0057] 取N个样本向量,针对所述N个样本向量中的每个样本向量,执行以下步骤:将样 本向量进行分段,获得k个样本子向量;将所述k个样本子向量分别与预设的所述k个检测 向量中相应的检测向量进行内积运算,获得k个第二运算结果;确定其中值最大的第二运 算结果,获取该第二运算结果所对应的检测向量的标识;将所述样本向量映射到获取的、与 值最大的第二运算结果所对应的检测向量的标识对应的哈希桶中;其中,为每个检测向量 预设有一个哈希桶,共预设有k个哈希桶,且检测向量的标识与哈希桶为一一对应的关系;
[0058] 在将所述N个样本向量映射完毕后,分别获得所述k个哈希桶的值,以根据相应哈 希桶的值确定是否滤除所述待测向量;其中,每个哈希桶的值为映射到该哈希桶中的样本 向量的总数量;
[0059] 确定所述数据滤波器构造完毕;其中,所述数据滤波器中包括所述k个检测向量、 和分别对应有相应哈希桶的值的所述k个哈希桶。
[0060] 结合第五方面的第三种可能的实现方式,在第五方面的第四种可能的实现方式 中,所述处理器用于将所述待测向量按照获取的、与值最大的第一运算结果所对应的检测 向量的标识映射到预设的数据滤波器中,通过所述数据滤波器确定是否将所述待测向量滤 除,具体为:将所述待测向量映射到特定的哈希桶中,并判断所述特定的哈希桶的值是否大 于预设阈值;其中,所述特定的哈希桶为:所述数据滤波器中的、与值最大的第一运算结果 所对应的检测向量的标识对应的哈希桶;若大于,确定将所述待测向量滤除。
[0061] 结合第五方面的第三种可能的实现方式或第四种可能的实现方式,在第五方面的 第五种可能的实现方式中,所述处理器还用于读取所述存储器存储的指令来执行如下方 法:在将样本向量进行分段,获得k个样本子向量之前,从特定分布中获得所述k个检测向 量,并对所述k个检测向量分别进行归一化操作,使所述k个检测向量的L2范数为1 ;其中, 所述特定分布满足:从所述特定分布中获得的任意向量,在进行归一化操作后,其L2范数 均为1。
[0062]结合第五方面的第三种可能的实现方式或第四种可能的实现方式或第五种可能 的实现方式,在第五方面的第六种可能的实现方式中,所述处理器还用于读取所述存储器 存储的指令来执行如下方法:在获得k个样本子向量之后,对所述k个样本子向量分别进行 归一化操作;
[0063]所述处理器用于将所述k个样本子向量分别与预设的所述k个检测向量中相应的 检测向量进行内积运算,获得k个第二运算结果,具体为:将归一化操作后的所述k个样本 子向量分别与所述k个检测向量中相应的检测向量进行所述内积运算,获得所述k个第二 运算结果。
[0064] 本发明的第六方面,提供一种构造数据滤波器的装置,包括:处理器,存储器; [0065] 其中,所述存储器用于存储处理器执行程序所需的指令,所述处理器用于读取所 述存储器存储的指令来执行如下方法:取N个样本向量,针对所述N个样本向量中的每个样 本向量,执行以下步骤:将样本向量进行分段,获得k个样本子向量;将所述k个样本子向 量分别与预设的所述k个检测向量中相应的检测向量进行内积运算,获得k个第二运算结 果;确定其中值最大的第二运算结果,获取该第二运算结果所对应的检测向量的标识;将 所述样本向量映射到获取的、与值最大的第二运算结果所对应的检测向量的标识对应的哈 希桶中;其中,为每个检测向量预设有一个哈希桶,共预设有k个哈希桶;每个检测向量对 应有一个标识,检测向量与标识为 对应的关系;检测向量的标识与哈希桶也为 对 应的关系;在将所述N个样本向量映射完毕后,分别获得所述k个哈希桶的值,以根据相应 哈希桶的值确定是否滤除所述待测向量;其中,每个哈希桶的值为映射到该哈希桶中的样 本向量的总数量;确定所述数据滤波器构造完毕;其中,所述数据滤波器中包括所述k个检 测向量、和分别对应有相应哈希桶的值的所述k个哈希桶。
[0066] 结合第六方面,在第六方面的第一种可能的实现方式中,所述处理器还用于读取 所述存储器存储的指令来执行如下方法:在将样本向量进行分段,获得k个样本子向量之 前,从特定分布中获得所述k个检测向量,并对所述k个检测向量分别进行归一化操作,使 所述k个检测向量的L2范数为1 ;其中,所述特定分布满足:从所述特定分布中获得的任意 向量,在进行归一化操作后,其L2范数均为1。
[0067]结合第六方面或第六方面的第一种可能的实现方式,在第六方面的第二种可能的 实现方式中,所述处理器还用于读取所述存储器存储的指令来执行如下方法:在获得k个 样本子向量之后,对所述k段样本子向量分别进行归一化操作;
[0068] 所述处理器用于将所述k段样本子向量分别与预设的所述k个检测向量中相应的 检测向量进行特定运算,获得k个第二运算结果,包括:将归一化操作后的所述k段样本子 向量分别与所述k个检测向量中相应的检测向量进行所述特定运算,获得所述k个第二运 算结果。
[0069] 本发明实施例中所述待测向量即为待检测流数据,将所述待测向量分为多个待测 子向量进行检测,可以在保证精测精度的同时降低计算复杂度。并且,本发明实施例中通过 内积来确定两个向量是否相似,比通过字符串匹配更为准确,也能够处理复杂度较高的数 据。相对于构造模型的现有技术来说,本发明实施例的过程较为简单,节省操作步骤。
【附图说明】
[0070] 图1为本发明实施例中数据过滤方法的主要流程图;
[0071] 图2为本发明实施例中构造数据滤波器的方法的主要流程图;
[0072] 图3为本发明实施例中数据过滤装置的主要结构框图;
[0073] 图4为本发明实施例中构造数据滤波器的装置的主要结构框图;
[0074] 图5为本发明实施例中数据过滤装置的主要结构示意图;
[0075] 图6为本发明实施例中构造数据滤波器的装置的主要结构示意图。
【具体实施方式】
[0076] 本发明实施例中的数据过滤方法可以包括:将待测向量进行分段,获得k个待测 子向量;将所述k个待测子向量分别与预设的k个检测向量中相应的检测向量进行内积运 算,获得k个第一运算结果;确定其中值最大的第一运算结果,获取该第一运算结果所对应 的检测向量的标识;其中,每个检测向量对应有一个标识,且检测向量与标识为--对应的 关系;将所述待测向量按照获取的、与值最大的第一运算结果所对应的检测向量的标识映 射到预设的数据滤波器中,通过所述数据滤波器确定是否将所述待测向量滤除。
[0077] 本发明实施例中所述待测向量即为待检测流数据,将所述待测向量分为多个待测 子向量进行检测,可以在保证精测精度的同时降低计算复杂度。并且,本发明实施例中通过 内积来确定两个向量是否相似,比通过字符串匹配更为准确,也能够处理复杂度较高的数 据。
[0078] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0079] 本文中描述的技术可用于各种通信系统,例如当前2G,3G通信系统和下一代通 信系统,例如全球移动通信系统(GlobalSystemforMobilecommunications,GSM),码分 多址(CodeDivisionMultipleAccess,CDMA)系统,时分多址(TimeDivisionMultiple Access,TDMA)系统,宽带码分多址(WidebandCodeDivisionMultipleAccessWireless, WCDMA),频分多址(FrequencyDivisionMultipleAddressing,FDMA)系统,正交频分多址 (OrthogonalFrequency-DivisionMultipleAccess,0FDMA)系统,单载波FDMA(SC-FDMA) 系统,通用分组无线业务(GeneralPacketRadioService,GPRS)系统,长期演进(LongTerm Evolution,LTE)系统,以及其他此类通信系统。
[0080] 另外,本文中术语"系统"和"网络"在本文中常被可互换使用。本文中术语"和/ 或",仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以 表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符"/",如无特 殊说明,一般表示前后关联对象是一种"或"的关系。
[0081] 下面结合说明书附图对本发明实施例作进一步详细描述。
[0082]请参见图1,本发明实施例提供一种数据过滤方法,所述方法的主要流程描述如 下。
[0083]步骤101:将待测向量进行分段,获得k个待测子向量。
[0084]本发明实施例中,在进行数据滤波之前,需要首先构造数据滤波器。即,在步骤101之前,所述方法还包括:构造所述数据滤波器。
[0085]可选的,本发明实施例中,构造所述数据滤波器,包括:
[0086] 取N个样本向量,针对所述N个样本向量中的每个样本向量,执行以下步骤:将样 本向量进行分段,获得k个样本子向量;将所述k个样本子向量分别与预设的k个检测向量 中相应的检测向量进行内积运算,获得k个第二运算结果;确定其中值最大的第二运算结 果,获取该第二运算结果所对应的检测向量的标识;将所述样本向量映射到获取的、与值最 大的第二运算结果所对应的检测向量的标识对应的哈希桶中;其中,为每个检测向量预设 有一个哈希桶,共预设有k个哈希桶,且检测向量的标识与哈希桶为一一对应的关系;
[0087] 在将所述N个样本向量映射完毕后,分别获得所述k个哈希桶的值,以根据相应哈 希桶的值确定是否滤除所述待测向量;其中,每个哈希桶的值为映射到该哈希桶中的样本 向量的总数量;
[0088] 确定所述数据滤波器构造完毕;其中,所述数据滤波器中包括所述k个检测向量、 和分别对应有相应哈希桶的值的所述k个哈希桶。
[0089] 在构造所述数据滤波器时,需要使用多个样本向量,例如共使用所述N个样本向 量。理论上来说,N越大则构造出的数据滤波器的滤波效果会越好,但考虑到运算量等因素, 可以根据实际情况来确定N的值。
[0090] 本发明实施例中,所述k个检测向量可以是从特定分布中获得的,对于其中的每 个检测
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1