一种数据处理方法和装置的制造方法

文档序号：9471484阅读：222来源：国知局

一种数据处理方法和装置的制造方法
【技术领域】
[0001] 本发明设及数据处理技术领域，特别是设及一种数据处理方法和装置。
【背景技术】
[0002] 多个数据源头（如：影视大全、豆瓣、格瓦拉、万达等）存储的数据可能存在交集，很多情况下需要对存在交集的数据进行筛选与合并，W对存储空间进行有效利用，提升各数据源头存储空间的有效利用率。
[0003] 目前，在对多个数据源头的影视数据进行数据合并时，需要对各数据源头中存储的所有的数据进行相互匹配，W找到相同的影视数据，从而进行合并操作。常规的对各数据源头中存储的数据进行匹配的方式为：确定一个数据源头中的存储的一段影视数据为待匹配的影视数据，将确定的该段待匹配的影视数据分别与同一数据源头W及其它数据源头中存储的各段影视数据进行两两匹配，最终确定出与当前待匹配的影视数据相匹配的影视数据。重复上述方式，分别对各数据源头中存储的各段影视数据进行处理，W分别筛选出各段影视数据相匹配的影视数据。
[0004] 现有的运种直接对所有的数据进行两两匹配、合并的方式所占用时间的复杂度为 0 (n2)，整个计算过程所占用的时间长。

【发明内容】
阳〇化]鉴于上述现有的数据匹配、合并方法进行数据合并占用时间长的问题，提出了本发明W便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法和装置。
[0006] 依据本发明的一个方面，提供了一种数据处理方法，包括：对各数据源中存储的数据按照第一设定关键词组进行投影，W获得与各设定关键词相匹配的数据组；针对每个数据组分别判断存储的数据中是否存在两两匹配的数据；当存在两两匹配的数据时，将两两匹配的数据进行合并生成匹配后的数据组；将匹配后的全部数据组中存储的数据组合成第一数据集合。
[0007] 优选地，在所述将匹配后的全部数据组中存储的数据组合成一个数据集合的步骤之后，所述方法还包括：对组合后的所述数据集合中存储的数据按照第二设定关键词组进行投影，W获得与各设定关键词相匹配的数据组；针对每个数据组分别判断存储的数据中是否存在两两匹配的数据；当存在两两匹配的数据时，将两两匹配的数据进行合并生成匹配后的数据组；将匹配后的全部数据组中存储的数据组合成第二数据集合。
[0008] 优选地，所述针对每个数据组分别判断存储的数据中是否存在两两匹配的数据的步骤包括：针对当前数据组判断存储的数据中是否存在两两匹配的数据时：判断当前数据组中是否存储有至少两段数据；若是，则判断存储的数据中是否存在两两匹配的数据。
[0009] 优选地，所述数据源为影视数据存储源；所述第一设定关键词组为主电影名的前两个字，所述第二设定关键词组为导演名。
[0010] 依据本发明的一个方面，还提供了一种数据处理装置，其特征在于，包括：第一分组模块，用于对各数据源中存储的数据按照第一设定关键词组进行投影，w获得与各设定关键词相匹配的数据组；第一合并模块，用于针对每个数据组分别判断存储的数据中是否存在两两匹配的数据；当存在两两匹配的数据时，将两两匹配的数据进行合并生成匹配后的数据组；第一组合模块，用于将匹配后的全部数据组中存储的数据组合成第一数据集合。
[0011] 优选地，所述装置还包括：第二分组模块，用于在所述第一组合模块将匹配后的全部数据组中存储的数据组合成一个数据集合之后，对组合后的所述数据集合中存储的数据按照第二设定关键词组进行投影，W获得与各设定关键词相匹配的数据组；第二合并模块，用于针对每个数据组分别判断存储的数据中是否存在两两匹配的数据；当存在两两匹配的数据时，将两两匹配的数据进行合并生成匹配后的数据组；第二组合模块，用于将匹配后的全部数据组中存储的数据组合成第二数据集合。
[0012] 优选地，所述第一合并模块针对每个数据组分别判断存储的数据中是否存在两两匹配的数据，针对当前数据组判断存储的数据中是否存在两两匹配的数据时：判断当前数据组中是否存储有至少两段数据；若是，则判断存储的数据中是否存在两两匹配的数据。
[0013] 优选地，所述数据源为影视数据存储源；所述第一设定关键词组为主电影名的前两个字，所述第二设定关键词组为导演名。
[0014] 与现有技术相比，本发明具有W下优点：
[0015] 本发明实施例提供的数据处理方案，将各数据源中的数据首先按照设定关键词组进行投影成多个数据组，然后将投影后的各数据组分别进行两两匹配、合并。相较于现有的直接将各数据源中存储的数据进行两两匹配、合并的数据处理方案，大大缩短了数据处理时间。
[0016] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予W实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，W下特举本发明的【具体实施方式】。
【附图说明】
[0017] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0018] 图1是根据本发明实施例一的一种数据处理方法的步骤流程图；
[0019] 图2是根据本发明实施例二的一种数据处理方法的步骤流程图；
[0020] 图3是采用实施例二中所述的方法进行数据处理的流程示意图；
[0021] 图4是根据本发明实施例=的一种数据处理装置的结构框图。
【具体实施方式】
[0022] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可各种形式实现本公开而不应被运里阐述的实施例所限制。相反，提供运些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。 W23] 实施例一
[0024] 参照图1，示出了本发明实施例一的一种数据处理方法的步骤流程图。
[0025] 本发明实施例的数据处理方法包括W下步骤：
[00%] 步骤S102 :对各数据源中存储的数据按照第一设定关键词组进行投影，W获得与各设定关键词相匹配的数据组。
[0027] 其中，第一设定关键词组可W由本领域技术人员根据实际需求进行设置。例如：可 W设置成一组电影名称，还可W设定成多个电影的第一导演的姓名。
[0028] 例如：第一关键词组为A、B、C和D，各数据源中存储的数据为1、2、3、4、5、6、7和8。其中，1和2与关键词A匹配，3和4与关键词B匹配，5和6与关键词C匹配，7和8与关键词D匹配，在按照第一关键词组进行投影时，将1、2投影至一个数据组，将2、3投影至一个数据组，将4、5投影至一个数据组，将6、7投影至一个数据组。
[0029] 步骤S104 :针对每个数据组分别判断存储的数据中是否存在两两匹配的数据；当存在两两匹配的数据时，将两两匹配的数据进行合并生成匹配后的数据组。
[0030] 例如通过步骤S102将所有待处理的数据分成了A、B和CS个数据组，则在本步骤中，分别对=个数据组中的数据进行两两匹配并合并。
[0031] 具体地，对各数据组中的数据进行两两匹配并合时可W参见相关技术，本发明实施例对此不作具体限制。
[0032] 步骤S106:将匹配后的全部数据组中存储的数据组合成第一数据集合。
[0033] 通过本发明实施例提供的数据处理方法，将各数据源中的数据首先按照设定关键词组进行投影成多个数据组，然后将投影后的各数据组分别进行两两匹配合并，相较于现有的直接将各数据源中存储的数据进行两两合并的数据处理方法，大大缩短了数据处理时间。
[0034] 实施例二
[0035] 参照图2,示出了本发明实施例二的一种数据处理方法的步骤流程图。
[0036] 本发明实施例的数据处理方法具体包括W下步骤：
[0037] 步骤S202 :处理装置对各数据源中存储的数据按照第一设定关键词组进行投影， W获得与各设定关键词相匹配的数据组。
[0038] 其中，处理装置可W是计算机、服务器等具有运算功能的设备。
[0039] 需要说明的是，本发

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李兆军;蔡龙军;
技术所有人：北京奇艺世纪科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。