一种数据搜索系统的制作方法

文档序号：11251003阅读：515来源：国知局

本发明涉及数据检索技术领域，尤其涉及一种数据搜索系统。

背景技术：

随着云时代的来临，大数据(bigdata)技术越来越多地被应用在人们的日常生活中，人们通常采用大数据来描述和定义信息爆炸时代产生的海量数据以及与之相关的技术发展与创新。随着数据量的迅速增长，如何从巨大的数据群中查询或搜索用户所需要的有价值的数据成为一个具有普遍意义的问题。

现有技术中，通常是用户通过个人计算机或者其他用户终端向网络发送数据查询请求，数据中心的服务器收到查询请求后开始从存储网络中查询或搜索用户所需要的数据信息。对于数据中心的服务器来说，大量的任务就是从海量的存储网络中查询或搜索用户的数据信息。目前，对于数据中心的服务器中的处理器而言，其只能直接处理内存中的数据信息，也就是说，需要先将存储网络中存储器内部存储的数据转存到服务器的内存中，处理器才能根据查询请求对数据进行查询或者搜索，最后将结果反馈给用户终端。然而，服务器的内存容量是比较有限的，对于存储网络内存储器中巨大且不断增长的数据量来说，服务器只能分多次将其转存至内存中供处理器进行处理，而且相对于处理器处理数据的速率而言，数据从存储网络转移到内存中的速率是比较慢的，这必然成为了处理器处理数据的速率瓶颈。此外，从存储网络导入服务器内存中的数据量显然要远远大于从服务器返回至用户终端的数据量，且服务器内存一般是由动态随机存储器(dynamicrandomaccessmemory，dram)组成的，需要不断刷新来保持数据，这样也会造成很大一部分功耗的浪费。

并且，随着互联网的逐渐普及，越来越多的用户终端接入网络，因此也会随之带来数量庞大的查询请求。当同一时间内查询请求比较多的时候，由于网络带宽的限制会造成网络的堵塞，使得有用信息到达用户手中的时间大大增加，从而降低了用户体验。与此同时，众多的查询请求会产生庞大的数据搜索结果，这些结果通常会保留在服务器的内存中以便立即响应同样的查询请求，这对服务器的内存容量是一个巨大的考验。传统的做法是在一定时间内依次将搜索的历史记录和结果清出内存空间，然而这样处理在面对之后相同或相近的查询请求时，就需要再次从存储网络中做一次同样的查询或搜索操作。此外，由于传统的数据中心的服务器在进行数据查询时，需要处理器和内存的共同参与，大量的用户查询请求使得处理器和内存不停工作，上述情况都会使得数据中心的功耗的成本大大增加。

技术实现要素：

根据现有技术中存在的上述问题，现提供一种数据搜索系统的技术方案，旨在有效利用服务器的空闲时段进行数据搜索，不仅为数据中心节省大量的功耗，从而降低服务商的服务成本，还提升了服务质量。

上述技术方案具体包括：

一种数据搜索系统，应用于数据中心的服务器内；其中，包括：

第一设定单元，用于设定执行数据搜索的搜索时段，于所述搜索时段内，所述服务器的处理器和内存均处于关闭状态，且所述服务器处于离线状态；

第二设定单元，提供给使用者设定数据搜索所依据的搜索规则，所述搜索规则中包括数据搜索所依赖的由至少一个关键字和/或关键词组成的搜索提示；

第一数据搜索单元，分别连接所述第一设定单元和所述第二设定单元，所述第一数据搜索单元中进一步包括：

规则获取模块，获取本次数据搜索所依赖的所述搜索规则；

规则搜索模块，连接所述规则获取模块，用于在所述搜索时段内，根据所述搜索规则对所述服务器内的存储网络进行搜索，并输出相应的搜索结果；

所述第一数据搜索单元设置在所述服务器的存储器内部的控制器中。

优选的，该数据搜索系统，其中，还包括：

统计单元，连接所述第一设定单元，所述统计单元用于对所述服务器的正常工作周期进行统计，以得到所述服务器的空闲运行时段；

所述第一设定单元根据所述空闲运行时段设定所述搜索时段。

优选的，该数据搜索系统，其中，还包括：

输入单元，连接所述第一设定单元，用于提供给使用者输入用于设定所述搜索时段的设定指令；

所述第一设定单元根据所述设定指定设定所述搜索时段。

优选的，该数据搜索系统，其中，还包括：

第一存储单元，连接所述第一数据搜索单元，用于根据所述搜索结果生成相应的结果文档并保存。

优选的，该数据搜索系统，其中，所述第一数据搜索单元中包括：

结果比较模块，连接所述规则搜索模块，用于将本次数据搜索得到的所述结果文档与上一次数据搜索得到的所述结果文档进行比较，并输出相应的比较结果；

第一通知模块，连接所述结果比较模块，用于在所述比较结果表示本次数据搜索的结果有更新时，向使用者发送通知消息。

优选的，该数据搜索系统，其中，所述第一数据搜索单元中包括：

搜索重构模块，分别连接所述结果比较模块和所述规则搜索模块，用于在所述比较结果表示本次数据搜索的结果没有更新时，根据预设规则对所述搜索规则内的所述搜索提示进行重新组合，以形成重构后的所述搜索提示；

第二通知模块，分别连接所述搜索重构模块和所述规则搜索模块，用于将根据重构后的所述搜索规则搜索得到的搜索结果形成的所述结果文档提供给使用者查看。

优选的，该数据搜索系统，其中，设置一分别连接所述第一存储单元和所述第一数据搜索单元的第二存储单元，所述第二存储单元中用于保存每次数据搜索所依赖的所述搜索规则以及从所述第一存储单元中提取的所述结果文档，并于所述第二存储单元中建立所述搜索规则与所述结果文档之间的对应关系；

所述数据搜索系统中还包括一第二数据搜索单元，所述第二数据搜索单元连接所述第二存储单元；

所述第二数据搜索单元中还包括：

请求获取模块，用于获取外部输入的包括所述搜索规则的查询请求；

查询模块，连接所述请求获取模块，用于根据所述查询请求于所述存储网络中进行数据搜索；

规则判断模块，分别连接所述请求获取模块和所述查询模块，用于根据本次数据搜索所依赖的所述搜索规则查找所述第二存储单元中是否存在相匹配的所述搜索规则，并输出相应的判断结果；

所述查询模块用于根据所述判断结果：

在所述第二存储单元中存在相匹配的所述搜索规则时，直接提取所述搜索规则对应的所述结果文档作为本次数据搜索的所述搜索结果并输出；

在所述第二存储单元中不存在相匹配的所述搜索规则时，采用本次数据搜索所依赖的所述搜索规则进行数据搜索，并输出相应的所述搜索结果。

优选的，该数据搜索系统，其中，所述第二数据搜索单元中还包括：

设定模块，连接所述规则判断模块，用于根据外部输入的指令开启或关闭所述规则判断模块。

优选的，该数据搜索系统，其中，所述服务器的存储网络中保存的数据被分别包括在多个不同的用户文件夹中；

所述数据搜索系统中还包括：

第三数据搜索单元，连接所述第一设定单元，用于在所述服务器处于离线状态时对所述服务器内不同的所述用户文件夹中进行数据搜索，以对不同的所述用户文件夹中的相同数据进行去重处理；

所述第三数据搜索单元设置在所述服务器的存储器内部的控制器中；

所述第三数据搜索单元进一步包括：

第一搜索模块，用于在所述服务器处于离线状态时对所述服务器内不同的所述用户文件夹中进行数据搜索，以发现不同的所述用户文件夹中的相同数据；

数据去重模块，连接所述第一搜索模块，用于根据所述第一搜索模块的搜索结果，在多个具有相同数据的所述用户文件夹中保留其中一个所述用户文件夹中的数据，并删除其余所有所述用户文件夹中的相同数据；

链接生成模块，连接所述数据去重模块，用于在所述数据去重模块删除一个所述用户文件夹中的数据时，于所述用户文件夹下生成一个相应的访问链接；

经过所述数据去重处理后，多个具有相同数据的不同的所述用户文件夹中仅包括一个未被删除所述相同数据的所述用户文件夹并被作为目标文件夹，被删除的相同数据被作为目标数据；

所述访问链接指向所述目标文件夹中所述目标数据的存储地址。

优选的，该数据搜索系统，其中，所述服务器的存储网络中保存的数据被分别包括在多个不同的用户文件夹中；

所述数据搜索系统中还包括：

第四数据搜索单元，连接所述第一设定单元，用于在所述服务器处于离线状态时对所述服务器内不同的所述用户文件夹中进行数据搜索，以在不同的所述用户文件夹中的相近数据之间建立对应关系；

所述第四数据搜索单元设置在所述服务器的存储器内部的控制器中；

所述第四数据搜索单元进一步包括：

第二搜索模块，用于在所述服务器处于离线状态时对所述服务器内不同的所述用户文件夹中进行数据搜索，以发现不同的所述用户文件夹中的相近数据；

标记模块，连接所述第二搜索模块，用于根据所述第二搜索模块的搜索结果，对不同的所述用户文件夹中的相近数据打上标记，以建立相近数据之间的对应关系。

上述技术方案的有益效果是：提供一种数据搜索系统，能够有效利用服务器的空闲时段进行数据搜索，不仅为数据中心节省大量的功耗，从而降低服务商的服务成本，还提升了服务质量。

附图说明

图1是本发明的较佳的实施例中，一种数据搜索系统的总体结构示意图；

图2是本发明的较佳的实施例中，第一数据搜索单元的具体结构示意图；

图3是本发明的较佳的实施例中，第二数据搜索单元的具体结构示意图；

图4是本发明的较佳的实施例中，第三数据搜索单元的具体结构示意图；

图5是本发明的较佳的实施例中，第四数据搜索单元的具体结构示意图；

图6是本发明的较佳的实施例中，服务器繁忙时段和空闲时段的时段分配示意图；

图7是本发明的较佳的实施例中，采用数据搜索系统实现数据去重处理的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

根据现有技术中存在的上述问题，现提供一种数据搜索系统，该数据搜索系统应用于数据中心的服务器内，其具体结构如图1所示，包括：

第一设定单元1，用于设定执行数据搜索的搜索时段，于搜索时段内，服务器的处理器和内存均处于关闭状态，且服务器处于离线状态；

第二设定单元2，提供给使用者设定数据搜索所依据的搜索规则，搜索规则中包括数据搜索所依赖的由至少一个关键字和/或关键词组成的搜索提示；

第一数据搜索单元3，分别连接第一设定单元1和第二设定单元2。

如图2中所示，第一数据搜索单元中进一步包括：

规则获取模块31，获取本次数据搜索所依赖的搜索规则；

规则搜索模块32，连接规则获取模块31，用于在搜索时段内，根据搜索规则对服务器内的存储网络进行搜索，并输出相应的搜索结果；

第一数据搜索单元设置在服务器的存储器内部的控制器中。

具体地，本实施例中，上述第一数据搜索单元设置在服务器的存储器(例如hdd或者ssd)内部的控制器中，即采用存储器内部的控制器直接对存储网络内的数据进行搜索，而非现有技术中采用处理器和内存进行数据搜索。

因此，上述数据搜索系统可以在网络不拥堵的时段(或者为服务器的空闲时段)内进行，这些时段内，服务器通常处于离线(off-line)状态，因此。在这些时段内(通常可以为夜间)，服务器内的处理器(cpu)和内存可以被关闭，并且采用存储器内的控制器来对存储网络中的数据进行数据搜索。

尽管采用存储器内的控制器来进行数据搜索的工作性能远比服务器中的处理器的工作性能低，执行数据处理的速度也比较慢，但是由于此时服务器处于空闲时段且处于离线状态，存储器内的控制器有大量的时间来进行数据搜索，因此工作性能方面的劣势对于用户体验来说并没有太大影响。

本实施例中，可以采用上述第一设定单元1来设定搜索时段，该搜索时段即为服务器的空闲时段(例如凌晨的0点至6点)。该搜索时段的具体设定方式在下文中会详述。

本实施例中，可以采用上述第二设定单元2来设定搜索规则，该搜索规则中可以包括数据搜索所依赖的由至少一个关键字和/或关键词组成的搜索提示。具体地，搜索提示可以为多个关键字和/或关键词的组合，并且上述搜索规则中可以进一步地包括使用者希望进行搜索的时段，当然该时段应当处于上述预先设定的搜索时段内。

例如，使用者可以根据自身的需要和兴趣设定好自动查询的关键字和/或关键词的组合以及查询频率(例如每天、每周或者每个月)，并且可以根据自己的需要设置查询的开始时间和结束时间。上述信息均被包括在搜索规则中。则搜索规则设定好并提交以后，第一数据搜索单元3会根据搜索规则，自动在搜索时段开始对相关的话题信息或者网页等内容进行搜索，最终输出搜索结果。

本发明的一个较佳的实施例中，仍然如图1所示，上述数据搜索系统中还包括：

统计单元4，连接第一设定单元1，统计单元4用于对服务器的正常工作周期进行统计，以得到服务器的空闲运行时段；

第一设定单元1根据空闲运行时段设定搜索时段。

具体地，本实施例中，上述统计单元4在服务器的正常工作周期中进行数据采集和统计，具体可以采集服务器的处理器和内存的运行情况以及服务器的整体网络带宽的占用情况，由此统计得到服务器的空闲时段。该空闲时段内，服务器接收到的用户查询请求较少，网络带宽占用较少(即网络不拥堵)，因此该空闲时段内服务器的处理器和内存可以被关闭而不会影响到服务器的正常工作。不同的服务器的空闲时段可能不同，因此采用上述统计单元4对不同的服务器做各自统计并得到其空闲时段，该空闲时段就可以被上述第一设定单元1设定为搜索时段。服务器的繁忙时段与空闲时段的对比可以大致参照图6所示。

本发明的另一个较佳的实施例中，仍然如图1所示，上述数据搜索系统中还包括：

输入单元5，连接第一设定单元1，用于提供给使用者输入用于设定搜索时段的设定指令；

第一设定单元1根据设定指定设定搜索时段。

具体地，本实施例中，上述输入单元5提供给使用者手动设定搜索时段。

图1中同时示出了上述统计单元4和输入单元5。在本发明的不同的实施例中，上述统计单元4和输入单元5可以择一使用。

本发明的较佳的实施例中，仍然如图1所示，上述数据搜索系统中还包括：

第一存储单元6，连接第一数据搜索单元3，用于根据搜索结果生成相应的结果文档并保存。

具体地，本实施例中，上述第一数据搜索单元3进行数据搜索后得到的搜索结果被形成相应的文档并被保存到第一存储单元6中。该第一存储单元6即为服务器内的存储器(hdd或者ssd)。换言之，在本发明的数据搜索过程中，无需处理器和内存的参与，仅靠存储器以及存储器内部的控制器即可完成。

本发明的较佳的实施例中，如图2中所示，上述第一数据搜索单元3中进一步包括：

结果比较模块33，连接规则搜索模块32，用于将本次数据搜索得到的结果文档与上一次数据搜索得到的结果文档进行比较，并输出相应的比较结果；

第一通知模块34，连接结果比较模块33，用于在比较结果表示本次数据搜索的结果有更新时，向使用者发送通知消息。

具体地，本实施例中，当结束每次数据搜索并生成对应该次数据搜索的结果文档后，需要采用结果比较模块33对该次数据搜索对应的结果文档和前次数据搜索对应的结果文档进行比较，以判断对同一个活体或网页的搜寻结果是否有更新信息：

若有更新信息，则整理好后归入一个新的文档内并保存到第一存储单元6中，随后将该文档作为通知消息发送给使用者，例如可以通过邮件、短信或者即时通信软件等方式将上述通知消息推送给使用者，该推送操作需要等到搜索时段结束后(即服务器的处理器和内存重新开始工作时)再执行。

若无更新信息，则服务器不需要重新制作新的文档，也不需要通知使用者。当然，服务器和使用者之间应当事先约定好，当服务器未向使用者推送通知消息时，表示搜索结果没有更新信息。相应地，使用者也可以通过事先设置的方式要求服务器在没有更新信息时仍然通知使用者获知搜索结果，即上述通知方式可以根据使用者的设置进行变化。

则通过上述设置，本发明技术方案中的数据搜索系统不仅省去了使用者需要经常输入信息进行相应查询操作的麻烦，同时降低了数据中心服务器的功耗和成本。

本发明的较佳的实施例中，上述结果比较模块33连接规则搜索模块32，用于将本次数据搜索得到的结果文档与上一次数据搜索得到的结果文档进行比较，并输出相应的比较结果。

则仍然如图1中所示，上述第一数据搜索单元3中进一步包括：

搜索重构模块35，分别连接结果比较模块33和规则搜索模块32，用于在比较结果表示本次数据搜索的结果没有更新时，根据预设规则对搜索规则内的搜索提示进行重新组合，以形成重构后的搜索提示；

第二通知模块36，分别连接搜索重构模块35和规则搜索模块32，用于将根据重构后的搜索规则搜索得到的搜索结果形成的结果文档提供给使用者查看。

具体地，本实施例中，在本次数据搜索相对于前次数据搜索没有更新信息时，需要进一步提供一种模糊搜索的机制。该机制下，采用一个搜索重构模块35对搜索规则内的搜索提示进行重新组合，以形成重构后的搜索提示，并依据包括重构后的搜索提示的搜索规则重新进行搜索。具体地，所谓对搜索提示进行重新组合，是指对搜索提示内的关键字和/或关键词进行重新排列组合，以形成新的搜索提示，该新的搜索提示与之前的搜索提示之间具有一定的关联度，但又不会是相同的搜索提示，因此可以采用新的搜索提示重新开始数据搜索，以扩大搜索范围。

本实施例中，上述搜索提示的重构过程可以包括：利用随机数产生器产生一组随机数，然后利用这组随机数对搜索提示内的关键字和/或关键词进行重组，或者删除其中的个别关键字词，之后形成重构后的搜索提示。

例如，用户要搜索的内容(即由关键词组成的搜索提示)为“空调，智能，转速可变，某品牌1，某品牌2”，如果在一次搜索中，相对前一次搜索没有更新的结果，那么将“空调”编码为1，将“智能”编码为2，将“转速可变”编码为3，将“某品牌1”编码为4，将“某品牌2”编码为5，并且利用随机数产生器产生n(n<5)个随机数，这些随机数的取值范围为1到5。比如某一次产生的随机数为1，3，4，5，那么利用这组随机数进行重构后形成的搜索提示即为“空调，转速可变，某品牌1，某品牌2”。

本实施例中，在进行重新搜索后，根据搜索结果生成一个新的文档并保存到第一存储单元6中，随后将该文档作为通知消息发送给使用者。发送方式和发送时间均可以参照上文中对于第一通知模块34的描述，在此不再赘述。

本发明的较佳的实施例中，仍然如图1中所示，于上述数据搜索系统中，设置一分别连接第一存储单元6和第一数据搜索单元3的第二存储单元7，第二存储单元7中用于保存每次数据搜索所依赖的搜索规则以及从第一存储单元6中提取的结果文档，并于第二存储单元7中建立搜索规则与结果文档之间的对应关系；

则上述数据搜索系统中还包括一第二数据搜索单元8，第二数据搜索单元8连接第二存储单元7；

如图3中所示，第二数据搜索单元8中还包括：

请求获取模块81，用于获取外部输入的包括搜索规则的查询请求；

查询模块82，连接请求获取模块81，用于根据查询请求于存储网络中进行数据搜索；

规则判断模块83，分别连接请求获取模块81和查询模块82，用于根据本次数据搜索所依赖的搜索规则查找第二存储单元中是否存在相匹配的搜索规则，并输出相应的判断结果；

则上述查询模块81用于根据判断结果：

在第二存储单元7中存在相匹配的搜索规则时，直接提取搜索规则对应的结果文档作为本次数据搜索的搜索结果并输出；

在第二存储单元7中不存在相匹配的搜索规则时，采用本次数据搜索所依赖的搜索规则进行数据搜索，并输出相应的搜索结果。

具体地，本发明的一个实施例中，上述第二数据搜索单元8可以设置在服务器的处理器中，此时意味着第二数据搜索单元8的数据搜索操作在上述搜索时段之外(即处理器和内存正常工作时)执行。本发明的另一个实施例中，上述第二数据搜索单元8也可以设置在存储器的控制器中，此时意味着第二数据搜索单元8的数据搜索操作在上述搜索时段内(即处理器和内存关闭时)执行。

本实施例中，上述第二存储单元7可以为服务器的内存，或者非易失性存储器，或者存储网络中的其他存储器。在搜索时段内，第一数据搜索单元3的每次数据搜索后得到的结果文档，除了被保存到第一存储单元6中之外，还在服务器的处理器和内存重新开始正常工作时被保存到第二存储单元7中。除此之外，上述第二存储单元7还连接第一数据搜索单元3，在处理器和内存开始正常工作时，上述第一数据搜索单元3每次搜索所依赖的搜索规则均被传到第二存储单元7中保存，并且在第二存储单元7中建立搜索规则与结果文档之间的对应关系。

则具体地，当第二数据搜索单元8中的请求获取模块81接收到一个查询请求后，规则判断模块83会从该查询请求中解析出相应的搜索规则(即关键字/词的组合)，并依据该搜索规则从第二存储单元8中检索是否存在相匹配的搜索规则：

若存在，则说明本次数据搜索所依赖的搜索规则在之前已经有人搜索过，此时直接提取相对应的结果文档并推送给使用者即可；

若不存在，则说明本次数据搜索所依赖的搜索规则在之前并没有人使用过，此时直接根据该搜索规则重新开始一次正常的数据搜索即可。

本实施例中，所谓搜索规则相匹配，是指搜索规则相同或者相近。进一步地，是指搜索规则中的关键字/词相同或者相近。例如，两个搜索规则中所包括的关键字/词相同(不考虑关键字/词的排列顺序)，或者两个搜索规则中所包括的关键字/词仅有少数几个字/词的增减等。

本发明技术方案中，应用上述搜索方法，能够使得数据中心的服务器省去重复到存储网络中搜寻相关内容的操作，从而节省了功耗。

本发明的较佳的实施例中，仍然如图3中所示，上述第二数据搜索单元8中还包括：

设定模块84，连接规则判断模块83，用于根据外部输入的指令开启或关闭规则判断模块83。

具体地，使用者可以通过上述设定模块84自行设置是否需要在数据搜索之前先做匹配操作：

若使用者输入指令控制上述设定模块84开启规则判断模块83，则表示使用者希望在数据搜索之前先做匹配操作，上述第二数据搜索单元8就会根据上文中所述的匹配过程进行搜索规则的匹配以及相应的数据搜索处理。

若使用者输入指令控制上述设定模块84关闭规则判断模块83，则表示使用者希望直接进行数据搜索，上述第二数据搜索单元8就会直接根据使用者输入的查询请求中包括的搜索规则进行数据搜索。

本发明的较佳的实施例中，上述服务器的存储网络中保存的数据被分别包括在多个不同的用户文件夹中；

则仍然如图1中所示，上述数据搜索系统中还包括：

第三数据搜索单元9，连接第一设定单元1，用于在服务器处于离线状态时对服务器内不同的用户文件夹中进行数据搜索，以对不同的用户文件夹中的相同数据进行去重处理。

上述第三数据搜索单元9设置在服务器的存储器内部的控制器中，即第三数据搜索单元9同样在搜索时段内通过存储器内的控制器实现相应功能。

则进一步地，如图4中所示，上述第三数据搜索单元9中包括：

第一搜索模块91，用于在服务器处于离线状态时对服务器内不同的用户文件夹中进行数据搜索，以发现不同的用户文件夹中的相同数据；

数据去重模块92，连接第一搜索模块91，用于根据第一搜索模块91的搜索结果，在多个具有相同数据的用户文件夹中保留其中一个用户文件夹中的数据，并删除其余所有用户文件夹中的相同数据；

链接生成模块93，连接数据去重模块92，用于在数据去重模块92删除一个用户文件夹中的数据时，于用户文件夹下生成一个相应的访问链接；

经过数据去重处理后，多个具有相同数据的不同的用户文件夹中仅包括一个未被删除相同数据的用户文件夹并被作为目标文件夹，被删除的相同数据被作为目标数据；

上述访问链接指向目标文件夹中目标数据的存储地址。

具体地，本实施例中，在服务器处于空闲时段(此时处于离线状态)时，存储器中的控制器将自动对存储网络内部存储的数据进行全面的搜查，以对存储网络执行数据去重处理。具体包括：

首先采用一个第一搜索模块91，对整个存储空间进行搜索，搜索存储空间内的不同的用户文件夹中是否存在相同的数据，并输出搜索结果。

随后采用一个数据去重模块92，根据上述搜索结果，对具有相同数据的不同用户文件夹，只保留其中一个用户文件夹中的相同数据，删除其余所有用户文件夹中的相同数据，并将被保留相同数据的用户文件夹视为目标文件夹，将其中被保留的相同数据视为目标数据。

最后，采用一个链接生成模块93，在被删除相同数据的用户文件夹的相应存储位置上生成一个访问链接，该访问链接指向目标文件夹中保存目标数据的存储地址，即使用者可以通过该访问链接直接访问目标数据，并且经过数据去重处理之后，在整个存储网络中仅存在一个用户文件夹中保存有目标数据，其余用户文件夹中不再保存与目标文件夹中的目标数据相同的数据。

本发明的一个较佳的实施例中，上述数据去重处理的大致处理流程可以参照图7中所示。图7中，一个名为“用户甲”的用户文件夹中保存有文件a、文件b、文件c以及其他文件，另一个名为“用户乙”的用户文件夹中保存有文件a、文件y、文件z以及其他文件。则经过数据搜索之后发现，两个用户文件夹中保存有相同数据“文件a”，此时保留用户甲中的文件a(即将用户甲视为目标文件夹，将文件a视为目标数据)，删除用户乙中的文件a，并在用户乙中原本保存文件a的存储位置新生成一个访问链接，该访问链接直接链接到用户甲下文件a的存储地址。

本发明的较佳的实施例中，上述服务器的存储网络中保存的数据被分别包括在多个不同的用户文件夹中；

则仍然如图1中所示，上述数据搜索系统中还包括：

第四数据搜索单元10，连接第一设定单元1，用于在服务器处于离线状态时对服务器内不同的用户文件夹中进行数据搜索，以在不同的用户文件夹中的相近数据之间建立对应关系；

上述第四数据搜索单元10设置在服务器的存储器内部的控制器中，即第四数据搜索单元10同样在搜索时段内通过存储器内的控制器实现相应功能。

进一步地，如图5中所示，上述第四数据搜索单元10中包括：

第二搜索模块101，用于在服务器处于离线状态时对服务器内不同的用户文件夹中进行数据搜索，以发现不同的用户文件夹中的相近数据。上述相近数据的判断可以通过预先设定相似度来实现。例如预先设置一个标准的数据相似度为40％或者50％，当两个数据之间的相似度超过该标准的数据相似度时则认为这两个数据是相近数据。本实施例中，由于每个数据或者文件分别有其不同的属性，例如作者、内容的相关性、所属领域、所包括的关键词等，上文中所述的数据相似度可以通过判断数据属性相似的程度来实现。例如数据包括四类不同的属性，则两个数据之间存在两类属性相同则可以认为这两个数据之间的数据相似度为50％。)

标记模块102，连接第二搜索模块101，用于根据第二搜索模块的搜索结果，对不同的用户文件夹中的相近数据打上标记，以建立相近数据之间的对应关系。

具体地，本实施例中，本实施例中，在服务器处于空闲时段(此时处于离线状态)时，存储器中的控制器将自动对存储网络内部存储的数据进行全面的搜查，以建立存储网络内不同数据之间的关联数据库。

首先采用一第二搜索模块101对存储网络中的全部数据进行搜索，以发现存储网络中的相近数据，输出相应的搜索结果。

随后采用一标记模块102对相近数据打上标记以建立相关关系，即通过数据搜索以及标记设置建立存储网络中保存的数据的关系数据库。建立关系数据库后，当使用者后续查询信息时，就能够提供更多相似的信息供使用者了解和选择。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜源;李鸽子;景蔚亮;陈小刚;陈邦明
技术所有人：上海新储集成电路有限公司
我是此专利的发明人

上一篇：一种文本分类方法与流程
上一篇：一种数据处理方法、分布式文件系统及数据服务器与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。