一种索引库更新方法及装置的制造方法

文档序号:9727443阅读:371来源:国知局
一种索引库更新方法及装置的制造方法
【技术领域】
[0001]本发明涉及索引技术领域,特别涉及一种索引库更新方法及装置。
【背景技术】
[0002]索引服务是一项系统服务(IndexingService),使用文档筛选器读取整个文档,并提取文档和属性传递给索引程序,这个过程称为“索引”。索引服务可以从一组文档中提取并组织信息,以便通过Windows搜索功能、索引服务查询表或Web浏览器快速容易地访问该信息,该信息可以包含文档中的文本(内容)、文档的特征和参数(属性)。通过索引可以对信息进行快速访问。
[0003]目前,更新索引库的方法为:将每次获取到的数据添加在索引库中。
[0004]但是,应用上述的方法更新索引库,较占用系统存储空间,需要运维人员每隔一段时间对系统存储空间进行扩容。

【发明内容】

[0005]本发明实施例的目的在于提供一种索引库更新方法及装置,以减少存储空间的占用。
[0006]为达到上述目的,本发明实施例公开了一种索引库更新方法,预先建立用于存储目标数据类型的数据的索引库;方法包括:
[0007]从互联网中获得所述目标数据类型的第一数据;
[0008]根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
[0009]删除所述第一数据和所述第二数据中的待删除数据;
[0010]将所获得的第一数据中的非待删除数据,添加在所述索引库中。
[0011 ]可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
[0012]利用爬虫技术,从互联网中获得所述第一数据。
[0013]可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
[0014]每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
[0015]可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
[0016]从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
[0017]可选的,所述根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,包括:
[0018]将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
[0019]将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
[0020]为达到上述目的,本发明实施例公开了一种索引库更新装置,包括:建立模块、获得模块、确定模块、删除模块和更新模块,其中,
[0021]所述建立模块,用于预先建立用于存储目标数据类型的数据的索引库;
[0022]所述获得模块,用于从互联网中获得所述目标数据类型的第一数据;
[0023]所述确定模块,用于根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
[0024]所述删除模块,用于删除所述确定模块确定的待删除数据;
[0025]所述更新模块,用于将所述获得模块获得的第一数据中的非待删除数据,添加在所述建立模块建立的索引库中。
[0026]可选的,所述获得模块,具体用于:
[0027]利用爬虫技术,从互联网中获得所述第一数据。
[0028]可选的,所述获得模块,具体用于:
[0029]每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
[0030]可选的,所述获得模块,具体用于:
[0031]从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
[0032]可选的,所述确定模块,具体用于:
[0033]将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
[0034]将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
[0035]由上述的技术方案可见,本发明实施例提供了一种索引库更新方法及装置,预先建立用于存储目标数据类型的数据的索引库;方法包括:从互联网中获得所述目标数据类型的第一数据;根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;删除所述第一数据和所述第二数据中的待删除数据;将所获得的第一数据中的非待删除数据,添加在所述索引库中。
[0036]应用本发明实施例所提供的技术方案,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
[0037]当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
【附图说明】
[0038]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本发明实施例提供的一种索引库更新方法的流程示意图;
[0040]图2为本发明实施例提供的一种索引库更新装置的结构示意图。
【具体实施方式】
[0041]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]为了解决现有技术问题,本发明实施例提供了一种索引库更新方法及装置。下面首先对本发明实施例所提供的一种索引库更新方法进行介绍。
[0043]需要说明的是,本发明的实施例优选适用于电子设备,在实际应用中,该电子设备可以为服务器,本发明对此不作限定。
[0044]对索引库进行更新,需要预先建立用于存储目标数据类型的数据的索引库;其中,在实际应用中,目标数据类型可以为文本、图片、视频、音频、网页等等,本发明并不对目标数据类型进行限定;并且索引库当且仅当被建立一次,当对索引库进行更新时,无需重新建立索引库,对索引库的更新操作全部针对该索引库。
[0045]图1为本发明实施例提供的一种索引库更新方法的流程示意图,可以包括:
[0046]S101:从互联网中获得目标数据类型的第一数据;
[0047]S102:根据目标数据类型的数据的有效时长,确定第一数据和第二数据中待删除数据;
[0048]其中,第二数据为索引库中存储的目标数据类型的数据;
[0049]S103:删除第一数据和第二数据中的待删除数据;
[0050]S104:将所获得的第一数据中的非待删除数据,添加在索引库中。
[0051]具体的,在实际应用中,从互联网中获得目标数据类型的第一数据,可以利用爬虫技术,从互联网中获得目标数据类型的第一数据,即利用针对目标数据类型的数据的抓取程序,从互联网中抓取目标数据类型的数据。其中,利用爬虫技术,从互联网中抓取数据为现有技术,本发明实施例在此不对其进行赘述。
[0052]在实际应用中,可以每隔预设时间,从互联网中获得目标数据类型的第一数据,例如:每隔1小时或1天从互联网中获得目标数据类型的第一数据;也可以每达到预设时间点,从互联网中获得目标数据类型的第一数据,例如:预设时间点为每日的8:00,11:00,13:00,17:00,则每到达上述时间点时,从互联网中获得目标数据类型的第一数据。
[0053]示例性的,假设目标数据类型为新闻。预设新闻数据的有效时长为1天。
[0054]假设索引库中当前存储的新闻类型的数据分别为新闻X、新闻y和新闻z,抓取到的新闻类型的数据分别为新闻a、新闻b、新闻c,则针对新闻X、新闻y、新闻z、新闻a、新闻b和新闻c中的每一新闻数据,分别根据新闻数据的有效时长,判断其是否为待删除数据。
[0055]假设确定出当前存储的数据中待删除数据为新闻y;所抓取到的数据中待删除数据为新闻a和新闻c,则将新闻y、新闻a和新闻c删除。
[0056]将所抓取到的数据中非待删除数据,添加在索引库中。
[0057]在实际应用中,每个数据均有数据创建时间属性,因此根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,可以将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;将所述第二数据中、当前时间与数据创建时间之差不小于所述有效
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1