文件搜索方法及装置与流程

文档序号:11134180阅读:来源:国知局

技术特征:

1.一种文件搜索方法,其特征在于,包括:

从预设文件存储区域获取更新文件集合以及所述更新文件集合中每个文件对应的文件属性信息集合;

从所述更新文件集合的每个文件中分别提取文本内容和/或图片内容;

对获取到的文件属性信息集合以及提取到的文本内容和/或图片内容进行统一编码格式转换,并建立文件搜索索引。

2.根据权利要求1所述的方法,其特征在于,从所述更新文件集合的每个文件中分别提取所述文本内容和/或所述图片内容包括:

根据所述更新文件集合中包含的每个文件的文件名称后缀进行分类;

从分类后未包含图片信息的第一类型文件中提取所述文本内容,和/或,从分类后包含图片信息的第二类型文件中分别提取所述图片内容或者提取所述文本内容和所述图片内容。

3.根据权利要求1所述的方法,其特征在于,对所述文件属性信息集合以及所述文本内容和/或所述图片内容进行统一编码格式转换包括:

判断所述文件属性信息集合所采用的编码格式与预定义的编码格式是否相同,如果不同,则将所述文件属性信息集合所采用的编码格式转换为所述预定义的编码格式;

判断所述文本内容所采用的编码格式与预定义的编码格式是否相同,如果不同,则将所述文本内容所采用的编码格式转换为所述预定义的编码格式;和/或,从所述图片内容中提取图像特征,并判断所述图像特征所采用的编码格式与预定义的编码格式是否相同,如果不同,则将所述图像特征所采用的编码格式转换为所述预定义的编码格式。

4.根据权利要求3所述的方法,其特征在于,建立所述文件搜索索引包括以下之一:

当提取到所述文本内容时,在采用统一编码后的所述文本内容与所述文件属性信息集合之间建立关联索引,并在与所述图片内容对应的字段填入空字符串;

当提取到所述图片内容时,在采用统一编码后的所述图片内容与所述文件属性信息集合之间建立关联索引,并在与所述文本内容对应的字段填入空字符串;

当提取到所述文本内容和所述图片内容时,在采用统一编码后的所述文本内容、所述图片内容和所述文件属性信息集合三者之间建立关联索引。

5.根据权利要求4所述的方法,其特征在于,在对所述文件属性信息集合以及所述文本内容和/或所述图片内容进行统一编码格式转换,并建立所述文件搜索索引之后,还包括:

接收来自于用户终端的文本搜索信息和/或图片搜索信息,其中,所述文本搜索信息和/或所述图片搜索信息均采用所述预定义的编码格式,所述文本搜索信息是从用户在所述用户终端输入的文本信息中提取的一个或多个关键词且所述文本信息包括以下至少之一:文件本身包含的字符内容、所述文件属性信息集合中的部分或全部文件属性信息,所述图片搜索信息从所述用户在所述用户终端输入的图片信息中提取的图像特征;

采用所述文件搜索索引查找与所述文本搜索信息对应的第一备选文本集合,和/或,与所述图片搜索信息对应的第二备选文件集合,和/或,与所述文本搜索信息和所述图片搜索信息对应的第三备选文件集合,其中,所述第一备选文本集合和所述第二备选文件集合中包含的文件数量为预先自定义,所述第三备选文件集合是由所述文本搜索信息对应的搜索结果与所述图片搜索信息对应的搜索结果进行逻辑与操作后得到的。

6.根据权利要求5所述的方法,其特征在于,在采用所述文件搜索索引查找所述第一备选文本集合和/或所述第二备选文件集合之后,还包括:

向所述用户终端返回所述第一备选文本集合、所述第二备选文件集合与所述第三备选文件集合中至少之一,其中,所述第一备选文本集合中的文件按照关键词匹配度由高到低进行排列,所述第二备选文本集合中的文件按照图像特征距离匹配度由高到低进行排列,在向所述用户终端返回所述第三备选文件集合时,优先显示所述第三备选文件集合。

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述更新文件集合为所述预设文件存储区域内存储的部分或全部文件在不同版本号之间发生过更新的文件。

8.根据权利要求1至6中任一项所述的方法,其特征在于,所述文件属性信息集合包括以下至少之一:

对文件进行更新的人员信息;

文件更新时间;

文件更新后的版本号;

文件更新的日志信息;

文件更新方式,其中,所述文件更新方式包括以下之一:新增文件、修改文件、删除文件。

9.一种文件搜索装置,其特征在于,包括:

获取模块,用于从预设文件存储区域获取更新文件集合以及所述更新文件集合中每个文件对应的文件属性信息集合;

提取模块,用于从所述更新文件集合的每个文件中分别提取文本内容和/或图片内容;

处理模块,用于对获取到的文件属性信息集合以及提取到的文本内容和/或图片内容进行统一编码格式转换,并建立文件搜索索引。

10.根据权利要求9所述的装置,其特征在于,所述提取模块包括:

分类单元,用于根据所述更新文件集合中包含的每个文件的文件名称后缀进行分类;

提取单元,用于从分类后未包含图片信息的第一类型文件中提取所述文本内容,和/或,从分类后包含图片信息的第二类型文件中分别提取所述图片内容或者提取所述文本内容和所述图片内容。

11.根据权利要求9所述的装置,其特征在于,所述处理模块包括:

第一处理单元,用于判断所述文件属性信息集合所采用的编码格式与预定义的编码格式是否相同,如果不同,则将所述文件属性信息集合所采用的编码格式转换为所述预定义的编码格式;

第二处理单元,用于判断所述文本内容所采用的编码格式与预定义的编码格式是否相同,如果不同,则将所述文本内容所采用的编码格式转换为所述预定义的编码格式;和/或,从所述图片内容中提取图像特征,并判断所述图像特征所采用的编码格式与预定义的编码格式是否相同,如果不同,则将所述图像特征所采用的编码格式转换为所述预定义的编码格式。

12.根据权利要求11所述的装置,其特征在于,所述处理模块包括:

第三处理单元,用于当提取到所述文本内容时,在采用统一编码后的所述文本内容与所述文件属性信息集合之间建立关联索引,并在与所述图片内容对应的字段填入空字符串;或者,当提取到所述图片内容时,在采用统一编码后的所述图片内容与所述文件属性信息集合之间建立关联索引,并在与所述文本内容对应的字段填入空字符串;或者,当提取到所述文本内容和所述图片内容时,在采用统一编码后的所述文本内容、所述图片内容和所述文件属性信息集合三者之间建立关联索引。

13.根据权利要求12所述的装置,其特征在于,所述装置还包括:

接收模块,用于接收来自于用户终端的文本搜索信息和/或图片搜索信息,其中,所述文本搜索信息和/或所述图片搜索信息均采用所述预定义的编码格式,所述文本搜索信息是从用户在所述用户终端输入的文本信息中提取的一个或多个关键词且所述文本信息包括以下至少之一:文件本身包含的字符内容、所述文件属性信息集合中的部分或全部文件属性信息,所述图片搜索信息从所述用户在所述用户终端输入的图片信息中提取的图像特征;

查找模块,用于采用所述文件搜索索引查找与所述文本搜索信息对应的第一备选文本集合,和/或,与所述图片搜索信息对应的第二备选文件集合,和/或,与所述文本搜索信息和所述图片搜索信息对应的第三备选文件集合,其中,所述第一备选文本集合和所述第二备选文件集合中包含的文件数量为预先自定义,所述第三备选文件集合是由所述文本搜索信息对应的搜索结果与所述图片搜索信息对应的搜索结果进行逻辑与操作后得到的。

14.根据权利要求13所述的装置,其特征在于,所述装置还包括:

反馈模块,用于向所述用户终端返回所述第一备选文本集合、所述第二备选文件集合与所述第三备选文件集合中至少之一,其中,所述第一备选文本集合中的文件按照关键词匹配度由高到低进行排列,所述第二备选文本集合中的文件按照图像特征距离匹配度由高到低进行排列,在向所述用户终端返回所述第三备选文件集合时,优先显示所述第三备选文件集合。

15.根据权利要求9至14中任一项所述的装置,其特征在于,所述更新文件集合为所述预设文件存储区域内存储的部分或全部文件在不同版本号之间发生过更新的文件。

16.根据权利要求9至14中任一项所述的装置,其特征在于,所述文件属性信息集合包括以下至少之一:

对文件进行更新的人员信息;

文件更新时间;

文件更新后的版本号;

文件更新的日志信息;

文件更新方式,其中,所述文件更新方式包括以下之一:新增文件、修改文件、删除文件。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1