文件分类查找方法

文档序号:6479196阅读:982来源:国知局
专利名称:文件分类查找方法
技术领域
本发明涉及信息检索技术,主要针对的是文件查询。
背景技术
目前的文件查询技术很大程度上模仿了网页查询技术,但文件查询与网页查询存在本质上的区别。网页查询可以分析网页的内容,而文件查询不太可能把每个远程文件下载到本地进行内容分析;即使可以下载到本地,由于文件格式的多样性,对于非文档文件也难于分析其中的内容。唯一可以用于文件查询的数据是文件的文件名和文件属性,因此目前包括Ftp搜索引擎以及Windows文件查找的文件查询系统都仅仅实现了针对文件名的查询和文件属性的过滤。但是这种面向文件名的查询方式不能提供面向特定主题的搜索,不能挖掘文件名无法表示文件内容的文件,而且对用户在了解查询目标方面要求过多。要解决这些问题,某些专用的搜索引擎提供了一些解决方案。比如Napster网站音乐MP3文件搜索引擎分析每个MP3文件的作者和标题等信息,据此进行分类并提供对内容的查询。但是这种技术必须读取(或下载)每个文件以分析其中的内容,同时系统必须对所有查询需要支持的文件类型提供单独的数据处理过程。因此这种方法的代价极其高昂,而且下载所有文件并进行分析使得整个数据搜集过程十分漫长,影响了查询效果,同时这种方法可以处理的文件类型也十分有限。

发明内容
为此我们提供了一种解决方案,目的是在不打开文件分析文件内容的前提下实现文件的分类和对内容的查询,并使得查询系统简单化。这种查询技术是对已经成形的文件查询系统的补充,目的是利用分类功能来提高文件查询的查全率与查准率,弥补传统文件查询技术的缺陷,实现面向主题、面向内容的查询,挖掘普通查询系统里的隐藏数据,提出文件查询新的应用方式。
本发明的内容与技术方案如下本发明的文件查找方法包括基于文件扩展名、目录和查询频率的三种文件分类查询方法。它们一起加以组合构成了完整的基于分类的文件查找技术。
1、基于文件名的文件格式分类查询为了分析用户用于查询的匹配字符串的类型分布,我们统计了FTP搜索引擎的84万次的用户输入的匹配串,得到查询匹配串类型分布1。图中I表示单关键字类型比例,II表示仅仅扩展名类型比例,III表示全文件名类型比例。由图1可见,大部分的用户查询时都是仅仅输入一个关键字,而无法提供具体的扩展名。对于普通用户而言,扩展名是一个比较难理解的东西,例如电影文件,可能的扩展名为“.rm”、“.mpeg”、“.dat”等等,为了查找电影而要求用户提供扩展名会使得普通用户对查询系统望而却步。但是,用户不提供扩展名而在整个数据库里查询就有很多不符合用户需要的查询结果,比如查询某个程序的下载地址确得到了该程序的源代码下载地址,从而使得查准率不高。因而普通用户查询文件的时候可能需要的是某种类型的文件,而不是特定扩展名的文件,例如用户可能希望查询到音乐文件,但并没有限定是“.mp3”文件还是“.au”文件。即使用户知道扩展名的情况下,为了查到一首歌的所有的下载地址,必须为这首歌指定多个扩展名,否则就可能漏掉许多的下载地址,而这往往很麻烦,实现上也不容易。
为了解决记忆扩展名对普通用户的负担以及实现在一个大类别里的文件查询,可以将所有文件分为几种简单的文件格式类型,用户查询时只需指定他需要的文件格式类型而不用指定具体的扩展名就可查询。文件格式类型按常识可以分为图像、声音、视频、压缩、文档、程序、源代码、目录和“其他”等等几大类别。查询系统给每个文件格式类别编号,并定义大量属于这个类别的“著名的扩展名”。因为文件格式的区别在于文件的扩展名,查询系统不可能打开每个文件来检测它的实际上的文件格式,所以使用“著名的扩展名”作为文件格式分类的标准。“著名的扩展名”来源于大众对该扩展名属于什么类型文件的普遍承认,比如“.doc”、“.ppt”、“.txt”、“.pdf”应当属于文档类型的文件。如果某个文件使用了“.doc”作为扩展名,但它的文件格式不是普遍承认的“.doc”格式的,这种情况在系统里是不予考虑的。对于一种扩展名属于多种类别的情况,取其最常见的类别。当查询系统获得一个文件条目时,利用其扩展名得到它对应的文件格式类别,保存在文件条目的属性中。当用户查询指定文件格式类型的文件时,就可以用用户选定的类型编号与文件属性里的类型编号作比较,从文件名匹配得到结果中过滤出文件名匹配同时又是指定文件格式类型的查询结果。按文件格式分类示意图如图2,图中I表示按文件格式分类前的部分文件,II表示按文件格式分类后分成的三类文件;音乐、视频和文档。
基于文件扩展名的文件格式分类查询方法就是利用文件名的扩展名作为文件分类的标准,将文件分成各种不同的格式类型,每种格式类型对应若干扩展名。其中文件格式类型包括文档、视频、音频、图像、程序、源代码、目录等类型。对于某扩展名所对应文件类型的采用普遍理解的类型;对于一种扩展名属于多种类别的情况,取其最常见的类别。当查询系统获得一个文件条目时,利用其扩展名得到它对应的文件格式类别,保存在文件条目的属性中;当用户查询指定文件格式类型的文件时,用用户选定的类型编号与文件条目属性里的类型编号作比较;从文件名匹配得到的结果中过滤出文件名匹配同时指定文件格式类型也匹配的查询结果。
2、基于目录的文件内容分类查询在针对文件名的查询系统里,由于不太可能读取(或下载)每个文件以分析它的文件内容,所有对文件内容的分析只能依靠文件名。虽然一般的文件名都能够体现文件的内容,但我们发现很多多媒体文件(指视频、音频和图像文件)的文件名都不能体现它的文件内容。对于视频文件,经常出现的情况是文件名是a.rm、b.rm而不是具体的“电影名.rm”。对于音频文件,一方面可能文件以歌名为文件名而不包含歌手的名字,但对于用户查询而言可能两个都是需要的,因为查询一个歌手的所有歌是很常见的查询行为;另一方面与电影文件名类似,就是CD盘改录的音频可能使用track0.mp3 track1.mp3等等名字,而这个名字根本无法确定音乐的内容。对于图像文件,常常出现的情况是以数字命名图像文件,例如1.jPg,、2.jpg等等,这是因为图象常常是以一个系列图象的形式出现,给众多类似的图象都给予一个有独立意义的名字是十分麻烦的事情。我们对8,642,123个多媒体文件的文件名进行分析,得到多媒体文件名特性表表1。由表1可见,多媒体文件的这种文件名特性已经妨碍了正常的多媒体文件查询。
1


要解决文件名无法体现文件内容的问题,首先看一看文件系统目录的作用。大部分操作系统之所以采用树型的目录结构是因为树型目录可以实现强大的分类能力,每个目录的目录名体现了这个目录下文件和子目录的内容或者相关属性。尤其在包含具有上述情况的多媒体文件的目录中,其目录名一般就体现了这个目录中多媒体文件的文件内容。即使多媒体文件的上一层目录一般能够体现这些文件的内容,但是,当用户查询关键字时,他所得到的结果可能很多是目录名,而用户必须一个目录一个目录进去查看才知道里面的文件是否确实是用户所需。这个缓慢的操作就抵消了搜索引擎的快速查询能力。如何使得用户不需进入每个目录就可以确定里面是否确实是他所需的文件呢?解决这个问题的办法是把多媒体文件所在目录的目录名与文件名一起去匹配查询串,这样上述问题就可以轻易解决。利用上面的文件格式分类产生的文件格式类型编号,将具有音频、视频和图像类型的文件条目的文件名与其可能存在的上一层目录的目录名合并当作一个整体,查询系统在无论建立索引、用户查询以及结果显示时都将它作为一个整体使用,当然最后输出下载链接的时候也必须保证链接的正确性。使用文件格式和文件内容分类示意图如图3所示。图中I表示按文件格式与文件内容分类前ftp文件列表,II表示分类后文件列表,其中视频、音频文件其文件名与其上一层目录已经合并,而文件路径作为文件属性另外存储。
基于目录的文件内容分类查询是在查询时将文件的文件名和其上一层目录合并作为一个整体用于查询,命中结果或是文件名命中了匹配串,或是其上一层目录名命中了匹配串。这种文件查询方法用于多媒体文件的查询,包括音频、视频和图像等多媒体文件类型;当用户查找这类多媒体文件时,采用基于目录的文件内容分类查询,将文件所在目录的目录名与文件名一起去匹配查询串。其中计算机查询时将文件的文件名和其上一层目录合并作为一个整体用于查询,查询系统在建立索引、结果显示时都将文件名和其上一层目录作为一个整体进行。
3、基于查询频率的文件分类查询对于没有搜索常识的初级用户,他们经常使用糟糕的无法返回所需信息的搜索请求,但是他们占了网民的绝大多数,这种情况永远不会改变。经过对用户查询的日志分析,可以得到的结论是大部分用户都是我不能表达我想要找什么,但是当我看到它时我就会知道我找的就是它。搜索引擎如果只提供一个输入框和一大堆复杂的表单对于普通用户而言可能会不知所措。由于FTP搜索引擎具有一个特性就是用户搜索的关键词范围比较有限,在我们统计的9万多个查询中,只有5000多个查询是互不相同的。如果把比较流行的查询做成快捷方式,用户一点击就可以得到该软件的查询结果,则用户到搜索引擎要做的就不再是指明自己要什么,而是搜索引擎告诉用户可以要什么。
定义快捷方式指用一个名字来标志一个查询对应的URL链接。当搜索引擎具有了文件格式分类功能和文件内容分类之后,建立查询的快捷方式系统就可行了。这是因为在快捷方式里,充分利用文件格式分类能力和文件内容分类能力,快捷方式的查询结果可以十分准确而全面。
当快捷方式增多的时候,如果所有快捷方式全部提供给用户会使得找到一个快捷方式十分麻烦,因而必须对快捷方式进行分类。制定一个两级的查询分类类别是比较恰当的,第一级分类与文件格式分类的类别相似,例如电影、音乐、程序、文档等;第二级分类为该类别内的按内容的分类,比如电影下有动作、爱情类型等,程序下有系统、压缩、游戏等。建立起这个两级的快捷方式系统后,由用户和管理员在每个类别里添加查询频率比较高的查询作为快捷方式。利用CGI程序记录每个快捷方式的点击次数,在显示一个类别的所有快捷方式条目时按点击数降序输出,则用户可以知道当前这个类别的软件排行。将部分类别下的快捷方式默认为一个特定的文件格式,比如电影类别的快捷方式默认为视频文件格式类型,这样就可以自动的将快捷方式与文件分类功能结合,确保快捷方式的精确性。快捷方式系统逻辑示意图如图4。图中1表示显示快捷方式分类列表,2表示显示一个类别内的快捷方式,3表示按快捷方式对应的查询URL进行查询,4表示用户登记注册新的快捷方式,5表示管理员过滤用户登记的快捷方式,6表示管理员管理已经存在的快捷方式,7为快捷方式数据库。
基于查询频率的文件分类查询中,将常用的查询URL进行两级分类,第一级分类为文件格式分类,第二级分类为该类别内的按内容的分类。同时可以利用程序记录每个快捷方式的点击次数,在显示一个类别的所有快捷方式条目时按点击数排序输出,由此同时提供了该类别的查询排行。
以上3种方法中,第二种基于目录的文件内容分类查询可以单独或者与其他两种方法组合使用,用于多媒体文件的查找即可以根据基于目录的文件内容分类进行查询;当用户指定查找多媒体类型文件时,由查询系统查询文件名或者文件所在上层目录名匹配查询关键字的文件。
另外两种查询方法基于文件名的文件格式分类查询以及基于查询频率的文件分类查询可以组合使用用户可以根据基于文件扩展名的文件格式分类,输入文件名关键字以及文件格式两项查询要求,由查询系统匹配输出符合这两项要求的文件;并且可以根据基于查询频率的查询分类方法,根据查询系统在各类别中所提供的按照查询频率排列的经常查找的文件列表,选择所需要的文件。
说明书


图1查询匹配串的类型分布2基于文件名的文件格式分类示意3使用文件格式和文件内容分类示意4基于查询频率的文件分类查询示意5基于文件名的文件格式分类查询范例图6按文件内容分类查询范例图7快捷方式两级分类页面图8图7特定类别里的快捷方式实施例下面结合实施例进行进一步地说明。
北京大学计算机科学技术系网络与分布系统领域从1999年开始“天网”FTP搜索引擎的项目。目前北大“天网”FTP搜索引擎已经是一个搜集了全国3000多个站点、有一千三百万FTP文件条目数据、使用了基于文件名、目录和查询频率的文件分类查找技术的强大的FTP搜索引擎。目前平均查询费时在200毫秒左右,每日查询次数达到10万左右,且这个数字正在不断上升。
1.基于文件名的文件格式分类查询效果图在图5的查询中,用户仅仅输入了关键字“鲁迅”,并选择了在文档类型内查询,查询结果返回了文件名中包含“鲁迅”的各种格式文档(.txt和.doc以及.htm)。即用户无需指定特定的扩展名就可以在特定类型内查询得到他所要的结果。如果用户没有指定类型,则查询结果可能很多都不是用户所需要,用户必须翻页查看才能找到特定类型的文件,查准率也就不高。在上例里,用户往往并不关心文件究竟是.txt格式还是.doc格式,如果依赖用户提供扩展名,可能就无法包含所有的同类内容的文件。
2.基于目录的文件内容分类查询在图6的查询中,用户输入关键字“东京爱情故事”,而返回的结果里文件名大都不包含“东京爱情故事”,而是tls0?.rm,即其文件名无法体现文件内容,只是由于它的上一层目录名包含了“东京爱情故事”,在基于目录的文件内容分类查询下,这些文件名无法体现文件内容的文件得以被人们找到,否则,用户可能仅仅看到一些包含“东京爱情故事”的目录,必须进入对应目录后才能知道这个目录里的文件是否是所需的。
3.基于查询频率的文件分类查询图7和图8两图分别为查询分类里的分类页面和某个类别(“电影、动画片”里的“武侠”类)内的快捷方式页面。分类页面方便找到特定类别的快捷方式,快捷方式页面里显示某些常用的查询,用户只需点击就可以得到查询结果,而无需任何输入。
本发明的优点与积极效果在于同现有的面向文件名的查询技术相比,基于文件名、目录和查询频率的文件分类查找技术具有如下优点和积极效果1.文件查询系统的查准率大大提高。应用基于文件名的文件格式分类查询技术后,一个通用的文件搜索引擎变成了多个主题搜索引擎。用户可以在各种指定类型内查找文件而不必在乎它的扩展名。尤其当文件名匹配的查询结果数目十分巨大时,只显示一个类型的结果的方式极大地减少了用户翻页的次数,提高了查询的效率。例如,要查询C++builder的相关文档,直接使用面向文件名的查询,当不指定扩展名时有237个命中结果,指定.doc扩展名时只有7个命中结果,而在使用了文件格式分类查询技术后我们指定在文档类型内查询,则命中结果有19个,这样的结果没有多余的其他文件信息(如C++builder的程序文件等)又包含了所有需要的各种格式的文档。
2.提高了查询系统的查全率。应用基于文件名的文件格式分类查询技术和基于目录文件内容分类查询技术后,搜索多媒体文件时命中结果数目大幅度增加,许多以数字或者序号命名的文件得以被人们发现。对电视连续剧的查询、对歌手的查询、对专辑的查询、对图片集的查询都十分方便直观。这种改进,将使得查询系统从一个通用的文件查询系统变成了一个以多媒体查询为主同时又保留了通用查询的电影、音乐查询利器。
3.使得查询系统简单化、易用化。将查询分类并建立快捷方式系统的方式可以极大的鼓励普通用户使用文件查询系统。由于查询的分类建立在文件格式分类技术和文件内容分类技术之上,各种复杂的查询选项(包括文件格式类型、大小限制等等)都隐藏在快捷方式对应的查询URL里,对于很多不知道想找什么软件的用户(如想看动作电影而不在乎是哪部动作片的用户)或者对想找的软件名称不太清楚的用户(如想找网络蚂蚁而不知道它的软件名称是netant的用户),用户使用查询系统所要做的,就可以是选择而不是作要求。在使用快捷方式后,用户使用快捷方式的比例将占所有查询里的大部分,因为系统所提供的快捷方式,已经包含了大部分用户需要的查询。这样,由于快捷方式的匹配串是固定的,有缓冲的查询系统的Cache命中率将大大增加,大部分查询都可以在极短的时间内从Cache里获得查询结果,从而也提高了查询的效率。
4.是面向文件名的查询技术的升级与重要补充。基于文件名、目录和查询频率的文件分类查找技术并不是传统文件查询技术的替代,而是升级与补充,因为它并没有提出如何进行文件名的匹配却使用了文件名匹配以及属性过滤技术。在现成的面向文件名的查询系统上进行部分修改与添加就可以变成一个使用分类的查询系统,同时也保留了旧的面向文件名的查询功能。基于文件名、目录和查询频率的文件分类查找技术使得面向文件名的查询系统具有了面向主题和挖掘隐藏数据的能力,同时为普通用户考虑的查询人工分类技术使查询系统更加大众化,易于被用户接受。
本发明可以应用于包括FTP搜索引擎、MP3搜索器、本机文件查询、图书馆资源检索等相关方面。
权利要求
1.一种文件分类查找方法,由用户输入查询请求,计算机根据用户的查询请求返回符合要求的文件,其特征在于计算机的查询采用基于目录的文件内容分类查询;查询时将文件的文件名和其上一层目录合并作为一个整体用于查询,命中结果或是文件名命中了匹配串,或是其上一层目录名命中了匹配串。
2.根据权利要求1所述的文件分类查找方法,其特征在于这种文件查询方法用于多媒体文件的查询,包括音频、视频和图像等多媒体文件类型;当用户查找这类多媒体文件时,采用基于目录的文件内容分类查询,将文件所在目录的目录名与文件名一起去匹配查询串。
3.根据权利要求1或2所述的文件分类查找方法,其特征在于计算机查询时将文件的文件名和其上一层目录合并作为一个整体用于查询,查询系统在建立索引、结果显示时都将文件名和其上一层目录作为一个整体进行。
4.根据权利要求1-3任一权利要求之一所述的文件分类查找方法,其特征在于计算机的查询采用基于目录的文件内容分类查询与基于文件扩展名的文件格式分类查询相结合的方法;其中基于文件扩展名的文件格式分类查询方法是指,用户查询时所输入的查询请求包括文件名关键字和文件格式类型两个部分,查询时在指定的格式类别内查询文件而无需指定文件扩展名。
5.根据权利要求1-3任一权利要求之一所述的文件分类查找方法,其特征在于计算机的查询采用基于目录的文件内容分类查询与基于查询频率的查询人工分类相结合的方法;其中基于查询频率的查询人工分类方法是指,将常用的查询URL建成快捷方式,用户只需点击快捷方式就可以得到查询结果。
6.根据权利要求1-3任一权利要求之一所述的文件分类查找方法,其特征在于计算机的查询采用基于目录的文件内容分类查询与基于文件扩展名的文件格式分类查询、以及基于查询频率的查询人工分类相结合的方法;其中基于文件扩展名的文件格式分类查询方法是指,用户查询时所输入的查询请求包括文件名关键字和文件格式类型两个部分,查询时在指定的格式类别内查询文件而无需指定文件扩展名;基于查询频率的查询人工分类方法指,将常用的查询URL建成快捷方式,用户只需点击快捷方式就可以得到查询结果。
7.根据权利要求4或6所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类查询方法中,利用文件名的扩展名作为文件分类的标准,将文件分成各种不同的格式类型,每种格式类型对应若干扩展名。
8.根据权利要求4、6或7所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类查询方法中,基于文件扩展名的文件格式类型包括文档、视频、音频、图像、程序、源代码、目录等类型。
9.根据权利要求7或8所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类根据对某扩展名所对应文件类型的普遍理解;对于一种扩展名属于多种类别的情况,取其最常见的类别。
10.根据权利要求7-9任一权利要求所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类查询方法中,当查询系统获得一个文件条目时,利用其扩展名得到它对应的文件格式类别,保存在文件条目的属性中;当用户查询指定文件格式类型的文件时,将用户选定的类型编号与文件条目属性里的类型编号作比较;从文件名匹配得到的结果中过滤出文件名匹配同时指定文件格式类型也匹配的查询结果。
11.根据权利要求5或6所述的文件分类查找方法,其特征在于基于查询频率的查询人工分类中,将常用的查询URL进行两级分类,第一级分类为文件格式分类,第二级分类在该类别中按内容进行分类。
12.根据权利要求5、6或11所述的文件分类查找方法,其特征在于基于查询频率的查询人工分类中,利用程序记录每个快捷方式的点击次数,在显示一个类别的所有快捷方式条目时按点击数排序输出,由此同时提供了该类别的查询排行。
13.根据权利要求1-12任一权利要求之一所述的文件分类查找方法,其特征在于对于多媒体文件的查找,可以根据基于目录的文件内容分类进行查询;当用户指定查找多媒体类型文件时,由查询系统匹配文件名或者文件所在上层目录名匹配查询关键字的文件。
14.根据权利要求1-5、7-10、13任一权利要求之一所述的文件分类查找方法,其特征在于用户可以根据基于文件扩展名的文件格式分类,输入文件名关键字以及文件格式两项查询要求,由查询系统匹配输出符合这两项要求的文件。
15.根据权利要求1-3、5、6、11-14任一权利要求之一所述的文件分类查找方法,其特征在于用户可以根据基于查询频率的查询分类方法,根据查询系统在各类别中所提供的按照查询频率排列的经常查找的文件列表,选择所需要的文件查询链接。
16.一种文件分类查找方法,由用户输入查询请求,由计算机根据用户的查询请求返回符合查询请求的文件,其特征在于计算机的查询采用文件分类与基于查询频率的查询人工分类相结合的方法;其中基于文件扩展名的文件格式分类查询方法是指,用户查询时所输入的查询请求包括文件名关键字和文件格式类型两个部分,查询时在指定的格式类别内查询文件而无需指定文件扩展名;基于查询频率的查询人工分类方法指,将常用的查询URL建成快捷方式,用户只需点击快捷方式就可以得到查询结果。
17.根据权利要求16所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类查询方法中,利用文件名的扩展名作为文件分类的标准,将文件分成各种不同的格式类型,每种格式类型对应若干扩展名。
18.根据权利要求16或17所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类查询方法中,基于文件扩展名的文件格式类型包括文档、视频、音频、图像、程序、源代码、目录等类型。
19.根据权利要求17或18所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类根据对某扩展名所对应文件类型的普遍理解;对于一种扩展名属于多种类别的情况,取其最常见的类别。
20.根据权利要求16-19任一权利要求所述的文件分类查找方法,其特征在于基于文件扩展名的文件格式分类查询方法中,当查询系统获得一个文件条目时,利用其扩展名得到它对应的文件格式类别,保存在文件条目的属性中;当用户查询指定文件格式类型的文件时,用用户选定的类型编号与文件条目属性里的类型编号作比较;从文件名匹配得到的结果中过滤出文件名匹配同时指定文件格式类型也匹配的查询结果。
21.根据权利要求16所述的文件分类查找方法,其特征在于基于查询频率的查询人工分类中,将常用的查询URL进行两级分类,第一级分类为文件格式分类,第二级分类在该类别内按内容进行分类。
22.根据权利要求16或21所述的文件分类查找方法,其特征在于基于查询频率的查询人工分类中,利用程序记录每个快捷方式的点击次数,在显示一个类别的所有快捷方式条目时按点击数排序输出,因此同时提供了该类别的查询排行。
23.根据权利要求16-20任一权利要求之一所述的文件分类查找方法,其特征在于用户可以根据基于文件扩展名的文件格式分类,输入文件名关键字以及文件格式两项查询要求,由查询系统匹配输出符合这两项要求的文件。
24.根据权利要求16、21或22任一权利要求之一所述的文件分类查找方法,其特征在于用户可以根据基于查询频率的查询分类方法,根据查询系统在各类别中所提供的按照查询频率排列的经常查找的文件列表,选择所需要的文件。
全文摘要
本发明涉及信息检索领域的文件分类查找方法。基于目录的文件内容分类查询将文件的文件名和其上一层目录合并作为一个整体用于查询,使得面向主题、面向内容的文件搜索成为可能。基于文件扩展名的文件格式分类查询与基于查询频率的文件分类查询相结合,提高了文件查询的查全率和查准率,同时使复杂的文件搜索引擎简单化。以上方法相结合,可以应用于包括FTP搜索引擎、MP3搜索器、本机文件查询、图书馆资源检索等方面。
文档编号G06F17/30GK1360267SQ02100839
公开日2002年7月24日 申请日期2002年1月30日 优先权日2002年1月30日
发明者陈华, 李晓明 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1