文件搜寻系统及其方法

文档序号:6519620阅读:170来源:国知局
文件搜寻系统及其方法
【专利摘要】一种文件搜寻系统及其方法,适用于本地存储媒体中的文件搜寻。将本地存储媒体中的多个文件,依照关键字建立每一文件的全文索引特征。依照使用者对至少二个文件间的操作或一个文件中的至少二个以上的操作,产生每一文件的关联特征。依据全文索引特征与关联特征产生搜寻结果的文件序列。
【专利说明】文件搜寻系统及其方法
【技术领域】
[0001]本发明有关于一种文件搜寻系统及其方法,特别是有关于一种针对一本地电脑或 一本地存储媒体的文件搜寻系统及其方法。
【背景技术】
[0002]在这个知识爆炸的时代,人们常常会经由电脑或网络,存储或处理诸多的文件或 数据。面对这些庞大的电子数据,如何有效地搜寻出使用者所需的部分,变成是电脑或网 络使用者经常的操作。目前针对搜寻的操作分为二大类,一是网络搜寻引擎,另一是桌面 搜寻。网络搜寻引擎是针对网际网络上的网页内容或文件进行搜寻,通过网络蜘蛛(web spider)抓取内容,并通过特定演算法来重构并索引这些内容,另外会结合一些排序技术, 比如网页排名技术(page ranking)针对搜寻结果进行排序,再呈现给使用者。知名的网络 搜寻引擎包括:G00gle、雅虎、百度等。
[0003]然而桌面搜寻,针对本地电脑(local computer)或本地存储媒体(local storage medium)中的文件进行搜寻,这些文件包括电子邮件、文字档、Off ice文件档、浏览器暂 存档等。比较知名的相关产品包括:微软Windows操作系统内建的文件搜寻器、Google Desktop Search、Yahoo Widget Engine等。由于微软Windows作业系统内建的文件搜寻 器的功能逐渐完善,所以Google及Yahoo等公司于2011年后逐渐退出此领域。然而微软 公司内建的文件搜寻器,仍然只针对文件内容与关键字的相关性进行搜寻,并不能完全符 合使用者的需求。举例来说,当使用者遗忘关键字或者无法提供准确的关键字时,就会导致 文件搜寻上的困扰。

【发明内容】

[0004]本发明的观点之一就是在于提供一种文件搜寻系统及其方法,可以同时参照文件 与关键字的相关性,与使用者的经常行为,进行搜寻,以提供更佳的搜寻结果。
[0005]本发明的另一观点就是在于提供一种文件搜寻系统及其方法,加入使用者对文件 操作的行为记录与分析,以提供更接近使用者需求的搜寻结果。
[0006]本发明的再一观点就是在于提供一种文件搜寻系统及其方法,对于使用者遗忘关 键字或者无法提供准确的关键字时,仍可提供搜寻结果,并有利使用者修正关键字,进行更 精确的搜寻。
[0007]根据本发明的上述观点,提出一种文件搜寻方法,应用于一本地存储媒体,本地存 储媒体存储有多个文件,使得一使用者可以对文件进行搜寻。文件搜寻方法包括:将每一文 件的内容对于多个关键字的关系,产生对应每一文件的一文件全文索引特征,且分别存储 于一搜寻数据库。当使用者对于文件中的至少二个文件进行一操作,或者对所述这些文件 其中之一进行至少二个操作时,存储此操作及此操作对应的次数于搜寻数据库,并分别产 生每一文件之间的一关联特征,且存储于搜寻数据库。当使用者输入一搜寻关键字时,根据 搜寻数据库中的文件全文索引特征与搜寻关键字的关系,产生一第一搜寻结果,且根据搜寻数据库中的关联特征与第一搜寻结果,产生一第二搜寻结果。整合第一搜寻结果及第二 搜寻结果,以产生对应搜寻关键字的部分文件的一序列。
[0008]根据本发明的某些实施例,多个文件包括文字档、邮件档、浏览器暂存档,以及文 件档。而使用者对文件的操作包括:开启、存储、切换、搜寻、复制、粘贴和连结。关联特征包 括使用者对此二文件的操作,与针对此操作,二文件之间的一时间相关性所组成。而时间关 联性包括:时间顺序和时间间隔。
[0009]根据本发明的某些实施例,产生对应每一文件的文件全文索引特征的方法包括: 利用一词频-逆向文档频率演算法,计算每一文件的内容对于多个关键字的关系。
[0010]根据本发明的某些实施例,其中产生每一文件的关联特征,通过记录使用者对于 多个文件所进行的所有操作,以进行一关联性分析而获得。而关联性分析为定期、不定期或 即时进行。
[0011]根据本发明的某些实施例,其中第一搜寻结果,除了根据该搜寻数据库中的文件 全文索引特征与搜寻关键字的关系外,还包括依据搜寻关键字于文件全文索引特征中的权 重而产生。而整合第一搜寻结果及第二搜寻结果的步骤,更包括一权重调整步骤。
[0012]根据本发明的上述观点,提出一种文件搜寻系统,包括:一本地存储媒体、一输入 模块、一全文分析模块、一关联分析模块、一搜寻数据库、一第一搜寻模块、一第二搜寻模 块、一整合模块以及一输出模块。本地存储媒体存储有多个文件,而输入模块适于接收一使 用者输入的一搜寻条件。全文分析模块,用以将每一文件的内容对于多个关键字的关系,产 生对应每一文件的一文件全文索引特征。关联分析模块用以当使用者对于多个文件中的至 少二个文件进行一操作或者对所述这些文件其中之一进行至少二个操作时,记录此操作及 此操作对应的次数,并分别产生每一文件的一关联特征。搜寻数据库存储于本地存储媒体 中,且包括:每一文件的文件全文索引特征,此操作的相关记录及关联特征。第一搜寻模块 适于根据搜寻条件,搜寻数据库中的文件全文索引特征与搜寻条件的关系,产生一第一搜 寻结果;而第二搜寻模块,适于根据搜寻数据库中的关联特征与第一搜寻结果,产生一第二 搜寻结果。整合模块整合第一搜寻结果及第二搜寻结果,以产生对应搜寻条件的部分文件 的一序列,而输出模块用以显示此序列。
[0013]根据本发明的某些实施例,其中全文分析模块产生对应每一文件的文件全文索引 特征的方法包括:利用一词频-逆向文档频率演算法,计算每一文件的内容对于多个关键 字的关系。
[0014]根据本发明的某些实施例,其中关联分析模块更包括:一使用者行为搜集模块,用 以记录使用者对于文件所进行的所有操作;以及一使用者行为分析模块,对于使用者行为 搜集模块所记录的内容进行一关联性分析,而产生关联特征。而关联性分析为定期、不定期 或即时进行。
[0015]根据本发明的某些实施例,其中第一搜寻模块,除了根据该搜寻数据库中的文件 全文索引特征与搜寻条件的关系外,还包括依据搜寻条件于文件全文索引特征中的权重, 而产生第一搜寻结果。
[0016]根据本发明的某些实施例,其中整合模块还包括一权重调整模块用以调整第一搜 寻结果及第二搜寻结果之间的权重。
[0017]通过本发明的文件搜寻系统及其方法,记录使用者对于文件的操作,以建立各文件之间的关联特征,搜寻时可以同时参照文件与关键字的相关性,与关联特征,以提供更佳的搜寻结果。
[0018]通过本发明的文件搜寻系统及其方法,针对使用者对文件操作的行为记录与分析,搜寻结果序列中考虑了文件之间的关联性,可以提供更接近使用者需求的搜寻结果。
[0019]通过本发明的文件搜寻系统及其方法,即使使用者遗忘关键字或者无法提供准确的关键字时,通过关联特征的搜寻,仍可提供搜寻结果,且提供最接近实际关键字的搜寻结果序列,有利使用者据此修正关键字,再进行更精确的搜寻。
【专利附图】

【附图说明】
[0020]图1是绘示根据本发明的一实施例,一种文件搜寻系统的方块图;
[0021]图2是绘示根据本发明的一实施例,一种文件搜寻方法的流程图;
[0022]关于本发明的优点,精神与特征,将以实施例并参照所附图式,进行详细说明与讨论。值得注意的是,为了让本发明能更容易理解,后附的图式仅为示意图,相关尺寸并非以实际比例绘示。
[0023]【符号说明】
[0024]100:文件搜寻系统的方块图
[0025]110:本地存储媒体
[0026]1l2:文件
[0027]114:搜寻数据库
[0028]116:操作记录
[0029]118:关联特征
[0030]120:文件全文索引特征
[0031]122:输入模块
[0032]124:本文分析模块
[0033]126:关联分析模块
[0034]128:使用者行为搜集模块
[0035]130:使用者行为分析模块
[0036]132:第一搜寻模块
[0037]134:第二搜寻模块
[0038]136:整合模块
[0039]138:输出模块
[0040]140:权重调整模块
[0041]200:文件搜寻方法的流程图
[0042]210:学习阶段
[0043]212,214:步骤
[0044]220:搜寻阶段
[0045]222,224,226,228:步骤
【具体实施方式】[0046]为了让本发明的优点,精神与特征可以更容易且明确地了解,后续将以实施例并 参照所附图式进行详述与讨论。值得注意的是,这些实施例仅为本发明代表性的实施例,其 中所举例的特定方法、装置、条件和材质等并非用以限定本发明或对应的实施例。
[0047]请同时参照图1及图2,图1是绘示根据本发明的一实施例,一种文件搜寻系统的 方块图100;图2是绘示根据本发明的一实施例,一种文件搜寻方法的流程图200。本发明的 文件搜寻系统及方法建构于本地电脑(local computer)或本地存储媒体(local storage medium)中,可以提供使用者针对这些本地文件进行搜寻。本地电脑包括一个人电脑或服务 器等,而其中至少包含一本地存储媒体110 ;本地存储媒体110比如是硬盘(hard disk)、固 态硬盘(SSD)或磁盘阵列(RAID)等。使用者在本地存储媒体110中,会存储诸多文件112, 比如通过安装软件、建立/编辑文件、从其他存储媒体复制文件或从网际网络下载文件等 等,都会产生诸多文件112而存储或暂存于本地存储媒体110中。这些文件112包括电子 邮件、文字档、Office文件档和浏览器暂存档等。
[0048]本发明的文件搜寻方法主要分为二大阶段,一为学习阶段210,一为搜寻阶段 220。在学习阶段210主要是通过本文分析模块124及关联分析模块126进行。使用者平 常针对文件112的关键字搜寻,会通过一输入模块122进行,输入模块122比如是键盘、触 控面板或者语音输入模块等,比如输入关键字「英华达」,以搜寻英华达相关文件。本文分 析模块124会将这些搜寻活动中的关键字与文件112进行联结,而对于每个文件112建立 一文件全文索引特征120,而存储于本地存储媒体110中的搜寻数据库114,亦即图2中的 步骤212。然而文件全文索引特征120中所记录的内容包括但不限于关键字与文件内容的 关系,及文件中关键字的权重,比如关键字在文件中出现的频率等。举例来说,某个文件112 的文件全文索引特征120可能记录了「英华达」与「英业达」二个关键字,及此二个关键字 出现的次数。然而虽然本发明的技术是针对本地文件的搜寻,但在学习阶段210中文件全 文索引特征120的建立,也可以对于使用者在进行网际网络搜寻时,所输入的关键字进行 记录与分析。
[0049]在本发明的某些实施例中,产生文件全文索引特征120的方法可以采用词频-逆 向文档频率算法(term frequency -1nverse document frequency, TF-1DF),作为文件全 文索引特征120中的参数。其中词频指的是特定关键字在文件中出现的频率,即关键字出 现次数与总字数的比值。逆向文文件频为关键字普遍重要性的度量,是由总文件数除以包 含此关键字的文件数目,所得的商取对数值而得。将上述的词频与逆向文档频率相乘,即作 为文件全文索引特征中的参数之一。
[0050]关联分析模块126,主要是建立各文件之间的关系,因为使用者在对于文件进行操 作时,通常会有一定的脉络或逻辑,而这些操作便是文件间的关联性。举例而言,使用者在 进行一报告文件档的撰写时,可能会搜寻网络上的数据,然后下载网络上的数据,甚至复制 部分内容,因此这份文件档,就会与下载的文件有着某种关联,其间可能包含相同或类似的 关键字。所以,这些使用者对于文件的操作,所形成的文件关联性,在搜寻时会存在一定的 关系。在本发明的某些实施例中,关联分析模块126包含使用者行为搜集模块128及使用 者行为分析模块130。使用者行为搜集模块128,用以记录使用者对于文件112所进行的所 有操作,这些操作包括但不限于开启、存储、切换、搜寻、复制、粘贴和连结等。所有使用者行 为的操作记录116可以存储于搜寻数据库114中。使用者行为分析模块130,对于使用者行为搜集模块128所记录的内容,即操作记录116进行一关联性分析,而产生每个文件112 的关联特征118,并存储于搜寻数据库114中,亦即图2中步骤214。而关联特征118的内 容至少包括二个文件间的操作记录,相同操作的发生次数/频率,针对某个操作二文件之 间的一时间相关性,比如时间顺序或时间间隔,或者对某一文件的二个操作等等。然而使用 者行为分析模块130的关联性分析可以是定期、不定期或即时进行,而更新搜寻数据库114 中的关联特征118。
[0051]举例而言,我们以使用者对于文件进行开启(open)、存储(save)、切换(goto)、搜 寻(search)的操作为例。对于关键字搜寻结果的文件,应该参考的关联特征包括:
[0052]最近(latest)开启、最近存储、最近切换或最近搜寻的文件。
[0053]当开启某一文件后进行搜寻。
[0054]开启某一文件后切换至另一文件。
[0055]开启、存储、切换、搜寻的发生频率。
[0056]二个文件同时开启、存储、切换、搜寻。
[0057]上述这些关联特征都应该影响关键字搜寻结果文件间的排序。举例来说,如果使 用者搜寻关键字A,且想找的文件是他在撰写邮件时,曾经参考某个文件中关键字A的相关 数据。那么搜寻除了针对关键字A之外,应该参考开启具有关键字A的邮件档后,同时开启 或随后开启或切换的文件,此关联特征应该影响搜寻结果的排序。如果关键字A搜寻结果 有文件B、C、D和E,而其中B为邮件档,而针对与B的关联特征,发现D与B同时开启的频 率相对高,则搜寻结果应该以D为优先。当然,如果使用者可以在搜寻时,除了输入关键字 条件,还会输入一些关联特征条件,本发明的系统当然可以针对该关联特征进一步搜寻。然 而,实务上使用者对于关联特征往往是模糊的或无法确定时,本发明的系统则是针对关联 特征出现的次数或频率去调整搜寻结果。举例来说,如果针对关键字搜寻结果有F、G、H、I 和J五个文件,然而针对搜寻数据库中的关联特征发现I文件与其他四个文件的关联特征 记录特别多,则会将I文件的搜寻结果排序向前调整。
[0058]因此,本发明的文件搜寻系统与方法在第二阶段搜寻阶段220中,也会分为二个 部分。当使用者通过输入模块122,输入搜寻条件,比如是关键字及/或关联特征,即图2的 步骤222。在本发明某些实施例中,第一搜寻模块132,会依据搜寻数据库114中文件全文索 引特征120,相对于输入的关键字进行搜寻,而产生第一搜寻结果(图2步骤224)。接着, 第二搜寻模块134,根据搜寻数据库114中的关联特征118与第一搜寻结果,产生一第二搜 寻结果(图2步骤226)。若使用者有输入关联特征,则直接针对关联特征进行搜寻,而产 生第二搜寻结果。如果使用者没有输入关联特征,则可以按照第一搜寻结果中,各文件关联 特征118的次数或频率,据此产生第二搜寻结果。而整合模块136则将第一搜寻结果与第 二搜寻结果整合,而产生搜寻结果的文件序列(图2步骤228),并且通过输出模块138提 供给使用者参考。输出模块138比如是显示器或语音输出模块等。然而,当整合模块136 则将第一搜寻结果与第二搜寻结果整合时,也就是整合关键字搜寻结果与关联特征搜寻结 果,可以依照需求通过权重调整模块140,调整第一搜寻结果与第二搜寻结果的权重。当然, 权重调整模块140中的权重分配,可以由使用者行为分析中获得。举例而言,监控统计每次 使用者搜寻后所开启文件的关联特征类型,以调整该类型的权重。
[0059]举例而言,在本发明的某些实施例中,根据关键字a的搜寻条件,第一搜寻模块132,依据文件全文索引特征120产生的文件序列为A、B、C、D和E (第一搜寻结果),而第二 搜寻模块134依据关联特征118产生的文件序列为B、C、A、E、D、F和G,其中文件F和G为 与文件C和A具有相对高的关联特征,而经过整合模块136整合后,文件序列可能为B、A、 C、E、D、F和G(关联特征权重较低)。在此实施例中可以发现,通过本发明的文件搜寻系统 与方法,可以找出不具关键字,但关联性很高的文件F和G。当使用者所输入的关键字为不 准确或模糊时,可以通过此方式找到可能的关键字存在于文件F和G中,据此使用者可以调 整搜寻条件。
[0060]值得注意的是,在本发明的某些实施例中,第一搜寻模块132与第二搜寻模块134 的操作可以独立进行的,至整合模块136中再进行整合。另外,关联特征的产生并不限于对 于二个文件或二个操作间的关联记录,也可以是多个文件或多个操作间的关联记录。熟习 此技艺者应知,上述将使用者操作行为产生文件间的关联特征,以调整搜寻结果,其中关联 特征可以有其他许多变化、组合,然都应包含于本发明的精神与范围中。
[0061]综上所述,通过本发明的文件搜寻系统及其方法,记录使用者对于文件的操作,以 建立各文件之间的关联特征,搜寻时可以同时参照文件与关键字的相关性,与关联特征,以 提供更佳的搜寻结果。本发明的文件搜寻系统及其方法,针对使用者对文件操作的行为记 录与分析,搜寻结果序列中考虑了文件与操作之间的关联性,可以提供更接近使用者需求 的搜寻结果。且通过本发明的文件搜寻系统及其方法,即使使用者遗忘关键字或者无法提 供准确的关键字时,通过关联特征的搜寻,仍可提供关联性高的搜寻结果,且提供最接近实 际关键字的搜寻结果序列,有利使用者据此修正关键字,再进行更精确的搜寻。
[0062]通过以上较佳具体实施例的详述,希望能更加清楚描述本发明的特征与精神,而 并非以上述所揭露的较佳具体实施例来对本发明的范畴加以限制。相反地,其目的是希望 能涵盖各种改变及具相等性的安排于本发明所欲申请的专利范围的范畴内。虽然本发明已 以实施方式揭露如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本创作的 精神和范围内,当可作各种的更动与润饰,因此本发明的保护范围当视后附的权利要求所 界定的为准。
【权利要求】
1.一种文件搜寻方法,应用于一本地存储媒体,该本地存储媒体存储有多个文件,使得一使用者可以对所述这些文件进行搜寻,该文件搜寻方法包括:将每一所述这些文件的内容对于多个关键字的关系,产生对应每一所述这些文件的一文件全文索引特征,且分别存储于一搜寻数据库;当该使用者对于所述这些文件中的至少二个文件进行一操作或者对所述这些文件其中之一进行至少二个操作时,存储该操作及该操作对应的次数于该搜寻数据库,并分别产生每一所述这些文件的一关联特征,且存储于该搜寻数据库;当该使用者输入一搜寻关键字时,根据该搜寻数据库中的所述这些文件全文索引特征与该搜寻关键字的关系,产生一第一搜寻结果,且根据该搜寻数据库中的所述这些关联特征与该第一搜寻结果,产生一第二搜寻结果;以及整合该第一搜寻结果及该第二搜寻结果,以产生对应该搜寻关键字的部分所述这些文件的一序列。
2.如权利要求1所述的文件搜寻方法,其特征在于,产生对应每一所述这些文件的该文件全文索引特征的方法包括:利用一词频-逆向文档频率演算法,计算每一所述这些文件的内容对于所述这些关键字的关系。
3.如权利要求1所述的文件搜寻方法,其特征在于,该使用者对所述这些文件的该操作包括:开启、存储、切换、搜寻、复制、粘贴和连结。
4.如权利要求3所述的文件搜寻方法,其特征在于,该关联特征包括该使用者对该二文件的该操作,与针对该操作,该二文件之间的一时间相关性所组成。
5.如权利要求4所述的文件搜寻方法,其特征在于,该时间关联性包括:时间顺序和时间间隔。
6.如权利要求1所述的文件搜寻方法,其特征在于,产生每一所述这些文件的该关联特征,是通过记录使用者对于所述这些文件所进行的所有所述这些操作,以进行一关联性分析而获得。
7.如权利要求6所述的文件搜寻方法,其特征在于,该关联性分析为定期、不定期或即时进行。
8.如权利要求1所述的文件搜寻`方法,其特征在于,该第一搜寻结果,除了根据该搜寻数据库中的所述这些文件全文索引特征与该搜寻关键字的关系外,还包括依据该搜寻关键字于所述这些文件全文索引特征中的权重而产生。
9.如权利要求1所述的文件搜寻方法,其特征在于,整合该第一搜寻结果及该第二搜寻结果的步骤,更包括一权重调整步骤。
10.一种文件搜寻系统,包括:一本地存储媒体,该本地存储媒体存储有多个文件;一输入模块,适于接收一使用者输入的一搜寻条件;一全文分析模块,用以将每一所述这些文件的内容对于多个关键字的关系,产生对应每一所述这些文件的一文件全文索引特征;一关联分析模块,用以当该使用者对于所述这些文件中的至少二个文件进行一操作或者对所述这些文件其中之一进行至少二个操作时,记录该操作及该操作对应的次数,并分别产生每一所述这些文件的一关联特征;一搜寻数据库,存储于该本地存储媒体中,该搜寻数据库包括:每一所述这些文件的该文件全文索引特征、该操作的相关记录和该关联特征;一第一搜寻模块,适于根据该搜寻条件,该搜寻数据库中的所述这些文件全文索引特征与该搜寻条件的关系,产生一第一搜寻结果;一第二搜寻模块,适于根据该搜寻数据库中的所述这些关联特征与该第一搜寻结果, 产生一第二搜寻结果;一整合模块,整合该第一搜寻结果及该第二搜寻结果,以产生对应该搜寻条件的部分所述这些文件的一序列;以及一输出模块,用以显示至少该序列。
11.如权利要求10所述的文件搜寻系统,其特征在于,该全文分析模块产生对应每一所述这些文件的该文件全文索引特征的方法包括:利用一词频-逆向文档频率演算法,计算每一所述这些文件的内容对于所述这些关键字的关系。
12.如权利要求11所述的文件搜寻系统,其特征在于,该使用者对所述这些文件的该操作包括:开启、存储、切换、搜寻、复制、粘贴和连结。
13.如权利要求12所述的文件搜寻系统,其特征在于,该关联特征包括使用者对该二文件的该操作,与针对该操作该二文件之间的一时间相关性所组成。
14.如权利要求13所述的文件搜寻系统,其特征在于,该时间关联性包括:时间顺序和时间间隔。
15.如权利要求10所述的文件搜寻系统,其特征在于,该关联分析模块更包括:一使用者行为搜集模块,用以记录该使用者对于所述这些文件所进行的所有所述这些操作;以及一使用者行为分析模块,对于该使用者行为搜集模块所记录的内容进行一关联性分析,而产生所述这些关联特征。
16.如权利要求15所述的文`件搜寻系统,其特征在于,该关联性分析为定期、不定期或即时进行。
17.如权利要求10所述的文件搜寻系统,其特征在于,该第一搜寻模块,除了根据该搜寻数据库中的所述这些文件全文索引特征与该搜寻条件的关系外,还包括依据该搜寻条件于所述这些文件全文索引特征中的权重,而产生该第一搜寻结果。
18.如权利要求10所述的文件搜寻系统,其特征在于,该整合模块还包括一权重调整模块用以调整该第一搜寻结果及该第二搜寻结果之间的权重。
【文档编号】G06F17/30GK103559305SQ201310578323
【公开日】2014年2月5日 申请日期:2013年11月18日 优先权日:2013年11月18日
【发明者】许晓龙, 高笙庭, 张汝南, 张景嵩 申请人:英华达(上海)科技有限公司, 英华达(上海)电子有限公司, 英华达(南昌)科技有限公司, 英华达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1