文件关联性判定系统与方法

文档序号:6652418阅读:229来源:国知局
专利名称:文件关联性判定系统与方法
技术领域
本发明是关于一种文件关联性判定系统与方法,尤指关于一种先撷取文件中的关键词,再依两文件的关键词来判定其是否具有关联性的文件关联性判定系统与方法。
随著科技的发展,各种如网页、电子书或新闻稿等文件的产生与传播越来越快速,连带地,各种文件的数量也日益庞大,使得搜寻某种特定内容的文件变得越来越困难。以网际网路为例,若使用者欲在一储存有上万笔文件的网站中,找寻所需要的某些特定内容的资料,其势必需要花费许多的时间与心力在搜集与整理上。
为解决上述问题,在现有技术中,多半是将各种文件以特定的资料结构储存于一资料库中,再配合搜寻引擎来协助使用者搜寻其所需的资料。例如,使用者先输入关键字后,搜寻引擎即针对使用者所输入的关键字,于资料库中搜寻内容中具有此关键字的文件。使用者可以运用布林运算的观念,对关键字进行各种的组合,以缩小搜寻的范围。使用者亦可针对某个搜寻的结果作更进一步的搜寻,例如,再输入另一关键字,以针对第一次搜寻所找到的数百篇文件再次进行筛选。
上述现有技术的缺点,为就算使用者找到了一篇符合其需要的特定文件,此篇特定文件对后续搜寻工作的进行并没有帮助。换言之,当以关键字搜寻的方式找到了数篇后,使用者必须一篇篇检视其内容,以寻找其需要的文件,而在这个过程中,找到一篇文件并不会加速后续的检视速度。使用者仍需对后续文件进行捡视,以得知其它文件是否为其所需的文件。
此外,以关键字来查询并不一定就可以查询到所有的相关联文件。例如,有可能两篇文件的主题相近,内客相关联,然而使用者在搜寻时是以关键字来进行搜寻,且两篇文件中有一篇文件的内容中刚好没有此关键字,这种情况下使用者就只能搜寻到一篇文件,而无法两篇都搜寻到。若避免此状况的发生,使用者必须同时输入多个关键字,并以联集的方式进行搜寻。然而此种作法势必会搜寻到大量文件,需要花费更多的时间与精力来逐篇筛选。
再者,在某些情况下,使用者是先看到一篇特定文件后,想搜寻与此特定文件具有关联性的文件。这种情况以新闻网站最为常见。此时,若仅以关键字来进行搜索,则使用者必须先桃出此篇特定文件的关键字后,再以搜寻引擎来依关键字进行搜寻。如此不但非常不便,同时也无法避免前述的两个搜寻文件时所可能遭遇到的问题。
针对上述问题,本发明的目的为提供一种文件关联性判定系统与方法,其可判定文件之间的关联性,进而提升使用者搜寻相关联文件的速度与效率。
本发明的目的可以通过以下措施来达到一种文件关联性判定系统,其判定一特定文件与一待判定文件之间是否具有关联性,包含一关键词撷取装置,其撷取该特定文件的至少一特定文件关键词,以构成一特定文件关键词组,该关键词撷取装置亦撷取该待判定文件的至少一待判定文件关键词,以构成一待判定文件关键词组;以及一关联性判定装置,其是对比该特定文件关键词组与该待判定文件关键词组,并当该特定文件关键词组与该待判定文件关键词组的相似程度到达一预定程度时,判定该待判定文件与该特定文件具有关联性。
一种文件关联性判定方法,其判定一特定文件与一待判定文件之间是否具有关联性,包含一特定文件关键词撷取程序,其撷取该特定文件的至少一特定文件关键词,以构成一特定文件关键词组;一待判定文件关键词撷取程序,其撷取该待判定文件的至少一待判定文件关键词,以构成一待判定文件关键词组;以及一对比程序,其对比该特定文件关键词组与该待判定文件关键词组,并当该特定文件关键词组与待判定文件关键词组相似程度到达一预定程度时,判定该待判定文件与该特定文件具有关联性。
为达上述目的,依本发明的文件关联性判定系统与方法包括一关键词撷取装置以及一关联性判定装置。关键词撷取装置撷取一特定文件的至少一特定文件关键词,以构成一特定文件关键词组。关键词撷取装置亦撷取一待判定文件的至少一待判定文件关键词,以构成一待判定文件关键词组。关联性判定装置则对比特定文件关键词组与待判定文件关键词组,并当特定文件关键词组与待判定文件关键词组的相似程度到达一预定程度时,判定待判定文件与特定文件具有关联性。
本发明亦揭露一种文件关联性判定方法,包括一特定文件关键词撷取程序、一待判定文件关键词撷取程序以及一对比程序。特定文件关键词撷取程序撷取一特定文件的至少一特定文件关键词,以构成一特定文件关键词组。待判定文件关键词撷取程序撷取一待判定文件的至少一待判定文件关键词,以构成一待判定文件关键词组。对比程序则对比特定文件关键词组与待判定文件关键词组,并当特定文件关键词组与待判定文件关键词组的相似程度到达一预定程度时,判定待判定文件与特定文件具有关联性。
本发明相比现有技术具有如下优点经由上述的系统架构与流程,使用者将可利用文件之间的关联性来搜寻文件资料库中的文件,藉以更增进文件搜寻的效率,减少使用者搜寻资料所需的时间与心力。
以下将参照相关附图,说明依本发明较佳实施例的文件关联性判定系统与方法,其中相同的元件将以相同的参照符号加以说明。


图1为一示意图,显示依本发明较佳实施例的文件关联性判定系统的架构。
图2为一示意图,显示于依本发明较佳实施例的文件关联性判定系统中,关键词撷取装置11的架构的实施形态。
图3为一示意图,显示于依本发明较佳实施例的文件关联性判定系统中,另一种关键词撷取装置11的架构的实拖形态。
图4为一流程图,显示依本发明较佳实施例的文件关联性判定方法的流程。
图5为一示意图,显示运用依本发明较佳实施例的文件关联性判定系统来搜寻在文件资料库中与特定文件具有关联性的文件的实施形态。
图6为一流程图,显示运用图5所示的实拖形态来搜寻与特定文件具有关联性的文件的流程。
图号说明1文件关联性判定系统 43对比程序11关键词撷取装置51文件资料库111长词优先断词摸组 52文件浏览装置112统计模组 53待判定文件读取装置113多连文删除/合并摸组 54关键词储存装置12关联性判定装置55文件关联性记录装置20特定文件 61判断程序21特定文件关键词组 62待判定文件读取程序30判定文件 63判断程序31待判定文件关键词组64特定文件关键词撷取程序4文件关联性判定方法 65判断程序41特定文件关键词撷取程序66待判定文件关键词撷取程序42待判定文件关键词撷取程序 67对比程序68判断程序 80使用者69文件关联性提供程序请参照图1,依本发明较佳实施例的文件关联性判定系统1主要包括一关键词撷取装置11以及一关联性判定装置12。关键词撷取装置11是撷取特定文件20的至少一特定文件关键词,以构成一特定文件关键词组21。关键词撷取装置11亦撷取待判定文件30的至少一待判定文件关键词,以构成一待判定文件关键词组31。关联性判定装置12则对比特定文件关键词组21与待判定文件关键词组31,并当两者的相似程度到达一预定程度时,判定待判定文件30与特定文件20具有关联性。
请参照图2,关键词撷取装置11可以采用一长词优先断词模组111先对特定文件20与待判定文件30以长词优先断词法进行断词处理后,再以一统计摸组以统计方式撷取特定文件20的特定文件关键词,以及待判定文件30的待判定文件关键词。所谓「长词优先断词法」,是指利用一储存有众多中文常用词的词典,将特定文件20与待判定文件30中的所有文字,以「长词优先」的原则进行断词。例如,在对特定文件20进行断词时,若在特定文件20中出现了「台北市」这个词,而在词典中,储存了「台北」与「台北市」两个中文常用词,此时,由于断词是以「长词优先」为原则,故不会将「台北市」这个词切断为「台北」与「市」两个词,而会将「台北市」视为一个词。依此原则不断循环,即可将特定文件20内容转换为许多中文常用词的组合。
接著,统计模组112则对断词的结果进行统计,将出现次数到达一阀值,或出现的比率高于一定比率的词视为关键词。例如,若设定出现15次以上的词为关键词,而在特定文件20中,「总统大选」这个词出现了16次,则统计模组112即将「总统大选」这个词视为特定文件20关键词。经由此种方法,统计模组112可自特定文件20中撷取出至少一个特定文件关键词,并记录于特定文件关腱词组21中。同理,亦可得到自待判定文件30所撷取出来的待判定文件关键词组31。
请参照图3,关键词撷取装置11亦可采用一多连文删除/合并模组113,以多连文删除/合并法来撷取特定文件20的特定文件关键词,以及待判定文件30的待判定文件关键词。所谓「多连文删除/合并法」,是指先将特定文件20或待判定文件30中的所有中文字先依顺序转变为复数个「双连文」的组合(以「台北市政府」此一短句为例,其所可能产生的「双连文」有四个,分别为「台北」、「北市」、「市政」与「政府」),且当相邻两个「双连文」的出现次数均高于一阀值时,将两者合并为一「三连文」(例如,将「台北」与「北市」合并为「台北市」,并将出现次数未达到阀值的双连文删除。如此,利用不断地将直到出现次数低于阀值的多连文删除,保留出现次数高于阀值的多连文,以及合并两个彼此相邻且出现次数均高于阀值的多连文,最后剩下的即为在特定文件20或待判定文件30中出现次数高于一定阀值,且经过充份合并过后的多连文。由于最后剩下的多连文的出现次数均高于阀值,故可将其视为特定文件20或待判定文件30的关键词,并储存于特定文件关键词组21或待判定文件关键词组31。
在取得特定文件关键词组21与待判定文件关键词组31后,关联性判定装置12即进行对比,以判定待判定文件30与特定文件20是否具有关联性。当特定文件关键词组21与待判定文件关键词组31的相似程度到达一预定程度时,关联性判定装置12即判定该待判定文件与该特定文件具有关联性。此处所谓的「预定程度」可视实际状况而有所不同。例如,可设定为特定文件关键词组21与待判定文件关键词组31必须完全吻合,待判定文件30与特定文件20才具有关联性,或者特定文件关键词组21与待判定文件关键词组31的相似程度达到百分的八十时,判定文件30与特定文件20即具有关联性。明显地,关联性判定装置12在判定待判定文件30与特定文件20是否具有关联性时,作为判定依据「预定程度」会和几个条件有关,包括特定文件关键词与待判定文件关键词的个数、特定文件20与待判定文件30的字数、以及长词优先断词法或多连文删除/合并法中所设定的阀值的大小等。所以,「预定程度」应依照实际情况而有所调整。例如,若待判定文件30与特定文件20平均约有1000字,且关键词撷取装置11最多只取出现次数最多的三个关键词,则可将关联性判定装置12作为判定依据的「预定程度」,设定为特定文件关键词组21与待判定文件关键词组31必须完全吻合,待判定文件30与特定文件20才具有关联性。熟悉此项技术者可以依实际的需要,对「预定程度」作适当的修改与调整,或者由文件关联性判定系统1依据文件的字数与类型等自动进行调整。
图4所示者为以上述的文件关联性判定系统1所实现的文件关联性判定方法4的流程。其中,特定文件关键词撷取程序41撷取特定文件20的特定文件关键词,以构成特定文件关键词组21。待判定文件关键词撷取程序42撷取待判定文件30的待判定文件关键词,以构成待判定文件关键词组31。对比程序43则对比特定文件关键词组21与待判定文件关键词组31,并当特定文件关键词组21与待判定文件关键词组31的相似程度到达一预定程度时,判定待判定文件30与特定文件20具有关联性。各程序的详细内容均如前所述,故在此不在赘述。惟需注意,特定文件关键词撷取程序41与待判定文件关键词撷取程序42的顺序可以对调,而不影响文件对比的结果。
依本发明的文件关联性判定系统与方法可以判定文件之间的关联性,故可与各种文件资料库或搜寻系统配合以进行多种运用,使文件的搜寻更为便利。请参照图5,例如,文件关联性判定系统1可与一文件资料库51配合,当使用者80透过文件浏览装置52浏览到一篇特定文件20时,可利用文件关联性判定系统1来搜寻与特定文件20具有关联性的其它文件。此时,待判定文件读取装置53即依序读取所有文件资料库中的待判定文件30,以进行与特定文件20之间的关联性判定。在待判定文件30经过文件关联性判定系统1的处理之后,待判定文件关键词即储存于关键词储存装置54,其与特定文件20的关联性则记录于文件关联性记录装置55。如此,即可找到在文件资料库51中,所有与特定文件20具有关联性的待判定文件30。
请参照图6,当使用者运用图5所示的架构来搜寻与特定文件20具关联性的文件时,首先在程序61中,判断此特定文件20是否已经在文件关联性记录装置55中,已记录了与其它待判定文件30的关联性记录。若有,则直接依先前的记录将待判定文件提供给使用者即可,若没有,则进入待判定文件读取程序62,由待判定文件读取装置53从文件资料库51中依续读取待判定文件30。
接著,在程序63中,若特定文件20于关键词储存装置54中没有关键词记录,则进入特定文件关键词撷取程序64,由关键词撷取装置11来撷取特定文件20的关键词,并将其记录至关键词储存装置54。若在程序63中,特定文件20于关键词储存装置54中已有关键词记录,则直接跳至程序65,判断待判定文件30于关键词储存装置54中是否有关键词记录。若无,则进入待判定文件关键词撷取程序66,由关键词撷取装置11来撷取待判定文件30的关键词。若有,则直接跳至对比程序67,由关联性判定装置12来进行关联性的判定。
当针对此篇待判定文件30与特定文件20的关联性判断完毕后,即于程序68中,判断是否仍有其它的待判定文件30。若有则回到待判定文件读取程序62。若无则进入文件关联性提供程序69,将所找到的与特定文件20具有关联性的待判定文件提供给使用者80。
以上所述仅为举例性,而非为限制性。任何未脱离木发明的精神与范畴,而对其进行的等效修改或变更,均应包含于后附的申请专利范围中。
权利要求
1.一种文件关联性判定系统,其判定一特定文件与一待判定文件之间是否具有关联性,其特征是包含一关键词撷取装置,其撷取该特定文件的至少一特定文件关键词,以构成一特定文件关键词组,该关键词撷取装置亦撷取该待判定文件的至少一待判定文件关键词,以构成一待判定文件关键词组;以及一关联性判定装置,其是对比该特定文件关键词组与该待判定文件关键词组,并当该特定文件关键词组与该待判定文件关键词组的相似程度到达一预定程度时,判定该待判定文件与该特定文件具有关联性。
2.如权利要求1所述的文件关联性判定系统,其特征是其中该关键词撷取装置是先以一断词模组对该特定文件与该待判定文件进行断词处理后,再以一统计模组以统计方式撷取该特定文件的该特定文件关键词,以及该待判定文件的该待判定文件关键词。
3.如权利要求2所述的文件关联性判定系统,其特征是其中该断词模组是为一长词优先断词模组。
4.如权利要求1所述的文件关联性判定系统,其特征是其中该关键词撷取装置是以一多连文删除/合并模组自该特定文件与该待判定文件撷取该特定文件关键词以及该待判定文件关键词。
5.如权利要求1所述的文件关联性判定系统,其特征是更包含一关键词储存装置,其储存该待判定文件的该待判定文件关键词。
6.如权利要求5所述的文件关联性判定系统,其特征是其中该关联性判定装置是自该关键词储存装置读取该待判定文件关键词组,以对比该特定文件关键词组与该待判定文件关键词组。
7.如权利要求1所述的文件关联性判定系统,其特征是其中该待判定文件是自一储存多数个待判定文件的文件资料库取出。
8.如权利要求7所述的文件关联性判定系统,其特征是更包含一待判定文件读取装置,其是自该待判定文件资料库中,依序读取这些待判定文件。
9.如权利要求7所述的文件关联性判定系统,其特征是更包含一文件关联性记录装置,其记录该特定文件与该待判定文件资料库中的这些待判定文件之间是否具有关联性。
10.如权利要求1所述的文件关联性判定系统,其特征是其中该预定程度是指该特定文件关键词组与该待判定文件关键词组的相似程度为完全相同。
11.一种文件关联性判定方法,其判定一特定文件与一待判定文件之间是否具有关联性,其特征是包含一特定文件关键词撷取程序,其撷取该特定文件的至少一特定文件关键词,以构成一特定文件关键词组;一待判定文件关键词撷取程序,其撷取该待判定文件的至少一待判定文件关键词,以构成一待判定文件关键词组;以及一对比程序,其对比该特定文件关键词组与该待判定文件关键词组,并当该特定文件关键词组与待判定文件关键词组相似程度到达一预定程度时,判定该待判定文件与该特定文件具有关联性。
12.如权利要求11所述的文件关联性判定方法,其特征是其中该特定文件关键词撷取程序是先依一中文长词优先断词法对该特定文件进行断词处理后,再以统计方式撷取该特定文件的该特定文件关键词;且该待判定文件关键词撷取程序是先以中文长词优先断词法对该待判定文件进行断词处理后,再以统计方式撷取该待判定文件的该待判定文件关键词。
13.如权利要求11所述的文件关联性判定方法,其特征是其中该特定文件关键词撷取程序是先以多连文删除/合并法对该特定文件进行断词处理后,再以统计方式撷取该特定文件的该特定文件关键词;且该待判定文件关键词撷取程序是先以多连文删除/合并法对该待判定文件进行断词处理后,再以统计方式撷取该待判定文件的该待判定文件关键词。
14.如权利要求11所述的文件关联性判定方法,其特征是更包含一关键词储存程序,其储存该待判定文件的该待判定文件关键词于一关键词储存装置中。
15.如权利要求14所述的文件关联性判定方法,其特征是其中该对比是自该关键词储存装置读取该待判定文件关键词组,以对比该特定文件关键词组与该待判定文件关键词组。
16.如权利要求11所述的文件关联性判定方法,其特征是其中该待判定文件是自一储存多数个待判定文件的待判定文件资料库取出。
17.如权利要求16所述的文件关联性判定方法,其特征是更包含一待判定文件读取程序,其是自该待判定文件资料库中,依序读取这些待判定文件。
18如权利要求16所述的文件关联性判定方法,其特征是更包含一文件关联性记录程序,其记录该特定文件与该待判定文件资料库中的这些待判定文件之间是否具有关联性。
19.如权利要求11所述的文件关联性判定方法,其特征是其中该预定程度是指该特定文件关键词组与该待判定文件关键词组的相似程度为完全相同。
全文摘要
一种文件关联性判定系统,包括一关键词撷取装置及一关联性判定装置。关键词撷取装置撷取一特定文件至少一特定文件关键词,构成特定文件关键词组。同时撷取待判定文件至少一待判定文件关键词,构成一待判定文件关键词组。关联性判定装置则对比特定文件关键词组与待判定文件关键词组,当两关键词组的相似程度到达一预定程度时,判定待判定文件与特定文件具有关联性。本发明亦揭露一种以文件关联性判定系统实现的文件关联性判定方法。
文档编号G06F17/30GK1369839SQ0110410
公开日2002年9月18日 申请日期2001年2月16日 优先权日2001年2月16日
发明者杨立伟 申请人:意蓝科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1