获取有助检索的特征、评价相关事物的价值的系统及方法

文档序号:6482588阅读:113来源:国知局

专利名称::获取有助检索的特征、评价相关事物的价值的系统及方法
技术领域
:本发明涉及信息处理领域,特别涉及文本检索
技术领域
和文本处理领域,具体是指一种获取有助于文本检索的特征的系统与方法、评价与输入文本相关事物对于用户的价值的系统与方法、实现根据人员的简历评估其职业优势的系统与方法以及以文本作为查询输入的文档;f全索的系统与方法。
背景技术
:作为本发明的一个方面,如何提升检索的效果,是网络时代的一个重要问题。检索的根本目的在于帮助用户从海量文档中将需要的文档与无关的文档进行区分。现有检索系统的做法是,用户提供由若干特征(通常为关键词)构成的查询(query),检索系统根据查询,评估文档库中的各个文档与查询的匹配程度,并输出匹配程度达到预设标准的文档或者文档标识。但是,用户往往并不清楚每个特征的检索效力,这导致了一定的盲目性。用户在一个查询中使用了大量特征却仍然无法有效改善查询效果。其后果,或者是不能收缩检索结果的规模,或者是丟失对于用户的检索需求而言具有潜在重要性的检索结果。此外,由大量特征构成的复杂查询导致检索系统的计算开销极大增加。所以,面对需要检索的海量文档,如何帮助用户找到合适的特征,从而帮助用户快速收缩检索范围但又不造成重要检索结果的丢失,是提升检索效果的一个重要问题。另一方面,如何利用信息技术手段来评价各种事物对于人类的重要性,也是网络时代的一个重要问题,关系到电子商务、网络社区等诸多方面。现有的技术基本上是通过分析网络交互行为(比如,点击、网页间的链接指向、用于检索的查询语句等)来评估各种网络资源(链接、搜索关键词等)所表征的事物的被关注程度。但这些行为含有的信息量毕竟有限,因而会影响评价结果的准确性。同时,与本发明相关的
背景技术
文献如下(1)涉及主题词抽取的专利文献中国专利申请CN200710177074,一种基于词频和多元文法的新闻关4建词抽耳又方法;*美国专利申请US2008/0195595,KeywordExtractingDevice;*美国专利申请US2008/0319746,KEYWORDOUTPUTTINGAPPARATUSANDMETHOD;*美国专利申i青US2008/0033938,Keywordoutputtingapparatus,keywordoutputtingmethod,andkeywordoutputtingcomputerprogramproduct;參美国专矛]US6470307,Methodandapparatusforautomaticallyidentifyingkeywordswithinadocument。(2)评价检索特征的技术*美国专利申i青US2009/0049036,Systemsandmethodsforkeywordselectioninaweb-basedsocialnetwork,其中披露了如何根据关键词在两个文本集合中的分布差异来计算关键词的评分;*美国专利申^青US2007/0288514,Systemandmethodforkeywordextraction以及US2009/0083262,SYSTEMFORENTITYSEARCHANDAMETHODFORENTITYSCORINGINALINKEDDOCUMENTDATABASE,其中披露了如何根据用户提供的关键词以及实体类型作为检索输入,寻找含有关键词以及属于该实体类型的实体的文档,然后根据这些文档计算各实体的评分;*美国专利申请US2007/0061320,Multi-documentkeyphraseexctractionusingpartialmutualinformation,其中披露了从文档集合子集中抽取关4建词,根据文档集合对关键词评分的方法;參美国专利US6502065,Teletextbroadcastreceivingapparatususingkeywordextractionandweighting,其中披露了寻找文档集合中共同关键词作为文本摘要的方法,其中涉及统计文档集合中各词汇的文档内词频以及文档间词频。(3)相似搜索(根据一个文本,找到与之相似文本)*美国专利申请US2007/0192310,INFORMATIONPROCESSINGAPPARATUSANDMETHOD,ANDPROGRAM,其中披露了利用查询与待检索文档中共同含有的关键词,评估查询与待检索文档的相关性的方法。(4)检索特征集合的扩展与收缩*美国专利US7191177,Keywordextractingdevice,其中披露了如何从查询文本中抽耳又候选关44词,然后通过黑名单过滤来精简候选关键:词;*美国专利申US2008/0243820,Semanticanalysisdocumentstorankterm与US20080133509,SelectingKeywordsRepresentativeofaDocument,其中披露了从查询文本中抽取候选关键词,利用本体对关键词进行评分,实现候选关键词的扩展。(5)同时涉及到特征抽取与特征评价*中国专利申请CN200580044686,全文查询和搜索系统及其使用方法,其中披露了计算查询文本与检索结果之间的匹配程度的方法,但未涉及评价检索特征的区分能力;*中国专利申请CN200510117001,一种用于海量文本快速相似搜索的方法,其中披露了一种文档快速检索的方法,涉及利用重要特征来收缩检索范围,但未披露重要特征是如何纟皮选择的。*美国专利申请US2007/0288433,DETERMININGRELEVANCYANDDESIRABILITYOFTERMS,其中披露了根据查询中涉及的关键词在其他用户查询中的分布,对关键词进4于评分的方法。*美国专利以及专利申请US6064952,Informationabstractingmethod,informationabstractingapparatus,andweightingmethod,US6240378,"Weightingmethodforuseininformationextractionandabstracting,basedonthefrequencyofoccurrenceofkeywordsandsimilaritycalculations,US2002/0072895,Weightingmethodforuseininformationextractionandabstracting,basedonthefrequencyofoccurrenceofkeywordsandsimilaritycalculations,其中披露了将文章分为若干段,每段抽取关键词,根据关键词在其他段的出现,计算关键词评分的方法。*美国专利US5297039,Textsearchsystemforlocatingonthebasisofkeywordmatchingandkeywordrelationshipmatching,其中涉及了计算文档库中有关的术语同查询的相关性的评分。*美国专利申请US2008/0243811,SYSTEMANDMETHODFORRANKEDKEYWORDSEARCHONGRAPHS,其中披露了检索模型为有向图时,一种对来自检索文本的候选检索特征与来自待检索文档的候选特征进行匹配,从而实现文档检索的方法。
发明内容本发明的目的是克服了上述现有技术中的缺点,提供一种能够帮助用户寻找到对自身的检索需求有帮助意义的检索特征、实现有效查询、有助于快速收缩4企索范围、避免潜在有价值的检索结果丢失、简单方便、性能稳定可靠、适用范围较为广泛的获取有助于文本检索的特征的系统与方法,评价与输入文本相关事物对于用户的价值的系统与方法,实现根据人员的简历评估其职业优势的系统与方法以及以文本作为查询输入的文档4全索的系统与方法。为了实现上述的目的,本发明的获取有助于文本检索的特征的系统与方法、评价与输入文本相关事物对于用户的价值的系统与方法、实现根据人员的简历评估其职业优势的系统与方法以及以文本作为查询输入的文档检索的系统与方法如下该获取有助于文本检索的特征的系统,其主要特点是,所述的系统包括输入装置,用于接收用户提交的输入文本;特征生成装置,用于才艮据所述的输入文本生成至少一个候选特征;评分装置,用于计算所述的候选特征的关于检索效力的至少一个评分;结果生成装置,用于根据具有所述的评分的候选特征产生至少一个结果特征;和输出装置,用于以可被用户处理或理解的表现形式将所述的结果特征输出给用户;且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。该获取有助于文本检索的特征的系统中的输出装置还输出有每个所述的结果特征的评分,所述的结果特征的评分为所述的评分装置对于候选特征数据中与所述的结果特征相等同的一个候选特征的评分。该获取有助于文本检索的特征的系统中的特征生成装置还操作至少一个候选调整装置,用于在原有的所述的候选特征的基础上删除和/或增加至少一个候选特征。该获取有助于文本检索的特征的系统中的评分的计算过程还依赖于所述的候选特征在所述的输入文本中的分布特性,所述的特征生成装置还生成有各所述的候选特征关于所述的输入文本的分布特性的数据。该获取有助于文本检索的特征的系统中的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。该基于上述的装置实现获取有助于文件检索的特征的方法,其主要特点是,所述的方法包括以下步骤(1)输入步骤,接收用户提交的输入文本;(2)特征生成步骤,根据所述的输入文本生成至少一个候选特征;(3)评分步骤,计算所述的候选特征的关于检索效力的至少一个评分;(4)结果生成步骤,根据具有所述的评分的候选特征产生至少一个结果特征;(5)输出步骤,以可被用户处理或理解的表现形式将所述的结果特征输出给用户;且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。输出每个所述的结果特征的评分,所述的结果特征的评分为所述的候选特征数据中与所述的结果特征相等同的一个候选特征的评分。该实现获取有助于文件检索的特征的方法中的特征生成步骤中还包括以下步骤至少一个候选调整步骤,用于在原有的所述的候选特征的基础上删除和/或增加至少一个候选特征。该实现获取有助于文件检索的特征的方法中的评分的计算过程还依赖于所述的候选特征在所述的输入文本中的分布特性,所述的特征生成步骤中包括以下步骤生成各所述的候选特征关于所述的输入文本的分布特性的数据。该实现获取有助于文件冲全索的特征的方法中的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。该评价与用户提交的输入文本相关的事物的价值的系统,其主要特点是,所述的系统包括输入装置,接收用户提交的输入文本;关键词生成装置,根据所述的输入文本生成至少一个关键词形式的候选特征;评分装置,计算所述的候选特征的至少一个评分;结果生成装置,才艮据经过评分的所述的候选特征产生至少一个结果特征;和输出装置,以可被用户处理或理解的表现形式将所述的结果特征输出给用户。且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。该评价与用户提交的输入文本相关的事物的价值的系统中的关键词生成装置还操作至少一个候选调整装置,用以调整所述的候选特征,即从原有的候选特征中删除一些候选特征和/或加入一些特征作为新的候选特征。该评价与用户提交的输入文本相关的事物的价值的系统中的输出装置还输.出了每个所述的结果特征的评分,一个所述的结果特征的评分为候选特征数据中与所述的结果特征相等同的一个所述的候选特征的评分。该评价与用户提交的输入文本相关的事物的价值的系统中的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。进一步地,该评价与用户提交的输入文本相关的事物的价值的系统中的输入文本含有第一方需求的描述,所述参照文档集合含有与第一方需求相对应的第二方供给的描述;或者所述输入文本含有第一方供给的描述,所述参照文档集合含有与第一方供给相对应的第二方需求的描述;或者所述输入文本含有第一方供给或需求的描述,所述参照文档集合含有与第一方需求或供给属于同一类型的第二方需求或供给的描述。进一步地,所述第二参照文档集合含有与第一方的需求或供给属于同类型的第三方的需求或供给的描述。所述输入文本可被加入到第二参照文档集合。该基于上述的系统实现评价与用户提交的输入文本相关的事物的价值的方法,其主要特点是,所述的方法包括以下步骤(1)输入步骤,接收用户提交的输入文本;(2)关键词生成步骤,根据所述的输入文本生成至少一个关键词形式的候选特征;(3)评分步骤,计算所述的候选特征的至少一个评分;(4)结果生成步骤,+艮据经过评分的所述的候选特征产生至少一个结果特征;(5)输出步骤,以可被用户处理或理解的表现形式将所述的结果特征输出给用户。且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。该实现评价与用户提交的输入文本相关的事物的价值的方法中的关键词生成步骤中还包括以下步骤至少一个候选调整子步骤,从原有的候选特征中删除一些候选特征,和/或加入一些特征作为新的候选特征。该实现评价与用户提交的输入文本相关的事物的价值的方法中的输出步骤中还包括以下步骤输出每个所述的结果特征的评分,所述的结果特征的评分为候选特征数据中与所述的结果特征相等同的一个所述的候选特征的评分。该实现评价与用户提交的输入文本相关的事物的价值的方法中的候选特征的评分的计算过程,至少部分依赖于所述的候选特征在所述的参照文档集合中的分布特性。该实现评价与用户提交的输入文本相关的事物的价值的方法中的评分的计算过程还至少部分依赖于所述的候选特征在所述的输入文本中的分布特性,和/或至少部分依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。该基于上述的系统实现根据人员的简历评估其职业优势的系统,其主要特点是,输入文本和参照文档集合可以为以下配置之一所述的输入文本参照文档集合简历文本招聘启事库简历文本简历库该实现根据人员的简历评估其职业优势的系统中的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性,所述的输入文本、参照文档集合和第二参照文档集合为以下配置之一输入文本参照文档集合第二参照文档集合简历文本招聘启事库简历库简历文本简历库招聘启事库该基于上述的方法实现根据人员的简历评估其职业优势的方法,其主要特点是,所述的输入文本和参照文档集合为以下配置之一输入文本参照文档集合简历文本招聘启事库简历文本简历库该实现根据人员的简历评估其职业优势的方法中的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性,所述的输入文本、参照文档集合和第二参照文档集合为以下配置之一输入文本参照文档集合第二参照文档集合简历文本招聘启事库简历库简历文本简历库招聘启事库该以文本作为查询输入的文档检索的系统,其主要特点是,所述的系统包括输入装置,接收用户提交的输入文本;上述的获取有助于文本^r索的特征的系统,才艮据所述的输入文本得到含有结果特征的输出结果;检索装置,将所述的输出结果输入检索系统获得检索结果;检索输出装置,将所述的检索结果输出。该实现以文本作为查询输入的文档检索的方法,其主要特点是,所述的方法包括以下步骤(1)输入步骤,接收用户提交的输入文本;(2)特征获取步骤,利用上述的实现获取有助于文件;险索的特征的方法获取结果特征;(3)检索步骤,依赖于所述的结果特征产生检索结果;(4)检索输出步骤,将所述的检索结果输出。泉用了该发明的获取有助于文本检索的特征的系统与方法,用户可以寻找到对自身的检索需求有帮助意义的检索特征,使得用户在面对海量的文档时可以运用这些检索特征构造有效的查询,进而快速收缩检索范围,但同时又避免了潜在有价值的检索结果的丟失,而且简单方便,性能稳定可靠,适用范围较为广泛。而将该系统与方法与现有的检索系统相结合,可以构造更为方便易用的检索系统,用户只需要输入描述性的文本,就可以检索到相关资料,避免了因关键词选择不当而导致的检索效果的下降。而采用了该发明的评价与输入文本相关事物对于用户的价值的系统与方法,用户可以通过提交一个描述性的文本,而得到各种相关事物对于该用户的价值的评价。该系统与方法,筒便有效,直观易懂,适用于多种用途,比如求职招聘、论文招:稿、网络交友等。图1为本发明的获取有助于文本检索的特征的系统功能模块组成示意图。图2为本发明的带有候选调整装置的获取有助于文本检索的特征的系统功能模块组成示意图。图3为本发明的涉及第二参照文档集合的获取有助于文本检索的特征的系统功能模块组成示意图。图4为本发明的评价与输入文本相关事物对于用户的价值的系统功能模块组成示意图。图5为本发明的实现根据人员的简历评估其职业优势的系统功能模块组成示意图。图6为本发明的以文本作为查询输入的文档检索的系统功能模块组成示意图。具体实施例方式为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。首先介绍一下本发明的基本策略当用户提供反映其检索需求的输入文本时,从输入文本中识别出足够多的候选特征,然后对每个候选特征的^f全索效力计算评分,最后才艮据经过评分的候选特征产生至少一个结果特征输出给用户。其评分的计算至少部分地依赖于所述候选特征在作为参照的参照文档集合中的分布特性。进一步地,所述评分的计算还依赖于所述候选特征在输入文本中的分布特性,和(或)所述候选特征在至少一个第二参照文档集合中的分布特性。这样,本发明涉及一种获取有助于检索的特征的系统。同时,本发明还能够利用表征某事物的关键词形式的特征的检索效力来评价该事物的价值。本发明基于这样的事实,一个关键词表征了一个事物,因此关于一个这样的关键词在输入文本、参照文档集合、第二参照文档集合中的分布特性的信息反映了该关键词所表征的事物在输入文本、参照文档集合、第二参照文档集合中被重视的程度、被需要的程度、或被普遍具有的程度;依赖于所述分布特性信息而得到的该关键词的评分,也因此体现了该关键词所表征的事物对于输入文本的作者的价值。这样,本发明就实现了评价与用户提交的输入文本相关事物的价值的系统与方法。在本发明中,一个所述的候选特征的检索效力,是指当一个将参照文档集合和(或)第二参照文档集合作为检索资料源的检索系统在原有查询中加入该候选特征后,相应而获得的新检索结果在检索效果上的改善程度。如果在一个参照文档集合中,含有某个候选特征的参照文档越多,则这个候选特征对于参照文档集合的检索效力就越弱。若某个检索系统在原有查询中加入检索效力较弱的候选特征而得新的查询,则新查询所返回的检索结果,并不能有效地收缩检索规模。反之,如果在一个参照文档集合中,含有某个候选特征的参照文档越少,则这个候选特征对于参照文档集合的检索效力就越强。若某个检索系统在原有查询中加入该候选特征而得新的查询,则新查询所返回的检索结果,其规模将显著缩小。当然,如果某个候选特征未出现在参照文档集合的任何参照文档中,则这个候选特征在参照文档集合中的检索效力在数学上无意义,这样的候选特征将在评分步骤中被标识为评分无效,将不会作为一个结果特征。'本发明所述参照文档集合和第二参照文档集合是指,计算评分时被用来作为参考的文档集合。实施时,一个文档集合可以有多种存在形式,比如数据库中的记录,网站上的网页,文件系统中的目录及所属文件,或者其他文档集合的形式。一个所述候选特征在一个文档集合中的分布特性,是指所述文档集合的各个文档中所述候选特征的存在性、出现次数,各次出现位置、覆盖的文本区域大小、和(或)其它与所述候选特征的分布情况有关的信息。关于一个候选特征在一个文档集合的各文档中的分布特性的数据,被称为所述候选特征关于所述文档集合的分布特性数据。在实施时,一个特征关于一个文档集合的分布特性数据,可以含有以下内容但不限于*文档集合中含有该特征的文档数;*文档集合中该特征总的出现次数;*该特征在文档集合中的平均的首次出现位置。对于某些类型文本(比如自然语言文本),一个特征在该文本首次出现的相对位置值(即首次出现位置相对于文本长度的比值)越小,表示它在文中越早被提及,则它被认为对于该文本越是重要。因此,对于一个特征,找到它在文档集合中出现的那些文档,以及该特征在那些文档中首次出现位置的平均值,对于计算特征的检索效力会提供有价值的信息;*该特征在文档集合的各文档中总共覆盖的文本区域大小。一个特征在文档中每次出现所匹配的字符串并不是等长的,一个明显的例子是语言单元(一个语言单元可以表示语法结构、语义角色等)。根据近似文本分析方法,多个语言单元可通过归约得到一个新的语言单元。如果参与归约的语言单元相距越远,则新语言单元的覆盖文本区域就越大(具体请参阅中国专利文献"近似文本分析的装置与方法",专利号200510023589.8)。参照前述的分布特性的定义,技术人员不难构造出各种具体的分布特性数据,以满足实施时的具体的工程需要。类似地,一个所述候选特征在一个文本或文档中的分布特性,是指所述文本或文档中该候选特征的存在性、出现次数、各次出现位置、覆盖的文本区域大小、和(或)其它与所述候选特征的分布情况有关的信息;关于一个候选特征在一个文本或文档中的分布特性的数据,:故称为所述候选特征关于所述文本或文档的分布特性数据。在本发明中,所述参照文档以及所述输入文本,并不特指由人类书面语言所书写的自然语言文本,也可以是计算机代码文本,或者标记语言文本(比如HTML文本,XML文本),或者被数字化了的信号序列(比如语音信号),或者以编码形式表达的序列(比如DNA序列)。本发明中所述的特征(候选特征或者结果特征),并不特指匹配一定文本子序列的模式(比如字符序列、关键词、字符序列的模式、关键词的模式),还可以指关于一定特征的匹配模式(比如,语法结构、语义角色、标记语言文本中的各种标签(tag)或块(block)的布局特性)以及其它可以被某个检索系统在检索参照文档集合时所利用的特征。一个特征是关于一定特征的匹配模式,有两种情况(1)一个特征匹配一定特征,比如一个语义角色形式的特征,可以匹配某些具有该种语义角色的关键词特征;(2)—个特征匹配一定特征构成的组合,比如一个表示主谓结构的语法特征,可以匹配由一个表示客观实体的语义角色特征与一个表示动词的语法特征构成的特征组合。本发明中所述的关键词是指表征事物的特征。所述事物可以是通常意义上的客观对象、动作、事件,也可以是事物的性质、状态、程度等其它概念性表述。本发明中所述的任何一个装置与任何一个第二装置,可以是物理上不同的计算装置,也可以是执行不同操作序列的同一计算装置,也可以是以不同操作参数执行相同操作序列的同一计算装置。所述操作参数为计算装置执行操作序列时需要获取的必要数据。本发明中所述的用户是指运用本发明所涉及的方法操作本发明所涉及的系统的客体。用户可以是自然人、组织机构、或自动装置。所述本发明是指本说明书以及与本说明书所对应的权利要求所披露的一切内容。本发明中所述计算装置,可以是但不限于计算机、嵌入式设备、电路、集成电路芯片、人工构造的可执行计算任务的高分子结构、量子计算机、以及其它可完成计算任务的人造物。请参阅图l所示,本发明所涉及的该种获取有助于文本检索的特征的系统,包含但不限于输入装置,接收用户提交的输入文本;特征生成装置,根据输入文本生成至少一个候选特征;评分装置,计算所述候选特征的关于检索效力的至少一个评分;结果生成装置,根据经过评分的候选特征产生至少一个结果特征;输出装置,将结果特征数据输出给用户。其中,再请参阅图2所示,所述的特征生成装置还可以操作至少一个候选调整装置,用以调整候选特征,即从原有候选特征中删除一些候选特征和(或)加入一些特征作为新的候选特征。另一方面,所述的输出装置还输出了每个结果特征的评分,一个所述结果特征的评分就是评分装置对于候选特征数据中与所述结果特征等同的一个候选特征的评分。同时,本发明所涉及的该种获取有助于文本检索的特征的方法,包含但不限于(1)输入步骤,接收用户提交的输入文本;(2)特征生成步骤,根据输入文本生成至少一个候选特征;(3)评分步骤,计算所述候选特征的关于检索效力的至少一个评分;(4)结果生成步骤,#^居经过评分的候选特征产生至少一个结果特征;(5)输出步骤,以可被用户处理或理解的表现形式将结果特征输出给用户;一个所述候选特征的关于检索效力的评分的计算过程,至少部分依赖于所述候选特征在所述参照文档集合中的分布特性。其中,在所述的特征生成步骤中还可以包含至少一个候选调整子步骤,从原有候选特征中删除一些候选特征和/或加入一些特征作为新的候选特征。另一方面,所述的输出步骤还输出了每个结果特征的评分,一个所述结果特征的评分就是评分装置对于候选特征数据中与所述结果特征等同的一个候选特征的评分。同时,再请参阅图3所示,所述评分的计算过程还至少部分依赖于所述候选特征在输入文本中的分布特性;另一方面,进一步地,所述评分的计算过程还至少部分依赖于所述候选特征在至少一个第二参照文档集合中的分布特性。再请参阅图4所示,本发明所涉及的该种评价与用户提交的输入文本相关的事物的价值的系统,包含输入装置,接收用户提交的输入文本;关键词生成装置,根据输入文本生成至少一个关键词形式的候选特征;评分装置,计算候选特征的至少一个评分;结果生成装置,根据经过评分的候选特征产生至少一个结果特征;输出装置,以可被用户处理或理解的表现形式将结果特征输出给用户。其中,所述的关键词生成装置还可以操作至少一个候选调整装置,用以调整候选特征,即从原有候选特征中删除一些候选特征和(或)加入一些特征作为新的候选特征。另一方面,所述输出装置还输出了每个结果特征的评分,一个所述结果特征的评分就是候选特征数据中与所述结果特征等同的一个候选特征的评分。进一步地,该评价与用户提交的输入文本相关的事物的价值的系统中的输入文本含有第一方需求的描述,所述参照文档集合含有与第一方需求相对应的第二方供给的描述;或者所述输入文本含有第一方供给的描述,所述参照文档集合含有与第一方供给相对应的第二方需求的描述;或者所述输入文本含有第一方供给或需求的描述,所述参照文档集合含有与第一方需求或供给属于同一类型的第二方需求或供给的描述。进一步地,所述第二参照文档集合含有与第一方的需求或供给属于同类型的第三方的需求或供给的描述。所述输入文本可被加入到第二参照文档集合。同时,本发明所涉及的该种评价与用户提交的输入文本相关的事物的价值的方法,包含但不限于(1)输入步骤,接收用户提交的输入文本;(2)关键词生成步骤,根据输入文本生成至少一个关键词形式的候选特征;(3)评分步骤,计算所述候选特征的至少一个评分;(4)结果生成步骤,根据经过评分的候选特征产生至少一个结果特征;(5)输出步骤,以可被用户处理或理解的表现形式将结果特征输出给用户。其中,在所述的关键词生成步骤中还可以包含至少一个候选调整子步骤,从原有候选特征中删除一些候选特征和(或)加入一些特征作为新的候选特征。另一方面,所述的输出步骤还输出了每个结果特征的评分,一个所述结果特征的评分就是候选特征数据中与所述结果特征等同的一个候选特征的评分。同时,一个所述候选特征的评分的计算过程,至少部分依赖于所述候选特征在所述参照文档集合中的分布特性。进一步地,所述评分的计算过程还至少部分依赖于所述候选特征在输入文本中的分布特性,和(或)至少部分依赖于所述候选特征在至少一个第二参照文档集合中的分布特性。不仅如此,再请参阅图5所示,根据前述的一种评价与用户提交的输入文本相关的事物的价值的系统与方法,本发明所涉及的该种根据某人的简历评估其职业优势的系统与方法,其特征在于输入文本,参照文档集合,第二参照文档集合采取如下配置之一输入文本参照文档集合第二参照文档集合简历文本招聘启事库筒历文本招聘启事库简历库简历文本简历库简历文本简历库招聘启事库再请参阅图6所示,本发明所涉及的该种以文本作为查询输入的文档;f全索的系统,包含但不限于输入装置,接收用户提交的输入文本;上述的获取有助于文本检索的特征的系统",根据输入文本得到含有结果特征的输出结果;检索装置,将输出结果输入检索系统获得检索结果;检索输出装置,将检索结果输出。下面详细说明本发明的上述技术方案中所涉及的方法中的各个步骤1、输入步骤本发明涉及的方法中,包含一个利用输入装置获取用户提交的输入文本的输入步骤。输入装置可以有多种实现方式,可以是但不限于硬件形式的接口(如网络接口、USB接口、RS232接口、芯片引脚),软件形式的接口(如人机交互界面、操作系统中的存储介质访问接口、数据库ODBC接口、网络访问接口)等。在实施中,输入步骤可被设计为接受文本标识而非整个文本,这应被认为与接受文本作为文本输入是等价的。比如技术人员构造一个额外的输入子系统,接收用户的输入文本,并保存到存储介质中的输入文本库中;而在本输入步骤中,本系统接收用户提交的标识,通过访问存储介质,从输入文本库中找出与标识相匹配的文本作为输入文本。2、特征生成步骤该步骤利用特征生成装置根据输入文本生成候选特征的特征生成步骤。所述特征生成装置,识别出在输入文本中出现的特征,作为候选特征。进一步地,如果评分装置计算候选特征的评分还依赖于候选特征关于输入文本的分布特性数据,则特征生成装置还生成所述候选特征关于输入文本的分布特性数据。从输入文本中识别候选特征的特征生成装置,可以有多种实现方式(1)静态识别能力模式。实施时,技术人员通过生成工具将给定的识别数据转换为所述特征生成装置的处理逻辑的一部分。所述识别数据描述了可被识别的候选特征应该满足的条件。如果只识别字符序列、关键词等形式的不需要全局观察所述输入文本就能正确识别的检索特征,所述特征生成装置可以由词法分析器生成工具(比如LEX)产生为一个词法分析器。所述识别数据含有构造词法分析器时用于描述被匹配检索特征的规则(通常为正则表达式)。如果识别的检索特征涉及语法模式、语义角色、标记语言的布局特性等形式的需要观察文本全局才能正确识别的4全索特征,所述特征生成装置可以由语法分析器生成工具(比如YACC)产生为一个语法分析器。所述识别数据含有构造语法分析器时用于描述被匹配检索特征的规则(通常为正则表达式)。特别地,在中国专利"ZL200510023589.8近似文本分析的装置和方法"中,披露了一种文本分析器,借助于松散形式的归约,可以不通过完全的文本分析而捕捉到符合特定规则的语法模式或者语义角色。当然,技术人员也可以将至少一个词法分析器与至少一个语法分析器组合起来,构造出功能更强大的特征生成装置。如何将词法分析器与语法分析器组合起来,在计算机科学中属于公知技术,不再赘述。(2)动态识别能力模式。实施时,技术人员在所述特征生成装置中加入了访问识别数据的处理逻辑。所述识别数据描述了可被识别的候选特征应该满足的条件。最简单的实现方式是,一个软件用一个滑动窗扫描所述输入文本,将滑动窗内的字符片段与查找表上的各种检索特征进行比对,实现识别的功能。所述查找表是所述识别数据在此例中的实现方式。(3)静态识别能力与动态识别能力相组合的模式。在实施时,技术人员将识别数据中部分内容转换所述特征生成装置的处理逻辑的一部份,并在特征生成装置中加入了访问识别数据中剩余部分内容的处理逻辑。在本发明中,进一步地,所述特征生成装置还生成了评分装置所需要的候选特征数据中的候选特征关于所述输入文本的分布特性数据。所述特征生成装置在识别出所述候选特征在所述输入文本中的每一出现时,将所述候选特征在本次出现时的上下文数据记录到计算装置可访问的存储介质上;最后根据记录下的关于所述候选特征的所有上下文数据,通过计算产生所述候选特征关于输入文本的分布特性数据。所述上下文数据是所述特征生成装置在处理过程中的某一步骤为了保存状态而产生的数据(比如变量值、堆栈、内存緩沖、临时文件等)。比如,评分装置在评分计算过程中需要得到一个候选特征在输入文本中出现位置相对文本开始位置的平均偏移,则特征生成装置中可以增加相应的控制逻辑,使得每当一个候选特征X的出现被识别,则上下文数据<X,">就被记录到计算装置可读的存储介质中,其中y就表示本次的出现在文本中的位置,/表示第/次出现。特征生成装置完成抽取后,将所述存储介质中的所有上下文数据按照候选特征进行分组。每个候选特征x对应<1,;>,<x,;r2>,......,<x,};,>。这样义在所述输入文本中的平均偏移7=丄^1;就可以计算得到。实施时,技术人员参照本例,不难得到一个候选特征关于一个输入文本的其它分布特性数据。由于和前述处理输入文本而产生候选特征及其在输入文本中的分布特性数据的特征生成装置十分类似,对于处理第一参照文档集合而产生第一特征数据的第一特征数据生成装置与处理第二参照文档集合而产生第二特征数据的第二特征数据生成装置,不再赘述。3、关键词生成步骤该步骤利用关键词生成装置根据输入文本生成至少一个关键词形式的候选特征。参照前述特征生成步骤与特征生成装置,技术人员不难实现关键词生成步骤与关键词生成装置。对于如何确保关键词生成步骤根据输入文本而输出的是关键词形式的候选特征,可以参考关键词抽取(KeywordExtraction)方面的文献。如果希望在不增加额外数据的情况下实现本步骤,一个最简单的方法是抽取单个的汉字或者单个的单词作为候选关键词。更进一步可以抽取N个连续的汉字或者N个连续的单词(即N-gram)作为候选关键词。依靠上述简化方法,虽然某些结果可能是不具有实际意义的字符串,但可以极大筒化工程实现。而且,非关键词的特征往往因为出现较少而导致其评分较低,因而可大致地与合法的关键词区别开。4、候选调整子步骤本发明涉及的方法,在特征生成步骤之中还可以包含至少一个利用候选调整装置调整候选特征的候选调整子步骤。所述候选调整子步骤可以是删除至少一个候选特征的子步骤。一个所述删除子步骤将至少一个符合第一预设准则的候选特征删除。所述第一预设准则在实施时有多种实现方式,比如第一预设准则可以是一个预先设定的黑名单,用于去除黑名单上所列的候选特征;如果候选特征的评分计算依赖于候选特征关于输入文本的分布特性数据,则第一预设准则还可以含有若干关于分布特性的限制规则,如候选特征在输入文本中必须达到的最少出现次数等。在美国专利"US7191177Keywordextractingdevice"中,披露了如何从输入文本中抽取候选关键词,然后通过黑名单过滤来精简候选关键词。所述候选调整子步骤可以是增加至少一个候选特征的子步骤。一个所述增加子步骤,访问至少一个候选特征,对于当前被访问的候选特征A,根据反映特征关联性的数据,找出A所涉及的至少一个关联检索特征B,并将B作为一个新的候选特征。这将产生智能联想的效果,使得用户可以得到未在输入文本出现但是与用户需求有关的特征。进一步地,将A的分布特性数据作为B的分布特性数据。所述反映特征关联性的数据,可以来自用户指定,也可以来自一个人工维护的描述特征之间关联性的知识库(比如,本体库),也可以是通过自动过程获得的特征关联性的知识(比如,根据对某个语料的语言统计学分析而得到的检索特征之间的共现性,作为关联),或半人工半自动方式获得的特征关联性的知识(比如,利用有指导的机器学习发现检索特征之间共现性,作为关联)。在美国专利申请"US2008/0243820Semanticanalysisdocumentstorankterm,'与"US2008/0133509SelectingKeywordsRepresentativeofaDocument"中,披露了从输入文本中抽取候选关键词,利用本体对候选关键词计算评分,实现候选关键词的扩展。本发明的实施人员可以参照这些文献以及其它相关文献,来实现所述候选调整子步骤。5、评分步骤本发明涉及的方法,包含一个利用评分装置计算候选特征的至少一个评分的评分步骤。所述候选特征的评分,至少部分依赖于所述候选特征在所述参照文档集合中的分布特性。进一步地,所述评分还至少部分依赖于所述候选特征在输入文本中的分布特性,和(或)至少部分依赖于所述候选特征在至少一个第二参照文档集合中的分布特性。在本发明中,一个参照文档可以同时属于参照文档集合以及一个第二参照文档集合,和(或)一个参照文档可以同时属于一个以上的第二参照文档集合。该步骤涉及三个技术问题(1)候选特征关于输入文本、参照文档集合、和(或)第二参照文档集合中的分布特性数据是如何产生的。在本发明中,一个第一特征数据生成装置生成一个候选特征关于参照文档集合的分布特性数据;进一步地,一个特征生成装置除了生成候选特征还生成候选特征关于输入文本的分布特性数据,和(或)至少一个第二特征数据生成装置生成所述候选特征关于至少一个第二参照文档集合的分布特性数据。在实施时,一个特征生成装置与一个第一特征数据生成装置可以是同一装置,一个第一特征数据生成装置与一个第二特征数据生成装置可以是同一装置,和(或)一个特征生成装置与一个第二特征数据生成装置可以是同一装置。(2)评分装置如何获取候选特征关于输入文本、参照文档集合、和(或)第二参照文档集合中的分布特性数据。评分装置所需要的候选特征关于输入文本的分布特性数据,来源于候选特征数据。评分装置获取候选特征关于参照文档集合的分布特性数据,可以有如下方式但不限于(A)静态方式。所述分布特性数据由评分装置从一个第一特征数据中获取。而第一特征数据由其它系统根据参照文档集合产生,或者由本系统根据参照文档集合产生。对于前一种方案,本系统只需要负责获取必要分布特性数据进行计算,可以简化设计。对于后一种方案,在输入步骤之前,包含一个准备步骤,用所述第一特征数据生成装置根据参照文档集合生成第一对比特征,并生成第一对比特征关于参照文档集合的分布特性数据,并保存到第一特征数据中。在静态方式中,系统将所有可能被用到的分布特性数据都事先准备好,并存放到特定的数据结构中。每当本发明所涉及的系统被用户访问时,不需要处理参照文档集合,节约了时间。此方式适用于参照文档集合中的内容不会频繁变更的场合。(B)动态方式。所述分布特性数据由评分装置通过调用第一特征数据生成装置而直接获取。在此方式中,每当本发明所涉及的系统被用户访问时,都要重新处理参照文档集合以得到所述分布特性数据。此方式适用于参照文档集合频繁变更或者文档规模较小的场合。评分装置获取候选特征关于至少一个第二参照文档集合的分布特性数据,可以有如下方式但不限于(A)静态方式。所述分布特性数据由评分装置从至少一个第二特征数据中获取。第二特征数据的产生依赖于第二参照文档集合,具体实现参考第一特征数据的产生。(B)动态方式。所述分布特性数据由评分装置通过调用第二特征数据生成装置而获取。(3)评分装置如何依赖于候选特征关于输入文本、参照文档集合、和(或)第二参照文档集合中的分布特性数据对所述候选特征计算评分。给定一个参照文档集合A(含N个参照文档),以及一个候选特征X,实施本发明的技术人员可以构造多种评分公式。比如s,(X)=/2(X)log25Oil)S2(X)=/。(Z》l0g2(AX)logW^(AX)给定一个参照文档集合j,以及M个第二参照文档集合B,(含有^个第二参照文档),以及一个候选特征X,实施本发明的技术人员可以构造多种评分公式。比如<formula>formulaseeoriginaldocumentpage24</formula>以上公式所用到的函数参见下表说明log2等。输入文本中X是否存在(1:存在;0:不存在)输入文本中I的出现次数输入文本中;r所有实例所覆盖的文本区域大小的总和文档集合D中含有X的文档数文档集合D中X出现的总次数E'(Z),X)文档集合D中X各实例在J的所属各文档"中的首次出现的偏移位置相对于文档"长度的比值的平均值柳I)文档集合Z)中X各实例在J的所属各文档a中所覆盖的文本区域大小的总和参照上表中的函数,在实施时,技术人员可以构造新的函数,从而依赖于候选特征关于输入文本,参照文档集合,和/或第二参照文档集合的分布特性数据,来对所述候选特征计算评分。6、结果生成步骤本发明涉及的方法还包括利用结果生成装置根据经过评分的候选特征产生至少一个结果特征的结果生成步骤。所述产生结果特征的方式,可以是将候选特征进行调整,将调整后的候选特征作为结果特征;或将候选特征直接作为结果特征。所述对经过评分的候选特征的调整,可以以下任一方式或是若干种方式的组合(1)去除评分无意义的候选特征(这种情况产生于候选特征在参照文档集合和(或)第二参照文档集合中未被发现);(2)去除符合第二预设准则的部分候选特征;(3)对候选特征进行排序。(4)其它造成候选特征变动的操:作。所述第二预设准则的设定是为了更好地收缩返回结果的规模,提高反馈信息的质量。在实施时有多种方式,比如将评分低于阈值的候选特征去除;统计各个候选特征的评分,计算评分的均值E与均方差5,将评分低于£-35的候选特征去除;统计各个候选特征的评分,计算评分的中位数,将评分低于中位数的候选特征去除。参照这些例子,技术人员在实施时,可以构造其它符合具体工程要求的第二预设准则。7、输出步骤最后,本发明所涉及的方法包含一个输出步骤,利用输出装置以可被用户处理或理解的表现形式输出结果特征和/或各结果特征对应的评分。所述表现形式,可以是但不限于二进制数据文件;表格;图表;动画;超文本(HTML)形式的输入丈本,在其中用不同颜色标出评分属于不同等级的结果特征;超文本形式的输入文本,在其中用链接标出结果特征,当用户通过浏览器访问该超文本,点击超文本中的链接将通过一个检索系统搜索含有与链接对应的结果特征的文档;和(或)其它可被用户处理或理解的表现形式。输出装置可以有多种实现方式,可以是但不限于硬件形式的接口(如网络接口、USB接口、RS232接口、芯片引脚),软件形式的接口(如人机交互界面、操作系统中的存储介质访问接口、数据库ODBC接口、网络访问接口)等。在某些实施中,输出装置可与输入装置共享同一物理接口或逻辑接口。以下给出一些本发明的具体实施例。同时可以理解,本发明并不局限这些特定的实施例。实施例一一个帮助用户从提交的输入文本中寻找具有检索效力的特征的系统请参阅图l所示,图中示出依据本发明实施例的一种获取有助于检索的特征的系统。该系统100按如下方式运行于一个计算机系统上在准备步骤中,用第一特征数据生成装置扫描参照文档集合152中每个参照文档。当扫描一个参照文档时,第一特征数据生成装置将识别出的每个由连续英文字母构成的单词,保存到字典树(trie),字典树中该单词对应的计数加1。当扫描完毕时,这个字典树包含了参照文档集合152中所有的英文单词及每种单词在参照文档集合152中的出现总次数。每种英文单词都是所述第一对比特征,每个第一对比特征的出现总次数就是该第一对比特征关于参照文档集合152的分布特性数据。该字典树被作为第一特征数据。第一特征数据生成装置106可以由LEX编译一个LEX文件而产生,该LEX文件中使用正则表达式(RegularExpression)来描述连续的英文字符。这样第一特征数据生成装置106可以捕捉连续英文字符所表示的单词。当用户提交输入文本时(1)在输入步骤,利用输入装置101获取用户键盘输入的输入文本151并保存于内存。(2)在特征生成步骤,利用特征生成装置102,访问内存中的输入文本151,并根据输入文本151生成候选特征X={x,x2,..,x},其中x,是一个候选特征,将这些候选特征构成一个数组。特征生成装置102由LEX编译一个LEX文件而产生。该LEX文件中使用的规则描述了连续的英文字符,因而特征生成装置102可以捕捉连续英文字符所表示的单词。此外,该LEX规则对应的动作中含有将匹配字符串放入字符串数组的指令,LEX文件还描述了在程序扫描输入丈本完毕后对字符串数组进行排序和去除重复,并保存为一个候选特征数组154。因此特征生成装置102扫描输入文本151后,将输入文本151含有的所有英文单词保存到一个候选特征数组154。(3)在评分步骤,利用评分装置103,依次访问候选特征数组154中每个成员,对于当前成员x,,访问第一特征数据并得到x,的分布特性数据x。计算该候选特征x,的关于检索效力的评分,得到关于x,的评分。评分函数为<formula>formulaseeoriginaldocumentpage26</formula>其中函数F2(Ax)表示文档集合D中候选特征x的总出现数,即_y,;A为参照文档集合。当完成计算后,将所有候选特征的评分也构成一个数组。候选特征数组154的各个成员与评分数组各成员——对应。(4)在结果生成步骤,利用结果生成装置104,根据给定的候选特征数组154与评分数组,按照候选特征的评分对候选特征进行排序,将排序后的候选特征作为结果特征。(5)输出步骤,利用输出装置105,以可被用户处理或理解的表现形式将结果特征作为输出结果153输出给用户。再请参阅图2所示,图中示出依据本发明实施例的一种获取有助于检索的特征的系统。该系统200与前述系统100有几处不同(1)没有准备步骤。(2)在特征生成步骤中,利用特征生成装置202产生候选特征数组154。特征生成装置202在执行完特征生成装置102的全部功能后,还有一个候选调整子步骤,利用候选调整装置206进行候选特征的调整依次访问候选特征数组154中的每个候选特征,查看该候选特征是否存在于预先设置的黑名单,如果是则将该候选特征从数组154中清除。(3)在评分步骤中,利用评分装置203,依次访问候选特征数组154中每个成员,对于当前成员x,,在参照文档集合152中依次查找每个文档,统计含有x,的总文档数z,,作为x,的分布特性数据;计算该候选特征x,的评分。评分函数为(x,)=-log2巧(=-log2z,;其中函数^(Ax)表示文档集合D中候选特征x的总文档数,即z,;A为参照文档集合。当完成计算后,将所有候选特征的评分也构成一个数组。候选特征数组154的各个成员与评分数组各成员——对应。再请参阅图3所示,图中示出依据本发明实施例的一种获取有助于检索的特征的系统。该系统300与前述系统100有多处不同在准备步骤中,用第一特征数据生成装置106依次扫描参照文档集合152中每份文档。对于当前被处理的文档,扫描该文档并识别出的每个英文单词。每当识别出一个英文单词,查看第一字典树中是否存在该单词。如果不存在,则在第一字典树中加入该单词,并在第二字典树中也加入该单词,同时第二字典树中该单词的文档计数加1。每当扫描完一个文档,则将第一字典树清空。当扫描完所有文档后,取出第二字典树中所有单词及其计数保存到第一特征数据。第一特征数据中每个第一对比特征就是一个单词,每个第一对比特征的分布特性数据就是该单词的总文档数(文档计数)。与第一特征数据生成装置类似,用第二特征数据生成装置307根据第二参照文档集合353生成第二对比特征,以及每个第二对比特征在第二参照文档集合353中出现的总文档数作为该第二对比特征关于第二参照文档集合353的分布特性数据,并保存到第二特征数据中。当用户提交输入文本时,其不同之处在于(l)在特征生成步骤中,利用特征生成装置302,访问内存中的输入文本151,识别出各种由连续英文字符构成的英文单词,并对每种英文单词的出现次数进行计数。特征生成装置302由LEX编译一个LEX文件而产生。通过构造适合的LEX文件,技术人员对上述功能不难实现,这里不再赘述。当特征生成装置302完成对输入文本151的扫描,将输入文本151中出现的每种单词作为一个候选特征,以及将该种单词在输入文本151中的出现次数作为该候选特征关于输入文本151的分布特性数据,存储在数组354中。(2)在评分步骤中,利用评分装置303访问数组354,从中读取每个候选特征;对于每个候选特征x,,评分装置303从访问数组354读取x,关于输入文本151的分布特性数据w,,从第一特征数据中读取x,关于参照文档集合152的分布特性数据y,,从第二特征数据中读取x,关于第二参照文档集合353的分布特性数据z,,计算该候选特征x,的评分。评分函数为W)=l0g2^^:=l0g2i,\(x,)=y;(x,)=w,;其中函数y;(x)表示输入文本中候选特征x的出现次数,函数巧(d,x)表示文档集合d中候选特征x的总文档数;A为参照文档集合;B为第二参照文档集合。当完成计算后,将所有候选特征的评分追加到一个评分数组355,数组每个成员与候选特征数组354的各候选特征--对应,每个成员包含该候选特征X,的两个评分、(X,)与~(x,)。(3)在结果生成步骤中,利用结果生成装置304,根据给定的候选特征数组154与评分数组,按照评分数组中各候选特征x,的评分、(x,)对候选特征进行排序,并将候选特征作为结果特征,将结果特征x,及其评分、(x,)构成一个数组元素追加到数组356。(4)在输出步骤中,利用输出装置305,根据数組356生成如下表格,作为输出结果153输出给用户。<table>tableseeoriginaldocumentpage28</column></row><table>实施例二一种评价与用户提交的输入文本相关事物的价值的系统。再请参阅图4所示,图中示出依据本发明实施例的一种评价与用户提交的输入文本相关事物的价值的系统。该系统400的运行,包含以下步骤在准备步骤中,用第一特征数据生成装置406依次扫描参照文档集合152中每份文档。对于当前被处理的文档,扫描该文档并识别出的每个英文单词。每当识别出一个英文单词,查看第一字典树中是否存在该单词。如果不存在,则在第一字典树中加入该单词,并在第二字典树中也加入该单词,同时第二字典树中该单词的文档计数加1。每当扫描完一个文档,则将第一字典树清空。当扫描完所有文档后,取出第二字典树中所有单词及其文档计数保存到第一特征数据。第一特征数据中每个第一对比特征就是一个单词,每个第一对比特征的分布特性数据就是该单词的总文档数(文档计数)。与第一特征数据生成装置类似,用第二特征数据生成装置407根据第二参照文档集合353生成第二对比特征,,以及每个第二对比特征在第二参照文档集合353中出现的总文档数作为该第二对比特征关于第二参照文档集合353的分布特性数据,并保存到第二特征数据中。当用户提交输入文本时(1)输入步骤,利用输入装置101获取输入文本151并保存于内存。(2)关键词生成步骤,利用关键词生成装置402,访问内存中的输入文本151,并根据输入文本151生成候选关键词^={xpx2,..,x},其中x,是一个候选关键词,将这些候选关键词构成一个数组。关键词生成装置402由LEX编译一个LEX文件而产生。该LEX文件中使用的规则描述了连续的英文字符,因而关键词生成装置402可以捕捉连续英文字符所表示的单词。此外,该LEX规则对应的动作中含有将匹配字符串放入字符串数组的指令,LEX文件还描述了在程序扫描输入文本完毕后对字符串数组进行排序和去除重复,并保存为一个候选关键词数组454。因此关键词生成装置402扫描输入文本151后,将输入文本151含有的所有英文单词保存到一个候选关键词数组454。(3)在评分步骤中,利用评分装置4(B访问数组454,从中读取每个候选关键词;对于每个候选关键词x,,评分装置403从访问数组454读取x,关于输入文本151的分布特性数据w,,从第一特征数据中读取x,关于参照文档集合152的分布特性数据从第二特征数据中读取x,关于第二参照文档集合353的分布特性数据z,,计算该候选关44词jc,的评分。评分函凄史为(x,)=log2=log2i,仏)=乂(x,)=w,;其中函数/(x)表示输入文本中候选关键词x的出现次数,函数A(Ax)表示文档集合D中候选关键词x的总文档数。当完成计算后,将所有候选关键词的评分追加到一个评分数组355,数组每个成员与候选关键词数组454的各候选关键词——对应,数组355每个成员包含该候选关键词的两个评分、(x,)与&(x,)。(4)在结果生成步骤中,利用结果生成装置404,根据给定的候选关键词数组454与评分数组,按照评分数组中各候选关键词x,的评分\(x,)对候选关键词进行排序,并将候选关键词作为结果关键词,将结果关键词x,及其评分、(x,)构成一个整体追加到数组456。(5)在输出步骤中,利用输出装置405输出HTML形式的输入文本,其中数组456所涉及的各结果关键词按照其评分的大小在HTML形式的输入文本中被标以不同的字体颜色。该系统可被用于解决多个具体问题,可以是但不限于(1)评价与提交的个人简历相关的各种技能的价值(详见实施例三)所述输入文本为个人简历;所述相关事物为该个人简历涉及的各种技能;所述价值为技能因被企业关注和(或)被求职者拥有所体现的职业优势。所述的参照文档集合为企业的招聘启事库。进一步地,所述第二参照文档集合为多个求职者的简历库。个人简历与招聘启事中各种技能关键词的分布特性体现了这些技能在求职中的"供给-需求"关系。(2)评价与提交的研究论文相关的各种学术话题的新颖性所述输入文本为论文;所述相关事物为该论文涉及的学术话题等;所述价值为这些学术话题因被期刊、会议关注和(或)被其他论文所讨论而体现的新颖性。所述参照文档集合为期刊、会议的征文启事(callforpaper)。进一步地,所述第二参照文档集合为论文库。论文与征文启事中各种学术话题关键词的分布特性体现了这些学术话题在论文出版中的供求关系。(3)评价与提交的产品介绍相关的各种产品特性的热门程度所述输入文本为产品介绍;所述相关事物为产品介绍所涉及的各种产品特性;所述价值为这些产品特性因被客户评论所关注和(或)被其他产品所拥有而体现的热门程度。所述参照文档集合为客户对于各种产品发表的评论。进一步地,所述第二参照文档集合为关于多个产品的产品介绍库。产品介绍与客户评论中各种产品特性关键词的分布特性体现了这些产品特性在客户体验中的供求关系。(4)在网上社区系统中,评价与提交的网络社区成员的个人简介相关的各种兴趣爱好的个性化程度所述相关事物为个人筒介所涉及的各种兴趣爱好;所述价值为这些兴趣爱好为网络社区成员所拥有和所期望拥有而体现的个性化程度。所述参照文档集合为个人简介库。每个个人筒介中涉及的一个兴趣爱好,不仅表示了该筒介对应的网络社区成员拥有该兴趣爱好,还潜在地表示了该网络社区成员期望他人拥有该兴趣爱好,因此同时体现供给与需求。实施例三一种根据某人的简历评估其职业优势的系统。再请参阅图5所示,图中示出依据本发明实施例的一种根据某人的简历评估其职业优势的系统。该系统500基于前述系统400,更具体地(1)输入文本为筒历文本551(2)参照文档集合为筒历库552,存储若干人的简历文本(3)第二参照文档集合为招聘启事库553第一特征数据中存放的是简历库中出现的关键词,以及每个关键词在多少简历中出现的文档数;第二特征数据中存放的是招聘启事库中出现的关键词,以及每个关键词在多少招聘筒历中出现的文档数。数组454中存放的是简历文本中出现的关键词以及出现次数。由于采用了前述评分装置300,所以如果某人的简历文本中的一个关^l建词在简历库的招聘简历中出现较少,而在招聘启事中出现较多,将导致该关键词的评分较高。这也意味着该关键词所代表的技能、经历被较少的应聘者所掌握却被较多企业所关注。因此,此人的该项技能、经历具有较大的职业优势。这样通过系统500,就可以获取简历文本中所包含各关键词的评分,从而反映个关键词对应技能经历的职业优势。因此,利用系统500就可根据某人的简历文本,对其职业优势作出评估。实施例四再请参阅图6所示,图中示出一种以文本作为查询输入的文档检索系统。该系统600的运行,包含以下步骤(1)查询输入步骤,获取输入文本151;(2)特征获取步骤,通过系统300,根据输入文本151产生输出结果357;(3)检索步骤,根据输出结果357中的结果特征和(或)其评分,构造为检索系统602可理解的查询,将查询提交给系统602,并得到系统602的;f企索结果657;(4)检索输出步骤,将检索结果657输出。检索系统602对可被检索系统访问到的每个文档进行评分(识别出该文档含有的属于输出结果357的结果特征,从输出结果357中获取这些结果特征对应的评分,计算这些评分的和,作为该文档的评分);然后检索系统602将可被检索的文档按照文档评分降序排列并分页输出,作为检索结果657。文档的评分体现了输入文本与该文档的相似性。现有技术可以实现上述的检索系统,接收含有结果特征的输出结果,产生检索结果。比如,某些检索系统(比如Google)可以接收若千个检索特征构成的集合作为查询输入,并反馈检索结果;某些检索系统(比如USPTO的专利检索系统)可以接收由若干个检索特征以及ANDOR等逻辑谓词构成的查询表达式作为查询输入,并反馈检索结果;美国专利申请"US20060122997Systemandmethodfortextsearchingusingweightedkeywords',才皮露了一种可以根据关键词及其权重进行文档检索的系统。作为本发明的实施,当该系统被用于检索招聘启事时,用户提交简历后,系统才艮据简历得到关键词,并根据关键词在招聘启事库中的分布特性确定关键词的评分,然后利用一个检索系统根据这些关键词从招聘启事库中得到相关的招聘启事并反馈。这样用户通过提交简历就可以获得与筒历相关的招聘启事。进一步地,招聘启事才艮据与该简历的相似性降序排列。相对于传统的通过关键词来搜索招聘启事的方法,本发明的便利性是明显的。作为一个容易想到的变化,该系统也可被用于简历的4企索,当用户4是交一个招聘启事后,就可以得到系统反馈的简历,这些简历与招聘启事相关,使用该系统的企业用户,就可在大量的简历中迅速收缩范围,找到适合岗位需要的求职者。综上,采用了上述的获取有助于文本检索的特征的系统与方法,用户可以寻找到对自身的检索需求有帮助意义的检索特征,使得用户在面对海量的文档时可以运用这些检索特征构造有效的查询,进而快速收缩检索范围,但同时又避免了潜在有价值的检索结果的丟失,而且简单方便,性能稳定可靠,适用范围较为广泛。而将该系统与方法与现有的检索系统相结合,可以构造更为方便易用的检索系统,用户只需要输入描述性的文本,就可以检索到相关资料,避免了因关键词选择不当而导致的检索效果的下降。而采用了该发明的评价与输入文本相关事物对于用户的价值的系统与方法,用户可以通过提交一个描述性的文本,而得到各种相关事物对于该用户的价值的评价。该系统与方法,简便有效,直观易懂,适用于多种用途,比如求职招聘、论文投稿、网络交友等。在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。权利要求1、一种获取有助于文本检索的特征的系统,其特征在于,所述的系统包括输入装置,用于接收用户提交的输入文本;特征生成装置,用于根据所述的输入文本生成至少一个候选特征;评分装置,用于计算所述的候选特征的关于检索效力的至少一个评分;结果生成装置,用于根据具有所述的评分的候选特征产生至少一个结果特征;和输出装置,用于以可被用户处理或理解的表现形式将所述的结果特征输出给用户;且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。2、根据权利要求1所述的获取有助于文本检索的特征的系统,其特征在于,所述的输出装置还输出有每个所述的结果特征的评分,所述的结果特征的评分为所述的评分装置对于候选特征数据中与所述的结果特征相等同的一个候选特征的评分。3、根据权利要求1所述的获取有助于文本检索的特征的系统,其特征在于,所述的特征生成装置还操作至少一个候选调整装置,用于在原有的所述的候选特征的基础上删除和/或增加至少一个》美选特征。4、根据权利要求1所述的获取有助于文本检索的特征的系统,其特征在于,所述的评分的计算过程还依赖于所述的候选特征在所述的输入文本中的分布特性,所述的特征生成装置还生成有各所述的候选特征关于所述的输入文本的分布特性的数据。5、根据权利要求1所迷的获取有助于文本检索的特征的系统,其特征在于,所述的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。6、一种基于权利要求1所述的装置实现获取有助于文件检索的特征的方法,其特征在于,所述的方法包括以下步骤(1)输入步骤,接收用户提交的输入文本;(2)特征生成步骤,根据所述的输入文本生成至少一个候选特征;(3)评分步骤,计算所述的候选特征的关于^r索效力的至少一个评分;(4)结果生成步骤,根据具有所述的评分的候选特征产生至少一个结果特征;(5)输出步骤,以可被用户处理或理解的表现形式将所述的结果特征输出给用户;且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。7、根据权利要求6所述的实现获取有助于文件检索的特征的方法,其特征在于,所述的输出步骤中还包括以下步骤输出每个所述的结果特征的评分,所述的结果特征的评分为所述的候选特征数据中与所述的结果特征相等同的一个候选特征的评分。8、根据权利要求6所述的实现获取有助于文件;险索的特征的方法,其特征在于,所述的特征生成步骤中还包括以下步骤至少一个候选调整步骤,用于在原有的所迷的候选特征的基础上删除和/或增加至少一个候选特征。9、根据权利要求6所述的实现获取有助于文件检索的特征的方法,其特征在于,所述的评分的计算过程还依赖于所述的候选特征在所述的输入文本中的分布特性,所述的特征生成步骤中包括以下步骤生成各所述的候选特征关于所述的输入文本的分布特性的数据。10、根据权利要求6所述的实现获取有助于文件检索的特征的方法,其特征在于,所述的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。11、一种评价与用户提交的输入文本相关的事物的价值的系统,其特征在于,所述的系统包括输入装置,接收用户提交的输入文本;关键词生成装置,根据所述的输入丈本生成至少一个关键词形式的候选特征;评分装置,计算所述的候选特征的至少一个评分;结果生成装置,根据经过评分的所述的候选特征产生至少一个结果特征;和输出装置,以可i皮用户处理或理解的表现形式将所述的结果特征输出给用户。且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。12、根据权利要求11所述的评价与用户提交的输入文本相关的事物的价值的系统,其特征在于,所述的关键词生成装置还操作至少一个候选调整装置,用以调整所述的候选特征,即从原有的候选特征中删除一些候选特征和/或加入一些特征作为新的候选特征。13、根据权利要求11所述的评价与用户提交的输入文本相关的事物的价值的系统,其特征在于,所述的输出装置还输出了每个所述的结果特征的评分,一个所述的结果特征的评分为候选特征数据中与所述的结果特征相等同的一个所述的候选特征的评分。14、根据权利要求11所述的评价与用户提交的输入文本相关的事物的价值的系统,其特征在于,所述的输入文本含有第一方需求的描述,所述参照文档集合含有与第一方需求相对应的第二方供给的描述;或者所述输入文本含有第一方供给的描述,所述参照文档集合含有与第一方供给相对应的第二方需求的描述;或者所述输入文本含有第一方供给或需求的描述,所述参照文档集合含有与第一方需求或供给属于同一类型的第二方需求或供给的描述。15、根据权利要求ll所迷的评价与用户提交的输入文本相关的事物的价值的系统,其特征在于,所述的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。16、根据权利要求15所述的评价与用户提交的输入文本相关的事物的价值的系统,其特征在于,所述的第二参照文档集合含有与第一方的需求或供给属于同类型的第三方的需求或供给的描述。17、根据权利要求15所述的评价与用户提交的输入文本相关的事物的价值的系统,其特征在于,所述的输入文本#1加入到第二参照文档集合中。18、一种基于权利要求11所述的系统实现评价与用户提交的输入文本相关的事物的价值的方法,其特征在于,所述的方法包括以下步骤(1)输入步骤,接收用户提交的输入文本;(2)关键词生成步骤,根据所述的输入文本生成至少一个关键词形式的候选特征;(3)评分步骤,计算所述的候选特征的至少一个评分;(4)结果生成步骤,才艮据经过评分的所述的候选特征产生至少一个结果特征;(5)输出步骤,以可被用户处理或理解的表现形式将所述的结果特征输出给用户。且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中的分布特性。19、根据权利要求18所述的实现评价与用户提交的输入文本相关的事物的价值的方法,其特征在于,所述的关键词生成步骤中还包括以下步骤至少一个候选调整子步骤,从原有的候选特征中删除一些候选特征,和/或加入一些特征作为新的候选特征。20、根据权利要求18所述的实现评价与用户提交的输入文本相关的事物的价值的方法,其特征在于,所述的输出步骤中还包括以下步骤输出每个所述的结杲特征的评分,所述的结果特征的评分为候选特征数据中与所述的结果特征相等同的一个所述的候选特征的评分。21、根据权利要求18所述的实现评价与用户提交的输入文本相关的事物的价值的方法,其特征在于,所述的候选特征的评分的计算过程,至少部分依赖于所述的候选特征在所述的参照文档集合中的分布特性。22、根据权利要求18所述的实现评价与用户提交的输入文本相关的事物的价值的方法,其特征在于,所述的评分的计算过程还至少部分依赖于所述的候选特征在所述的输入文本中的分布特性,和/或至少部分依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性。23、一种基于权利要求11所述的系统实现根据人员的简历评估其职业优势的系统,其特征在于,所述的输入文本和参照文档集合为以下配置之一输入文本参照文档集合简历文本招聘启事库简历文本简历库24、根据权利要求23所述的实现根据人员的简历评估其职业优势的系统,其特征在于,所述的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性,所迷的输入文本、参照文档集合和第二参照文档集合为以下配置之一输入文本参照文档集合第二参照文档集合简历文本招聘启事库简历库简历文本筒历库招聘启事库25、一种基于权利要求18所述的方法实现根据人员的简历评估其职业优势的方法,其特征在于,所述的输入文本和参照文档集合为以下配置之一输入文本参照文档集合简历文本招聘启事库简历文本简历库26、根据权利要求25所述的实现根据人员的简历评估其职业优势的方法,其特征在于,所述的评分的计算过程还依赖于所述的候选特征在至少一个第二参照文档集合中的分布特性,所述的输入文本、参照文档集合和第二参照文档集合为以下配置之一输入文本参照文档集合第二参照文档集合简历丈本招聘启事库简历库筒历文本简历库招聘启事库27、一种以文本作为查询输入的文档检索的系统,其特征在于,所述的系统包括输入装置,接收用户提交的输入文本;权利要求1所述的获取有助于文本检索的特征的系统,根据所述的输入文本得到含有结果特征的输出结果;检索装置,将所述的输出结果输入检索系统获得检索结果;检索输出装置,将所述的检索结果输出。28、一种实现以文本作为查询输入的文档检索的方法,其特征在于,所述的方法包括以下步骤(1)输入步骤,接收用户提交的输入文本;(2)特征获取步骤,利用权利要求6所述的实现获耳又有助于文件检索的特征的方法获取结果特征;(3)检索步骤,依赖于所述的结果特征产生检索结果;(4)检索输出步骤,将所述的检索结果输出。全文摘要本发明涉及一种获取有助于文本检索的特征的系统与方法,利用该系统与方法,用户可以获得与自己检索需求相关的有助于检索的特征,比如关键词、序列、语法模式、语义角色等。依靠这些特征,用户可以构造出更有效的查询,提高搜索文档的效率;另一方面,还涉及一种评价与输入文本相关事物的价值的系统与方法,用户可以通过提交输入文本,得到对于与输入文本相关的各种事物的评价;同时还涉及一种根据某人的简历评估其职业优势的系统与方法,借助于招聘启事库和/或简历库,给出与此人简历相关的各种技能、经历的职业优势评分;而且还涉及一种以文本作为查询输入的文档检索的系统与方法,能快速收缩检索范围、避免潜在有价值检索结果丢失。文档编号G06F17/30GK101546331SQ20091005076公开日2009年9月30日申请日期2009年5月7日优先权日2009年5月7日发明者健刘申请人:健刘
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1