给文本评分的方法和系统的制作方法

文档序号:6351124阅读:180来源:国知局
专利名称:给文本评分的方法和系统的制作方法
给文本评分的方法和系统相关申请本申请要求如下专利申请的权益2009年9月8日提交、发明名称为“SYSTEM AND METHODS FOR RANKING TEXTUAL INFORMATION AND SEARCH RESULTS BASED ON INFORMATIVITY”、发明人为Hong Liang Qiao、和专利代理人案号为LEXE-P002. PRO的美国临时专利申请第61/243,953号;以及2010年9月17日提交、发明名称为“METHOD AND SYSTEM FOR SCORING TEXTS”、发明人为Hong Liang Qiao、和专利代理人案号为LEXE-P002 的美国非临时专利申请第12/884,395号。通过引用将这两个申请全文并入本文中用于所有目的。
背景技术
传统搜索引擎通常使用像非来源于正在排序的网页的信息那样的外部信息来排序搜索结果。例如,传统搜索引擎可能使用与特定网页的外部链接的数量来确定特定网页的重要性。外部链接可以驻留在其它源(例如,网页、文档等)中并且可以将用户引向特定网页。这样,传统搜索引擎可以根据与每个网页的外部链接的各自数量来排序每个网页。尽管外部信息通常被传统搜索引擎用来进行搜索和排序网页,但往往是每个网页的重要性或价值的不良指标。例如,可能只有很少或甚至没有外部链接指向一个潜在重要文档,因此该文档可能未被传统搜索引擎返回或排得比其应该达到的低。作为另一个例子, 如果一个名人的声望最近受到毁损,则将传统搜索引擎用于有关该名人的自传信息的搜索可能适得其反地返回与声望毁损有关的众多较不重要结果。这样,用户可能无法使用依靠外部信息的传统搜索引擎定位含有更重要或有价值信息的网页。概括地说,本文公开了如下内容。公开了给文本评分的计算机实现方法、计算机可读媒体和系统。可以确定一个或多个文本内的主题,并将其用于给每个文本评分,其中每个文本的总分可以指示每个文本的各自重要性和/或价值。每个文本的分数可以根据主题的数量、主题的类型、与主题相联系的主题元素的频率、与主题相联系的主题元素的分布、主题在文本中的位置、和它们的某种组合等来确定。这样,可以较少依靠外部信息地使用每个文本内的信息更精确地确定一个或多个文本的重要性或价值。另外,通过使用内部信息进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。

发明内容
于是,需要改进网页或其它文本的重要性或价值的确定。另外,需要提供作为对内容搜索的回报的更相关搜索结果。本发明的实施例提供了如下所述的对这些需要等的新解决方案。这里所述的实施例针对给文本评分的计算机实现方法、计算机可读媒体和系统。 更具体地说,可以确定一个或多个文本内的主题,并将其用于给每个文本评分,其中每个文本的总分可以指示每个文本的各自重要性和/或价值。每个文本的分数可以根据主题的数量、主题的类型、与主题相联系的主题元素的频率、与主题相联系的主题元素的分布、主题在文本中的位置、和它们的某种组合等来确定。这样,可以较少依靠外部信息(例如,指向特定文档的超链接的数量)地使用每个文本内的信息(例如,内部信息)更精确地确定一个或多个文本的重要性或价值。另外,通过使用内部信息进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。在一个实施例中,一种给文本评分的方法包括确定与文本的多个部分相联系的多个主题,其中多个部分的每个部分包含至少一个各自字符。指定多个分数给多个主题,其中多个分数的每个分数对应于多个主题的各自主题。根据多个分数为文本确定总分。在另一个实施例中,一种计算机可读媒体可以含有具体化在其中使计算机系统可以执行根据文本的内容给文本评分的方法的计算机可读程序代码。以及在又一个实施例中,一种系统可以包括处理器和存储器,其中存储器包括当被该系统执行时,实现根据文本的内容给文本评分的方法的指令。构思如下构思受到本申请支持构思I. 一种给文本评分的方法,所述方法包含确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及根据所述多个分数确定所述文本的总分。构思2.如构思I所述的方法,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。构思3.如构思I所述的方法,进一步包含使用短语分块确定所述文本的所述多个部分。构思4.如构思I所述的方法,其中所述确定所述多个主题进一步包含确定与所述多个部分的一个部分相联系的至少一个主题元素;如果所述至少一个主题元素的多个实例的分布落在预定范围之内,并且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。构思5.如构思I所述的方法,其中所述确定所述多个主题进一步包含如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。构思6.如构思I所述的方法,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。构思7.如构思I所述的方法,进一步包含访问用户提交的搜索询问;
根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及根据所述搜索结果的各自总分来排序所述搜索结果。构思8.如构思7所述的方法,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。构思9.如构思7所述的方法,进一步包含根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。构思10.如构思7所述的方法,进一步包含根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。构思11.如构思7所述的方法,进一步包含根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。构思12. —种含有具体化在其中使计算机系统可以执行给文本评分的方法的计算机可读程序代码的计算机可读媒体,所述方法包含确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及根据所述多个分数确定所述文本的总分。构思13.如构思12所述的计算机可读媒体,其中所述文本是从由网页、电子文档、 和电子书组成的群体中选择的。构思14.如构思12所述的计算机可读媒体,其中所述方法进一步包含使用短语分块确定所述文本的所述多个部分。构思15.如构思12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含确定与所述多个部分的一个部分相联系的至少一个主题元素;如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。构思16.如构思12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含如果所述多个部分的一部分的所述多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。构思17.如构思12所述的计算机可读媒体,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。构思18.如构思12所述的计算机可读媒体,其中所述方法进一步包含访问用户提交的搜索询问;根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及根据所述搜索结果的各自总分来排序所述搜索结果。构思19.如构思18所述的计算机可读媒体,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。构思20.如构思18所述的计算机可读媒体,其中所述方法进一步包含根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。构思21.如构思18所述的计算机可读媒体,其中所述方法进一步包含根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。构思22.如构思18所述的计算机可读媒体,其中所述方法进一步包含根据多个网页每一个的各自总分来过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。构思23. —种包含处理器和存储器的系统,其中所述存储器包含当被所述系统执行时实现给文本评分的方法的指令,所述方法包含确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及根据所述多个分数确定所述文本的总分。构思24.如构思23所述的系统,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。构思25.如构思23所述的系统,其中所述方法进一步包含使用短语分块确定所述文本的所述多个部分。构思26.如构思23所述的系统,其中所述确定所述多个主题进一步包含确定与所述多个部分的一个部分相联系的至少一个主题元素;如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。构思27.如构思23所述的系统,其中所述确定所述多个主题进一步包含如果所述多个部分的一部分的所述多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。构思28.如构思23所述的系统,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。构思29.如构思23所述的系统,其中所述方法进一步包含访问用户提交的搜索询问;根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及根据所述搜索结果的各自总分来排序所述搜索结果。构思30.如构思29所述的系统,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。构思31.如构思29所述的系统,其中所述方法进一步包含根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。构思32.如构思29所述的系统,其中所述方法进一步包含根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。构思33.如构思29所述的系统,其中所述方法进一步包含根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。


本发明将非限制性地通过例子例示在其中相同标号表示相同元件的附图的图形中。图I示出了依照本发明的一个实施例给一个或多个文本评分的示范性系统;图2示出了依照本发明的一个实施例给一个或多个文本评分的示范性计算机实现进程的流程图;图3A示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现进程的流程图的第一部分;图3B示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现进程的流程图的第二部分;图3C示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现进程的流程图的第三部分;图4示出了依照本发明的一个实施例的示范性主题元素数据库;图5示出了依照本发明的一个实施例的示范性变体数据库;图6示出了依照本发明的一个实施例对多个主题确定多个分数的示范性计算机实现进程的流程图;图7示出了依照本发明的一个实施例的示范性属性评分数据库;图8示出了依照本发明的一个实施例的示范性文本评分数据库;图9示出了依照本发明的一个实施例进行与搜索相联系的一次或多次操作的示范性计算机实现进程的流程图;图10示出了依照本发明的一个实施例缩放多个文本的多个各自总分的示范性计算机实现进程的流程图;以及图11示出了可以实现本发明的实施例的示范性计算机系统平台。
具体实施例方式现在详细介绍其例子例示在附图中的本发明的实施例。虽然本发明将结合附图来讨论,但要明白的是无意使本发明只局限于这些实施例。相反,本发明旨在涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的可替代物、变型和等效物。而且,在本发明的如下详细描述中,为了使人们全面了解本发明,给出了许多具体细节。但是,本发明的实施例不用这些具体细节也可以实施。在其它情况下,未详细描述众所周知的方法、过程、 部件和电路,以免不必要地掩盖本发明的各个方面。记号和术语如下详细描述的一些部分通过对计算机存储器内的数据位的操作的过程、逻辑块、进程和其它符号表示的形式给出。这些描述和表示是数据处理领域的普通技术人员用于最有效地向该领域的其它普通技术人员传达他们的工作的实质的手段。在本申请中,将过程、逻辑块、进程等构想成导致所希望结果的步骤或指令的自给序列。这些步骤是要求物理操纵物理量的步骤。通常,尽管未必如此,但这些量呈现能够在计算机系统中被存储、被传送、被组合、被比较、和要不然被操纵的电或磁信号的形式。然而,应当铭记,所有这些和类似术语都要与适当物理量相联系,并且仅仅是应用于这些量的方便标记。正如从下面的讨论中明显看到的那样,除非另有说明,应该懂得,在
整个本发明中,利用诸如‘‘接受”、“访问”、“加上”、‘:‘分析”、‘:‘应用”、‘:‘组装”、‘:‘指定”、“联系”、“计算”、‘‘捕获”、‘‘组合”、‘‘通信”、“比较”、“收集”、‘‘创建”、‘‘定义”、‘‘描绘”、‘:‘检测”、“确定”、“曰-=P ” i M/Jn、‘建立”、‘‘执行”、‘‘过滤”、“生成”、“分组”、‘‘识别”、‘:‘启动”、‘‘交互”、‘:‘修改”、“监视”、“移动”、‘‘输出”、‘‘进行”、‘‘放置”、“给出”、“处理”、‘‘编程”、‘‘提供”、‘‘询问”、‘‘排序”、“除去”、“重复”、‘:‘取样”、‘“分类” V“存储”、“减去”、“变换”、“使用”等的术语的讨论指的是操纵计算
机系统的寄存器和存储器内表示成物理(电子)量的数据和将其变换成计算机系统的存储器或寄存器,或其它这样的信息存储、传输或显示设备内类似地表示成物理量的其它数据的计算机系统或类似电子计算设备的动作和进程。本发明实施例图I示出了依照本发明的一个实施例给一个或多个文本评分的示范性系统100。 如图I所示,评分部件110的分数确定部件111可以根据内部信息(例如,依照图2的进程 200)确定存储在文本数据库112中的一个或多个文本的各自分数,其中内部信息可以包括每个文本的各自内容(例如,至少一个主题)。可以将评分的结果存储在文本评分数据库113 中。在一个实施例中可以将评分的结果用于进行与搜索相联系的至少一次操作(例如,依照图9的进程900)。例如,过滤部件130可以访问为每个文本确定的各自分数,并使用各自分数过滤文本(例如,选择或识别分数在预定阈值之上的文本子集等)。过滤可以在进行搜索之前(例如,识别搜索引擎120进行一次或多次搜索的文本子集)和/或在进行搜索之后(例如,识别搜索引擎120进行的搜索的结果子集)进行。作为另一个例子,排序部件140可以访问为每个文本确定的各自分数,并使用各自分数排序文本(例如,按分数递增的次序排列文本,按分数递减的次序排列文本等)。排序可以在进行搜索之前(例如,定序搜索引擎120进行一次或多次搜索的文本)和/或在进行搜索之后(例如,排列或定序搜索引擎120进行的搜索的结果)进行。这样,本发明的实施例通过使用内部信息给文本评分,能够将更相关的搜索结果返给用户。在一个实施例中,本发明的实施例可以降低对外部信息的依赖性(例如,指向特定文档的超链接的数量),以便进一步改善至少一个文本的重要性和/或价值的确定,改善至少一个文本的搜索或与至少一个文本的搜索有关的其它操作(例如,过滤、排序等)等。例如,在相对较少外部链接(例如,超链接)指向较重要或有价值文本的情况下,与依靠外部信息确定文本的重要性和/或价值(例如,倘若指向文本的超链接数量相对较少,则确定文本的重要性和/或价值相对较低)的传统解决方案相比,可以使用内部信息更精确地确定文本的重要性和/或价值。作为另一个例子,在相对较多数量外部链接指向较不重要或有较小价值文本的情况下,与依靠外部信息确定文本的重要性和/或价值(例如,倘若指向文本的超链接数量相对较多,则确定文本的重要性和/或价值相对较高)的传统解决方案相比,可以使用内部信息更精确地确定文本的重要性和/或价值。在一个实施例中,可以在(例如,存储在文本数据库112中的至少一个文本的)内联网或专用网络160内进行(例如,通过搜索引擎120)搜索,并且可以将搜索结果提供给专用网络内的至少一个计算机系统(例如,152,154等)。在一个实施例中,文本数据库112内的一个或多个文本可能包括机密信息和/或可能包括与文本数据库112内的其它文本的相对较少或甚至没有超链接。可替代的是,可以至少局部在专用网络160之外地(例如,在文本数据库190等的至少一个文本上)进行(例如,通过搜索引擎120)搜索。在这种情况下,可以将搜索结果提供给专用网络160内的至少一个计算机系统(例如,152,154等)和/或专用网络160之外的至少一个计算机系统(例如,182,184等)。专用网络160可以包括可以具有有限或没有互联网联通性地通信的任意个计算机系统或设备。专用网络160内的计算机系统或设备可以通过局域网(LAN)、虚拟专用网络 (VPN)等耦合。尽管图I示出了特定数量和排列的部件,但应该懂得,在其它实施例中系统100可以含有不同数量和/或排列的部件。另外,尽管图I示出了带有特定部件(例如,分数确定部件111、文本数据库112、文本评分数据库113、主题元素数据库114、变体数据库115、属性评分数据库116等)的评分部件110,但应该懂得,在其它实施例中评分部件110可以含有不同数量的部件。例如,在一个实施例中一个或多个数据库(例如,文本数据库112、文本评分数据库113、主题元素数据库114、变体数据库115、属性评分数据库116、它们的某种组合等)可以处在评分部件110的外部。并且,应该懂得,在一个实施例中专用网络160的一个或多个部件可以经由互联网170通信。图2示出了依照本发明的一个实施例给一个或多个文本评分的示范性计算机实现进程200的流程图。如图2所示,步骤210牵涉到确定文本的多个部分。该文本可以是网页、电子文档(例如,Microsoft Word文档、Microsoft Excel电子表格、Adobe PDF等)、和电子书等。在步骤210中确定的文本的每个部分可以包括至少一个各自字符(例如,字母、 数字、符号、图标等)。例如,可以发现句子“Barack Obama lives in the White House”包括三个分立部分“Barack Obama”、“lives in”和“White House”。在一个实施例中,可以在步骤210中使用短语分块(例如,根据统计、语法规则等)或类似处理来确定多个部分。步骤220牵涉到确定与文本的多个部分(例如,在步骤210中确定的)相联系的多个主题。在一个实施例中,文本的部分的数量可以大于主题的数量(例如,可能不是文本的每个部分都与一个主题相联系)。可以将在步骤220中确定的每个主题与至少一个主题元素 (例如,与主题的例子有关和/或提供主题的例子的一个或多个词汇)相联系,其中在一个实施例中可以将主题与各自主题元素之间的关联存储在主题元素数据库114中(例如,如图4 所示)。主题元素也可以包括一个词汇的“变体”或可替代形式(例如,如图5所示,“speaks”、 “ spoke”、“ spoken”和“ speaking”可以是词汇“ speak”的变体),其中变体可以包括在主题数据库(例如,114)中和/或包括在分立数据库(例如,变体数据库115)中。多个主题可以包括一个主要主题(例如,在文本中的至少一个主题元素的实例的分布落在预定范围之内的情况下,在一个部分的一个实例处在靠近文本的开头的位置上而该部分的另一个实例处在靠近文本的末端的位置上的情况下等)、一个次要主题(例如,在文本中的至少一个主题元素的实例的分布未落在预定范围之内的情况下等)、一个补充主题(例如,在文本中的一个部分的实例的分布落在预定范围之内,以及至少一个其它部分与主要主题相联系的情况下等)、一个潜在主要主题(例如,在文本中的一个部分的实例的分布落在预定范围之内的情况下等)、它们的某种组合等。在一个实施例中,步骤220可以依照图3A、3B和/或3C的进程300来执行。如图2所示,步骤230牵涉到将多个分数指定给多个主题(例如,在步骤220中确定的)。每个主题可以接受基于一种或多种属性的各自分数,其中一种或多种属性可以包括文本中的每个主题的各自多个主题元素的各自频率(例如,基于与文本的长度有关的文本中的各自主题元素的实例的数量)、文本中的每个主题的各自多个主题元素的各自分布(例如,基于文本中的各自主题元素的相继实例之间的距离,其中至少一个主题元素的实例之间的“距离”可以用字符、词汇、符号等的数量来表达)、和文本中的每个主题的至少一种各自位置(例如,基于主题的至少一个实例是否处在靠近文本的开头和/或末端的位置上)。在一个实施例中,在步骤230中指定的分数可以依照图6的进程600来确定。步骤240牵涉到根据多个分数(例如,在步骤230中指定的)确定文本的总分。在一个实施例中总分可以通过求和多个分数(例如,在步骤230中指定给每个主题的各自分数)来计算。并且,在一个实施例中,在步骤240中确定的总分可以指示文本的重要性或价值(例如,根据本文的一个或多个主题)。于是,进程200可以用于根据文本内的信息(例如,内部信息)确定文本的总分。进程200可以有利地用于确定较少或没有外部超链接(例如,在至少一个其它文本内)指向文本的文本的总分。另外,进程200可以有利地用于确定包括机密信息的文本(例如,旨在专用网络160内共享)的总分。这样,通过使用内部信息(例如,较少依靠外部信息地)进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。图3A、3B和3C示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现过程300的流程图。如图3A所示,步骤305牵涉到访问文本的多个部分的第一部分。该文本可以是网页、电子文档(例如,Microsoft Word文档、Microsoft Excel电子表格、Adobe PDF等)、和电子书等。在一个实施例中多个部分可以依照进程200 的步骤210来确定。另外,在一个实施例中第一部分可以从数据库(例如,文本数据库112、文本数据库190等)中访问。步骤310牵涉到确定在主题数据库(例如114)中是否找到该部分(例如,在步骤 305中访问的第一部分或在步骤320中访问的另一个部分)。步骤310可以通过将一个部分的至少一个字符与主题数据库(例如,114)中的至少一个条目相比较来执行。如果在主题数据库中未找到该部分(例如,该部分包括不是列在主题数据库中的主题的词汇),则可以在步骤315中确定文本是否包括另一个部分。如果文本未包括另一个部分,则可以如本文所讨论执行步骤385。另一种情况是,如果文本未包括另一个部分,则可以在步骤320中访问下一个部分,然后对下一个部分执行步骤310。另一种情况是,如果在主题数据库中找到该部分(例如,该部分包括如图4所示是列在主题数据库中的主题的词汇“food”),则可以在步骤325中确定与该部分相联系的至少一个主题元素。例如,如果该部分包括词汇“food”,则可以确定词汇“bread”、“meat”、 “fruit”和“nuts”是与该部分相联系的主题元素。一个主题元素可以包括与主题的例子有关和/或提供主题的例子的一个或多个词汇。主题元素也可以包括一个词汇的“变体”或可替代形式(例如,如图5所示,“speaks”、“spoke'“spoken”和“speaking”可以是词汇 “speak”的变体),其中变体可以包括在主题数据库(例如,114)中和/或包括在分立数据库 (例如,变体数据库115)中。这样,在一个实施例中,步骤325可能牵涉到确定与一个主题相联系的至少一个变体,其中该变体可以通过索引主题数据库114和/或变体数据库115来确定。在一个实施例中,步骤325可以通过使用该部分的至少一个字符(例如,词汇“food”) 对主题数据库114进行索引来执行,以便返回“bread”、“meat”、“frUit”和“nuts” (例如, 如图4所示)的主题元素。如图3B所示,步骤330牵涉到确定在文本中是否找到至少一个主题元素(例如,在步骤325中确定的)的多个实例。步骤330可能牵涉到进行文本的一次或多次词汇搜索,以识别至少一个主题元素的多个实例。例如,可以进行文本的第一词汇搜索,以识别主题元素 “bread”的任何实例,可以进行文本的第二词汇搜索,以识别主题元素“meat”的任何实例, 依此类推。如果在步骤330中找到至少一个主题元素的多个实例(例如,只有一个主题元素的多个实例、第一主题元素的至少一个实例、和第二主题元素的至少一个实例等),则可以执行步骤335。步骤335牵涉到确定文本中的至少一个主题元素的多个实例(例如,在步骤330中识别的)的分布是否落在预定范围之内。在一个实施例中,可以认为落在预定范围之内的分布是“均匀分布”,而可以认为落在预定范围之外的分布是“非均匀分布”。在一个实施例中,可以通过对至少一个主题元素的每个相继实例对之间的“距离”(例如,词汇、字符、符号等的数量)求平均来确定该分布(例如,文本中的至少一个主题元素的多个实例的分布)。每个相继对可以包括同一主题元素的两个实例;或一个主题元素的实例和另一个主题元素的实例。这样,在一个实施例中,步骤335可能牵涉到计算平均“距离”并将其与预定范围相比较,其中预定范围可能随文本的长度(例如,词汇、字符、符号等的数量)而变。如果在步骤335中确定平均距离未落在预定范围之内,则可以在步骤340中将该部分与一个次要主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤335中确定平均距离落在预定范围之内,则可以执行步骤345。如图3B所示,步骤345牵涉到确定该部分的一个实例是否处在靠近文本的开头的位置上和该部分的另一个实例是否处在靠近文本的末端的位置上。例如,步骤345可能牵涉到确定是否从文本的开头开始在预定个词汇、字符、符号等之内找到该部分的第一实例。作为另一个例子,步骤345可能牵涉到确定是否从文本的末端开始在预定个词汇、字符、符号等之内找到该部分的第二实例。如果在步骤345中确定该部分的一个实例处在靠近文本的开头的位置上和该部分的另一个实例处在靠近文本的末端的位置上,则可以在步骤350中将该部分与一个主要主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤345中确定该部分的一个实例未处在靠近文本的开头的位置上和/或该部分的另一个实例未处在靠近文本的末端的位置上,则可以在步骤355中将该部分与一个主要主题相联系,然后可以执行步骤315。在一个实施例中,步骤355还可能牵涉到做上降低确定性地进行该部分与一个主要主题的联系(例如,与在步骤350中进行的联系相比)的记号。以后在利用总分的应用(例如,使用总分排序多个文本、过滤多个文本等的搜索)中,可以使用这个记号确定主题的分数、和文本的总分。如果在步骤330中在文本中未找到至少一个主题元素的多个实例(例如,只有一个主题元素的多个实例、第一主题元素的至少一个实例、和第二主题元素的至少一个实例等),则如图3C所示可以在步骤360中确定文本中的该部分的多个实例的分布是否落在预定范围之内。在一个实施例中,可以认为落在预定范围之内的分布是“均匀分布”,而可以认为落在预定范围之外的分布是“非均匀分布”。在一个实施例中,可以通过对该部分的每个相继实例对之间的“距离”(例如,词汇、字符、符号等的数量)求平均来确定该分布(例如,文本中的该部分的分布)。这样,在一个实施例中,步骤360可能牵涉到计算平均“距离”并将其与预定范围相比较,其中预定范围可能随文本的长度(例如,词汇、字符、符号等的数量) 而变。如果在步骤360中确定平均距离未落在预定范围之内,则在步骤365中不将该部分与任何主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤360中确定平均距离落在预定范围之内,则可以执行步骤370。如图3C所示,步骤370牵涉到确定是否已经将一个主要主题与另一个部分相联系 (例如,如在步骤350或355中对另一个部分执行的)。如果在步骤370中确定未将一个主要主题与另一个部分相联系,则可以在步骤375中将该部分与一个潜在主要主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤370中确定已将一个主要主题与另一个部分相联系,则可以在步骤380中将该部分与一个补充主题相联系,然后可以执行步骤315。转回到图3A,如果在步骤315中确定文本不包括另一个部分(例如,已经对本文的所有部分执行了步骤310和325到380,或它们的某种组合),则可以执行步骤385。步骤 385牵涉到确定是否将文本的任何部分都与一个主要主题相联系。如果在步骤385中确定文本的至少一个部分与主要主题相联系,则可以在步骤390中将潜在主要主题的所有联系改变成与补充主题的联系(例如,以前在步骤375中与潜在主要主题相联系的任何部分现在可以取而代之与补充主题相联系)。另一种情况是,如果在步骤385中确定文本没有部分与主要主题相联系,则可以终止过程300。图6示出了依照本发明的一个实施例对多个主题确定多个分数的示范性计算机实现进程600的流程图。如图6所示,步骤610牵涉到确定文本中的每个主题的至少一个主题元素的各自多个实例的频率。在一个实施例中,特定主题的主题元素的频率可以通过将与特定主题(例如,包括主题元素的标准形式、主题元素的变体、它们的某种组合等)相联系的主题元素的实例的数量除以文本的长度(例如,表达成词汇、字符、符号等的数量)来确定,其中可以对文本的每个主题重复这种操作。在一个实施例中,特定主题的主题元素的频率可以通过将与特定主题(例如,包括主题元素的标准形式、主题元素的变体、它们的某种组合等)相联系的主题元素的实例的数量来确定。并且,在一个实施例中,可替代地在步骤 610中确定文本中的每个主题的各自多个主题元素的频率。步骤620牵涉到确定文本中的每个主题的至少一个主题元素的各自多个实例的分布。在一个实施例中,特定主题的主题元素的分布可以通过对主题元素的每个相继实例对之间的“距离”(例如,词汇、字符、符号等的数量)求平均来确定,其中可以对文本的每个主题重复这种操作。每个相继对可以包括同一主题元素(例如,主题元素的标准形式、主题元素的变体、它们的某种组合等)的两个实例;或一个主题元素(例如,主题元素的标准形式、主题元素的变体、它们的某种组合等)的实例和另一个主题元素(例如,主题元素的标准形式、主题元素的变体、它们的某种组合等)的实例。如图6所示,步骤630牵涉到确定文本中的每个主题(例如,与每个主题相联系的至少一个各自部分)的至少一个各自实例的至少一个各自位置。在一个实施例中,步骤630 可能牵涉到确定特定主题的至少一个实例是否处在靠近文本的开头的位置上(例如,从文本的开头开始在预定个词汇、字符、符号等之内)。在一个实施例中,步骤630可能牵涉到确定特定主题的至少一个实例是否处在靠近文本的末端的位置上(例如,从文本的末端开始在预定个词汇、字符、符号等之内)。步骤640牵涉到根据文本的至少一种属性确定每个主题的各自分数。例如,步骤 640可能牵涉到根据文本中的主题的至少一个主题元素的多个实例的频率(例如,如在步骤 610中所确定)、文本中的主题的至少一个主题元素的多个实例的分布(例如,如在步骤620 中所确定)、文本中的主题的至少一个实例的位置(例如,如在步骤630中所确定)、它们的某种组合等确定每个主题的各自分数。在一个实施例中,在步骤640中可以通过求和多个分数(例如,使用属性评分数据库116确定的)计算每个主题的各自分数。例如,可以根据在步骤610中的确定的频率(例如,表达成分数、百分比等)从属性评分数据库116 (例如,如图7所示)中确定与频率相联系的第一分数。作为另一个例子,可以根据在步骤620中的确定的分布(例如,用词汇、字符、 符号等表达的平均“距离”)从属性评分数据库116 (例如,如图7所示)中确定与分布相联系的第二分数。作为又一个例子,可以根据在步骤630中的确定的位置(例如,靠近文本的开头、靠近文本的末端、靠近文本的开头和末端两者等)从属性评分数据库116 (例如,如图 7所示)中确定与位置相联系的第三分数。在一个实施例中,可以将文本中的每个主题的各自分数(例如,如在步骤640中所确定)存储在如图8所示的文本评分数据库113中。如图8所示,文本评分数据库113可以包括与每个文本相联系的至少一个各自主题(例如,如使用进程300所确定)、与每个主题相对应的各自主题类型(例如,如使用进程300所确定)、和与每个主题相对应的各自分数(例如,如使用进程600所确定)。图9示出了依照本发明的一个实施例进行与搜索相联系的一次或多次操作的示范性计算机实现进程900的流程图。如图9所示,步骤910牵涉到确定多个网页的每个网页的各自总分。在一个实施例中,步骤910可以依照图3的进程300来执行,其中可以对多个网页的每个网页重复进程300。步骤920牵涉到根据各自总分来排序多个网页。例如,可以按各自总分递增、各自总分递减等的次序排列网页。在一个实施例中,在步骤920中进行的排序可以在进行多个网页的搜索之前进行。并且,在一个实施例中,步骤920可以由排序部件(例如,140)来执行。如图9所示,步骤930牵涉到根据各自总分过滤多个网页。例如,步骤930可能牵涉到识别具有在预定阈值之上的各自总分的多个网页的子集。在一个实施例中,在步骤930 中进行的过滤可以在进行多个网页的搜索之前进行。并且,在一个实施例中,步骤930可以由过滤部件(例如,130)来执行。步骤940牵涉到访问用户提交的搜索询问。搜索询问可以包括至少一个字符、至少一个词汇、至少一个符号等。在一个实施例中,搜索询问可以使用图形用户界面输入。如图9所示,步骤950牵涉到根据搜索询问(例如,在步骤940中访问的)进行搜索以生成搜索结果(例如,包括至少一个网页)。在一个实施例中,搜索可以是基于搜索询问的一个或多个部分的关键词搜索。并且,在一个实施例中,步骤950可以由搜索引擎(例如, 120)来执行。步骤960牵涉到至少部分根据搜索结果的每个的各自总分来排序搜索结果。例如,可以按各自总分递增、各自总分递减等的次序排列搜索结果。在一个实施例中,在步骤 960中进行的排序可以在在步骤950中进行多个网页的搜索之后进行。在一个实施例中,步骤960可以由排序部件(例如,140 )来执行。并且,在一个实施例中,步骤960可能牵涉到缩放搜索结果的各自总分(例如,依照图10的进程1000进行,然后根据搜索结果的各自缩放总分来排序搜索结果。图10示出了依照本发明的一个实施例缩放多个文本的多个各自总分的示范性计算机实现进程的流程图。如图10所示,步骤1010牵涉到访问第一搜索结果。第一搜索结果可以包括在作为搜索(例如,如在进程900的步骤950中所执行)的结果生成的多个搜索
结果中。步骤1020牵涉到确定在搜索询问(例如,由用户在进程900的步骤940中提交)中找到的搜索结果的主题的数量和类型。在一个实施例中,主题的数量和类型可以使用文本评分数据库113 (例如,如图8所示)来确定。如图10所示,步骤1030牵涉到根据主题的数量和类型确定与搜索结果相联系的缩放因子。在一个实施例中,缩放因子“S”可以使用如下方程计算S=N . *V . +N *V +N t . *V t . + N . *V .,
Lw 1 major major comp comp 1IpoterLtialmajor * potentialmajor 1 1 minor minor7其中N_OT可以是搜索结果的主要主题的数量(例如,如图8所示的“文本I”含有两个主要主题等),其中Nramp可以是搜索结果的补充主题的数量(例如,如图8所示的“文本 3”含有两个补充主题等),其中N_ntialmajOT可以是搜索结果的潜在主要主题的数量(例如,如图8所示的“文本3”含有一个潜在主要主题等),和其中Nmi■可以是搜索结果的次要主题的数量(例如,如图8所示的“文本2”含有两个次要主题等)。Vma_可以是与主要主题相联系的数值或权重,Vramp可以是与补充主题相联系的数值或权重,V_ntialm_可以是与潜在主要主题相联系的数值或权重,和Vmi■可以是与次要主题相联系的数值或权重。在一个实施例中,与指定主题类型相联系的各自权重可以使用表I来确定。
权利要求
1.一种给文本评分的方法,所述方法包含确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及根据所述多个分数确定所述文本的总分。
2.如权利要求I所述的方法,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
3.如权利要求I所述的方法,进一步包含使用短语分块确定所述文本的所述多个部分。
4.如权利要求I所述的方法,其中所述确定所述多个主题进一步包含确定与所述多个部分的一个部分相联系的至少一个主题元素;如果所述至少一个主题元素的多个实例的分布落在预定范围之内,并且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
5.如权利要求I所述的方法,其中所述确定所述多个主题进一步包含如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
6.如权利要求I所述的方法,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
7.如权利要求I所述的方法,进一步包含访问用户提交的搜索询问;根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及根据所述搜索结果的各自总分来排序所述搜索结果。
8.如权利要求7所述的方法,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
9.如权利要求7所述的方法,进一步包含根据每个所述搜索结果的各自总分来过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
10.如权利要求7所述的方法,进一步包含根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
11.如权利要求7所述的方法,进一步包含根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
12.—种含有具体化在其中使计算机系统执行给文本评分的方法的计算机可读程序代码的计算机可读媒体,所述方法包含确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及根据所述多个分数确定所述文本的总分。
13.如权利要求12所述的计算机可读媒体,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
14.如权利要求12所述的计算机可读媒体,其中所述方法进一步包含使用短语分块确定所述文本的所述多个部分。
15.如权利要求12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含 确定与所述多个部分的一个部分相联系的至少一个主题元素;如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
16.如权利要求12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含 如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
17.如权利要求12所述的计算机可读媒体,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
18.如权利要求12所述的计算机可读媒体,其中所述方法进一步包含访问用户提交的搜索询问;根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及根据所述搜索结果的各自总分来排序所述搜索结果。
19.如权利要求18所述的计算机可读媒体,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
20.如权利要求18所述的计算机可读媒体,其中所述方法进一步包含根据每个所述搜索结果的各自总分来过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
21.如权利要求18所述的计算机可读媒体,其中所述方法进一步包含根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
22.如权利要求18所述的计算机可读媒体,其中所述方法进一步包含根据多个网页每一个的各自总分来过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
23.一种包含处理器和存储器的系统,其中所述存储器包含当被所述系统执行时实现给文本评分的方法的指令,所述方法包含确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及根据所述多个分数确定所述文本的总分。
24.如权利要求23所述的系统,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
25.如权利要求23所述的系统,其中所述方法进一步包含使用短语分块确定所述文本的所述多个部分。
26.如权利要求23所述的系统,其中所述确定所述多个主题进一步包含确定与所述多个部分的一个部分相联系的至少一个主题元素;如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
27.如权利要求23所述的系统,其中所述确定所述多个主题进一步包含如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
28.如权利要求23所述的系统,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
29.如权利要求23所述的系统,其中所述方法进一步包含访问用户提交的搜索询问;根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及根据所述搜索结果的各自总分来排序所述搜索结果。
30.如权利要求29所述的系统,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
31.如权利要求29所述的系统,其中所述方法进一步包含根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
32.如权利要求29所述的系统,其中所述方法进一步包含根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
33.如权利要求29所述的系统,其中所述方法进一步包含根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
全文摘要
本文公开了给文本评分的计算机实现方法、计算机可读媒体和系统。可以确定一个或多个文本内的主题,并将其用于给每个文本评分,其中每个文本的总分可以指示每个文本的各自重要性和/或价值。每个文本的分数可以根据主题的数量、主题的类型、与主题相联系的主题元素的频率、与主题相联系的主题元素的分布、主题在文本中的位置、和它们的某种组合等来确定。这样,可以较少依靠外部信息地使用每个文本内的信息更精确地确定一个或多个文本的重要性或价值。另外,通过使用内部信息进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。
文档编号G06F17/21GK102612691SQ201080051769
公开日2012年7月25日 申请日期2010年9月17日 优先权日2009年9月18日
发明者乔宏亮 申请人:莱克西私人有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1