确定文档特异性的制作方法

文档序号:6467049阅读:156来源:国知局
专利名称:确定文档特异性的制作方法
技术领域
本发明总体上涉及词法(lexigraphical)分析,更具体地说,涉及文 档特异性(specificity)的确定。
背景技术
一组(corpus)数据可以包含大量信息,然而查找到相关信息却可能 比较困难。关键词搜索是查找信息的主要技术。然而,在特定情况下关 键词搜索在定位信息时并不有效。发明内容


图1例示了确定文档特异性的系统10的一种实施方式; 图2例示了可与图1的系统一起使用的相关度模块的一种实施方式; 图3例示了记录基本相关度的相关度矩阵的实施例; 图4例示了记录有向相关度的相关度矩阵的实施例; 图5例示了记录平均相关度的相关度矩阵的实施例; 图6例示了相关度图的实施例;图7例示了可与图1所示的系统一起使用的聚类模块的一种实施方式;图8例示了可与图1所示的系统一起使用的本题特征模块的一种实 施方式;以及图9的图例示了字深度分布的一个实施例。
具体实施方式
概述在一种实施方式中,确定文档特异性包括访问记录有文档的聚类的 记录。根据文档的聚类数确定文档的主题数。根据主题数确定文档的特 异性。示例实施方式在具体实施方式
中,领域本体的创建及查询包括以下步骤1、 收集领域中的文档。在具体实施方式
中,文档是词条的集合。文 档包括可读文本,例如,书《新约》。文档不需要包括叙述性形式的文本, 例如,文档可以包括用户输入的一组标注(tag),其单独及共同地描述了图像的内容。文档的集合可称为"领域文集(domaincorpus)"。2、 识别该领域中感兴趣的词条("词典词条")。词条的实施例包括 单词(诸如"树")、短语(诸如"图形算法")、命名实体(诸如"纽约") 等。词条(或概念)可具有不同的形式。在特定情况下,不同的单词用 于同一概念,例如,"kidney stones (肾结石)"和"kidney calculi (肾结 石)"是指同一概念,即"肾结石"。在其它情况下,词干可具有多种词 形变化(inflected variant),例如,词干"tree"具有词形变化"tree"和"trees"。在具体实施方式
中,同一词条的各种形式可处理为映射到同一 词条。词典词条的任意适当形式可出现在文档中,但是具体词典词条不 一定出现在任意文档中。识别词典词条的方法的实施例包括利用用于特定领域的人造词典, 例如,医学词典。在具体实施方式
中,可根据文档集中的一组文本串自 动地生成词典词条的列表。可以按照频度对这些串进行索引及分类,并 且可选择频度大于阈值的串。可使用其它合适的统计方法来确定词条。 在具体实施方式
中,"单词"可与"词条"及"词典词条"互换。3、 计算给定的共现上下文中词典词条的共现(co-occurrence)数量。 如果两个词条中的每一个都在同一共现上下文(co-occurrence context)中 至少出现一次,则这两个词条共现。共现上下文的实施例包括文档和段 落。4、 创建包括该领域本体的有向加权图(directed weighted graph)。该有向加权图包括作为节点的词典词条以及作为边的权重的相关度。"有向 加权图"可以用作可由任意合适的数据结构(例如,矩阵、二值判决图、 或二值判决图的集合等)代表的同一信息的实际表达。5、应用査询该有向加权图的过程。给定一个或更多个词典词条作为 输入,该过程输出与输入的词典词条有关的一个或更多个词典词条。例 如,该过程可输出一个或更多个词条的分类列表,所述一个或更多个词 条针对一个或更多个输入词条具有最高的差分有向相关度(如下所述)。 在这种情况下,就该本体涉及的领域而言,该输出包括与输入词条较密 切相关的词条。可使用任意适当的相关度定义。在具体的实施方式中,可使用以下定义1、 基本相关度a. 词条A与B之间的基本相关度(A)可定义为包括词条A和B 这两者的共现上下文的数量与包括词条A或B的共现上下文的数量的比 值A(A,B) = |AB|/|AorB|b. 词条A与B之间的基本相关度(A)还可定义为包括词条A和B 这两者的共现上下文的数量与包括A的共现上下文的数量或包括B的共 现上下文的数量中的最大值的比值A(A,B) = |AB|/max(|A|,|B|)2、 有向相关度词条A与B之间的有向相关度(DAff)可定义为在假定共现上下文 中观察到了 A的情况下观察到B的条件概率 DAff(A,B) = |AB| / |A1也就是说,有向相关度可以是包括词条A和B这两者的共现上下文 的数量与包括词条A的共现上下文的数量的比值。通常,DAff(A,B)与 DAff(B,A)不同。3、 差分有向相关度词条A和B之间的差分有向相关度(DiffDAff)可定义为词条A与B之间的有向相关度减去代表该文集中的词条B的常见程度 (common-ness)的参数。在该文集中的词条B的常见程度可以是词条B 与该文集中的其它词条的基本相关度或有向相关度值的统计值。在具体 实施方式中,该文集中的词条B的常见程度可以是词条B的平均相关度 (AA),这得到以下差分有向相关度的定义 DiffDAff(A,B) = DA(A,B) - AA(B)词条B的平均相关度(AA)或平均有向相关度可定义为 AA(B) = AVERAGE—x DAff(x, B)也就是说,平均相关度是术语B与共现上下文中的其他术语的有向 相关度的平均值。图1示出了判断文档特异性的系统10的一种实施方式。在特定实施 方式中,系统10根据文档的主题数确定文档的特异性。如果文档具有较 少的主题数,则文档较特殊。如果文档具有较多的主题数,则文档较不 特殊。在特定实施方式中,系统10执行特异性分析。特异性分析的实施 例包括获取满足需要的文档特异性的文档,显示指示文档的特异性的图 像元素,以及根据用户文档确定用户特异性。在特定实施方式中,可以 根据依据单词之间的相关度所确定出的聚类来确定特异性。在某些实施方式中,对于给定的单词子集和词典D,可以基于特定的反向索引II计算有向相关度,其中索引II例如包括针对单词Wi和Wj的条目I(Wj)和I(Wj)。一般而言,反向索引是存储从词条到它的位置(即 词条出现的共现上下文)的映射的索引数据结构。对于D中的每对单词 Wi和Wj,DA(i,j)可以被定义为II中的条目I(Wi)和I(Wj)的合取(conjunction) 值除以I(Wi)的数目值。一般而言,DA(i,j)不必等于DA(j,i)。结果可以以 任意合适的方式例如以行方式存储,其中D(l,i)被存储,然后D(2,i)被存储,依此类推。对于每行i,可以存储II(Wi)l,接着是与Wj的合取的基数(cardinality )。在特定实施方式中,可以在三个阶段中计算有向相关度。在这些实 施方式中,每个词典词条被指派以唯一的整数标识符。反向索引的条目 对应于整数标识符。在阶段O,对应于D的II条目被读取。对于参数(s,Q),仅形式ks+o的元素标识符被保留。值ks+o定义了将被检验的II条目的子集。以这样的方式,可以并行地计算有向相关度。作为示例,来自参数s,o(l,0)的结果相当于根据参数(3, 0)、 (3, 1)、 (3, 2)合并计算获得的 结果。该步骤允许计算用于很大反向索引的DA表。在阶段1内,仅仅针对DA(i, j)以行的方式计算了合取。在阶段2 内,读取计算出的上三角形UTDA阵列。据此获得作为UT置换的下三 角形部分。在特定的实施方式中,可以将多个维数相同的DA并成单个 阵列。可以以(s,i)为参数按照sumi=(Ms+ DA来计算与大II相关的DA 数组。可以将附加信息与计算的合取存储起来,以便可以计算有向相关度。在一定的情况中,可以存储n项的基数。在特定的实施方式中,可以以行的方式存储DA,所以AA条目的计 算可以与DA条目的计算并行地进行。具体地,可以通过在从盘中读取 DA时对DA的行进行累加并且最后通过词典条目的数量归一化而生成 AAo在示出的实施方式中,系统10包括客户端20、服务器22和存储器 24。客户端20允许用户与服务器22通信以便生成语言本体。客户端20 可以将用户输入发送到服务器22,并且可以将服务器输出提供(例如显示 或打印)给用户。服务器系统24管理用于生成语言本体的应用程序。存储 器24存储服务器系统24使用的数据。在示出的实施方式中,存储器24存储页面50和记录54。页面50(或 文档或共现上下文)可以指单词集合。页面50的例子包括一个或更多个文 档页面、 一个或更多个文档、 一本或更多本书、 一个或更多个网页、信 件(例如电子邮件或即时消息和/或其它单词集合。可以通过页面识别符识 别页面50。可以将页面50电子地存储中一个或更多个有形计算机可读介 质中。页面50可以与任何适当的内容例如文本(例如字符、单词和/或数 字)、图像(例如图形、像片或视频)、音频(例如录音或计算机生成的声音) 和/或软件程序相联系。在特定的实施方式中, 一组页面50可以属于一个 文集。该文集可以与具体的主题、团体、组织或其它实体相联系。记录54描述了页面50。在该实施方式中,记录54包括索引58、反向索引62、本体66以及聚类67。索引58包括索引列表,其中,页面50 的索引列表指示页面50的单词。反向索引62包括反向索引列表,其中, 单词(或单词集)的反向索引列表指示包括所述单词(或所述单词集) 的页面50。在一个实施例中,列表Wj包括包含有单词w;的页面50的页 面标识符。列表Wj&Wj包括合取页面50 (其包含单词Wi和Wj这两者) 的页面标识符。列表Wi+Wj包括分取(disjunction)页面50 (其包含单 词Wi或Wj)的页面标识符。P(W0是Wi中页面5O的数量,即,包括单词 Wi的页面50的数量。在一种实施方式中,列表(诸如索引列表或反向索引列表)可被存 储为二值判决图(BDD)。在一个实施例中,集合Wi的二值判决图BDD (Wi)代表具有单词Wi的页面50。 BDD(Wj)的满足指定计数(satisfying assignment count) Satisf(BDD(Wi))得到具有单词Wj的页面50的数量 P(Wj):P(WO = Satisf(BDD(Wi))因此,P(Wj& Wj) = Satisf(BDD(Wj) AND BDD(Wj)) P(Wi+Wj) = Satisf(BDD(Wi) OR BDD(W》)本体66代表语言的单词以及这些单词之间的关系。在一种实施方式 中,本体66代表单词之间的相关度。在例示的实施例中,本体66包括 相关度矩阵和相关度图。参照图3到图5来描述相关度矩阵的实施例。 参照图6来描述相关度图的实施例。聚类67记录彼此相关的词的聚类。 参照图7更详细地描述这些聚类。在示出的实施方式中,服务器22包括相关度模块30、聚类模块31 以及本体特征模块32。相关度模块30可以计算单词对的相关度、记录相 关度矩阵中的相关度和/或报告相关度矩阵。相关度模块30还可以产生相 关度图。将参照图2更详细地描述相关度模块30。在特定实施方式中,聚类模块31可以通过识别数据集内相关元素的 聚类发现数据集内的模式(pattem)。在特定实施方式中,聚类模块31 可以识别一组单词(例如,针对一种语言或一组页面50)的聚类。 一般而言,聚类单词彼此高度相关,但是不与聚类外的单词高度相关。单词聚类可以指示单词集的主题(或题目)。在特定实施方式中,聚类模块31 根据单词之间的相关度识别相关单词的聚类。在这些实施方式中,聚类 单词彼此高度相关,但是不与聚类外的单词高度相关。将参照图7更详 细地描述聚类模块31。在特定实施方式中,本体特征模块32可以确定一组一个或更多个单 词(例如,特定单词或包括单词的文档)的一个或更多的本体特征,且 然后可以在某种变化的情况下应用本体特征。本体特征是在语言的本体 空间中放置单词集的单词集的特征。本体特征的实施例包括深度和特异 性。在特定实施方式中,深度可以指示单词集的原文复杂度。较深的单 词集可以较技术和专业,而较浅的单词集可以较常见。在具体实施方式
中,单词集的特异性涉及单词集的主题数目。较特殊的单词集可以具有 较少的主题,而较不特殊的单词集可以具有较多的主题。本体特征模块32可以在任意合适的情况下应用本体特性。合适的情 况的示例包括根据本体特征搜索、分类或选择文档;报告文档的本体特 征;以及确定一个或更多个用户的文档的本体特征。将参照图8更详细 地描述本体特征模块32。系统10的组件可以包括接口、逻辑、存储器和/或其他合适的元件。 接口接收输入、发送输出,处理输入和/输出,和/或执行其他合适的操作。 接口可以包括硬件和/或软件。逻辑执行这些组件的操作,例如,执行指令以根据输入产生输出。 逻辑可以包括硬件、.软件和/或其他逻辑。逻辑可以在一个或更多个有形 介质中编码且当被计算机执行时可以进行操作。某些逻辑,例如,处理 器,可以管理组件的操作。处理器的实施例包括一个或更多个计算机、 一个或更多个微处理器、 一个或更多个应用和/或其他逻辑。存储器存储信息。存储器可以包括一个或更多个有形的、计算机可 读的和/或计算机可执行的存储介质。存储器的示例包括计算机存储器(例 如,随机存取存储器(RAM)或只读存储器(ROM),)、海量存储介质 (例如,硬盘)、可移动存储介质(光盘(CD)或数字视频光盘(DVD))、数据库和/或网络存储器(例如,服务器)以及/或其他计算机可读介质。可以对系统10做出修改、添加或删减而不偏离本发明的范围。系统 10的组件可以是集成的或分立的。而且,系统10的操作可以通过更多或 更少或其他组件实施。例如,生成器42和46的操作可以通过一个组件 执行,或者相关度计算器34的操作可以通过多于一个的组件执行。另外, 系统10的操作可以使用任意合适的逻辑实施,包括软件、硬件和/或其他 逻辑。当在本文档中使用时,"各个(each)"表示集合中的各个成员或集 的子集中的各个成员。可以对矩阵的实施例做出修改、添加或删减而不偏离本发明的范围。 矩阵可以包括更多的、更少的或其他的值。另外,矩阵的值可以以任意 合适的顺序布置。图2示出了可以与图1的系统10—起使用的相关度模块30的一种 实施方式。相关度模块30可以为单词对计算相关度、在相关度矩阵中记 录相关度以及/或者报告相关度矩阵。相关度模块30还产生相关度图。在所示出的实施方式中,相关度模块30包括相关度计算器34、本 体生成器38和单词推荐器48。相关度计算器34为单词Wi或包括第一单 词Wi和第二单词Wj的单词对计算任意类型的相关度。相关度的实施例包 括基本相关度、有向相关度、平均相关度、差分相关度和/或其他相关度。在一种实施方式中,单词推荐器48接收种子单词且识别与该种子单 词之间的相关度大于阈值相关度的单词。阈值相关度可以具有任何适当 的值,诸如大于或等于0.25、 0.5、 0.75或0.95。阈值相关度可以被预编 程或由用户设定。基本相关度可以根据包括单词Wi和/或Wj的页面50的数量(例如, 数目)计算。合取页面数量代表包括单词Wi和单词Wj两者的页面50的 数量。分取页面数量代表包括Wi或Wj的页面50的数量。通过将合取页 面数量除以分取页面数量,可以给出基本相关度。在一个实施例中,合 取页面数表示包括单词Wi和单词Wj的页面数,而分取页面数表示包括单 词Wi或Wj的页面数。通过将合取页面数除以分取页面数可以给出基本相 关度-Affinity (wb w》=P(Wj & W》/ P(W; + W》图3例示了记录基本相关度的相关度矩阵110的实施例。在所例示 的实施例中,相关度矩阵110记录单词w,,...,ws的逐对相关度。根据相 关度矩阵110,单词Wq与Wi之间的相关度是0.003,单词wo与W2之间 的相关度是0.005,以此类推。返回参照图1,相关度组包括彼此具有高相关度的单词对,并可用 于针对页面内容而获得单词W,和W2之间的关系。较高的相关度可指定 为大于相关度组阈值的相关度。阈值可以设定为任意合适的值,例如大 于或等于0.50、 0.60、 0.75、 0.90或0.95。一个单词可属于多于一个的相 关度组。在一种实施方式中,相关度组可表示为BDD。用于该BDD的 指针可与该组的各个单词一起存储在反向索引62中。有向相关度可用于测量单词Wi对于Wj的重要性。相关度计算器34 根据包括单词Wi和Wj的页面50的数量(例如,数目)来计算单词Wi与 给定单词Wj的有向相关度。单词Wj页面数量表示包括单词Wi的页面50 的数量。单词Wi与给定单词Wj的有向相关度可通过合取页面数量除以单 词Wj页面数量得到。例如,单词Wj页面的数量指示包括单词Wi的页面50的数量。单词Wi与给定单词Wj的有向相关度可通过合取页面50的数 量除以单词Wi页面50的数量得到-DAffinity(Wi, w》=P(Wi & W》/ P(Wi)DA迅nity(Wi, w」)与DAffinity(Wj, Wj)不同。单词Wj与Wj之间的高有向 相关度DAffinity(Wi, w》指示在页面50包括单词Wj的情况下页面50包括 单词Wi的概率较高。在一个实施例中,页面[l 2 3 4 5 6]包括单词Wi,而 页面[4 2]包括单词Wj。包括单词Wj的页面也包括单词Wj,因此从单词Wj的角度,单词Wi具有较高的重要性。包括单词Wi的页面中仅有三分之 一的页面也包括单词Wj,因此从单词Wi的角度,单词Wj具有较低的重要性。图4例示了记录单词Wo,…,W5的有向相关度的相关度矩阵120。在 该实施例中,单词124是A单词,而单词128是B单词。矩阵120的各 行记录了 B单词与给定A单词的相关度,而矩阵120的各列记录了 A单词与给定B单词的相关度。返回参照图l,针对其它单词Wj来计算单词Wi的平均相关度。在一种实施方式中,平均相关度可以是单词Wi与其它各个单词Wj之间的相关度的平均。N个单词中的单词Wi的平均相关度可由下式给出图5例示了记录平均相关度的相关度矩阵140的实施例。行142记 录单词1到单词50,000的基本相关度。行144记录单词1到单词50,000 的平均相关度。返回参照图1,单词的平均相关度可指示该单词的深度(depth)。具 有较低平均相关度的单词可认为是较深的单词,而具有较高平均相关度 的单词可认为是较浅的单词。较深的单词倾向于更技术、更具体和更精 确。较深单词的百分比较高的页面50可被认为是较深的页面,而较深单 词的百分比较低的页面50可被认为是较浅的页面。在一种实施方式中, 用户可指定要提取的单词和/或页面50的深度。页面50的较深的单词可形成具有高度相关单词的一个或更多个聚 类(cliister)。聚类可表示共同思想或主题。页面50的主题的数量可指示 页面50的特异性。具有较少主题的页面50可被认为是较特殊的,而具 有较多主题的页面50可被认为是较不特殊的。单词Wi相对单词Wj的差分相关度是单词Wi与单词Wj之间的有向相 关度减去单词Wi相对其它全部单词的平均相关度。差分相关度可表示为DiffAff(Wi, Wj) = DAffinity(Wi, w》—AveAff(w》差分相关度排除了由单词Wi在页面50中出现的一般趋势而造成的 偏差(bias)。在具体情况下,差分相关度可提供针对给定了页面包括单 词Wj情况下该页面包括单词Wj的概率的更精确指示。差分相关度可用于多种应用。在一个实施例中,人名之间的差分相 关度可用于研究社会网络。在另一实施例中,语言元素之间的差分相关 度可用于研究自然语言处理。在另一实施例中,产品之间的差分相关度 可用于研究营销。相关度计算器34可使用任意合适的技术来搜索反向索引列表,以计算相关度。例如,为了识别包括单词Wi和单词Wj这两者的页面,相关度计算器34可搜索单词Wi的列表Wj以及单词Wj的列表Wj,以获得公共 元素,即公共页面标识符。在特定实施方式中,本体生成器38产生语言的本体66,诸如相关 度矩阵或相关度图。本体可以根据任意合适的相关度产生,诸如根据基 本相关度、有向相关度、平均相关度、差分相关度和/或其他相关度产生。 本体66可以以任意方式根据从语言中选出的单词产生。例如,可以选择 来自于语言的普遍使用部分的单词或涉及一个或更多个特定主题领域的 单词。在所示出的实施方式中,本体生成器38包括相关度矩阵生成器42 和相关度图生成器46。相关度矩阵生成器42产生相关度矩阵,该相关度 矩阵记录单词之间的相关度。相关度图生成器46产生相关度图,该相关 度图代表单词之间的相关度。在相关度图中,节点代表单词,节点之间 的有向边的权重代表节点代表的单词之间的相关度。相关度图可以具有 任意适当大小的维数。图6示出了相关度图150的示例。相关度图150包括节点154和链 路158。节点154代表单词。在该实施例中,节点154a代表单词"二进制"。 节点154之间的节点有向边的权重代表节点154代表的单词之间的相关 度。例如,较大的权重代表较大的相关度。节点之间的链路158表示节 点154代表的单词之间的相关度大于相关度阈值。相关度阈值可以具有 任意合适的值,例如,大于或等于0.25、 0.5、 0.75或0.95。图7示出了可以与图1的系统10 —起使用的聚类模块31的一种实 施方式。在特定实施方式中,聚类模块31通过识别数据集中的相关元素 的聚类发现数据集中的图案。在特定实施方式中,聚类模块31可以识别 一组单词(例如,语言或一组页面50)的聚类。 一般而言,聚类单词彼 此高度相关,但是不与聚类之外的单词高度相关。单词的聚类可以指示 该组单词的主题(或题目)。在特定实施方式中,聚类模块31根据单词之间的相关度识别相关单 词的聚类。在该实施方式中,聚类的单词彼此高度相关,但是不与聚类外的单词高度相关。在一种实施方式中,如果单词足够相关,它们可以 被认为高度相关。如果单词满足一个或更多个相关度标准(例如阈值), 单词可以足够相关,标准的实施例在下面提供。任意合适的相关度都可用于识别聚类。在特定实施方式中,聚类模块31使用有向相关度。单词相对其他单词的有向相关度表征了单词的共 现。聚类包括具有相似共现的单词。在特定实施方式中,聚类模块31使 用差分相关度。差分相关度旨在去除单词在页面50中出现的一般趋势导 致的偏差。在所示出的实施方式中,聚类模块31包括聚类引擎210和聚类分析 器214。聚类引擎210根据相关度识别单词的聚类,且聚类分析器214应 用相关度聚类以分析各种情况。聚类引擎210可以以任意合适方式根据相关度识别单词的聚类。用 于识别聚类的方法的三个实施例为根据一组单词建立聚类,将单词分 入聚类,以及比较单词的相关度向量。在一种实施方式中,聚类引擎210 根据一组单词建立聚类。在一种实施方式中,聚类引擎210根据具有相 关度tAff(Wi, Wj)的单词(wJ的集W建立聚类S。相关度值*八汪(^, Wj)代表 单词Wi相对于Wj的任意合适类型的相关度,诸如有向相关度DAffinity(Wi, Wj)或差分相关度DiffAff (Wi, Wj)。这里提供的相关度值的某些实施例可以 被认为是归一化值。在该实施例中,Afffor (Wi, Wj)代表前向相关度,且Affbadc (Wj, Wi)代表后向相关度。在该实施例中,聚类S开始于种子单词Wq。当前单词Wx代表在当 前迭代中与来自集W的单词比较的聚类S的单词。最初,当前单词WX 被设置为种子单词Wq。在迭代中,当前单词Wx被设置为聚类S的单词。集W的单词Wi根据它们与当前单词wx的前向聚类Afff。Xwi, w》分类。从分类集W的起点开始,识别满足相关度标准的候选单词We。相关度标准可以包括与当前 单词Wx的前向相关度标准 Afffor(Wc, wx) > Thcf以及与种子单词Wq的后向相关度标准Affback(Wq, Wc) 〉 Thcb其中Thef代表候选单词的前向阈值,Theb代表候选单词的后向阈值。 候选单词(WJ的有序集的第一单词被添加到聚类S,添加的单词数由参数Size。给出。阈值Thcf和Th。b可以为范围从最小值到最大值的任何适当值的浮点参数。在特定的实施例中,阈值Thef和Thcb的适当值可以根据实际相关度的等级列表确定。例如,可以使用列表的第200个值。参数Sizec 可以是具有任意合适值的整数参数。合适的值的实施例包括缺省值1、 2、 3或4。在特定实施方式中,参数可以在特定迭代处变化。可以执行任意合适数目的迭代。在一个实施例中,可以在方法启动 之前指定迭代数目。在另一实施例中,可以在方法的执行过程中计算次 数。例如,可以根据聚类S的尺寸的生长速度计算次数。在另一实施方式中,聚类引擎210通过将一组单词中的单词分类成 聚类来识别聚类。在一个实施例中,集W的单词(wJ根据相关度^Aff(Wi, Wj)(诸如差分相关度或有向相关度)分类。在另一实施例中,单词(wj 根据聚集函数分类,例如,根据单词Wi的与单词分离集Q中的各个成员 的相关度之和分类。集W可以以任意合适的方式选择。例如,集W可 以是与查询最相关的X个单词,其中X可以是任意合适的值,诸如从IO 至100、 100至200或等于或大于200的值。在该实施例中,聚类最初为空。集W的第一单词Wi被放置在聚类中。在每次迭代,当前单词Wx从集W中选择。如果申Aff(Wx, Wf)满足相关度阈值Th给出的相关度标准,则当前单词Wx被放入到聚类,其中Wf 代表聚类中放置的第一单词。阈值Th可以具有任意合适的值,例如,0.1 至0.5范围的值(最小值为0.0和最大值为1.0)。如果*八任(\^, w》不满足 阈值Th,则当前单词Wx被置于空聚类。针对集W中的每个单词重复该 迭代。在处理了集W的单词之后,小聚类可以被消除。例如,可以消除具 有少于Y个单词的聚类。Y可以具有任意合适的值,诸如3至5、 5至 10、 10至25、 25至50,或大于等于50的范围中的值。如果聚类的数目不在满意的范围内,则可以使用不同的阈值Th重复该处理,该不同的阈值Th给出了针对在聚类中进行放置的较严格或较宽 松的标准。满意的范围可以由具有任意合适值的聚类数目最小值和聚类 数目最大值给出。合适值的实施例包括针对最小值的1至5、 5至10或 大于或等于10范围的值,以及针对最大值的10至15、 15至20或大于 或等于20的范围中的值。可以增加阈值Th的值以增加聚类的数目,且 可以减小阈值Th的值以减小聚类数目。在另一实施方式中,聚类引擎210通过比较单词的聚类向量识别聚类。在特定实施方式中,相关度矩阵的行和列可以得出聚类向量<formula>formula see original document page 19</formula>,这代表单词Wi相对于单词 Wj的相关度,j = 1, n。相关度值*八£《;^, Wj)代表单词Wi相对于单词 Wj的任意合适类型的相关度,例如,有向相关度或差分相关度。在特定实施方式中,具有相似相关度值的相关度向量可以表示聚类。 仅用于描述目的,相关度向量可以被认为是相关度空间中单词的相关度 的坐标。艮卩,每个相关度值tAff(Wi,Wj)可以被认为是特定维数的坐标。具 有相似相关度值的相关度向量表示这些向量与之相关的单词在相关度空 间彼此靠近。即,这些向量表示这些单词与其他单词具有类似相关度关 系,且因而可以适用于相同聚类中的成员关系。如由合适的距离函数所确定的,如果一个相关度向量接近另一相关 度向量,则这些相关度向量相似。距离函数可以基于相关度向量定义为 例如针对给定尺寸的向量的标准欧几里得距离,或者给定尺寸的向量的 余弦。距离函数可以通过聚类引擎210或通过用户指定。在特定实施方式中,聚类引擎210应用聚类算法以识别值彼此接近 的相关度向量。聚类算法的示例包括直接算法、重复二等分算法、聚合 算法、偏差聚合算法和/或其它适当算法。在一个实施例中,聚类引擎210 可以包括聚类软件,诸如CLUTO。聚类分析器214可以在任意合适的应用中使用相关度聚类以用于分 析。在一种实施方式中,聚类分析器214可以使用相关度聚类对页面50 进行分类。类可以与聚类标识符或一个或更多个聚类成员相关。在一个 实施例中,页面50的聚类被识别,然后可以根据聚类对页面50进行分类。在另一实施例中,可以选择页面50的重要单词,然后定位包括该单 词的聚类。然后根据定位的聚类对页面50进行分类。在一种实施方式中,聚类分析器214可以使用相关度聚类来分析页 面50的文集。文集可以与特定主题、 一个或更多个个体的社团、组织或 它们的实体相关。在一个实施例中,聚类分析器214可以识别文集的聚 类且根据聚类确定文集的文集特性。文集特性可以表示与实体(所述实 体与文集相关)相关的单词。如果一个或更多的页面50具有文集特征的 聚类,则页面50可以与该实体相关。在一种实施方式中,针对搜索查询歧义消除和扩展,聚类分析器214 可以使用相关度聚类。在该实施方式中,聚类分析器214识别包括给定 搜索査询的搜索词条的聚类。聚类提供与给定搜索査询相关的另选单词 和/或分类。在一个实施例中,来自于聚类的单词可以被报告给搜索者以 帮助下一次搜索查询。在另一实施例中,聚类分析器214可以从聚类选 择单词且自动地形成一个或更多个新的搜索查询。聚类分析器214可以 顺序地或并行地运行新的査询。在一种实施方式中,聚类分析器214可以使用相关度聚类来研究社 会网络。在一个实施例中,页面50可以提供对社会网络的了解。这种页 面的实施例包括信件(诸如信、电子邮件和即时消息)、备忘录、文章和 会议记录。这些页面50可以包括包含社会网络的中的人的用户标识符(诸 如名字)的单词。可以识别名字的聚类以分析该网络中的人之间的关系。 在一个实施例中,差分相关度聚类可用于过滤页面50中的出现最多的名 字,而不提供诸如系统管理员的名字之类的信息。在特定实施方式中,聚类分析器214可以通过组合和/或比较数据集 的聚类来分析数据集。在一种实施方式中,比较交叠数据集的聚类。一 个数据集的聚类可以映射到其他数据集的聚类,这可以提供两个数据集 之间的关系的洞察。例如,数据集可以来自于对一组同事的文档的分析 且来自于该组的社会网络研究。社会网络聚类可以映射到文档主题聚类 以分析该社会网络与该主题之间的关系。图8示出了本体特征模块32的一种实施方式。本体特征模块32可以确定一组一个或更多个单词(例如,特定单词或包括单词的文档)的 一个或更多的本体特征,且然后可以在任意各种情况下应用本体特征。 一个或更多单词的集合可以包括文档的关键词条。如果与词条t相关的前 k个词条中的至少一个也出现在文档中,则词条t可以是关键词条。否则, 词条对于文档可能是不关键的。本体特征是一种量化指标,其在语义学方面沿着可以区分文档的一 个或更多个特征轴,将文档从给定领域的其他文档中区别开来。例如, 文档的深度可以在可理解性方面对文档进行区分,文档的特异性可以在 其侧重点方面对文档进行区分,且文档的主题可以在文档考虑的主题范 围方面对文档进行区分。本体特征可以以任意合适的方式定义。例如, 计算机语言学中的独立的算法可用于表征文档的可读性或深度。在所示出的实施方式中,本体特征模块32包括深度引擎230、主题 引擎240、特异性引擎244和本体特征(OF)应用引擎250。深度引擎 230可以确定一个或更多个单词(例如特定单词或包括单词的文档)的深 度。 一般而言,深度可以指示单词的原文复杂度。较深的单词可以较技 术和专业,而较浅的单词可以较常见。在特定实施方式中,深度模块32 可以计算文档的单词的深度且然后根据单词的深度计算文档的深度。在 特定实施方式中,深度引擎230可以为文档和/或单词指定深度值和/或深 度等级。可以向较深的文档或单词指派较高的深度值或等级,且可以向 较浅的文档或单词指派较浅的深度值或等级。深度引擎230可以以任意合适的方式计算单词深度。在特定实施方 式中,深度引擎230根据平均相关度计算单词深度。在实施方式中,单 词的深度是单词的平均相关度的函数。较深的单词可以具有较低的平均 相关度,而较浅的单词可以具有较高的平均相关度。在特定实施例中, 深度引擎230可以通过根据它们的平均相关度排列单词而计算单词的深 度。具有较低平均相关度的单词可以被给予较高的深度等级,且具有较 高平均相关度的单词可以被给予较低的深度等级。在特定实施方式中,深度引擎230可以使用聚类分析计算单词深度。 在实施方式中,聚类的单词彼此高度相关,但是与聚类外的单词较少相关。可以根据相关度测量聚类空间中的距离,所述相关度可以是深度的 指示器。在特定实施方式中,属于较少聚类的单词或属于较小和/或远离 其他聚类的聚类的单词可以被认为较深,且属于较多聚类或属于较大和/ 或与其他聚类靠近的聚类的单词可以被认为较浅。在其他特定实施方式中,深度引擎230可以通过对相关度图150应 用链路分析计算单词深度。可以通过任意合适的链路分析算法(例如 PAGERANK)执行所述链路分析。仅用于说明目的,图6的相关度图150 可用于计算单词深度。相关度图150包括节点154和链路158。节点154 代表单词。节点154之间的链路158指示节点154代表的单词之间的相 关度大于相关度阈值,即,该单词令人满意地相关。在特定实施方式中,深度引擎230计算节点154的普遍性 (popularity)。较普遍的节点154可以代表较浅的单词,而较不普遍的节 点154可以代表较深的单词。第一节点154到第二节点154之间的链路 136被认为是第一节点154对第二节点154的普遍性选票。另外,来自较 普遍节点154的选票可以比来自较不普遍的节点154具有更大的权重。 而且,第一节点154与第二节点154的相关度加权了该选票。深度引擎 230根据对节点154的加权选票计算节点154的普遍性。较不普遍的单词 可以被认为较深,且较普遍的单词被认为较浅。深度引擎230可以以任意合适的方式计算文档深度。在特定实施方 式中,深度引擎230根据文档的至少一个、某些或全部单词的深度计算 文档的深度。在特定实施方式中,单词深度通过平均相关度给定,使得 文档深度可以根据文档的单词的平均相关度计算。例如,文档的浅度可 以是文档的单词的平均相关度平均,即,文档的各单词的平均相关度的 总和除以文档中的单词的总数。文档的深度然后计算为文档的浅度的倒 数。在特定实施方式中,可以根据文档的一组选定的单词的平均深度计 算深度。所选的组可以包括文档的关键性的单词,诸如最高(最深)的 XO/^的单词,其中X可以小于IO、 10至20、 20至30、 30至40、 40至 50、 50至60、 60至70或大于10。所选的组可以排除P。/。的标准语法单词和/或QX的停顿词(stop word),其中P和Q具有任意合适的值,诸 如小于10, 10至20、 20至30、 30至40、 40至50、 50至60、 60至70 或大于10。在特定实施方式中,深度引擎230根据文档中单词深度的分布计算 文档的深度。在特定实施方式中,较深的文档可以具有较高百分比的较 深单词。参照图9更详细地描述单词深度的分布的实施例。图9是示出了单词深度的分布的实施例的图240。图240示出了具 有特定单词深度的文档的单词的百分比。在特定实施方式中,深度引擎230可以丢弃超过最大阈值Thmax的单词深度的单词。在特定实施方式中,深度引擎230可以根据具有这样的单词深度的单词计算文档深度,即该单词深度处于大于处理阈值ThpM且低于最大阈值Thmax (如果存在)的处理范围内。百分比XX代表不处理的单词的百分比,且百分比Y。/。代表 处理的单词的百分比。百分比YX可以具有任意合适的值,诸如2%至 5%、 5%至10%、或10%、或更大的范围的值。在某些实施方式中,深 度引擎230可以根据所选的单词计算文档深度。例如,深度引擎230可 以选择语言中的频率范围内的单词,诸如最前的Z个单词,其中Z可以 是10,000至50,000、或大于或等于50,000的范围中的值。返回图8,在特定实施方式中,深度引擎230根据文档相关度计算 文档深度。文档之间的相关度描述了文档之间的关系。在特定实施方式 中,平均文档相关度可以以类似于平均单词相关度怎样指示单词深度的 方式,指示文档深度。文档相关度可以以任意合适的方式定义。在一个 实施例中,公共单词数P(D, & D2)表示文档D,和D2中都存在的单词的数 目,而分立单词数P(D! + D2)表示存在于文档D!或D2中的单词的数目。 文档Di和D2之间的文档相关度DocAff可以定义为DocAff (Db D2) = P(Dt & D2) / P(Di + D2)深度引擎230可以以类似于计算平均单词相关度的方式计算平均文 档相关度。具有较低平均相关度的文档可以被认为是较深的,且具有较 高平均相关度的文档可以认为是较浅的。在特定实施方式中,深度引擎230可以通过向文档相关度图应用链路分析计算文档深度。文档相关度图可以类似于相关度图150,只不过文 档相关度图的节点代表文档而不是单词。深度引擎230使用第二文档相 对于给定的第一文档的文档相关度来加权从代表第一文档的节点到代表 第二文档的第二节点的链路。然后可以归一化外向链路的权重。在特定实施方式中,深度图可以在用户界面上显示以显示文档的深 度。用于选择深度级别的深度滑动器也可以被显示。在某些实施方式中, 如果文档包括较大文档的部分,则深度图可以指示这些部分的深度。在某些实施方式中,深度引擎230可以以任意其他合适的方式计算 文档深度,例如处理文档的相关度直方图和/或基于深度而截取不同单词 的百分比然后处理直方图。其他方法包括Gunning-Fog、 Flesch或Fry方 法。在特定实施方式中,深度引擎230可以通过映射深度值到特定深度 级别来校准深度。在某些实施方式中,范围Ri中的深度值可以被映射到 级别Lj。例如,可以将Ro = {ro: " < c^映射到级别U,将R, = {r1: C() < n〈C^映射到级别Lb…,,且将R。-(^Cn〈1^映射到级别Ln。这些范围可以包括任意合适的深度值且不需要是相同的尺寸。可以存在任意合适 的级别数,诸如小于5、 5到7、 7或8、 8到10、 10到20、 20至50、 50 至100或大于100。主题引擎240可以确定文档的主题(或题目)。在特定实施方式中, 主题引擎240根据文档的单词的聚类确定主题,该聚类可以通过聚类模 块31识别。如上所述,单词的聚类可以指出单词集的主题(或题目)。 文档的主题可以提供关于文档的内容的有用信息。例如,例如,包括聚 类{肾脏、肾、蛋白质、问题}的文档可能与由于肾功能虚弱导致的蛋白 质从肾的流失有关而不是与肾脏(kidneybean)的蛋白质含量有关。在特定实施方式中,主题引擎240根据主题图确定主题。在这些实 施方式中,使用任意合适的技术从文档提取关键词,这些技术例如,词 频率-逆向文档频率(TF-IDF)技术。关键词用于根据主题图选择候选主 题。候选主题与文档相比较以确定主题与文档的匹配程度。在特定实施 例中,候选主题的直方图可以与文档的直方图比较。如果候选主题与文档匹配,则主题可以提供文档的类型和主题的数目的评估。特异性引擎240可以计算文档的特异性。在特定实施方式中,特异 性引擎240可以为文档指派特异性值和/或特异性等级。较特殊的文档可 以被指派较高的特异性值或等级,且较不特殊的文档可以指派较低的特 异性值或等级。在特定实施方式中,特异性引擎240根据文档的主题数计算特异性。 在特定实施例中,较特殊的文档可以具有较少的主题,且较不特殊的文 档可以具有较多的主题。在特定实施方式中,特异性引擎240根据文档的主题数以及这些主题之间的相关度计算特异性。在特定实施例中,较 特殊的文档可以具有较少的主题,主题之间具有较高的相关度,且较不 特殊的文档可以具有较多的主题,主题之间具有较低的相关度。在特定实施方式中,主题数可以取决于深度(或级别)。例如,较浅 深度的单个主题可以代表较深深度的多个主题。在特定实施方式中,用 户可以使用深度滑动器选择级别或可以预先确定级别。在特定实施方式 中,级别可以被用户选择或者预定义。例如,可以定义任意合适数目的 级别,且可以根据级别计算深度。例如,级别可以是基于领域(例如, 工程、医学、新闻、体育或金融领域)、基于专业(例如,低血压、胆固 醇、心病学、眼科学或肾脏专业)、基于课题(例如,体位性低血压、搭 桥手术或动脉阻断题目)、基于细节(例如,体位性低血压、慢性低血压 或急性低血压细节)、基于消退(resolution)(例如,老年病因、药学、 或遗传消退)、基于个人的(例如,用户查询级别)。本体特征应用引擎250可以应用本体特征(诸如深度、主题或特异 性)从而在任意合适的情况下执行本体特征分析。合适的情况的示例包 括根据本体特征搜索、分类、推荐或选择文档;报告文档的本体特征; 且确定一个或更多个用户的文档(或文集)的本体特征。在具体实施方 式中,本体特征应用引擎250可以使用包括关于本体特征的信息的索引。 在一个实施例中,本体特征应用引擎250使用根据深度等级产生和/或维 持的文档深度(DD)反向索引62。 DD反向索引62包括DD反向索引列 表,其中用于单词的DD反向索引列表列出了包括该单词的文档(或页面50)的文档标识符。文档的文档标识符可以表示文档的深度。例如, 用于编码文档标识符的二进制编码可以表示深度。在某些情况下,DD反 向索引列表可以仅列出满意深度的文档。在另一实施例中,除了反向索 引62之外,本体特征应用引擎250还使用等级表和深度表。深度表可以 表示文档的深度。在特定实施方式中,本体特征应用引擎250使用本体特征的特定值 (诸如文档深度或特异性的指定值)搜索文档。特定值可以被预定义、 计算或由用户选择。在特定实施方式中,该值可以使用深度滑动器和/或 特异性滑动器选择。在特定实施方式中,本体特征应用引擎250可以使用本体特征作为 分类标准以分类文档。例如,本体特征应用引擎250可以根据文档深度 和/或相对于主题的特异性以及其他分类标准分类文档。在某些实施例中, 本体特征应用引擎250搜索DD反向索引62以获得根据文档深度分类的 文档。在某些实施例中,本体特征应用引擎250使用非DD反向索引62 搜索文档且然后根据深度分类文档。在特定实施方式中,本体特征应用引擎250可以向客户端20图形地 显示本体特征的值。图形显示可以提供某些或全部的文档,例如,搜索 结果的前XQ/。的文档。本体特征可以以任意合适的方式呈现。在某些实施 例中,诸如数字、单词、或图标之类的图形指示符可以指示值。图形指 示符例如可以靠近搜索结果列表中的项、在线新闻的标题或文档图标放 置。在某些实施例中,现有的图标(iconogmph)的变更可以表示值。例 如,图形指示符或文本的大小、字体、类型、颜色可以指示值。在另一 实施例中,图表可以指示值。本体特征直方图可以包括文档数量轴和本 体特征轴,且可以指示特定本体特征值的文档数量。例如,包括文档数 量轴和文档深度轴的文档深度直方图可以指示特定文档深度的文档数在特定实施方式中,文档特征应用引擎250可以允许用户请求搜索 具有特定本体特征值的文档。可以允许用户指定用于査询的不同单词的 值。在特定实施例中,本体特征应用引擎250可以为用户提供选项以选择深度,用户然后可以输入所选的深度。这些选项可以以任意合适的方 式呈现,诸如以(i)绝对词条(例如,代表深度的数值或数值范围);(ii)相对词条(例如,搜索结果相对于深度的比例,诸如,"最深的X %,,); (iii)语义学词条(例如,'介绍性的'、'浅'、'深,、'很深'和域'高 度专业,);(iv)图形词条(例如,滑动器、按钮和/或其他图形元素)或 (V)词条的任意合适的组合(例如具有语义学标签的滑动器)。在某些 情况下,滑动器可以包括浅端和深端。用户可以移动滑动器朝向一端或 另一端以指示所选的深度。当提供搜索结果时,文档深度直方图可以通 过滑动器呈现,且可以使用滑动器作为文档深度轴。在特定实施方式中,本体特征应用引擎250可以计算一组一个或更 多个用户的本体特征特性。本体特征特性可以包括用户深度和主题语境 中的用户特异性。本体特征特性描述了与用户设置相关的文档的本体特 征。例如,科学家比三年级学生使用更深的文档。可以相对于一个或更 多的主题给出本体特征特性。例如,遗传学家在遗传性领域可以比他在 诗歌领域使用更深的文档。本体特征特性可用于确定用户的专业技术、 自动为用户建立简历,且分析用户社会网络。可以分析与用户相关的任意合适的文档以评估本体特征特性,例如, 信件(诸如电子邮件和即时通讯)、网页和搜索历史(诸如搜索査询和选 择的页面)。在具体实施方式
中,本体特征应用引擎250可以随时间跟踪 本体特征特性,且可以使用过去的特性来预测未来的特性。在特定实施 例中,本体特征应用引擎250可以假设用户深度和/或特异性一般随时间 和/或在区域中的活动增加。在特定实施方式中,本体特征应用引擎250可以组合某些操作。例 如本体特征应用引擎250可以监控用户的深度且然后根据用户深度搜索 文档。在一个实施例中,监控用户深度,且根据该深度,向用户提供新 闻。未来的用户深度被预测,且适合该预测出的深度的新闻被提供。本发明的某些实施方式可以提供一个或更多的技术优点。 一种实施 方式的技术优点可以是可以根据文档的主题数确定文档的特异性。如果 文档具有较少数目的主题,则该文档可能更加特殊。如果文档具有较高数目的主题数,则该文档可能较不特殊。 一种实施方式的另一技术优点 可以是能执行特异性分析。特异性分析的实施例包括获取满足要求的文 档特异性的文档,帮助显示指示该文档特异性的图形元素以及根据用户 文档确定用户特异性。本发明的特定实施方式可能不包括上述技术特点, 包括上述技术特点的某些或者全部。根据此处包括的附图、说明和权利 要求,对于本领域技术人员而言, 一个或更多的技术特点是显而易见的。 尽管已经根据某些实施方式描述了本公开,但这些实施方式的变型 和改变对于本领域技术人员而言是显见的。因此,实施方式的上述描述 并不限制本公开。在不偏离所附权利要求限定的本发明的精神和范围的
情况下,可以做出其他变型、替代和变更。 相关申请
本申请要求由DavidMarvit等于2007年10月5日提交的题目为"文 档主题及特异性的确定及应用"的美国临时申请序列号No. 60/977,781的 优先权。
权利要求
1.一种方法,所述方法包括以下步骤访问一个或更多个有形介质中存储的记录,该记录记录了多个文档的多个聚类,文档包括多个单词,聚类包括所述多个单词中的多个满意地相关的单词,聚类指示主题;确定所述多个文档的至少一个子集中的各个文档的主题数;以及通过下面的步骤根据所述主题数确定所述各个文档的特异性如果该个文档具有较少主题数,则确定该个文档较特殊;以及如果该个文档具有较多主题数,则确定该个文档较不特殊。
2. 根据权利要求1所述的方法,所述确定所述多个文档的至少一个 子集中的各个文档的主题数还包括以下步骤确定所述各个文档的聚类数;以及 根据所述聚类数计算所述各个文档的所述主题数。
3. 根据权利要求1所述的方法,所述确定所述多个文档的至少一个 子集中的各个文档的主题数还包括以下步骤识别针对要确定主题数的深度;以及 针对识别出的深度确定主题数。
4. 根据权利要求1所述的方法,所述确定所述多个文档的至少一个 子集中的各个文档的主题数还包括以下步骤从所述各个文档中选择多个关键词;识别与所述关键词相关的一个或更多个候选主题;以及 如果所述一个或更多个候选主题与所述文档相匹配,则确定所述一 个或更多个候选主题为所述文档的主题。
5. 根据权利要求1所述的方法,所述方法还包括通过以下步骤执行 特异性分析-接收包括文档特异性请求的搜索查询;以及获取所述多个文档中满足所述搜索查询和所述文档特异性请求的一 个或更多个文档。
6. 根据权利要求1所述的方法,所述方法还包括通过以下步骤执行特异性分析对所述多个文档中的各个文档的特异性进行图形显示,所述图形显 示包括从图形指示符、图形变更和图表组成的集合中选出的元素。
7. 根据权利要求1所述的方法,所述方法还包括通过以下步骤执行 特异性分析接收搜索查询;获取满足所述搜索查询的文档集;以及 根据所述文档集的所述文档的特异性来分类所述文档集。
8. 根据权利要求1所述的方法-所述多个文档与一个或更多个用户相关;以及 根据所述主题数确定所述各个文档的特异性还包括根据所述多个文档确定所述一个或更多个用户的用户特异性。
9. 根据权利要求1所述的方法 所述多个文档与一个或更多个用户相关;根据所述主题数确定所述各个文档的特异性还包括根据所述多个文 档确定所述一个或更多个用户的用户特异性;以及还包括根据所述用户特异性为所述一个或更多个用户选择一个或更 多个文档。
10. 根据权利要求1所述的方法 所述多个文档与一个或更多个用户相关;根据所述主题数确定所述各个文档的特异性还包括根据所述多个文 档确定所述一个或更多个用户的用户特异性;以及还包括监控所述一个或更多个用户的用户特异性。
11. 根据权利要求1所述的方法 所述多个文档与文集相关;根据所述主题数确定所述各个文档的特异性还包括根据所述多个文 档确定所述文集的文集特异性。
12. —个或更多个编码有软件的计算机可读有形介质,当所述软件执行时可操作用以访问一个或更多个有形介质中存储的记录,该记录记录了多个文档 的多个聚类,文档包括多个单词,聚类包括所述多个单词中的多个满意 地相关的单词,聚类指示主题;确定所述多个文档的至少一个子集中的各个文档的主题数;以及 通过下面的步骤根据所述主题数确定所述各个文档的特异性如果该个文档具有较少主题数,则确定该个文档较特fe;以及 如果该个文档具有较多主题数,则确定该个文档较不特殊。
13. 根据权利要求12所述的计算机可读有形介质,进一步可操作以 通过以下步骤确定所述多个文档的至少一个所述子集的各个文档的主题 数确定所述各个文档的聚类数;以及 根据所述聚类数计算所述各个文档的所述主题数。
14. 根据权利要求12所述的计算机可读有形介质,进一步可操作以 通过以下步骤确定所述多个文档的至少一个子集的各个文档的主题数识别针对要确定主题数的深度;以及 根据识别出的深度确定所述主题数。
15. 根据权利要求12所述的计算机可读有形介质,进一步可操作以 通过以下步骤确定所述多个文档的至少一个子集中的各个文档的主题数从各个文档选择多个关键词;识别与所述关键词相关的一个或更多个候选主题;以及 如果所述一个或更多个候选主题与所述文档相匹配,则确定所述一 个或更多个候选主题为所述文档的主题。
16. 根据权利要求12所述的计算机可读有形介质,进一步可操作以 通过以下步骤执行特异性分析接收包括文档特异性请求的搜索查询;以及获取多个文档中的满足所述搜索查询和所述文档特异性请求的一个 或更多个文档。
17. 根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤执行特异性分析-对所述多个文档中的每个文档的特异性进行图形显示,所述图形显 示包括从图形指示符、图形变更和图表组成的集合中选出的元素。
18. 根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤执行特异性分析 接收搜索查询;获取满足所述搜索查询的文档集;以及 根据所述文档集中的文档的特异性来分类所述文档集。
19. 根据权利要求1所述的方法-所述多个文档与一个或更多个用户相关;以及 所述计算机可读有形介质进一步可操作,通过从所述多个文档确定所述一个或更多个用户的用户特异性,根据所述主题数确定所述各个文 档的特异性。
20. 根据权利要求1所述的方法 所述多个文档与一个或更多个用户相关; 所述计算机可读有形介质进一步可操作以通过根据所述多个文档确定所述一个或更多个用户的用户特异性, 依据所述主题数确定所述各个文档的特异性;以及根据所述用户特异性为所述一个或更多个用户选择一个或更多个文档。
21. 根据权利要求1所述的方法 所述多个文档与一个或更多个用户相关;所述计算机可读有形介质进一步操作以通过从所述多个文档确定所述一个或更多个用户的用户特异性,根据所述主题数确定所述各个文档的特异性;以及 监控所述一个或更多个用户的用户特异性。
22. 根据权利要求1所述的方法-所述多个文档与文集相关; 所述计算机可读有形介质进一步操作以通过从所述多个文档确定所述文集的文集特异性,根据所述主题数 确定所述各个文档的特异性。
全文摘要
本发明涉及确定文档特异性。在一种实施方式中,确定文档特异性包括访问记录文档聚类的记录。根据文档的聚类数确定文档的主题数。根据主题数确定文档的特异性。
文档编号G06F17/30GK101404016SQ200810166178
公开日2009年4月8日 申请日期2008年10月6日 优先权日2007年10月5日
发明者大卫·马尔维特, 斯特吉奥斯·斯特吉奥, 贾瓦哈拉·贾殷 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1