用于用户驱动的语义网络和媒体合成的动态产生的方法、系统和计算机程序的制作方法

文档序号:6593437阅读:155来源:国知局
专利名称:用于用户驱动的语义网络和媒体合成的动态产生的方法、系统和计算机程序的制作方法
技术领域
本发明总体上涉及分类系统。更具体地,本发明涉及动态产生由分类系统或语 义网络合成的信息域并促进媒体合成的系统、方法和计算机程序。
背景技术
常以知识表示的形式使用语义网络。语义网络是包括顶点和边缘的有向图,所 述顶点表示概念,所述边缘表示所述概念之间的语义关系。与网络对象相比,联网活动包括网络的活跃创建和重组。社交网络是联网活动 的一个示例,其中创建和修改熟人的网络。成员可使用这种网络促进与其它成员的有效 互动。这些联网互动可导致网络的变化。然而语义网络是有向图,语义联网是发展这些图的过程。通常,对本领域的技术人员而言,对创建大众市场、消费者聚集活动的抽象知 识的表示是具有挑战性的。其一个原因在于,消费者市场中的语义网络的主旨通常是非 常主观的和个人化的。不同于机构设置,个体消费者无法被指定或赋予通用表示。另外,知识实体是多面的;S卩,它们可以具有多种不同的组织基数(或维数)。 如果维数的数量增加超过三或四,则多维对象、矩阵或网络的表示,对人类用户的认知 能力而言快速成为太过不实用。因为每个人将具有他或她自己独特的思考方法和词汇 量,所以当一个人的表示与其它人的表示结合时,这个问题被复合化。另一个困难在于可量测性思维和知识是无限的,并且表示它们引起了存储和 管理的问题。此外,语义网络需要指导其的方法。虽然例如人的认知代理可指引知识表示的 产生,但是所述方法必须被调解为有效的。目前这样做的方法包括本体构建和分类构 建工具;语义网络和集体知识主动性;大众分类(例如社会标注);(从知识的遗留表示 中的)语义提取;数据挖掘;以及其它。这些方法需要用户修改或使他们的思维适应支 持所述技术。更有效地,所述的系统设计将被人类如何思维所指导。显然,语义联网方法与例如语义网络的总体概念十分不同,所述语义网络的总 体概念如之前提及的仅仅是知识状态的表示。语义网络作为知识表示的形式具有广泛 的效用。如计算机可读数据,它们可支持大量先进技术,例如人工智能、软件自动化和 “代理”、专家系统和知识管理。另外,它们可被转换为各种形式的媒体(其它知识表
示)。换句话说,语义网络的合成或创建可支持批量媒体的合成以从语义网络中提取附加 值。目前已知一些合成媒体的方法。例如,NLP/基于语法的/语言文档结构分析 被当作点阵使用,用于核对内容组成和扣除组成链接和对齐,以形成合成媒体。另外, 多文档文摘方法是已知的,凭借所述多文档文摘方法可贯穿多个文档捕获常见的和不同 的元素,并使用这些元素合并或组织这些元素。另一个方法涉及使用单个超级文档(例如,内容模型)以及使用文档转换,例如,图XSLT或XSD,以合成较小的文档子集。 另外,另一个已知的方法是响应来自用户的复杂说明的合成,凭借所述复杂说明用户需 求可被模型化,或者隐含地(例如,如人口统计学),或明确地(例如,如特定的主题或 观点)提供合成操作的基础。其它已知的方法包括社会的/合作的/Web 2.0。上述列出的方法不向媒体用户提供指导合成方法的选择。需要个人定制媒体的 用户必须从头创建文档,或者使用根据现存文档或来源的合成方法。

发明内容
在本发明的一个方面,提供了一种用于产生语义网络的计算机实现方法,其特 征在于所述方法包括步骤(a)提供信息域;(b)将信息域表示为数据集,所述数据集由 数据实体和数据实体之间的一种或多种关系限定;(c)通过代理,提供表示一个或多个思 维的数据;以及(d)根据数据实体和一个或多个思维之间的一种或多种互动,通过一台 或多台计算机处理器,合成语义网络或促进语义网络的合成。在本发明的另一个方面,提供了一种用于产生语义网络的计算机系统,其特征 在于所述计算机系统包括(a)—台或多台计算机,所述计算机被构造用于提供信息域或 提供信息域存取,其中数据集可操作地用于表示信息域,所述数据集由数据实体和数据 实体之间的一种或多种关系限定,并且其中代理可操作地用于提供表示一个或多个思维 的数据;以及(b)思维处理器,所述思维处理器可操作地用于根据数据实体和一个或多 个思维之间的一种或多种互动,通过一台或多台计算机处理器,合成语义网络或促进语 义网络的合成。在本发明的又一个方面,提供了一种计算机程序产品,所述计算机程序产品用 于实现可通过网络界面存取的语义网络的产生,所述网络界面可促使代理启动一台或多 台计算机以产生语义网络,所述计算机程序产品的特征在于它包括用于配置一台或多台 计算机处理器的计算机指令和数据,以(a)获取信息域,或获取信息域存取,所述信息 域由表示信息域的数据集所表示,所述数据集由数据实体和数据实体之间的一种或多种 关系限定,其中代理可操作地用于提供表示一个或多个思维的数据;以及(b)根据数据 实体和一个或多个思维之间的一种或多种互动,通过思维处理器,合成语义网络或促进 语义网络的应用。在本发明的其它方面,提供了一种使用语义网络合成媒体的计算机实现方法, 其特征在于所述方法包括步骤(a)根据数据实体和一个或多个思维之间的一种或多种互 动,通过一台或多台计算机处理器,产生思维网络或促进思维网络的产生;以及(b)转 换思维网络以便于产生和向用户提供一种或多种形式的合成媒体。在本发明的又一个方面,提供了一种产生语义网络的方法,其特征在于所述方 法包括步骤(a)提供信息域;(b)将信息域表示为数据集,所述数据集由数据实体和数 据实体之间的一种或多种关系限定;(c)代理提供表示一个或多个思维的数据;以及(d) 根据数据实体和一个或多个思维之间的一种或多种互动,合成语义网络。在本发明的又一方面,提供了一种产生语义网络的系统,其特征在于所述系统 包括(a)信息域;(b)数据集,所述数据集可操作地用于表示信息域,所述数据集由数 据实体和数据实体之间的一种或多种关系限定;(c)代理,所述代理可操作地用于提供表示一个或多个思维的数据;以及(d)语义网络,根据数据实体和一个或多个思维之间的 一种或多种互动合成所述语义网络。在本发明的又一方面,提供了一种用于实现语义网络的产生的计算机程序,所 述计算机程序的特征在于它包括计算机指令,所述计算机指令在被载入连接到互联网的 服务器计算机上时,可操作地用于提供限定了界面的网络应用,所述界面使得代理启动 服务器计算机通过以下方式产生语义网络(a)提供信息域;(b)将信息域表示为数据 集,所述数据集由数据实体和数据实体之间的一种或多种关系限定;(c)代理提供表示一 个或多个思维的数据;以及(d)根据数据实体和一个或多个思维之间的一种或多种互动 合成语义网络。在本发明的另一个方面,提供了一种使用语义网络产生合成媒体的方法,所述 方法包括(a)通过以下步骤产生语义网络ω提供信息域;(ii)将信息域表示为数据 集,所述数据集由数据实体和数据实体之间的一种或多种关系限定;(iii)代理提供表示 一个或多个思维的数据;以及Gv)根据数据实体和一个或多个思维之间的一种或多种互 动合成语义网络;(b)通过语义网络的转换产生合成媒体;以及(c)向代理提供合成媒 体。在此方面,在详细说明本发明的至少一个实施例之前,应当理解本发明在其应 用上不受限于以下描述中提出的或附图中举例说明的构造细节和组成配置。本发明能具 有其它实施例并能以各种方式实施和实现本发明。同时,应当理解本文使用的措词和术 语是为了描述而不应当被认为是限制。附图简述当对本发明的以下具体实施方式
做出考虑时,将更好地理解本发明并且本发明 的目标将变得明显。这种描述参考了附图,在所述附图中

图1举例说明了组需要产生和使用思维网络的组成的一种实现方式。图2以本发明的一种实施方式举例说明了知识表示实体和关系。图3举例说明了用于知识表示方法的一个示例,在此示例中的所述知识表示方 法可被称为逐面分析法。图4举例说明了思维处理器的思维网络合成方面的一种实现方式。图5举例说明了本发明提供的用户界面的一个方面。图6为转换思维网络以产生合成媒体的方法的流程图。图7举例说明了用户界面,凭借所述用户界面可产生合成媒体。图8举例说明了合成媒体输出。在附图中,通过示例的方式举例说明本发明的实施例。将明确地理解说明书和 附图仅仅为了举例说明和用作辅助理解,并且不旨在作为对本发明的限制的定义。发明详述本发明,在其中一个方面,提供了一种用于语义网络和思维网络的自动创建的 系统、方法和计算机程序。本发明,在其中另一个方面,也提供了一种用于提供语义联 网的广泛需求的系统和方法,包括(1)数字表示抽象思维的方式;(2)存储和记忆思维 (如数字存储器)的方式;(3)将思维融入适时的和相关的观点内,将它们与相同观点范 围内的其它思维(语义网络)相链接;(4)将这些思维的表示指引到特定任务的方式;以及(5)经济地存储所学的知识的方法,所述所学的知识将被用于语义联网的未来迭代。本发明,在其又一个方面,提出了一种方法、系统和计算机程序,凭借所述方 法、系统和计算机程序媒体用户可指导媒体合成以产生一个或多个定制的文件。这样, 用户可亲自指导合成过程,以便于合成过程包括个体用户的直接的贡献和见解。所产生 的结果可以是个人定制的媒体。本发明提供了一种混合求解法,凭借所述方法个体用户 可以是指导媒体及其内容的创建的唯一作者和代言人,并且可通过机器媒体合成促进此 方法,所述机器媒体合成可收集大范围的文档和文档来源并进一步加速通过其他方法可 能超过的过程。混合求解法的结果可以是合成的媒体或文档,所述媒体或文档对每个用 户都是唯一的,并且不受限于文档、媒体源和已知的媒体合成方法的界线和限制。语义和思维网络的概述本发明,在其中一个方面,公开了一种方法、系统和计算机程序,提供了这样 一种方式,通过所述方式,根据由代理识别的一个或多个思维限定的想法和数据实例所 实施的一种或多种想法之间的相关链接,可优选地组织和存取包括知识表示的信息存 储,例如包括多个网页的网站或包含多个数据实例的数据库。这种方式在下文中被称为
“思维网络”。如同语义联网,思维处理由交互的活力,语义网络的主动创建和调整来定义。 “思维处理器”可提供处理思维以创建动态的、进化的思维网络,或者包括合成信息域 的网络的作用。因为新思维表示进入系统,所以思维处理器可使用新信息推断新思维以 及思维之间的新连接。与现存推理和推理机制不同的是,根据本发明的思维处理器可在 语义网络的产生中提取推理(创建节点和边缘),以通过现存的语义网络补充推理。为实 现此目标,思维处理器可将知识表示(思维数据)融入认知代理(例如包括人)的输入。一旦创建,语义(思维)网络可投入许多应用。思维联网可呈送至少三种广义 类型的活动,包括(1)提供获取、存储和回忆思维的方式;(2)提供产生它们工作所需 的非常个性化、语境化和有效用的思维网络的方式;以及(3)提供软件代理以获取它们 消耗已被创建的思维网络时所完成的那些工作。因为若干理由这些思维网络可能是有用的。例如,它们可被用于浏览基于来源 于思维联网的信息的网站,由此使得因特网搜索、购物辅助成为可能,使得文档可被概 述,支持创建社会网络产物等。软件代理的作用可包括,但不限于提供查询编译器的 数据,所述查询编译器从因特网搜索和检索信息;作为购物代理定位符合特定标准的产 品;通过将语义网络表示为文档来概述文档并用从不同域检索到的内容填充文档;以及 通过查找不同人产生的语义网络中思维的交叉点创建社会网络。图1举例说明了需要产生和使用思维网络的组成的一种实现方式。在本发明的一种实施中,通过以下组成的方式产生思维网络知识表示方式 101,思维处理设备103,认知代理105的使用,思维存储方式107,以及适应分类表产 生器109。下文将描述这些组成中的每一个。虽然针对每个组成描述了新的代表实现方 式,但是本发明技术人员将认识到针对本发明整个系统的操作可提供所述组成的其它公 知实现方式。应当注意的是每个组成可以(但不必须)同时操作以动态地和最佳地改进 思维网络。在本发明的另一个方面,特别地通过思维处理设备103实现了思维网络的产生和使用,所述思维处理设备103被最佳理解为编译引擎的实现方式,例如在PCT申请 PCT/CA2007/001546中的编译引擎。所述思维处理设备103可与同样在PCT申请PCT/ CA2007/001546中的所描述的概念合成装置113链接。界面115也可被提供用于根据下 文更加完整地描述的方法,促使认知代理105与思维处理设备103相互配合。为了提取信息存储(或源域111)用于其知识表示,首先必须将信息抽象为概念 的、语义的表示。信息抽象的过程可被称为“知识表示”。知识表示101的方式可包括抽象思维的物理表示。在本发明的语境中,知识特 定的和初级的单元可被表示和可选地被编码(在一个方面,所述初级单元可以是可用知 识的绝对最小的单元)。通过知识表示产生的加工品可使用各种表示思维的媒体,例如网 页、RSS供稿、RDF图等。这些媒体可提供思维互动,所述思维互动被本发明系统的其 他组成处理。随后可通过本发明所讲解的广泛的各种收入模式广告、订阅、交易的小 额支付等将所述媒体货币化。一旦知识单元已被表示,思维处理设备103就可随后提供概念合成装置113。与 社会联网的某些实施例相同的是,思维处理可由交互的动态性限定,所述交互导致主动 创建和网络重组(再次,例如思维处理可十分不同于“语义网络”的概念,所述“语义 网络”的概念通常为知识的主要静态表示)。思维处理设备103可处理思维以创建动态 的、进化的网络。因为新的思维表示进入了系统,所以思维处理设备103可使用新信息 推断新思维以及所述思维之间的新连接。与现存推理和推理机制不同的是,思维处理设 备103可被要求用于在语义网络的产物中提取推理(例如,创建节点和边缘),以通过现 存语义网络补充推理。为了达到此目的,思维处理设备103可被要求用于将知识表示(思 维数据)融入认知代理105 (在此公开中同样被称为“代理”)的输入,所述代理可以是 人、基于机器的专家系统等。思维处理设备103可扩大和加速认知代理105的“思想”。认知代理105可提供可随着时间的推移精炼和最优化思维网络的模式识别和模 式选择的输入,所述认知代理105可以是人、基于机器的专家系统等。除了由思维网络 产生的媒体之外,认知代理105也可以是通过例如提高的回忆或记忆、创造性以及联想 思维的益处,成为价值创造的受益者。与被创建的媒体相同的是,这些益处可通过许 可、订阅等货币化。可提供用于存储初级的和相关的信息的思维存储装置107,以便于处理思维网络 的日益增加的大数量和规模。思维存储装置107可包括可选择性地仅在需要时合成思维 网络的压缩设备和最优化设备。与开始聚集、作用以及随后消失的记忆相同的是,数字 思维可需要被检索、被合成到网络中,以创建例如媒体的有形加工品,并随后解体。在 本发明描述中的思维存储装置107讲解了一种连同分析系统使用的数据模型,所述分析 系统可被用于合并来自不同域的思维。适应分类表产生器109可被用于在特定域内表示知识,所述特定域提供了关于 概念推理的基础。产生分类表和实体论的困难在于它们必须针对特定域和在特定域内作 用的认知代理被构思。思维可以是高度主观的、强烈个人的以及通常私有的。因此,适 应分类表产生器109可限定一个人可创建的网络类型的范围和应用。在本公开中,讲解 了用于产生高度个性化的和专用域分类表的组成,所述组成可针对通用应用的范围提供 基础设施。所述组成也可与思维数据存储起作用,用于跨越提供回忆思维方式的人和域合并思维网络,根据需要合成思维网络,以及一旦已从中挑选出益处就使网络崩溃。知识表示在本发明的语境中,可以采用本领域技术人员熟知的若干方式表示知识。所必 需的是这样一种方式,通过所述方式思维可被连接,以使得本发明的思维处理器可合成 所述思维之间的关系的网络。虽然下文描述了一种先前在PCT申请PCT/CA2007/001546 中所描述的产生思维表示的新方法,但是本发明的思维处理器可操作地处理任何思维表 示。知识表示樽型的内容为简单起见,在PCT申请PCT/CA2007/001546中所描述的知识表示将被用于说 明用于产生本发明所描述的表示的新方法。知识表示模型可包括知识表示实体、关系和转换方法。图2以本发明的一种实现方式举例说明了知识表示实体和关系。仅为了举例说 明而不限制本发明,图2也示出了根据知识表示实体和关系312的样本实体标签314。所 述实体可包括内容节点集302、内容容器集304、概念集306 (用于简化说明,在图2中只 显示了一个概念)、关键词集308以及词素集310。要被包含的信息空间可被称为域。域可包括感兴趣的广泛领域,知识被划分为 域,并且在所述域周围设置了界线。域可被限定而不用精确地或详尽地知道所述域包括了什么。本发明可被用于检 查或研究任何数量的域。然而,在任何特定的时间,可在一个选定的域内操作本发明。 这可被称为主动域。将被分类的域的对象可被称为内容节点302。内容节点可包括服从分类的任何对 象,例如文件、文档、文档的一部分、图像或存储的字符串。内容节点302可涉及物理 对象或虚拟对象。内容节点302可被包括在内容容器集304中。所述内容容器304可提供可设定 地址的(或可定位的)信息,通过所述信息可检索内容节点302。内容容器304可包括一 个或多个内容节点302。例如,可通过URL设定地址的网页的内容容器304可包括许多 以文本和图像形式存在的内容节点302。可使用概念306提炼内容节点302的含义(例如内容节点302的描述、目的、用 法或意图)。概念306可描述内容节点302或内容节点302的一些方面。个人的内容节 点302可被分配多个概念306 ;可跨越多个内容节点302共享个人概念306。在一些情 况下,概念306可不与任何内容节点相关联。这些内容节点可包括表示某种含义的概念 306,而不将那种含义归属为任何特定对象或内容节点302。在本发明的语境中,概念306可表示“思维”并且内容节点302可以是与思维 相关联的例如文本、声音、图像或视频。可根据抽象的合成水平通过概念306与其它实体的关系,以及结构上根据其它 更基本的知识表示实体,例如关键词308和词素310限定概念306。这种结构可被称为概 念限定。共同地,例如包括概念的关键词和词素的更基本的知识表示实体被称为概念的属性。
关键词308可以是在概念306内的更微小的单元。关键词308可与其它关键词 308结合以创建更复杂的(和更抽象的)概念306。因此,相同的关键词可出现在许多不 同的概念306中。例如,概念“Team Sports”可包括关键词“Team”和“Sports”, 并且概念“Water Sports”可包括关键词“Water”和“Sports”。因此,“Sports”可
以是两个概念的关键词。关键词308之间的方向性也可被保留用于部分地描述它们的关系。正如概念306可被分解为关键词308,关键词308可被进一步分解为它们的最 基本的语义单元,被称为词素310。词素310可以是抽象的最低水平并表示含义的最 实体的、明确的单元,或者语义单元。例如,“baseball”可包括词素“base-”和
"-ball"。通过理解这些构造模块是如何关联的以及以何方向关联,它们可被组合成不 断增加地更复杂的结构。以这种方式,域内的所有可能概念均可被关联。被称为标签(在分类领域中通常被称为“术语”)的内容节点302的特定类别可 被联结为每个知识表示实体。在分面数据集(faceted data set)内的每个实体均可具有标 签。标签可以是简化的名称、可被用于识别实体的说明性的单词或短语。标签与标签描 述的各个实体是截然不同的。标签可简单地帮助构成人类可识别的各种实体。分配给实 体的标签典型地从域内出现的语言和术语提取的。虽然标签可以不是本发明的自动化方面的操作的因素,但是对自动化方面和认 知代理之间的互动有一定的作用。当标签具有内容节点302时,可从知识表示模型中标签描述的各个实体中提取 标签。因此,在图2中,标记了标签的以下类型用于描述内容容器304的内容容器标 签304a ;用于描述内容节点302的内容节点标签302a ;用于描述概念306的概念标签 306a;用于描述关键词集308的关键词标签集308a;以及用于描述词素集310的词素标 签集310a。虽然结合上述知识表示模型描述了操作和系统的某些方面,但是本领域普通技 术人员将理解也可使用相应地适应操作和系统的其它模型。例如,概念可被组合在一起 以创建高阶的知识表示实体(例如“模因”,构成思想的概念的聚集)。表示模型的结 构也可被缩小。例如,可去除词素抽象层以便于仅根据关键词310限定概念。输入数据中的实体关系可源自概念。例如,与概念相关的属性可以定向的方式 (例如更宽的或更窄的)被关联,所述定向方式可被称为链接相关联的概念的属性层次。在域的属性层次中,每个属性均可具有零个或更多后代并可具有一个祖先(除 没有祖先的根属性之外)。产生知识的物理表示本发明的系统可要求将知识编码成“思维”并在“思维网络”中将思维链接在 一起的数据集,例如分面数据集,提供给思维处理装置。存在本领域技术人员熟知的许 多方法,用于提供数据作为例如思维网络的语义网络的输入。以下描述提供了一个提供 如PCT申请PCT/CA2007/001546中描述的数据集的表示示例。应当注意,可跨越一个或多个域提供知识的物理表示的产生;即,本发明所公 开的系统和方法是可跨越单个域或多个域操作的。
图3举例说明了用于知识表示过程的一个示例,在此示例中的所述知识表示过 程可被称为逐面分析法。下文中概括地描述了逐面分析法。为简单起见,上述知识表示 模型将被用于说明参与逐面分析法的过程,然而,对本领域技术人员而言,应当明显的 是,逐面分析法,或者类似的表示方法,可被施加于任何知识表示模型。可通过分段201域开始逐面分析法,逐面分析法为产生表示数据聚集的重组的 输入结构的过程。依赖域的这些输入结构可体现复杂性的范围。例如,域可以是包括若干网页的网站,所述网页包括信息索引和信息库。在分 段201之后,可以一系列的叠加层次(被称为多层次)表示网站的内容,所述叠加层次以 其最高阶(最广泛的)主题开始并变窄到其最低阶(最具体的)文章。为了说明,所述 叠加层次可类似于以下人地点事件自然事件人为事件虚构事件……紧接着分段201,分析过程可包括将分段域中的信息分解为基本的构造模块,随 后将那些构造模块组合为更小的数据集用于在本发明的思维处理方面使用。当使用表示 示例的知识表示模型时,所得结果可被称为分面数据集。分面数据集可针对域对分类表进行编码,所述域可使用上述知识表示模型。分 面数据集可以通知可能方式的本发明的思维处理方面,在所述可能方式中,思维网络中 的语义概念可潜在地被关联。考虑到上述的实现方式,其中网站被表示,如下所述知识 可被表示为概念、关键词和词素。域中的每个对象(例如文章、链接或图片)均可与给予对象一些含义的一个 或多个概念相关。在一个层次中可捕获概念关系的方向性。例如,网站可包括实体
"Sports — Team Sports — Baseball”。这些主题的每个均可用概念表示。分段划分阶段的目的可以是为了构造输入工作并随后提取、转换和加载(“ETL” ) 数据用于随后的分析工作的使用。本领域技术人员熟知ETL的方法。所述阶段(1)从 数据源读取数据;(2)将原始数据转化为结构化数据;以及(3)将结构化数据存储在数据 存储装置中。用于进行这些任务的工具和技术可依赖于所选择的数据源。分析分析可包括源结构分析203、属性提取205和属性层次组合207的步骤。根据 PCT申请PCT/CA2007/001546提供了一个典型示例,并且在下文中为方便起见概述了 所述典型示例。应当注意,存在用于提供大体相似结果的本领域技术人员熟知的其它方 法。在输入源数据之后,源结构分析203阶段可被用于分析和预备所提取的源数 据,用于稍后的属性提取。这个阶段可被用于使用,例如去除冗余数据,根据它们的共享标签消除概念歧义,以及去除数据内的循环关系的处理来确认和压缩输入数据。这种 方法在本领域是公知的。这有助于将输入概念关系的范围限制为只具有相对高置信度的那些范围。例 如,进一步从根节点去除的关系可具有较低置信度,或者根据语境可去除关系215。概念也可被消歧217,S卩,具有含糊标签的概念可被瓦解为相同概念。这可被 用于文章与它们的父类共享相同标签的地方,例如使用网站的实现方式。消歧可包括 (1)合并或瓦解在特定关系集内共享基本的标签的概念;或者(2)如果在关系集中它们与 另一概念的主要标签相匹配,则可选地去除可替换的标签。为进一步优化,循环的和冗 余的关系可选地被去除219,221,或者被再调整以消除非层次概念关系。在此过程之后,所提取的数据源可被预备用于属性提取205。使用输入概念作为 基础,这个阶段可创建属性(例如,如关键词)并准备将属性用于安排到属性层次。概念 可由适当属性(例如,如关键词集合)列表限定。此过程可每概念创建一个关键词223。 所述关键词针对每个概念标签可具有一个标签。这些关键词标签可对应于概念标签。可 选地,针对给定概念的不同标签可描述不同想法或所述概念的方面。在这种情况下,针 对每个概念标签可创建单独的关键词。可选地,可组合所述两种方法。随后,以与可对 概念进行消歧类似的方式,可以对关键词进行消歧225,227。概念标签可被解构229为可悲去除的单个单词。这可通过以下步骤完成(1)从 概念标签事先建立的索引中被引用的标签开始;(2)将单个单笔标签与未被标记化或被 拆分的概念标签(即那些尚未出现的标签)隔离;(3)标记化或拆分概念标签;以及(4) 将单个单词标签(按次序优先)添加到可通过简单的关键词提取处理从对应的概念中创建 的关键词。然后,根据与附近概念共享的标签,可将新的关键词分配给概念231,因此创建 复杂的概念定义。事先以“常见单词”的索引识别的单词可被排除在被添加的单词之 外。最后,可以可选地去除未使用的标签233。通过将每个简单的或复杂的概念分类,并在与简单的概念关联的关键词之间创 建关系235,忽略它们之间的任何复杂的概念,可提取和精炼209属性关系。复杂的概念 可以是包括以下至少一种的概念超过概念的一个或全部标签中的单词阈值数;或者超 过一个关键词。因为复杂概念将在它们的关键词关系上具有较小的置信度,所以复杂概 念可被排除。然后,属性层次可被构建211。源结构分析可被再施用于属性层次以去除循环 的237或冗余的239关键词关系。属性(例如,关键词)关系可被修整和重组241为严 谨的层次(其中每个子关键词可仅具有一个双亲)。具有多个双亲的子关键词可具有脱离 的双亲关系,并且子关键词的祖先关系可被重组。最后,可根据出现在输入源结构中的概念关系分配213属性。在输出之前,概 念定义可被修改243,以使得双亲概念定义中的每个属性(例如,关键词)为下列中的一 个(1)在子概念定义中创建;或(2)涉及子概念定义中的关键词。如果概念定义不满 足此标准,则随后所述概念定义可被改变245以便于它满足此标准。分段的输出247和分析过程可以是思维处理器可使用形式的属性层次。所述形 式可以是多个索引或表格。多个表格可包括用于存储实体(例如包括关键词和词素的属性的概念)、属性之间的关系、内容节点和对它们的源内容容器的URI引用、每个实体的 标签以及可有用的其它信息,例如过程元数据的那些表格。思维处理器下文根据事先在PCT申请PCT/CA2007/001546中描述的方法,描述了思维处理 器的思维网络方面的一个新的实现方式,但是本发明的所述思维处理器可操作地用于任 何思维网络,所述思维网络,例如,也可基于形式概念分析或分面分类合成。图4举例说明了思维处理器的思维网络合成方面的一种实现方式。本发明的思维处理器方面可接受作为输入的将一个或多个域表示为感兴趣的区 域的数据集401 (例如上述分面数据集),以及聚集用户输入以将新的和现存的思维连接 在一起。可使用本发明的知识表示方面提供的数据集的聚集,动态地合成新语义网络。这些合成操作的输出可被称为维度概念分类法,所述维度概念分类法通过对属 性层次的检查表示维度概念关系。实现此目的的方法对于本领域技术人员而言是熟知 的。这种方法包括形式概念分析和分面分类合成。现在描述一个可能的实现方式。在输入时,在分面数据集401中的每个实体(例如概念、属性、内容节点、内容 关系和属性关系)均可被给定一个唯一标识号(ID)。给定实体ID,可确定对应的标签。 从概念ID均可确定以下任一项对应于所述概念的属性ID列表;对应于所述概念的属 性总数;对应于所述概念的内容节点的ID列表;对应于所述概念的内容节点总数。在动态合成操作之后,可制作多个新映射403,包括基本查询功能、属性层次 415以及概念匹配。可以从概念的标签确定内容节点的属性、所有相同标签的具有相同类 型的其它实体的列表。针对每个属性,可计算包括所述属性的概念集,以便于可以从属 性ID产生属性的祖先、后代或同属的ID的数量和列表。另外,给定属性或内容节点的 ID,可确定针对与所述实体相关的概念的ID数量和列表。类似地,给定属性集中属性的 总数,可产生针对具有所述大小的属性集的概念的ID数量和列表。可为用户显示用户界面,所述用户界面实现一个或多个参数的输入,以指导合 成405,例如域、主动概念定义、轴定义以及用于限制范围的可选的限制参数。用户输入图5举例说明了本发明提供的用户界面的一个方面。用户和系统提供的输入可包括 域501:广阔的领域,将合成操作应用于所述领域 主动概念505:起始点 轴定义505:搜索相关的概念的方向(如方向或另一个点)。可使用主动概念 的一个或多个属性或者域内其它概念的一些属性的列表,明确说明轴定义。用户还可使用界面提供以下参数,或者这些可被提供用于与用户界面不相关的 设置值 分离度从主动概念到合成概念层次中的相关概念以在停止前进行的指导分 层次的步骤最大数值。分离度可包括关系等级链内的步骤。 输出极限在停止前总共发现相关概念、内容节点或以上两者的最大数值。 例如,在找到十个最靠近的概念之后,用户可指导合成操作停止,不管它们和主动概念 之间的分离度有多少。
用户可通过到系统的用户界面,指定这些的任意组合,并且所述系统可返回所 得到的概念层次(输出概念层次)作为思维网络。输出概念层次随后可以是用户进一步 探索的焦点,或者可起到与另一系列的合成操作的桥梁作用。下文在标题“认知代理” 之下进一步描述进一步探索。现在更全面地说明了输出概念层次的产生。候诜集转回图4,主动概念的属性集407可以是起始点,用于从特定域内查找概念集, 所述特定域可被当作所建立的概念层次的候选使用。涉及主动概念而不考虑关系性质的 概念集可被称为候选集。候选集可包括概念,所述概念的属性在特定的轴定义和分离度 的范围内,并且所述概念明确地或隐含地或两者均含地涉及主动概念。域中的每个概念可根据其属性被限定,所述属性作为输入分面数据集的部分。 可存在针对每个概念的属性集。域中的一些属性在属性层次中可被相关。每个属性可作 为多个概念的定义的部分被使用。针对每个属性,该申请可计算包括所述属性的概念定 义集。可针对属性层次检验主动概念的属性集,以便查找明确相关的祖先和后代属性 集。属性集可被限制在特定的轴定义中。它们也可从属于特定的最大限制和分离度。可如下确定409候选集。作为子集或者具有主动属性集中那些的明确祖先的元 素,或者两者都具有的属性集可被认为是可能的祖先概念。在这些相关属性集的每个范 围内,每个属性可具有它自己的匹配概念集。针对给定属性的这些概念集的交叉集可包 括属性集的匹配概念411。使用相关的作为父集或者具有主动属性集中的那些的明确后代的元素,或者两 者均具有的属性集可控制相似的过程。这里,再次地,针对相关属性集的概念集的交叉 集可包括属性集匹配概念。候选集可以是来自所有相关属性集的交叉集的组合。明确的关系每个属性可具有祖先集、后代集或两者都具有。当属性之间存在作为属性层次 中分面输入数据的部分的关系时,明确的关系可存在于属性之间。这种关系可随后被用 于建立对应于这些属性的概念之间的关系。例如,给出·{属性1}为“概念1”的属性·{属性2}为“概念2”的属性 这些属性之间的明确的关系,其中{属性1丨为祖先并且{属性2丨为后代如果将属性{属性1}用它的子属性{属性2}代替(此后,称为“操作C” ), 则“概念1”将具有与“概念2”相同的属性列表,并因此它们之间可存在关系。“概 念2”可以是“概念1”的后代。类似地,如果将{属性2}用它的父属性{属性1}代替(此后,称为“操作 P”),则“概念2”将具有与“概念1”相同的属性列表,并且它们之间可存在关系。
“概念1”可以是“概念2”的祖先。隐含的关系隐含关系可基于属性的交叉集,通过从主动概念定义中增加或删除一个或多个属性可得到所述属性交叉集。使用任一操作,都可得到后代或祖先的概念定义。具有主 动概念子集的属性的概念可以是主动概念的祖先。类似地,具有主动概念的全部属性以 及一个或多个附加属性的概念可以是主动概念的后代。例如,给出· “概念1”为主动概念,并具有由两个属性[K’ B}组成的概念定义· “概念2”具有由三个属性{A,B,C}组成的概念定义如果将子属性丨C丨添加到“概念1”属性列表,贝"J “概念1”可具有与“概念 2”相同的属性列表,并且在两个属性列表之间可具有隐含的关系。因此,“概念2”可 以是“概念1”的后代。可选地,如果“概念2”为主动概念,用户可删除其属性的一个以给出与“概 念1”相同的属性列表。隐含的关系可随后存在于两个属性列表之间,其中“概念1” 可以是“概念2”的祖先。随后可通过聚集主动属性集的所有子集,产生祖先属性集。这些子集可包括具 有比主动属性集少一个属性、少两个属性、少三个属性等的那些子集。类似地,可通过聚集主动属性集的所有父集,产生后代属性集。这些父集可包 括具有比主动属性集多一个属性、多两个属性、多三个属性等的那些父集。明确的属性关系的层次在确定属性关系中可辅助合成操作,所述属性关系被保 持在那些属性呈现的每个概念定义的语境中。可从涉及主动概念的属性集的属性集中确定候选集。可从分面数据集中的属性 层次找到明确相关的元素。隐含相关的属性集可通过集合交暗示。当在域内时,用来查 找隐含后代属性的附加属性对于系统而言可以是已知的或可以不是已知的。主动属性集可与候选集中与概念相关的每个属性集配对。针对每对属性集,可 得到将主动属性集转换为其配对的集的集操作的顺序。被称为衍生的这些操作,可限定 候选概念与主动概念相关联的方式。可存在四个衍生操作,可在试图查找相关属性集的过程中,对属性集进行413 所述衍生操作。操作类型可被简化如表1中所示。表I-衍生操作类型产生隐含关系 产生明确关系具有祖先d 删除属性ρ 将属性用父属性替代具有后代a 增加属性C 将属性用子属性替代注意的是,所有属性关系的方向性在潜在概念关系对内必须是一致的。属性集 对在它们的元素之间可具有祖先关系或后代关系,但不会两者均具有。合成操作可只通过应用祖先操作(p,d)或后代操作(c,a),并非应用两者来保 持此方向性,以建立概念之间的关系。这可防止概念将其所有属性替换成对应于不相关 概念的那些属性。例如,给出一个具有属性丨A、B、C}的主动概念,和具有属性丨D、B、G、F} 的候选概念,可存在贯穿对应于其三个属性的主动概念定义的三个轴。为了确定概念之 间是否存在关系,用户可首先使用明确的关系,例如从A到D的明确关系,以及从C到G的另一个明确关系(这些均为C操作用子属性代替一个属性)。最后,使用增加后代 属性(即F)的隐含a操作,可得到与候选后代的属性集相匹配的主动概念的属性集。因 此,可将候选称为主动概念的后代。为了说明,当主动和候选属性集配对时,可存在三种可能的属性集合 仅与候选集相关的那些属性(“仅候选的”属性) 与候选集和主动集都相关的那些属性(“两者”属性) 仅与主动集相关的那些属性(“仅主动的”属性)如果将主动集改变为候选集要求删除“仅主动的”属性,则候选集可以是主动 集的祖先。如果主动集与候选集相同,则候选集可以是主动集的同属。如果将主动集改 变为候选集要求增加“仅候选的”属性,则候选级可以是主动集的后代。不管两个原始集是否已经具有共有属性,通过删除“仅主动的”属性和增加 “仅候选的”属性,将主动集改变为候选集是不正当的。这一对属性集可被认为是不相
关的。针对这种情况的一个特例可以是当“唯一”集中的属性与属性层次相关时。在 这种情况下,可进行两个操作的一个 用主动集属性的父属性(具有主动集祖先的候选集)代替所述主动属性;或者 用主动集属性的子属性(具有主动集后代的候选集)代替所述主动集所得属性随后可以是“两者”集的成员。对用户更可能是重要的那些概念可被给出具有更高优先级。候选集中的每个概念可具有将其连接到主动概念的唯一的衍生系列。通过合成 操作对衍生进行排序和处理的顺序,可影响所得层次中概念的次序。根据表2可确定层 次中候选概念的优先级。表2-确定所得层次过程中的衍生的优先级候选集中发生率域中发生率明确的操作(p,C) 12隐含的操作(a,d) 34此过程的输出417可以是可操作地用于处理用户界面419的思维网络,如下文更 完整地描述。给用户的界面输出再次转回图5,为响应用户请求中特定的要求,该应用可返回概念层次507,所 述概念层次507由与域内对象可相关或可不相关的概念构建,所述域涉及用户提供的标 签的主动概念并沿着轴。概念层次也可被用于得到其它类型的结构和表示,例如概念之 间的双向(关联的)关系。用户可参考此概念层次以查找与他们指定的主动概念相关的 概念。根据具有概念层次的用户界面,可将有意义的内容提供给用户513。衍生可被构建为层次结果集。在所述层次中的每个节点均可将具有属性集的概 念表示为其概念定义。在所述层次中的每个边缘均可表示单一的衍生操作。合成操作可与主动域内部隔离并返回与主动概念相关的概念的层次。相关的概 念可从主动概念中,沿着指定轴并如所指示一样远地分为祖先(广泛的)和后代(更具体 的)方向。维度结构
通常,可根据多维点阵509可形象化概念和所有它们潜在的关系,其中顶点对 应于概念,并且边缘对应于概念之间的语义关系。倘若关系满足上述的合成法则,则域中的每个概念均涉及所述域中一些数量的 其它概念。这些概念的总数以及它们的潜在关系,以及组织这些概念的所有多维方法, 均可被称为维度结构。轴(观点)在进行合成操作过程中,可将概念的一个特定层次从维度结构中隔离,所述概 念特定层次的方向和范围由轴定义限定。这可将原始点阵的维度限制于感兴趣的素材, 因此使得原始点阵更易理解。维度轴可表示概念关系的不同层次。所述层次可表示穿过域空间中两个点的薄 片。如同概念,可根据属性限定轴。同样地,可使用两个概念特定一个轴,两个概念中 的一个可以是主动概念。这可限制可链接到主动概念的祖先集。例如,如果域为“机动车辆”,并且主动概念为“我的汽车”,所述主动概念 具有属性丨灰色、Jetta 、我的丨,轴定义可以是丨灰色丨,所述轴定义可产生所有灰色的 车辆的层次。或者轴定义可以是Uetta !,所述轴定义产生所有Jetta 的车辆的层次。 或者轴定义可以是丨我的丨,并且层次可具有所有属于我的车辆。概念层次复杂概念可与域中许多其它概念相关。可能需要确定它们到底是如何相关的。 根据本发明的系统,用户可选择域、主动概念定义和主动轴定义,并随后指引该应用以 找到相关的概念集。所得结果可以是与主动概念相关的概念层次。所找到的关系的最大数量也可被 用户专用参数限制。例如,用户可将概念层次限制于某些数量的概念,或者通过概念分 类的某一数量的概念节点。概念关系可以是分层次的,定向的从广泛的(双亲或祖先) 向下至更具体的概念(子女或后代)。例如,一个层次的分支可以是{工业一制造一汽车}。在此示例中,“工业” 概念可被称为主动概念“制造”的祖先。或者,如果主动概念为“制造”,则后代可以 是“汽车”。概念可具有零个、一个或更多祖先或后代,或两者均具有。注意的是,在 精确的层次中,更高、更广的概念的所有属性可被概念沿层次向下进一步继承。例如,
“制造”概念可继承“工业”概念的所有属性。树结构上述概念层次是基于对所有概念的属性的检查。树结构可以是一种概念层次, 其中只有主动概念的属性子集被当作合成操作的可操作部分使用。子集的属性外部可被 忽略。例如,在推断公司的组织系统图的过程中,只有被标记为职别的那些属性可被用 于树结构中。维度概念分类可能的是,在给定域的维度结构中,用户将不再对一些可能的关系感兴趣。用 户可以只对从用户指定的动态合成操作中所得的特定概念层次有兴趣。随着时间的推移,针对特定域构建的概念层次可被连接在一起,形成域的维度 结构的子集。所述子集可成为包括感兴趣的维度结构的部分的维度概念分类。这些概念层次的聚集可包括更加延伸的思维(语义)网络。此外,如果用户创建这些信息的动态层次,则所得结果可被保存并组合为一个 或更多更大的和更广泛的维度概念分类。因此,每个维度概念分类均可提供一些或全 部观点的整体概述,一个或更多用户希望将所述观点施加于主题。所述分类可具有作为 他们活动的知识库的用户的长期价值,用于用户个人的和私人的使用或者与其它用户共享。虚拟概念在一些情况下,概念层次节点处的属性集可不具有匹配概念。虚拟概念可被用 作占位符以指示所述虚拟概念。例如,给定属性集丨A,B,C},如果存在 明确的关系A —D 明确的关系D —F 无具有{D、B、C}属性集的概念随后,{F、B、C}可以在具有来自{A、B、C}的一个分离度的候选集中。如 果丨D、B、C丨属性集不具有对应的概念,则在层次中的此节点处可存在虚拟概念。在PCT申请PCT/CA2007/001546中更全面地描述了虚拟概念。认知代理本发明可提供这样一种方式,凭借所述方式,认知代理可提供模式识别和选择 的输入,所述认知代理可以是人、基于机器的专家系统等,随着时间的推移,所述模式 识别和选择的输入可精炼和优化思维网络。针对认知代理的其它供选方案包括(但不受限于)机器学习;反馈数据;以 及网站分析。例如,RSS供稿可被提供作为新‘思维’的原始资料。本领域技术人员 熟知的RSS领域包括可被映射为将字符串转化为概念的过程的文本串,例如以下描述的 一个文本串。这些可依次被用于将新思维种入系统。标签到概念的转化系统通过一种方式产生对应的概念定义集以针对主动域施用,所述方式可被称 为标签到概念的转化(LCT)。可应用标签到概念的转化(LCT)的基本操作以启动基于人类和基于机器的系 统。所述操作可被概况用于取出字符串并将它转变为概念定义的任务。字符串可起源于 人类提交的查询(他们思维的清晰度)或者它可源于机器产生的源或事先被编码的知识表 示(例如文档、数据供稿等)。用户可被用户界面请求来提供思维503。思维可被登记为人类可认识的一个或多 个单词。因此,用户可将标签提供给思维处理器。用户提供的标签可被转化为连同思维处理器使用的一个或多个概念。与返回可 能的文档匹配的排列列表的一种操作的传统搜索和信息检索模式不同的是,LCT可动态 地创建概念定义作为用户思维的表示。LCT产生的概念定义随后可被用于合成操作,以 创建语义网络(被编码为概念层次)作为查询的结果。用户思维可被置于思维网络内, 所述思维网络针对用户在网络内的活动将语境提供给用户。如果超过一个概念对应于标签,可需要本发明的思维处理器以呈现一种方式,通过所述方式,用户可选择合适的、或期望的概念用于对含义进行消歧。可选地,思维 处理器可从被认为与最少相关的那些概念定义最多相关的那些概念定义中,依次返回对 应的概念定义。本领域技术人员已知信息检索的方法,所述方法可被用于根据候选属性 的与用户提交的查询的关联性,从域中识别和检索候选属性。LCT使得从标签得到概念定义。通过将思维与通过本发明的操作围绕思维的语 义网络相结合,使得思维变为与数据实体相结合。现在提出了一个信息检索方法的示例。为了将用户的查询标签转化为概念定义列表,可采取以下步骤1.用户的查询可被切分或拆分为单个单词。例如,用户的查询“Love and war” 将被切分为“Love”、“and”和“war”。2.针对作为停止词的每个被切分的单词(例如“and”、“the”等),可以使用 索引在标签内具有所述单词的域中查找所有的关键词。3.针对每个单词,其关键词可被排序并且可选择最佳的关键词。例如,一个域 可具有9,000个使用单词“Love”的关键词。系统可使用合理的数字(例如10)呈现给 用户并且创建概念定义。可使用用于对单词的关键词进行排序的一套准则。一套准则的一个示例可包 括(a)精确地与多个被切分单词相匹配的关键词。例如,如果被切分单词 为“American”禾Π “Albums”,则关键词“American Albums”可排在比关键词
“American”或关键词“Albums”更高的位置。(b)精确地与被切分单词相匹配的关键词。例如,单词“Love”与关键词 “Love”的匹配可更优于与关键词“Love in politics”的匹配。(c)使用超过一个被切分单词的关键词。(d)关键词出现率。由域中多个概念使用的关键词可被排在高于较少概念所使用 的关键词的位置。4.可创建对应于所选关键词的概念定义。在任何概念定义中,可使用来自每个 单词的一个且仅有一个关键词(除了干扰词,以及没有关键词的单词之外)。在任何概念 定义中,每个关键词可被使用不超过一次(即使它映射超过一个被切分单词)。如果用户的文本查询包括未知的单词(即,不存在关键词的任何单词),则可创 建具有用户的完整文本查询作为其标签的单个虚拟概念。它可以不具有祖先或后代。所 述虚拟概念可具有一个关键词,所述关键词的关键词标签也与查询字符串相匹配。所述 虚拟概念在转化过程的最后可被丢弃。例如,如果用户查询为“Love and war”,并且单词“war”未被任何域的关键
词使用,则系统可创建具有标签“Love and war”的虚拟概念。所述概念将具有一个同 样具有标签“Love and war”的关键词。可选地,可形成系统以代替忽略未知单词,而 不是针对未知单词创建虚拟概念。5.可对所创建的概念定义排序。可使用对概念定义进行排序的一套准则。一套 准则的一个示例可包括(a)具有最少数量关键词的那些概念定义,所述关键词的标签未与被切分单词精确地匹配。例如,如果用户的查询为“Chess Strategy”,则被切分单词可以是“Chess” 和“Strategy”。例如{关键词1 “Chess”,关键词2 “Strategy” }的概念定义可
不具有关键词,所述关键词的标签未与单词精确地匹配。例如{关键词3: "Chess", 关键词4 "Strategy games" }的另一个概念定义可具有一个未与关键词被切分单词精确 匹配的关键词。因此,所述第二概念定义可被排在低于第一概念定义的位置。(b)具有在真实的、先前存在的概念定义中不会共同出现的最少数量关键词的那 些概念定义。(c)具有在真实概念定义中同现的最大数量的那些概念定义。(d)其关键词在域中较流行的那些概念定义。为了确定流行程度,针对每个概念 定义,可计算域中其关键词的每个的出现总和。随后可比较每个概念定义的总和。如果,在比较的一对概念定义中,一个概念定义具有比另一概念定义更多的关 键词,则可忽略概念定义的最少流行的关键词,以便于从两个概念定义中比较相同的数 量。(e)与真实概念定义精确匹配的那些概念定义。(f)可以是更简单的那些概念定义。S卩,具有较少关键词的概念定义可具有较高 优先级。概念可随后作为主动概念提供给思维处理器,因此促使思维处理器根据源自于 用户查询时提交的标签的概念定义,将相关概念的层次提供给用户。思维存储存储方案知识表示领域内的语义网络通常被视为静态的、永久的结构。在思维联网系统 的语境中,只有语义网络的基本构造模块可被要求存储,以便于可根据需要产生特定的 和适时的语义网络。思维可被存储在高度压缩的数据集中(源数据、或包括域的分面数 据集)。因为数据可以不包括语义网络(具体地,构建语义图的边缘或关系),但可以只 包括可被用作构建语义网络的原始资料的节点(概念),所以数据可被部分压缩。此外,合成过程可被构造用于从任何数量的域中获取原始资料。本发明的思维存储方面可给思维处理器提供设备用于存储和加载分面数据 的方式。数据存储对于本领域技术人员而言是已知的。现在描述在PCT申请PCT/ CA2007/001546中描述的反映知识表示模型的一种实现方式。所述数据可被组织为三种 广泛的领域1.实体系统中知识表示的主构造模块。实体可包括属性、概念、概念节点以 及内容容器。2.实体关系表示系统中使用的各个实体之间的关系。实体关系可包括属性关 系、概念关系、概念-属性关系、节点-概念关系以及节点-内容容器关系。3.标签用于描述实体的术语,所述实体从实体本身的结构定义中分离。标签 可包括属性标签、概念标签以及节点标签。可跨越各个实体共享标签。可选地,可根据 实体类型划分标签。注意的是,这种简单的方案决不限制在任何实现方式中使用的数据库方案。数据编码
可能有要求将一些抽象(思维)改变为具体物,以便于计算机(思维处理器)和 认知代理(人)可操作它们。现在描述了实现此目的的一个示例。本领域技术人员将意 识到存在许多实现此目的的可选方法。分面输出数据可被编码为XML并被XSLT描述。可以多种不同方式重组和表示 所述分面数据。用于表示层次的交替输出是可用的。XSL转换编码(XSLT)可被用于对展示层进行展示。系统管理的所有信息元素 (如果分布式内容通过系统传输,则包括分布式内容)可通过XSLT描述。客户端处理可将数据供稿连接到系统的展示层。可使用这些类型的连接器用于 将信息从应用服务器输出到各个使用结构信息的媒体。通过用于在网页上展示的XSLT可 处理来自应用服务器的XML数据。除基本出版和数据展示之外,XSLT和类似的技术可提供一系列方案机会。复杂 的信息结构,例如提供所创建的那些信息结构,可提供十分类似于数据模型的可操作信 息。软件程序和代理可对展示层上的数据进行操作,以提供复杂交互和自动操作。正是 如此,系统的核心结构优势所提供的本发明的范围可远远超过简单的出版。本领域技术人员将同样意识到可能针对设计这些XML和XSLT位置的变化性。 例如,文件可被本地地存储在最终用户的计算机上或使用网络服务产生。客户端脚本语 言(或类似的技术)可被用于插入分布式的展示层上我方系统管理的信息(例如第三方出 版商或软件客户端的网页)。如另一个示例,包括来自系统的核心结构信息的XML数据供稿,可与系统组织 的分布式内容相结合。本领域技术人员将意识到将这两种类型的数据拆分为单个数据供 稿的时机。用于存储和分布这些展示文件和数据供稿的这些和其它结构上的时机在本领域 是告知的,并且因此文中不会对此进行进一步讨论。分类表产生器分类表产生器是一种用于得到、保持和聚集分类表的技术。在思维联网内部, 分类表可提供一种用于知识表示的方式。各种分类表产生器对本领域技术人员而言是已知的。例如,打开数据工程产生 了这类数据的增殖,以使得一个过程为因特网生态系统本身。存在许多用于提供分类数 据的其它特定技术(例如,逐面分析法、信息提取等)。分类表产生器可将原始输入提供到思维联网过程,由此以新思维公式化的形式 给用户提供建议、指导和灵感。语义网络一旦被建立,就可被用作原始资料用于思维联网的未来迭代。换句话 讲,思维联网的一个周期的输出可提供用于另一个周期的输入。当随着时间的推移语义 网络进化时,在语义网络的维护中,这可显露出来。用户界面参照图5,思维处理器的界面可被提供给用户,或其它认知代理,用于思维网络 的动态合成。所述界面可包括工具,使用所述工具选择主动概念定义、轴定义、主动域 以及各种参数以指导如上述所讨论的合成操作的范围。用户界面可操作地使得认知代理输入主动概念。认知代理可首先向用户界面输入503文本标签。可使用上述LCT的处理将所述文本标签转化为主动概念。在超过一 个概念对应于标签时,用户界面可向认知代理提供选择主动概念的方式。否则,LCT处 理的结果可自动返回主动概念。一旦提供主动概念,所得的概念层次507就可以采取具有对应于主动概念的中 央节点509的树的形式显示给用户。可限制所得到的层次507的范围。例如,可示出一 个祖先层和一个后代层。其它的合成参数(例如分辨率)和选项(例如在结果层次中显 示更多或更少的概念,显示或隐藏虚拟概念,保存视图或者启动新域)也可被呈现给认 知代理。也可将一种方式展示给认知代理,通过所述方式构造和编辑主动概念503和主 动轴定义505。用户界面可如它会的、连同先前输入的主动概念一起处理所述主动概念。在主动概念或相关概念的选择时,用户界面可操作地用于显示签字内容(即, 涉及所选的信息)。例如,签字内容可以是与所选概念相关的可用的和有用的内容。用 户界面也可包括需要实现上述分类表产生器的特征。这可包括这样一种方式,通过所述 方式认知代理可使得概念和内容重新分类。在本发明系统的可能使用中,如果认知代理为用户,所述用户可使用以下步骤 导航信息域。可展示给用户一种输入主动概念503的方式,例如通过如上述的LCT部 件。用户可输入或选择主动概念。随后可示出从主动概念延伸的后代层次,并且可显示 505可能的轴定义集。可以按照各种大小和阴影示出轴标签以表示在每个标签下面的概念 的密度,并表示从当前概念到交替轴有多远。用户可输入或选择一个轴定义505。该申请可使用对应于标签云中的一个标签的 主动轴,显示祖先层次507。所述标签可被显示为层次的根509。用户可通过选择另一个轴定义(通过在标签云中点击或输入新标签)、主动概念 (在树中点击或输入新标签)、分辨率来继续或限制和重复此过程。构建的层次可大于在典型输出设备(例如计算机监视器)的空间限制视频区域内 可被适当地显示。可存在通过结果层次提供给用户导航方式的多种可能。用户也可针对 他们寻找的细节水平,通过使用分辨率参数(分离度和限制)和成功地将更多细节添加到 合成层次,来均衡合成操作的范围。实现方式本发明,在其一个方面,可作为计算机程序来实现。服务器应用软件和数据库 可在集中的计算机和分布式的、分散的系统上执行。因特网或任何其它私人的或公用的 网络(例如公司的内联网)可被当作网络使用以在中央服务器以及各种计算设备和与网络 互动的分布式系统之间通信。在计算机程序的一个方面,可通过网络服务器将用户界面提供给用户,所述网 络服务器可操作地用于传递网页。用户界面可提供给用户一种用于提供思维的方式,并 且以对应于与思维相关的数据实体的各种标签和轴来展示。用户可随后使用用户界面作 为如此做的方式,完成上述选择和精炼的过程。在计算机程序的另一个方面,客户端软件可提供用户界面。本发明的用户界面,或前端可与服务器(可与托管前端相同或不相同的计算机) 相关联,用于处理思维和数据集、合成网络以及处理选择和精炼的过程。网络服务器、或客户端软件程序和处理服务器的使用可针对分布式计算的优势提供一种方式,例如托管的应用服务提供者(ASP)处理模型或软件作为服务(SaaS)应用 传递模型。根据这些模型,第三方可向域的所有者提供思维网络引擎服务。域的所有者 可因此利用这些类型的模型提供的规模经济。也可通过无线基础设施操作本发明。不论是通过WAP或传统方式,通常都为当 前的无线设备提供网络浏览能力。可通过发生在通信信道的服务器侧或与这种网络相关 的任何服务器上的处理,将本发明的用户界面提供给无线设备。另外的实现方式存在若干思维网络的有用的实现方式。参照图5,在本发明的一个方面,公开了实现思维网络的网站。所述网站可提供 这样一种方式,通过所述方式对广告商和广告网络的广告空间511货币化。思维网络站点可通过三种基本定理将价值交付给广告商(1)内容产生;(2)情 境广告;以及(3)有价值的、大众市场的观众。针对思维网络的另外实现方式也是可能的。内容产牛内容产生可促进和货币化传统上已经脱离商业领域的活动。本发明可以加速的 方式促进一系列活动的完成,所述活动过去常被商业应用不足地支持或不支持。特别 地,本发明可以直接有效的方式改善来自不同源的信息的聚集和组织。本发明可以人们交互信息的方式,创建完整的模式转换,并使用所述模式转换 促进他们的思维和创建知识。例如,本发明可以实现大量新的和高度个性化的媒体的产
品 O当前在支持在线宣传的过程中,存在在线“内容清单”的缺陷。在在线广告市 场中的两个关键问题为登录页面质量,以及广告商将广告放置在网站顶部所导致的所支 付的高额价格的缺陷。当因特网继续捕获增加的广告商之间所感兴趣的共享时,这个问 题会快速恶化。因此,广告商可追求关于满足“长尾”需要(即,更长、更具体的搜索 查询)的生态主题和网站的高质量的新内容。有价倌的大众市场的观众本发明可满足大众和失望观众的用户需要,所述用户试图把来自各种预制来源 的信息聚集和组织到反映他们个人需求的某物中。它的固有观众可包括大部分知识工作 者、学术和科学的研究人员、学生、信息建筑师和图书馆学家。另外,大部分主流网站 用户管理任务包括多个网站的浏览和组合信息,例如组织旅游计划、购物或挖掘任何特 定的感兴趣的主题。本发明提供的服务可解决这些观众的深切问题。附加实现方式可以多种方式将思维网络商业化,所述方式包括但不限于软件作为服务 (SaaS)、许可方法、数据测量以及基于订阅的服务。使用SaaS,可逐个用户地提供和定价应用。因为软件位于中央控制位置,所以
可一直提供最新版本。许可方法可包括逐个用户地提供访问专用版本的应用。也可以提供软件更新, 但可要求更新费用或新许可的购买。可以提供数据测量方法,其中数据被处理并作为公用服务被出售。
另外,可以提供基于订阅的方法,其中定期地提供对思维网络应用的访问。在 此期间,可根据限制的或未限制的情况提供使用。用户驱动的媒体合成概述本发明,在其另一个方面,提供了一种系统、方法和计算机程序,所述系统、 方法和计算机程序根据如上所述的分类系统或语义网络,通过合成操作,促进合成媒体 的动态生成。本发明促使用户以反映他们使用媒体方式的模式,简单并大批量地创建内 容。本发明进一步促进作为构造模块的静态数据的重新使用,用于完全根据用户输入瞬 时产生有意义的内容。本发明可起到促进用户导向语义网络或思维网络的创建的作用。如图6所示, 根据例如上述过程605产生的用户导向语义网络或思维网络601,可被用作网络媒体的结 构点阵。所述用户导向语义网络或思维网络601可被用于合成媒体603。表映射可被用 于将语义网络或思维网络601转换为各种文档格式。另外,语义网络或思维网络601的 语义注解的内容元素可在用户产生的语义网络所提供的结构点阵内加以核对。本发明克服了现有技术中固有的限制。根据现有技术,需要媒体的用户具有受 限制的选项,所述媒体可具有之前被创建的文档形式。首先,用户可从头创建媒体。这 个过程可能是耗时的。第二,用户可使用现有技术媒体合成方法,所述方法主要基于现 有知识表示,例如本体论、文档或其它资料来源。合成时机的范围受到这些现有资料限 定,所述现有资料也限制了用户计算(factor in)他们自己唯一的和私人的知识表示的能 力。本发明通过促使个体用户指导媒体和其内容的创建,克服了这些限制,并使用机器 媒体合成系统促进和加速这个创建过程。本发明的输出可以是合成媒体,所述合成媒体可以具有多种形式或格式,例如 文档、网页等。合成媒体对于个体用户可以是唯一的。也可从各种源中得到所述媒体, 并且所述媒体不必需地受限于特定媒体或媒体来源的范围,例如特定类型的文档或文档 来源。语义网络和/或思维网络(以上提供了它们的细节)可被用作辅助合成媒体的产 生的工具。这种网络可被投入多种使用。例如,思维联网可记录至少三种广泛类型的活 动的位置,所述活动包括(1)提供获取、存储和回忆思维的方式;(2)提供产生在他们 需要做工作时的高度个性化、语境化和实用化的思维网络的方式;以及(3)提供软件代 理以获取在他们使用被创建的思维网络时已完成的工作。如文中所公开的,思维网络可 被用于导航网站并用于搜索和检索信息。这种信息可被用于合成媒体的创建中。如之前所述的,语义网络和/或思维网络可被用于促进内容产生。相应地,这 些网络可被用于产生合成媒体。本发明可融入作为语义和/或思维联网服务的组成的软 件代理。软件代理可操作用户创建的语义网络(思维网络)。软件代理可被创建用于将 语义网络转换为各种类型的媒体,例如网站、文档、RSS供稿等。如图7所示,用户界 面701 (可包括之前在图5中说明的输入和输出)可提供给用户一种选择特定合成媒体输 出格式的方式。例如,用户可选择合成媒体输出为文档703、RSS供稿705、网站707、 或不同媒体类型和媒体通道的混合。技术人员将认识到,其它合成媒体输出可被提供给 用户作为输出选择。系统可包括若干元素和步骤。可以提供一种方式,凭借所述方式,用户导向联网可创建用户导向语义网络。可根据用户导向语义网络合成文档或其它媒体。因为语义 网络是规范的、机器可读的数据结构,所以使用例如XSLT的表映射和转换技术,可将这 种网络转变为各种媒体和文档格式。这种类型的数据转换在本领域内是公知的。另外,语义网络的内容元素可在语义网络的结构内加以核对,并且可用于填充 合成媒体的内容。在此语境中,构造的、语义注解的内容可被关联,和/或直接归类为 语义网络。信息检索和/或提取技术可用于构建未被构造的或第三方的内容的关联。一 旦针对由表转换提供的媒体如所要求的在结构内核对内容元素,所产生的媒体可被用户 用于回顾、显示、输出、编辑或以任何其他方式使用。在本发明的一个方面,可自动生成例如文档的媒体,而不需要用户的任何干 预。根据本发明的其它方面,针对用户提供的方向,通过替代措施的使用可促进自动产 生。替代措施可包括使用现有的媒体资料,例如现有的文档全集。通过媒体资料的分 析,可识别媒体结构中的任何空白。例如,如果使用的媒体为文档全集,则在全集内可 存在文档,所述全集包括关于许多区域的信息,并且结构中的空白可能存在用于未被表 示的区域。空白可用作用户向导的语义联网的替代。如文中所公开的,因为内容也可以 自动地与语义网络进行核对,所以可以采用端对端的方式进行文档合成,凭借所述端对 端的方式,所述内容可不包括任何用户交互或输入。在本发明的另一个方面,通过递归替代措施的应用可批量产生合成媒体。促进 合成媒体的批量生产的本发明的一个方面可产生大量的媒体,例如大量的文档。产生的 每个媒体可被展示为供用户选择的媒体的可能性或变化。用户可以采用各种方式选择媒 体。例如,媒体可被发布在环球网(WWW)上,并可被例如Google 的搜索引擎检索。 通过使用搜索查询,用户可从满足他们的个体需要或要求的成批的特定类型的媒体中选 择,例如特定的文档。用户作出的媒体的选择确保用户访问通过本发明的用户导向媒体 合成方面产生的一类媒体。针对本发明目的的用户互动可包括在合成媒体的产生之前的用户直接输入,或 者选择或者由用户从一批合成媒体选出媒体。用户界面(UI)可被用作一种方式法,凭借 所述方式用户可针对合成媒体输入或选择内容元素。UI也可向用户提供一种用于在语义 网络内将内容元素关联的方式。例如,可通过从分类列表中明确地选择内容元素,手工 地完成所述关联。也可通过将语义注解的内容元素加入用户导向语义网络内的节点,自 动地完成所述关联。UI还可向用户提供一种用于从各种在线或网络聚合的媒体和文档格 式中选择的方式。媒体格式可以是各种类型。如图8中所示,合成媒体可以采用网页的 形式输出。也可产生其它的输出,例如HTML、RSS> Microsoft Word 、PDF等。另 外的输出可涉及除文档之外的媒体,例如音频、视频等。用户可提供他们自己的表映射 来提供新的文档格式、风格向导、布局等。用户还可提供他们自己的信息源用于内容选 择。本发明可在用户使用媒体时促使用户创建内容。通过本发明的实施例,可简单 地创建合成媒体并且可包含大量媒体。本发明可允许重新使用静态数据作为构造模块, 用于根据用户互动瞬时产生有意义的内容。在本发明的一个方面,合成媒体表示转换的语义或思维网络,针对货币化目 的,所述语义或思维网络可被作为内容清单存储或使用。可通过媒体合成实现语义或思维网络的价值。合成媒体允许用户导向通信,随后可与其它用户共享所述用户导向通信 以促进互动。以这种方式,合成媒体可将语义联网融入互补类型的媒体的较大价值链 中。本发明的媒体合成也可提供企业营销和配送车辆。通过各种媒体形式的产品, 可能将语义和思维网络与现存的大众市场网络相结合。例如,大众市场网络可包括环球 网(WWW),例如Google 的搜索网,或者例如Facebook 的社交网。媒体合成通过现 存的大众市场网络促进媒体合成服务的供应。本领域技术人员将意识到,在不脱离本发明范围的情况下,也可以实施本文描 述的实施例的其它变化。其它变型也因此是可能的。
权利要求
1.一种用于产生语义网络的计算机实现方法,其特征在于所述方法包括步骤(a)提供信息域;(b)将所述信息域表示为数据集,所述数据集由数据实体和所述数据实体之间的一种 或多种关系限定;(c)通过代理,提供表示一个或多个思维的数据;以及(d)根据所述数据实体和所述一个或多个思维之间的一种或多种互动,通过一台或多 台计算机处理器合成或促使合成语义网络。
2.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括通过一个或多个 合成操作,使一种或多种互动得以实现的另外的步骤,所述一种或多种互动包括(a)所述数据实体和所述一个或多个思维之间的互动;以及(b)所述代理和基于一个或多个思维的所述数据实体之间的互动。
3.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括将所述一个或多 个思维融入所述数据实体的另外的步骤。
4.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括通过选择涉及 所述一个或多个思维的数据实体,向所述代理提供穿过所述语义网络的方式的另外的步 马聚ο
5.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括当所述代理提供 表示所述一个或多个思维的数据时,动态地合成所述语义网络的另外的步骤。
6.根据权利要求4所述的计算机实现方法,其特征在于所述方法包括将源自所述语义 网络的一个或多个方面的知识存储到存储装置的另外的步骤。
7.根据权利要求6所述的计算机实现方法,其特征在于所述方法包括以选择涉及所述 一个或多个思维的所述数据实体作为知识的基础的另外的步骤。
8.根据权利要求6所述的计算机实现方法,其特征在于所述方法包括存储一个或多个 方面的知识,由此促使一个或多个其它的语义网络的动态产生的另外的步骤。
9.根据权利要求6所述的计算机实现方法,其特征在于所述语义网络的概念被存储到 所述存储装置。
10.根据权利要求9所述的计算机实现方法,其特征在于所述方法包括将所述概念之 间的关系存储到所述存储装置的另外的步骤。
11.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括产生所述语义 网络以包括标签到概念的转化的另外的步骤。
12.根据权利要求11所述的计算机实现方法,其特征在于所述方法包括限定表示字符 串的标签,并从所述标签产生对概念的表示的另外的步骤。
13.根据权利要求12所述的计算机实现方法,其特征在于所述方法包括以下一个或多 个另外的步骤(a)通过所述代理限定所述标签;或者(b)从另一个知识表示获取所述标签。
14.根据权利要求11所述的计算机实现方法,其特征在于所述方法包括通过(a)所述一个或多个思维包括所述标签;(b)将所述标签分成它的一个或多个单词组成;(C)从所述信息域获取与所述一个或多个单词组成有关的多个关键词;(d)根据所述关键词与所述一个或多个单词组成的匹配评定所述关键词的等级;以及(e)根据所述关键词的等级创建概念定义将所述标签到概念的转化应用于合成所述语义网络的另外的步骤。
15.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括所述代理指定 参数以限制所产生的所述语义网络的合成的另外的步骤。
16.根据权利要求15所述的计算机实现方法,其特征在于所述方法包括将域、主轴方 向、(多个)最大分离度、(多个)最大深度和最大网络节点数中的一个或多个包含在参 数中的另外的步骤。
17.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括将所述数据集 存储到存储装置的另外的步骤,并且其中所述数据集包括创建语义网络的方式。
18.根据权利要求17所述的计算机实现方法,其特征在于所述方法包括在将数据集存 储到所述存储装置之前,首先对所述数据集、所述关系和所述标签进行编码的另外的步骤。
19.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括一个或多个代 理选择部分所述数据集以填充一个或多个域的另外的步骤。
20.根据权利要求1所述的计算机实现方法,其特征在于所述方法包括根据所述一个 或多个域内的所述数据实体和关系合成第二语义网络的另外的步骤。
21.一种用于产生语义网络的计算机系统,其特征在于所述计算机系统包括(a)一台或多台计算机,所述一台或多台计算机被构造用于提供信息域或提供信息域 存取,其中数据集可操作地用于表示所述信息域,所述数据集由数据实体和所述数据实 体之间的一种或多种关系限定,并且其中代理可操作地用于提供表示一个或多个思维的 数据;以及(b)思维处理器,所述思维处理器可操作地用于根据所述数据实体和所述一个或多个 思维之间的一种或多种互动,通过一台或多台计算机处理器合成语义网络或促进语义网 络的合成。
22.根据权利要求21所述的计算机系统,其特征在于所述思维处理器可操作地用于当 所述代理提供表示一个或多个思维的数据以促进新映射时,动态地合成所述语义网络。
23.根据权利要求22所述的计算机系统,其特征在于所述新映射提供下列一种或多 种基本查找功能;属性层次;或者概念匹配。
24.一种用于实现语义网络的产生的计算机程序产品,可通过网络界面存取所述语义 网络,所述网络界面使代理能够启动一台或多台计算机以产生所述语义网络,所述计算 机程序产品的特征在于它包括用于配置一台或多台处理器的计算机指令和数据,以(a)获取信息域,或获取信息域存取,所述信息域由表示所述信息域的数据集表示, 所述数据集由数据实体和所述数据实体之间的一种或多种关系限定,其中代理可操作地 用于提供表示一个或多个思维的数据;以及(b)根据所述数据实体和所述一个或多个思维之间的一种或多种互动,通过思维处理 器合成语义网络,或促进语义网络的应用。3
25.根据权利要求24所述的计算机程序产品,其特征在于所述网络界面由网络应用提{共。
26.一种使用语义网络合成媒体的计算机实现方法,其特征在于所述方法包括步骤(a)根据一个或多个数据实体和一个或多个思维之间的一种或多种互动,通过一台或 多台计算机处理器产生语义网络,或促进语义网络的产生;以及(b)转换所述思维网络,以便于产生和向用户提供一种或多种形式的合成媒体。
27.根据权利要求26所述的计算机实现方法,其特征在于所述方法包括根据用户导向 的互动提供客户端导向的合成媒体的另外的步骤,由此所述用户进行以下步骤的一个(a)提供输入以指引所述合成媒体的产生;或者(b)从所提供的一种或多种形式选择合成媒体。
28.根据权利要求26所述的计算机实现方法,其特征在于所述合成媒体为网络可聚合 的媒体。
29.根据权利要求26所述的计算机实现方法,其特征在于所述计算机实现方法包括将 所述合成媒体存储为内容清单的另外的步骤。
全文摘要
本发明总体上涉及分类系统。更具体地,本发明涉及用于动态地产生由分类系统或语义网络合成的信息域的系统、方法和计算程序。本发明公开了提供了以下方式的方法、系统和计算机程序,根据代理识别的一个或多个思维所定义的想法和通过数据实例实施的一个或多个想法之间的相关链接,所述方式可最优选地组织和存取信息贮存,所述信息贮存包括知识表示,例如包括多个网页的网站或包括多个数据实例的数据库。这种方式在下文中被称为“思维网络”。
文档编号G06F17/20GK102016887SQ200980115650
公开日2011年4月13日 申请日期2009年5月1日 优先权日2008年5月1日
发明者A·布莱克, P·斯威尼, R·古德, R·巴洛-布希 申请人:启创互联公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1