利用数据关系遍历数据的制作方法

文档序号:6534571阅读:149来源:国知局
利用数据关系遍历数据的制作方法
【专利摘要】系统和方法可以使用元数据提供遍历数据。在一个示例中,方法可以包括:收集第一对象的文本描述,其中文本描述包括词语;生成表示文本描述的矢量;将第一权重值分配给词语;将对象空间与词语相关联,包括将第二权重值分配给词语;以及将对象空间与第一对象相关联。
【专利说明】利用数据关系遍历数据

【技术领域】
[0001] 实施例一般地涉及遍历数据关系。更具体地,实施例涉及利用数据关系来分析关 于一个或多个对象的上下文信息以确定对象属性和关系,并且在数据搜索/检索期间利用 该属性和关系。

【背景技术】
[0002] 现有搜索应用可能典型地仅基于以相等重要性处置的关键词而返回一组结果,其 中应用可能不能提供关于结果的任何上下文信息。因此,搜索可能得到从用户的视角来看 是次优的结果。

【专利附图】

【附图说明】
[0003] 通过阅读以下说明书和随附权利要求,并且通过参照附图,本发明的实施例的各 种优势将对于本领域技术人员变得显而易见,在附图中: 图1是根据实施例的对象空间生成方案的示例的框图; 图2是根据实施例的逻辑架构的框图; 图3是根据实施例的对象数据结构的示例的框图; 图4是根据实施例的将对象与对象空间相关联的方法的示例的流程图; 图5是根据实施例的集群数据结构的示例的框图; 图6是根据实施例的相对属性的示例的表格; 图7A-7C是根据实施例的图形用户接口(GUI)的框图; 图8是根据实施例的遍历数据的方法的示例的流程图; 图9是根据实施例的处理器的示例的框图;以及 图10是根据实施例的系统的示例的框图。

【具体实施方式】
[0004] 图1示出具有对象24的对应多个文本描述26的多个对象24,其中每一个图示的 文本描述26包括描绘相关对象24的词语和/或短语。对象24可以是可能充当数据遍历 工作量(effort)的基础的任何数据元素。因而,对象24可以表示例如作为商业事务、非商 业数据研究工作量、社交联网查询等的主题的项、位置、个体、产品和/或服务。在所示示例 中,基于文本描述26标识一个或多个话题28,其中文本描述26和话题28可以进一步被用 来获得关联息30。
[0005] 如将更详细讨论的,关联信息30可以反映每一个文本描述26与话题28之间的关 联程度、每一个对象24与话题28之间的关联程度、每一个文本描述26与该文本描述26中 的词语之间的关联程度、文本描述26中的词语与话题28之间的关联程度等。关联信息30 可以被用来将对象24分组成对象空间34的集群32,其中对象空间34可以被用来响应于搜 索请求和促进搜索请求。特别指出的是,使用关联信息30结合文本描述26可以使得能够 通过一般不被用来区分对象24彼此的词语来制定和/或引导搜索。因此,所示方案为终端 用户提供意想不到的高等级的粒度和灵活性。
[0006] 图2示出可以被用来既生成又遍历对象空间的逻辑架构36(36a_36i)。在所示示 例中,话题生成模块36a基于对应多个对象的多个文本描述而标识一个或多个话题。话题 生成模块36a可以使用话题模型来标识一个或多个话题。附加地,第一关联模块36b可以 确定每一个文本描述与一个或多个话题之间的第一关联程度以便获得第一关联信息。如将 更详细讨论的,第一关联信息可以被结构化为对应于多个文本描述的第一组矢量。因而,第 一组矢量中的每一个矢量可以保持权重值,其中每一个权重值指示文本描述与特定话题之 间的关联程度。
[0007] 所示架构36还包括第二关联模块36c,其确定多个对象中的每一个与一个或多个 话题之间的第二关联程度以便获得第二关联信息。类似地,第二关联信息可以被结构化为 对应于多个对象的第二组矢量,其中第二组矢量中的每一个矢量可以保持权重值。在该示 例中,每一个权重值可以指示对象与特定话题之间的关联程度。
[0008] 在一个不例中,架构36还包括第三关联模块36d,其确定每一个文本描述与文本 描述中的一个或多个词语之间的第三关联程度以便获得第三关联信息。第三关联模块36d 可以将第三关联信息结构化为对应于多个文本描述的第三组矢量,其中第三组矢量中的每 一个矢量可以具有权重值,该权重值标识相应文本描述中的一个或多个词语的出现频率。 附加地,第四关联模块36e可以确定每一个词语与一个或多个话题之间的第四关联程度以 便获得第四关联信息。如将更详细讨论的,第四关联模块36e可以将第四关联信息结构化 为对应于一个或多个词语的第四组矢量。
[0009] 第一关联模块36b可以使用第三和第四关联信息以获得第一关联信息,其反映文 本描述与话题之间的关联程度。就这方面而言,第一关联模块36b可能使用概率图模型 (PGM)将第四关联信息(例如词语-话题关系)传播到第一关联信息中的多个文本描述。附 加地,第二关联模块36c可以使用PGM将第四关联信息传播到第二关联信息中的多个对象。 也可以使用其它方法以获得第一和第二关联信息。所示架构36还包括集群模块36f以基 于来自第一关联模块36b的第一关联信息和来自第二关联模块36c的第二关联信息而将多 个对象分组成集群。
[0010] 架构36还可以提供依照来自终端用户的搜索请求来遍历对象空间。更具体地,所 示架构36包括第一结果模块36g,其基于所请求的搜索的范围和对象空间而生成第一组结 果。在一个示例中,对象空间包括根据基于属性的相对关系布置的第一对象和第二对象。 如将更详细讨论的,调整模块36h可以生成用户接口,其具有被配置成调整所请求的搜素 的范围的第一调整机制和被配置成基于属性而调整搜索的结果的第二调整机制。所示架构 36还包括第二结果模块36i以基于经由第一调整机制和第二调整机制中的一个或多个所 接收的用户输入而生成第二组结果,其中第二组结果包括第二对象。
[0011] 现在转向图3,示出了对象数据结构10。数据结构10可以包括一个或多个元素, 其中这些元素可以包括对象、元数据条目、词语和对象空间。如将更详细讨论的,数据结构 的这些元素中的每一个可以表示数据的等级(或层),其可以单独地或与另一个组合地被分 析以增强相关数据的遍历(例如在数据搜索中)。
[0012] 所示数据结构10包括对象11。如已经指出的,对象11可以是可为数据遍历工作 量(例如数据搜索)的基础的任何数据元素。因此,在该示例中,对象10是图形小说"黑暗 骑士归来",其可能可用于从在线销售商购买。对象11因此可以表示第一等级的数据。
[0013] 对象11可以在电子商务中由多于一个的在线销售商卖出。这些在线销售商中的 每一个可以关联对象11的文本描述以帮助消费者购买产品。与对象11相关联的文本描述 (或元数据)可以表示第二等级的数据。
[0014] 此外,文本描述可以包括一个或多个词语,其中涉及对象的文本描述的词语可以 表示第三等级的数据。因此,在该示例中,第一销售商(例如Amazon)可以将元数据12与对 象11相关联。第一销售商的元数据12可以包括词语15-17 (S卩"漫画"、"图形"和"小说") 以描述对象11。类似地,第二销售商(例如Ebay)可以将元数据13与对象11相关联。第二 销售商的元数据13可以包括词语15, 16, 18, 19, 21 (S卩"超级英雄"、"漫画"、"图形"、"文学" 和"书本")以描述对象11。第三销售商(例如Barnes & Noble)可以将元数据14与对象 11相关联。第三销售商的元数据14可以包括词语16,18, 20,21 (即"图形"、"超级英雄"、 "DC"、"图形"和"书本")以描述对象11。如图3中所示,销售商可以唯一地使用词语(例如 "DC")以描述对象11,可以使用相同的词语以描述对象11 (例如"图形"),或者销售商在描 述对象11时可以不止一次地使用相同词语(例如第三销售商对"图形"的使用)。
[0015] 如将更详细描述的,涉及对象11的数据(例如元数据12、词语15等)可以被用来 分析关于对象11的上下文信息以确定对象11的属性,其中属性然后可以在搜索期间被用 作参数。因此,在该示例中,词语18 "超级英雄"的使用可以被视为对象11的属性(即对象 与超级英雄的称呼有一定关系)。另一示例可以是词语"约会"在钱包的描述中的使用(如 在"与我男朋友约会时我带着钱包"中那样),或者"沙滩"在夏季香蕉圣代松露的描述中的 使用。属性然后可以在搜索中被用作参数,从而因此导致返回对象。特别指出的是,"约会" 一般可能不被钱包销售商用来在钱包之间进行量化和/或区分。类似地,"沙滩"典型地可 能不被用来量化松露。
[0016] 此外,可以使用涉及对象11的数据(例如元数据12、词语15等)将对象11与一个 或多个集群相关联。取决于环境,集群也可以被视作分类、话题、分组、团体、或者可能与遍 历涉及对象11的数据相关的对象的任何其它分组。因此,在该示例中,对象11可以与集群 和/或话题22 "图形小说"以及第二集群和/或话题23 "书本"相关联。集群因此可以表 示第四等级的数据。
[0017] 现在转向图4,示出了将对象与对象空间中的集群相关联的方法40。在该示例中, 搜索应用可以将诸如对象11 (图3)之类的对象与诸如话题22, 23 (图3)之类的一个或多 个话题相关联。在该示例中,对象可以是图形小说"黑暗骑士归来"。
[0018] 方法40可以被实现为一组逻辑和/或固件指令,其存储在诸如随机存取存储器 (RAM)、只读存储器(ROM)、可编程ROM (PR0M)、闪存等之类的机器或计算机可读存储介质 中,存储在诸如例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑器 件(CPLD)之类的可配置逻辑中,存储在诸如例如专用集成电路(ASIC)、互补型金属氧化物 半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术之类的使用电路技术的固定功能性逻辑硬 件中,或者存储在它们的任何组合中。例如,用来实现方法40中示出的操作的计算机程序 代码可以以一种或多种编程语言的任何组合编写,包括诸如C++等之类的面向对象编程语 言以及诸如"C"编程语言或类似编程语言的常规过程编程语言。方法可以以处理框42开 始。
[0019] 在处理框44处,搜索应用可以从第一源收集文本描述,诸如元数据12 (图3)。在 处理框46处,搜索应用可以将文本描述解析为一个或多个词语。因此,在元数据12 (图3) 的示例中,应用将元数据解析为三个词语(即"漫画"、"图形"和"小说")。
[0020] 在该示例中,应用可以被配置成解析文本描述中的每一个词语。然而,可以使用其 它方法。在另一示例中,应用可以被配置成仅解析和利用文本描述中的特定词语(例如唯一 词语、名词、形容词等),或者甚至提取关键词并用等同元数据替换它们。
[0021] 在处理框48处,应用可以利用第一源的文本描述的一个或多个词语以生成表示 文本描述的矢量。矢量可以描述词语或概念在源提供的文本描述中出现了多少次,并且可 以用来描述文本描述。因而,矢量可以是由已经讨论的第三关联模块36d (图2)生成的第 三关联信息的一部分。因此,在元数据12 (图3)的情形中,表示来自第一销售商的元数据 的第一矢量可以基于词语"漫画"、"图形"和"小说",它们中的每一个出现了一次。
[0022] 在(来自不止一个源的)多个文本描述的情形中,应用可以针对涉及对象的每一个 文本描述生成矢量。在这样的情形中(即多个矢量),每一个矢量可以被加权。在一个示例 中,每一个矢量可以相等地加权,而在另一示例中,可以基于例如与对象的相关性而分配不 同的权重。
[0023] 如将更详细讨论的,矢量也可以被用来有效地确定词语与对象之间的关联程度。 在一个示例中,在涉及对象的描述中提及了两次的第一词语将具有比提及了一次的第二词 语更大的与对象的关联程度。此外,通过扩展,如果词语被视为对象的属性(如以上所讨论 的),则矢量可以被用来描述属性与对象之间的关联程度。
[0024] 在处理框50处,应用可以为矢量中的每一个词语分配权重值。该权重值可以表示 词语在其矢量内的相关性或重要性。在一个示例中,可以使用概率图模型(PGM)以确定矢 量中的每一个词语的权重来对矢量中的词语进行加权。因此,在与元数据12 (图3)相关联 的矢量的情形中,第一词语"漫画"可以被分配第一权重,第二词语"图形"可以被分配第二 权重,并且第三词语"小说"可以被分配第三权重。在矢量中的每一个词语相等地加权的情 形中,这些词语中的每一个将被给予三分之一(1/3)的权重。在多个矢量的情形中,第一矢 量中的词语的权重可能与第二矢量中的相同词语的权重不相同。
[0025] 如将更详细讨论的,归于每一个词语的权重可以被用来确定词语与其矢量之间的 关联程度。如以上所讨论的,词语可以涉及对象的属性,并且矢量可以涉及对象的文本描 述。因此,归于每一个词语的权重也可以表示词语与其相关文本描述之间的关联程度,以及 属性与词语的相关文本描述之间的关联程度。
[0026] 在处理框52处,应用可以将一个或多个集群与涉及对象的每一个词语相关联。在 一个示例中,搜索应用可以利用话题模型(例如潜在狄利克雷分布(LDA))来分析词语以确 定权重值。该权重值可以表示词语与一个或多个集群相关联的概率(范围从零到百分之 百)。因此,在元数据12 (图3)的情形中,利用三个词语"漫画"、"图形"和"小说",话题模 型可以返回例如用于对象空间中的第一集群"书本"的概率以及用于对象空间中的第二集 群"图形小说"的概率。词语与集群相关联的概率也可以视作词语与集群之间的关联程度。
[0027] 在处理框54处,应用可以将所确定的集群中的一个或多个与对象相关联。在一个 示例中,应用可以利用贝叶斯定理和每一个对象的PGM来生成话题矢量。话题矢量可以表 示集群与对象相关联的概率。因此,在元数据12 (图3)的情形中,应用可以找到分类"图 形小说"与对象之间98%的关联程度,以及分类"书本"与对象之间仅2%的关联程度。对象 属于话题的概率可以如下计算:

【权利要求】
1. 一种对象空间生成系统,包括: 网络控制器,用于接收多个文本描述,其中每一个文本描述包括描绘多个对象中的对 象的一个或多个词语和短语; 第一关联模块,用于确定多个文本描述中的每一个与一个或多个话题之间的第一关联 程度以获得第一关联信息; 第二关联模块,用于确定多个对象中的每一个与一个或多个话题之间的第二关联程度 以获得第二关联信息;以及 集群模块,用于基于第一关联信息和第二关联信息而将多个对象分组成集群。
2. 权利要求1的系统,还包括基于多个文本描述而标识一个或多个话题的话题生成 模块。
3. 权利要求2的系统,其中话题生成模块使用话题模型来标识一个或多个话题。
4. 权利要求1的系统,其中第一关联模块将第一关联信息结构化为对应于多个文本 描述的第一组矢量,并且第二关联模块将第二关联信息结构化为对应于多个对象的一组矢 量。
5. 权利要求1的系统,还包括: 第三关联模块,用于确定每一个文本描述与该文本描述中的一个或多个词语之间的第 二关联程度以获得第二关联彳目息;以及 第四关联模块,用于确定每一个词语与一个或多个话题之间的第四关联程度以获得第 四关联信息,其中第一关联模块使用第三和第四关联信息以获得第一关联信息,并且第二 关联模块使用第三和第四关联信息以获得第二关联信息。
6. 权利要求5的系统,其中第一关联模块使用概率图模型(PGM)将第四关联信息传播 到多个文本描述。
7. 权利要求5的系统,其中第二关联模块使用概率图模型(PGM)将第四关联信息传播 到多个对象。
8. 权利要求5的系统,其中第三关联模块将第三关联信息结构化为对应于多个文本 描述的第三组矢量,并且第四关联模块将第四关联信息结构化为对应于一个或多个词语的 第四组矢量。
9. 权利要求8的系统,其中第三组矢量中的每一个矢量具有标识相应文本描述中的 一个或多个词语的出现频率的权重值。
10. 权利要求1至9中任一项的系统,其中集群模块基于对象与集群之间的相对关系 而在空间上对集群排序。
11. 一种生成对象空间的方法,包括: 确定多个文本描述中的每一个与一个或多个话题之间的第一关联程度以获得第一关 联息; 确定多个对象中的每一个与一个或多个话题之间的第二关联程度以获得第二关联信 息;以及 基于第一关联信息和第二关联信息而将多个对象分组成集群。
12. 权利要求11的方法,其中每一个文本描述包括描绘多个对象中的对象的一个或 多个词语和短语,该方法还包括基于多个文本描述而标识一个或多个话题。
13. 权利要求12的方法,还包括使用话题模型来标识一个或多个话题。
14. 权利要求11至13中任一项的方法,还包括: 将第一关联信息结构化为对应于多个对象的第一组矢量;以及 将第二关联信息结构化为对应于多个文本描述的第二组矢量。
15. 包括一组遍历指令的至少一个计算机可读存储介质,所述指令如果被处理器执行 则使计算机: 基于所请求的搜索的范围和对象空间而生成第一组结果,其中对象空间包括根据基于 属性的相对关系布置的第一对象和第二对象; 生成包括被配置成调整所请求的搜索的范围的第一调整机制和被配置成基于属性而 调整搜索的结果的第二调整机制的用户接口;以及 基于经由第一调整机制和第二调整机制中的一个或多个所接收的用户输入而生成第 二组结果,其中第二组结果包括第二对象。
16. 权利要求15的至少一个计算机可读存储介质,其中属性基于包括在第一对象的 第一文本描述和第二对象的第二文本描述中的词语。
17. 权利要求15和16中任一项的至少一个计算机可读存储介质,其中用户接口是图 形用户接口(⑶I)并且第一调整机制是按钮和可卷动条中的一个。
18. 权利要求15和16中任一项的至少一个计算机可读存储介质,其中用户接口是图 形用户接口(⑶I)并且第二调整机制是按钮和可卷动条中的一个。
19. 一种数据遍历装置,包括: 第一结果模块,用于基于所请求的搜索的范围和对象空间而生成第一组结果,其中对 象空间包括根据基于属性的相对关系布置的第一对象和第二对象; 调整模块,用于生成包括被配置成调整所请求的搜索的范围的第一调整机制和被配置 成基于属性而调整搜索的结果的第二调整机制的用户接口;以及 第二结果模块,用于基于经由第一调整机制和第二调整机制中的一个或多个所接收的 用户输入而生成第二组结果,其中第二组结果包括第二对象。
20. 权利要求19的装置,其中属性基于包括在第一对象的第一文本描述和第二对象 的第二文本描述中的词语。
【文档编号】G06F17/00GK104428762SQ201380037983
【公开日】2015年3月18日 申请日期:2013年8月1日 优先权日:2012年8月17日
【发明者】N.S.萨瓦格, R.H.沃哈比 申请人:英特尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1