用于网络数据集的呈现和可视导航的系统和方法

文档序号:9291669阅读:293来源:国知局
用于网络数据集的呈现和可视导航的系统和方法
【技术领域】
[0001] 本发明涉及用于对包括一个或多个相关数据记录网络的数据集进行可视导航的 系统和方法,具体地但不仅仅涉及用于知识产权数据集(如专利数据库)的互动可视检索 的系统和方法。
【背景技术】
[0002] 随着廉价且强大的计算系统的出现以及电子数据库的发展,在与技术、工业、商业 和社会几乎所有领域相关的数据收集和电子存储方面已经出现了激增。通常在许多情况 下、以"纪录"的形式保留数据,"记录"通常包括描述现实世界对象或事件的一系列属性。 例如,一种数据记录是健康记录,健康记录保留与特定人的属性有关的信息,如该特定人的 身高、性别、体重、现在的和过去的医疗情况、已进行的治疗等等。另一种数据记录是描述科 学出版物的数据记录,其中多个这样的数据记录可以形成集合并且被保留在例如出版物数 据库中。这样的出版物数据库可以包括与出版物相关的属性,如每个出版物的作者、对其它 出版物的引用或参考、每个出版物的出版日期和主题。
[0003] 另一种结构化的数据集是描述知识产权的数据,如专利数据记录或商标数据记 录。许多国家具有如下法律制度:知识产权的所有者或创造者可以登记其对发明、标志和/ 或设计的权利。这样的记录是高度结构化的且包括大量属性,如提交日期、所有者或申请者 的名称、发明人或作者的名字、与本发明的历史以及特定知识产权局分类代码(如IPC(国 际专利分类)代码)相关的数据以及描述知识产权性质的其它属性。
[0004] 由于专利数据实际上是创新活动的记录,所以可以从检索专利数据中获得价值, 以提取商业上有用的信息。然而,随着每年提交的专利申请的数量不断增长,由于技术发展 的速度不断增加以及覆盖发明的更强的法律权利意识,现在的专利数据库包含数百万或数 千万计的记录,因此每个专利数据记录包含庞大而复杂的一组属性。因此,用于检索这样的 数据库的传统方法(如通过查找标题、摘要或申请人详情属性中的关键字)可能精度不够, 容易出现错误并且会返回庞大且不便的数据集。
[0005] -种用于选择、分析及可视化相关数据库记录的方法鉴于这些记录中至少一 些记录之间或之中存在的关系来利用网络范式(network paradigm)。例如,美国公开 2010/0106752 (EcKardt (艾卡特)等三人)描述了一种用于通过提供记录的网络图形表现 来理解相关数据库记录或文献集的网络可视化系统和方法。然而,已认识到分析和图形表 现大型且复杂的数据集(如'752号公开的图13中描绘的超过1000个专利文献的表现) 中固有的困难。艾卡特在段落[0177]中指出,难以确定从专利文献的这张网络图中理解到 什么,在该网络图中节点表示文献并且链接是引用联系。
[0006] 此外,如果不寻求专业协助以及详细地研究每个专利说明书,则难以判断与其它 专利及已授权的发明相比,特定专利或由该专利保护的底层发明的相对价值或"优点"。因 此,传统检索方法努力充分提供与专利的相对优点或价值相关的任何复杂的或高层次的信 息。
[0007] 在一项提议中,美国专利7, 716, 226 (Barney (巴尼))描述了一种在统计地评级、 评估及分析知识产权资产(包括专利、专利申请及相关文献)的背景中,概率地量化及可视 化两个或两个以上在引用上或在背景上相关的数据对象之间的相关性的方法和系统。然 而,巴尼依靠专利文献的概率分析,特别地利用多变量回归来提供可视地图。该方法具有固 有缺点,缺点包括与概率技术中使用的求平均关联的固有不精确性。

【发明内容】

[0008] 本文公开的是一种确定多个数据记录对目标数据记录的相似性分数的计算机实 现的方法。该方法包括以下步骤:
[0009] ?从数据记录集中标识所述目标数据记录;
[0010] ?标识所述数据集中与所述目标记录具有初级连接和次级连接的数据记录以形成 数据记录地图,上述记录是初级数据记录和次级数据记录;
[0011] ?对于所述次级数据记录中的至少一个次级数据记录,确定重要性值和相关性值, 其中所述重要性值基于所述次级数据记录和所述数据地图中的其它数据记录以及所述数 据集中的其它数据记录之间的互连,并且所述相关性值基于所述次级数据记录和所述数据 地图中的其它数据记录之间的互连;以及
[0012] ?将所述重要性值和所述相关性值相结合以提供所述相似性分数,其中所述相似 性分数允许用户标识公开相似概念的次级数据记录。
[0013] 在一些形式中,通过以下步骤确定所述至少一个次级数据记录中每个次级数据记 录的所述重要性值:
[0014] ?计算所述数据地图中所述次级数据记录和连接至所述次级数据记录的所述初级 数据记录之间的连接强度;
[0015] ?确定所连接的初级数据记录中每个初级数据记录的数据记录强度;
[0016] ?计算所述数据地图中所述次级数据记录与其它次级数据记录之间的连接强度; 以及
[0017] ?确定所述数据集中所述次级数据记录中每个次级数据记录的所述数据记录强 度;
[0018] ?其中将所述连接强度和所述数据记录强度相结合以形成所述重要性值。
[0019] 在一些形式中,通过以下步骤确定所述至少一个次级数据记录中每个次级数据记 录的所述相关性值:
[0020] ?计算所述次级数据记录连接至所述数据地图中的初级数据记录的次数,以形成 第一投票;以及
[0021] ?计算所述次级数据记录连接至所述数据地图中的另一次级数据记录的次数,以 形成第二投票;
[0022] ?其中将所述第一投票和第二投票相结合以形成所述相关性值。
[0023] 在一些形式中,通过以下步骤确定所述至少一个次级数据记录中每个次级数据记 录的所述相关性值:
[0024] ?依据所述连接强度,计算所述次级数据记录与所述目标数据记录之间的连接距 离。
[0025] 在一些形式中,由用户标识所述目标数据记录。在至少一个实施例中,所述重要性 值和所述相关性值被认为是权重,并且被结合以计算所述相似性分数。
[0026] 在一些形式中,所述数据记录是专利,所述初级数据记录连接至所述目标数据记 录,因为所述初级数据记录和所述目标数据记录共享引用。在一些形式中,所述次级数据记 录连接至所述初级数据记录,因为所述次级数据记录与所述初级数据记录共享引用。在至 少一个实施例中,所述数据地图显示数据记录之间的连接。
[0027] 本文还公开了一种用于排序、减少和呈现数据记录的系统。所述系统可以包括:
[0028] ?标识装置,用于标识所述目标数据记录;
[0029] ?处理器,用于计算所述次级数据记录的所述相似性分数,其中依据所述相似性分 数对所述次级数据记录进行排序;
[0030] ?处理器,用于减少所述次级数据记录,该减少依据所述次级数据记录的排序;以 及
[0031] ?显示装置,用于与所述初级数据记录和所述目标数据记录一起呈现所减少的次 级数据记录,该呈现允许用户标识公开相似概念的初级数据记录和次级数据记录。
[0032] 在第二方面中,本公开提供一种用于包括相关数据记录的数据集的呈现和可视导 航的计算机实现的方法,所述方法包括以下步骤:
[0033] ?从具有至少一些相关数据记录的数据集中接收关注数据记录的标识符;
[0034] ?确定所述数据集中与所标识的关注数据记录关联的记录;
[0035] ?在图形结构中生成所标识的数据记录和关联的数据记录的可视表现,其中所 述数据记录是通过链接互连的节点,每个链接表示各个数据记录之间的关联,由此形成网 络;
[0036] ?在选择表现数据记录的节点时,显示来自底层数据记录的预定属性信息供考 虑;
[0037] ?在显示所述预定属性信息期间,允许指定关注的其它数据记录;以及
[0038] ?利用所指定的数据记录的标识符,重复该方法的步骤。
[0039] 在实施例中,每个节点的表现反映根据与所述数据集中所有其它数据记录的连通 程度确定的数据记录的分数。优选地,在选择显示图标时,在所述可视表现中提供可视线 索,以将注意力引导至表示下一最相关的关联数据记录的节点。适当地,至少部分基于对关 联的数据记录中每个关联的数据记录确定的分数,对下一最相关的数据记录适当地提供可 视线索。最适当的是,提供具有下一最高分数的关联数据记录的线索以供用户查看。
[0040] 在另一实施例中,每个链接反映各互连的数据记录之间的关联的强度。优选地,链 接的宽度和/或长度与和每对链接的数据记录关联的相关数据记录的数量成比例。
[0041] 在第三方面中,本公开提供一种用于包括相关数据记录的数据集的呈现和可视导 航的计算机实现的方法,所述方法包括以下步骤:
[0042] ?从具有至少一些相关数据记录的数据集中接收关注数据记录的标识符;
[0043] ?确定所述数据集中与所标识的关注数据记录关联的记录,包括为每个数据记录 分配根据与所述数据集中其它数据记录的连通程度确定的分数;以及
[0044] ?在图形结构中生成所标识的数据记录和关联的数据记录的可视表现,其中所述 数据记录是通过链接互连的节点,每个链接表示各数据记录之间的关联,由此形成网络;其 中:
[0045] ?网络的可视表现包括:与具有达到或高于预定阈值的分数的数据记录相比,以更 低的显示密度表现代表具有低于所述预定阈值的分数的数据记录的幻影节点,以及与所述 幻影节点的链接。
[0046] 呈现表现为第二级专利形式的幻影节点作为网络可视表现的一部分,为该计算机 实现的方法的用户(例如,专利审查员)提供多个优点。包括第二级专利允许专利审查员 快速并有效地标识与关注专利不具有直接引用的数据记录,即未被审查员或专利申请人引 用的专利。这允许该方法的用户快速地标识该关注专利非常相似的专利。此外,以这样的 方式呈现专利允许公司容易地找出在非常相似的技术领域运营的其它公司。
[0047] 在实施例中,为每个数据记录分配的分数具有根据与其它数据记录的连接数量和 连接程度计算的值。适当地,可以对该数据集中的所有记录归一化该分数。在该数据集是 专利数据库的特定实施例中,通过前向应用数量、后向引用数量和引用的相对年代的加权 结合,计算为专利数据记录分配的分数。适当地,针对该专利数据库中小于预定时间(例如 20年)的专利的平均分数,归一化为每个专利数据记录分配的分数。
[0048] 在第四方面中,本公开提供一种用于包括相关数据记录的数据集的呈现和可视导 航的计算机实现的方法,所述方法包括以下步骤:
[0049] ?从具有至少一些相关数据记录的数据集中接收关注数据记录的标识符;
[0050] ?确定所述数据集中与标识的关注数据记录关联的记录;
[0051] ?在图形结构中生成所标识的数据记录和关联的数据记录的可视表现,其中所述 数据记录是通过链接互连的节点,每个链接表示各记录之间的关联,由此形成网络;
[0052] ?在选择表示数据记录的节点时,显示所述数据记录的预定属性的底层细节供考 虑;以及
[0053] ?在显示所述预定属性信息期间,引起将所述属性信息复制到所述可视表现的单 独区域内。
[0054] 在实施例中,该单独区域包括每个被复制的数据记录的属性信息的列表。该显示 步骤可以进一步包括活跃窗口帮助对由所选择的节点表示的数据记录的用户评论输入和/ 或排序分配。优选地,可以与该属性信息一起复制用户评论和/或所分配的排序,由此例如 通过打印提供审查追踪供查看、存储或输出。
[0055] 在第五方面中,本公开涉及一种用于包括相关数据记录的数据集的呈现和可视导 航的系统,所述系统包括:
[0056] 处理器,被设置用于访问包括多个相关记录的数据集;
[0057] 所述处理器与界面关联且进一步被设置用于:
[0058] ?通过所述界面接收数据集中关注数据记录的标识符;
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1