将与搜索查询关联的数据可视化的系统和方法及计算装置与流程

文档序号:22470863发布日期:2020-10-09 22:01阅读:137来源:国知局
将与搜索查询关联的数据可视化的系统和方法及计算装置与流程
本公开涉及自动排序分级项并生成分级结果的可视化表示,并且更具体地,涉及对用于有效数据探索的分级项进行层次聚类(hierarchicallyclustering)的系统和方法。
背景技术
:在诸如数据搜索结果显示和数据可视化(visualization)系统的相关技术系统中,层次聚类是用于组织有时使用的数据项的方法。这些相关技术系统中的层次聚类可以产生提供概要的树结构,该概要对于需要理解并导航大型数据集的用户会是有益的。更具体地,在相关技术系统中,可以通过将相似项逐步地分组在一起来生成树结构,其中,叶节点代表原始项并且内部节点(即,集群)代表聚合的项。相关技术方法是凝聚的(自下而上)或分裂的(自上而下)。通过这种层次,相关技术系统的用户可以能够以多尺度方式浏览并总结通常大的整个数据集。然而,相关技术的层次聚类算法没有将数据项区分开,这在层次聚类用于诸如搜索结果这样的顺序的或分级的数据时产生问题。例如,在许多现实世界场景中,数据项可以按一定顺序或等级呈现。例如,涉及以特定顺序或等级呈现的数据的现实世界场景可以包括检索到的搜索结果、待播放的媒体的推荐列表以及具有权重或概率的算法输出(例如,文本语料库中的主题关键字)。相反,在相关技术的层次聚类算法中,通常对所有数据项进行无序且相等的处理(例如,忽略分级或排序)。尽管相关技术的层次聚类算法可以有助于用户查看数据集,但是当对数据进行分级并且数据大时,忽略分级信息可能导致探索低效。例如,由于分组标准,一个高权重的项可能位于树的非常深的层,使得浏览数据集的用户可能仅因为用户在该层之前停止扩展树而忽略这个重要的(例如,高级别)项,或者说因为它被有效地埋置聚类的树内而错过该项。一些相关技术系统可能试图通过在视觉界面中选择权重最高的项作为代表来解决这个问题,但是这种相关技术系统不能解决该问题,因为当高级别的项处于非常深的层中时,许多内部节点可以是相同或相似的。技术实现要素:本申请的一些方面可以包括一种将与搜索查询关联的数据可视化的方法。该方法包括以下步骤:接收包括多个数据项的数据集,每个数据项具有关联的等级信息以及指示该数据项与一个或更多个其它数据项之间的相似度的相似度信息;基于所述等级信息来将所述数据集排序成分级列表;基于边界参数来屏蔽所述分级列表的连续部分;基于所述相似度信息来对所述分级列表中的除了被屏蔽的连续部分之外的部分进行迭代聚类,以产生聚类的分级数据列表;以及生成并显示代表所述聚类的分级数据列表的可视化,所述可视化包括代表所述聚类的分级数据列表中的每个集群的成形对象。本申请的另外的方面可以包括一种非临时性计算机可读介质,该非临时性计算机可读介质被编码有用于使计算装置执行将与搜索查询关联的数据可视化的方法的指令。该方法包括以下步骤:接收包括多个数据项的数据集,每个数据项具有关联的等级信息以及指示该数据项与一个或更多个其它数据项之间的相似度的相似度信息;基于所述等级信息来将所述数据集排序成分级列表;基于边界参数来屏蔽所述分级列表的连续部分;基于所述相似度信息来对所述分级列表中的除了被屏蔽的连续部分之外的部分进行迭代聚类,以产生聚类的分级数据列表;以及生成并显示代表所述聚类的分级数据列表的可视化,所述可视化包括代表所述聚类的分级数据列表中的每个集群的成形对象。本申请的又一些方面可以包括一种计算装置,该计算装置包括:存储装置,该存储装置被配置为存储数据项的数据库;以及处理器,该处理器在通信上联接到所述存储器存储装置。所述处理器可以被配置为接收搜索查询并且执行将与所述搜索查询关联的数据可视化的方法。该方法包括以下步骤:接收包括多个数据项的数据集,每个数据项具有关联的等级信息以及指示该数据项与一个或更多个其它数据项之间的相似度的相似度信息;基于所述等级信息来将所述数据集排序成分级列表;基于边界参数来屏蔽所述分级列表的连续部分;基于所述相似度信息来对所述分级列表中的除了被屏蔽的连续部分之外的部分进行迭代聚类,以产生聚类的分级数据列表;以及生成并显示代表所述聚类的分级数据列表的可视化,所述可视化包括代表所述聚类的分级数据列表中的每个集群的成形对象。本申请的又一些方面可以包括一种计算装置,该计算装置包括:用于存储数据项的数据库的装置;用于接收搜索查询的装置;用于接收包括多个数据项的数据集的装置,每个数据项具有关联的等级信息以及指示该数据项与一个或更多个其它数据项之间的相似度的相似度信息;基于所述等级信息来将所述数据集排序成分级列表的装置;基于边界参数来屏蔽所述分级列表的连续部分的装置;基于所述相似度信息来对所述分级列表中的除了被屏蔽的连续部分之外的部分进行迭代聚类以产生聚类的分级数据列表的装置;以及生成并显示代表所述聚类的分级数据列表的可视化的装置,所述可视化包括代表所述聚类的分级数据列表中的每个集群的成形对象。附图说明本专利或申请文件包含至少一张彩色的附图。专利局将按请求和必要费用的支付提供具有彩色附图的该专利或专利申请公开的副本。图1例示了按照本申请的示例实现方式的对分级项进行层次聚类并导出分级项的可视化的处理的流程图。图2例示了按照比较例的由层次凝聚聚类(hac)算法产生的数据树。图3例示了按照本申请的示例实现方式的由分级层次凝聚聚类(rhac)算法产生的数据树。图4例示了按照展示了相关技术的比较例的用于访问图2的数据树中的前n个文档的平均路径长度的图形图。图5例示了按照本申请的示例实现方式的用于访问图3的数据树中的前n个文档的平均路径长度的图形图。图6是使用按照示例实现方式的处理产生的用户界面的呈现。图7例示了按照本申请的其它示例实现方式的对分级项进行层次聚类并导出分级项的可视化的处理的流程图。图8例示了具有适用于本申请的一些示例实现方式的示例计算机装置的示例计算环境。具体实施方式下面的详细描述提供了本申请的附图和示例实现方式的更多细节。为了清楚起见,省略了附图的冗余元件的参考标号和对其的描述。整个说明书中使用的术语仅被作为示例提供,并不旨在进行限制。例如,术语“自动”的使用可以涉及全自动的或半自动的实现方式,这些实现方式涉及用户或操作者根据本领域的普通技术人员实践本申请的实现方式的所期望实现方式,对实现方式的一些方面进行控制。另外,诸如“第一”、“第二”、“第三”等这样的顺序术语可以仅出于标记目的而在说明书和权利要求中使用,并且不应该限于按所描述的顺序出现的所描述的动作或项。在不脱离本申请的范围的情况下,动作或项可以被排序为不同的顺序或者可以并行或动态地执行。在本申请中,术语计算机可读介质可以包括本地存储装置、基于云的存储装置、远程设置的服务器或者对于本领域的普通技术人员而言可能显而易见的任何其它存储装置。如上所述,相关技术的层次聚类算法没有将数据项区分开,这会在层次聚类用于诸如搜索结果这样的顺序的或分级的数据时产生问题。具体地,在相关技术的层次聚类算法中,通常对所有数据项进行无序且相等的处理(例如,忽略分级或排序)。尽管这种相关技术的层次聚类算法可以有助于用户查看数据集,但是当对数据进行分级并且数据大时,忽略分级信息可能导致探索低效。例如,由于分组标准,一个高权重的项可能位于树的非常深的层,使得浏览数据集的用户可能仅因为用户在该层之前停止扩展树而忽略这个重要的(例如,高级别)项,或者说因为它被有效地埋置聚类的树内而错过该项。为了应对这种情形,本申请的示例实现方式可以包括新颖的方法,该方法被称为分级层次凝聚聚类或rhac,用于在组织结构化数据时通过考虑相似度和等级二者对数据项进行层次聚类。这些示例实现方式可以使得高等级或高权重的项能够置于层次中的较高位置,同时通过相似度保留项集群。例如,示例实现方式可以在不让许多相似项分开的情况下促成层次中的高等级或高权重的项(例如,可以保留与加权的项关联的集群的完整性)。如果用户根据树结构(例如,利用树可视化技术)探索数据集,则该处理可以使得能够更早地看到更重要的项。本申请的示例实现方式可以用于对搜索结果进行分析和排序,布置要显示给用户的媒体,组织电子文档图书馆中的文档。图1例示了按照本申请的示例实现方式的对分级项进行层次聚类并导出分级项的可视化的处理100的流程图。如下所述,本申请的一些实施方式的一方面可以涉及首先从聚类中排除最高等级的项,然后对未被排除的最相关的项进行迭代聚类。每次迭代时,一定百分比的排除项被重新包括在聚类中。通过这样做,将包括高等级的项,以便在层次聚类期间进行合并考虑,因此它们可以被置于该层次中的较高层处。该处理可以由诸如图8中例示的计算环境800中的计算装置805这样的计算装置来执行。如图1中例示的,处理100开始于在105处系统接收或识别包含分级数据信息的数据集。分级数据信息可以是由互联网或网络搜索引擎产生的搜索结果、利用媒体观看平台(例如,流媒体服务、图像库或其它媒体观看平台)产生或者与该媒体观看平台关联的媒体文件(例如,歌曲、图像或视频)、存储在电子图书馆或文档存储平台中的文档或论文以及与预测算法(诸如识别算法)的结果关联的预测性识别或概率。在接收到数据集之后,在110处,基于与数据集中的每个项关联的分级信息,将数据项排序形成列表。例如,可以基于数据集中的所有数据项与用户提供的搜索请求的相关性对数据集中的所有数据项进行分级。被确定为与搜索请求的相关性最高的项具有最高等级,并且被确定为与搜索请求的相关性最低的项具有最低等级。为了本文中的解释目的,该列表可以被表示为l,其中,|l|=n。在基于数据项的分级将数据项排序成列表之后,在115处,系统可以通过初始的进一步分析从列表的开头(例如,列表的顶部或具有最高等级的项)中屏蔽或排除分级项。被屏蔽或排除的分级项可能落入列表的顶部的指定边界索引内。换句话说,系统可以屏蔽从列表l的开始(顶部)到由阈值t确定的边界索引b的项,其中,b=|t·n|;0<t<1。在一些示例实现方式中,边界索引可以由系统设计者、系统管理员或用户预先限定,或者可以由系统基于接收到的数据集和所预期或期望的树深度自动地确定。另外,在一些示例实现方式中,边界索引可以由系统自动动态地确定,或者可以被用户动态地调整为对所产生的可视化的反馈或控制。在这种实现方式中,当边界索引值被调整时,与聚类的结果关联的可视化可以被更新。例如,用户可以指定新的边界索引,并且将通过使用新的边界索引再次重新聚类来更新所得的可视化。例如,用户可以将边界索引向下调整以减小分级对聚类的影响,或者将边界索引向上调整以增大分级对聚类的影响。在本文中描述的实验实现方式中,边界索引被设置为40%(例如,b=40%或在初始迭代中排除或屏蔽分级数据的前40%)。如以下针对130讨论的,b将逐步从b0=40减小到bfinal=0,因为所有被排除的项被逐步添加回到聚类处理中。在已经屏蔽或排除了列表中的开始项或顶部项之后,在120处,剩余的未屏蔽的项经历层次凝聚聚类处理的一次迭代。从l|b…n|所指定的列表中的项中,基于相似度(或相关性)度量,合并两个最接近的项(或者如果先前合并的项的组)。在一些示例实施方式中,相似度可以是基于作者、主题、作为较大整体的卷或部分或者对本领域的普通技术人员而言可能显而易见的任何其它聚类相似度中的一个或更多个。在125处,确定在列表l中是否仅剩余单个项(例如,树的根)。如本领域的普通技术人员可能显而易见的,当在聚类处理中已包括(未屏蔽)列表中的所有项(例如,bfinal=0)时,列表中可以只有一个项(例如,树的根)。如果在列表中有不止一个项(125处的“否”),则处理100继续到130,并且将边界索引b减小或降低指定的量或步长s,使得任何后续迭代t的值b可以被限定为bt=bt-1-|s·n|,0<s<1,其中,s是步长参数。这降低了边界索引b,因此在聚类处理期间考虑合并的原始列表中有更多的数据项。在一些示例实现方式中,步长参数可以由系统设计者、系统管理员或用户预先限定,或者可以由系统基于接收到的数据集和所预期或期望的树深度自动地确定。另外,在一些示例实现方式中,步长参数可以由系统自动动态地确定,或者可以被用户动态地调整为对所产生可视化的反馈或控制。在这种实现方式中,当步长参数值被调整时,与聚类的结果关联的可视化可以被更新。例如,用户可以指定新的步长参数,并且将通过使用新的步长参数再次重新聚类来更新所得的可视化。例如,用户可以将步长参数向上调整以减小分级对聚类的影响,或者将步长参数向下调整以增大分级对聚类的影响。在本文中描述的实验实现方式中,步长参数被设置为1%(例如,在后续迭代期间,在聚类中包括s=1%或者被排除或屏蔽的等级分级数据的最低1%)。一旦边界索引已减小,图1的处理100就返回到115,并且基于在130处计算出的新减小的边界索引b,屏蔽分级列表中的项。重复115、120和125,直到仅单个项保留在分级列表l(例如,树的根)中并且b=0(例如,列表l包括所有项)为止。一旦分级列表l已减小至单个项并且所有项都已被包括在列表l中(例如,在125处的“是”),则处理100移动到135,在135处,向用户导出或显示基于分级和聚类的列表l的可视化,以允许进行数据的交互式探索。在以下的图4中提供了基于分级和聚类的列表l的可视化的示例实现方式。在一些示例实现方式中,处理100还可以被配置为在将分级列表l减小至单个项之前在125处退出。例如,可以通过另一或附加的停止准则来触发125处的提前停止。例如,可以通过达到所期望的集群的数目来停止125,因此还可以测试集群计数确定作为125的停止条件的部分(例如,可以使用这两个条件中的“或”)。其它停止条件对于本领域的普通技术人员而言将是显而易见的。在已导出或显示可视化之后,在一些示例实现方式中,处理100可以结束。在其它示例实现方式中,如果用户更新或改变边界索引值、步长参数或这二者,则可以重复处理100。图2例示了按照比较例的由层次凝聚聚类(hac)算法产生的数据树200。另外,图3例示了按照本申请的示例实现方式的由分级层次凝聚聚类(rhac)算法产生的数据树300。图2和图3例示了使用包含100个文档的数据集的类似于相关技术的hac算法和按照示例实现方式的rhac算法的结果。用于聚类以生成这些图的文档之间的距离度量是基于词袋(bags-of-word)模型的余弦相似度。采用单条链路来计算集群距离。图2与图3之间的比较结果可以例示用于产生图3的数据树300的rhac算法产生了更加平衡的树。另外,根据本申请的示例实现方式,具有更高等级(例如,与查询更相关)的项被置于由rhac算法产生的数据树300中的树中的更高处。例如,等级#0和#1的节点出现在rhac中的第六层,如图3中例示的椭圆305所突出显示的。相反,级#0和#1的节点注释在传统hac中的第18层上,如由图2中例示的椭圆205突出显示的。因为要查看的这两个高等级的数据项是重要的,但是与图3中例示的浅得多的层(6层)相比,用户必须真实地深缩放(18层)以使用图2中的层次来定位它们,从而显著地减少访问它们以便在真实世界应用中进行数据的可视化探索的机会。对于较大的数据集,这种问题可能变得更严重。方法项距离的平均值项距离的标准值直径hac0.960(0.04)0.040(0.02)0.979(0.05)rhac0.941(0.05)0.030(0.02)0.955(0.06)表1:hac与rhac中的集群的相干性比较。用平均值(标准值)示出了每个度量的数量。另外,申请人进一步研究了集群的质量。对于包含内部节点的叶节点的树的每层处的每个集群(例如,由该内部节点表示),计算关于集群的多个度量,包括成员文档之间的成对距离的平均值、这些距离的标准偏差和集群的直径(即,最大距离)。(上述的)表1例示了用于这些度量的所有集群的统计信息。本领域的普通技术人员可以假定,因引入屏蔽最高等级的元素,聚类的有效性受到阻碍,这自然地可以被认为降低了聚类处理的整体相干性。然而,如可以从表1中观察到的,本申请的示例实现方式的rhac算法不是仅产生了与相关hac算法相当的相干值,而是实际上产生了更好的相干值(例如,对于rhac算法,小的值)。这表明与原始hac相比,rhac没有使集群的质量下降。图4例示了按照展示了相关技术的比较例的用于访问图2的数据树中的前n个文档的平均路径长度的图形图400。图5例示了按照本申请的示例实现方式的用于访问图3的数据树中的前n个文档的平均路径长度的图形图500。另外,还计算访问两个所得的层次(图2和图3)的等级小于n的文档的路径的平均长度。如图4和图5例示的,对于n=25,针对hac(相关技术算法)的平均路径长度为37.16,而针对rhac(本申请的示例实现方式)的平均路径长度为23.68,这意指用户可以花更少的精力来访问数据集中的最高等级的文档。另外,图4和图5示出了针对每个n的这两种方法的该度量的比较。如图4和图5之间的比较例示的,rhac产生的平均路径长度小得多,因此对于具有层次的数据集的可视化探索更有效。图6是使用按照示例实现方式的处理产生的用户界面600的呈现。用户界面600例示了按照本申请的示例实现方式的使用由rhac算法生成的分级数据的聚类层次所产生的多尺度数据树图。可以由通信装置发送或者在与诸如下图8中例示的计算环境800的计算装置805这样的计算装置关联的显示装置上显示可视化。例如,用户界面600可以被显示在诸如便携式计算机装置的计算机屏幕或触摸显示器这样的显示器上。如以上针对图1的处理100的135描述的,基于数据的层次聚类的结果,可以产生、导出或显示可视化。例如,可以使用可缩放树图来建立多尺度可视化。在用户界面600中,每个矩形或正方形(例如,605a、605b、605c)可以与由rhac算法产生的单独集群对应。另外,在一些示例实现方式中,每个正方形或矩形(例如,605a、605b、605c)的大小可以代表关联的集群的大小。例如,较高的正方形或矩形605a可以与具有比与较矮的正方形或矩形605b关联的集群更多的内部层的集群对应。另外,较宽的正方形或矩形605b可以与具有比与较窄的正方形或矩形605c关联的集群更宽的层(例如,更多平行的子集群)的集群对应。另外,在一些示例实现方式中,ui600的正方形或矩形的另一方面可以与分级(例如,包含更高等级的数据项的集群)中的优先级对应。例如,ui600的正方形或矩形的颜色可以与分级中的优先级对应。图6例示了文档的集合的树状图可视化。在示例实现方式中,可以使用文本分析技术来生成每个集群中的不同层处的文档的概要。例如,用户可能想要探索从数据库的查询中检索到的这些文档。然后,用户可以利用文本概要和层次来浏览该大结果集合。由于rhac在搜索结果中提升了最高等级的文档,因此用户可以在不损失搜索所带来的好处的情况下获得数据的概览。因此,用户能够更容易地将等级最高(例如,与搜索最相关)的项可视化,同时还将与主题或文档关联的最大集群可视化。最初,在可视化中仅示出层次中的一定级别之前的文档,并且用户可以获得对数据的基本理解。随后,用户可以凭借诸如图6的600这样的界面通过数据树状图进一步探索一个或更多个感兴趣区域,以放大层次的该部分。图7例示了按照本申请的其它示例实现方式的对分级项进行层次聚类并导出分级项的可视化的处理700的流程图。如下所述,本申请的一些实施方式的一方面可以涉及首先从聚类中排除最低等级的项中的一些,然后对未被排除的最相关的项进行迭代聚类。每次迭代时,一定百分比的排除项被重新包括在聚类中。通过这样做,将包括低等级的项,以便在层次聚类期间进行考虑,因此它们可以被置于该层次中的较低层处。该处理可以由诸如图8中例示的计算环境800中的计算装置805这样的计算装置来执行。如图7中例示的,处理700开始于在705处系统接收或识别包含分级数据信息的数据集。分级数据信息可以是由互联网或网络搜索引擎产生的搜索结果、利用媒体观看平台(例如,流媒体服务、图像库或其它媒体观看平台)产生或者与该媒体观看平台关联的媒体文件(例如,歌曲、图像或视频)、存储在电子图书馆或文档存储平台中的文档或论文以及与预测算法(诸如识别算法)的结果关联的预测性识别或概率。在接收到数据集之后,在710处,基于与数据集中的每个项关联的分级信息,将数据项排序形成列表。例如,可以基于数据集中的所有数据项与用户提供的搜索请求的相关性对数据集中的所有数据项进行分级。被确定为与搜索请求的相关性最高的项具有最高等级,并且被确定为与搜索请求的相关性最低的项具有最低等级。为了本文中的解释目的,该列表可以被表示为l,其中,|l|=n。在基于数据项的分级将数据项排序成列表之后,在715处,系统可以通过初始的进一步分析从列表的结尾(例如,列表的底部或具有最低等级的项)中屏蔽或排除分级项。被屏蔽或排除的分级项可能落入列表的底部的指定边界索引内。换句话说,系统可以屏蔽从列表l的结尾(底部)到由阈值t确定的边界索引b的项,其中,b=|t·n|;0<t<1。在一些示例实现方式中,边界索引可以由系统设计者、系统管理员或用户预先限定,或者可以由系统基于接收到的数据集和所预期或期望的树深度自动地确定。另外,在一些示例实现方式中,边界索引可以由系统自动动态地确定,或者可以被用户动态地调整为对所产生的可视化的反馈或控制。在这种实现方式中,当边界索引值被调整时,与聚类的结果关联的可视化可以被更新。例如,用户可以指定新的边界索引,并且将通过使用新的边界索引再次重新聚类来更新所得的可视化。例如,用户可以将边界索引向下调整以减小分级对聚类的影响,或者将边界索引向上调整以增大分级对聚类的影响。在本文中描述的实验实现方式中,边界索引被设置为40%(例如,b=40%或在初始迭代中排除或屏蔽分级数据的底部40%)。如以下针对730讨论的,b将逐步从b0=40减小到bfinal=0,因为所有被排除的项被逐步添加回到聚类处理中。在740处,如果在迭代处理700中已经新暴露了任何项,则基于与一个或更多个分开的项的相似度来将新暴露的项围绕任何现有集群进行聚类。在720处,对暴露的项执行层次决定性聚类处理的一次迭代。在l|1…b|所指定的列表中的项中,基于相似度(或相关度)度量,最大的集群(或者如果先前合并的项的组)被划分或分离成平均近似度最大的两个集群。在一些示例实施方式中,相似度可以是基于作者、主题、作为较大整体的卷或部分或者对本领域的普通技术人员而言可能显而易见的任何其它聚类相似度中的一个或更多个。因此,分离或划分最不相关的项,以限定单独的分支。在725处,确定是否存在可以在列表l中划分的任何剩余集群(例如,是否存在可能的树的其它分支或树的叶子)。如本领域的普通技术人员可能显而易见的,当在聚类处理中已包括(未屏蔽)列表中的所有项(例如,bfinal=0)时,列表中可以只有一个项(例如,树的根)。如果在列表中存在适于划分的剩余集群(725处的“是”),则处理700继续到730,并且将边界索引b增大指定的量或步长s,使得任何后续迭代t的值b可以被限定为bt=bt-1+|s·n|,0<s<1,其中,s是步长参数。这升高了边界索引b,因此在聚类处理期间考虑合并的原始列表中有更多的数据项。在一些示例实现方式中,步长参数可以由系统设计者、系统管理员或用户预先限定,或者可以由系统基于接收到的数据集和所预期或期望的树深度自动地确定。另外,在一些示例实现方式中,步长参数可以由系统自动动态地确定,或者可以被用户动态地调整为对所产生可视化的反馈或控制。在这种实现方式中,当步长参数值被调整时,与聚类的结果关联的可视化可以被更新。例如,用户可以指定新的步长参数,并且将通过使用新的步长参数再次重新聚类来更新所得的可视化。例如,用户可以将步长参数向上调整以减小分级对聚类的影响,或者将步长参数向下调整以增大分级对聚类的影响。在本文中描述的实验实现方式中,步长参数被设置为1%(例如,在后续迭代期间,在聚类中包括s=1%或者被排除或屏蔽的等级分级数据的最低1%)。一旦边界索引已增大,图7的处理700就返回到715,并且基于在730处计算出的新增大的边界索引b,屏蔽分级列表中的项。重复715、740、720和725,直到没有其它集群适于在分级列表l中划分(例如,在树中可能的其它分支)并且b=0(例如,列表l包括所有项)为止。一旦分级列表l已经识别出不适于进一步划分的单个集群并且所有项都已被包括在列表l中(例如,在725处的“否”),则处理700移动到735,在735处,向用户导出或显示基于分级和聚类的列表l的可视化,以允许进行数据的交互式探索。在以上的图4中提供了基于分级和聚类的列表l的可视化的示例实现方式。在一些示例实现方式中,处理700还可以被配置为在分级列表l已经识别出不适于进一步划分的单个集群之前在725处退出。例如,可以通过另一或附加的停止准则来触发725中的提前停止。例如,可以通过达到所期望的集群的数目来停止725,因此还可以测试集群计数确定作为725的停止条件的部分(例如,可以使用这两个条件中的“或”)。其它停止条件对于本领域的普通技术人员而言将是显而易见的。在已导出或显示可视化之后,在一些示例实现方式中,处理700可以结束。在其它示例实现方式中,如果用户更新或改变边界索引值、步长参数或这二者,则可以重复处理700。示例计算环境图8例示了具有适用于一些示例实现方式的示例计算机装置805的示例计算环境800。计算环境800中的计算装置805可以包括其中任一个可以联接到用于传送信息的通信机构或总线830上或者被内置在计算装置805中的一个或更多个处理单元、核或处理器810、存储器815(例如,ram、rom等)、内部存储器820(例如,磁性、光学、固态存储和/或有机)和/或i/o接口825。计算装置805可以在通信上联接到输入/用户接口835和输出装置/接口840。输入/用户接口835和输出装置/接口840中的任一个或两个可以是有线或无线接口并且可以是可拆卸的。输入/用户接口835可以包括可以用于提供输入的任何装置、组件、传感器或物理或虚拟的接口(例如,按钮、触摸屏界面、键盘、指点/光标控件、麦克风、相机、盲文、运动传感器、光学阅读器等)。输出装置/接口840可以包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方式中,输入/用户接口835(例如,用户接口)和输出设备/接口840可以被内置在计算装置805中或者物理上联接到计算装置805。在其它示例实现方式中,其它计算装置可以用作用于计算装置805的输入/用户接口835和输出装置/接口840,或者提供其功能。这些元件可以包括但不限于众所周知的ar硬件输入端,以准许用户与ar环境进行交互。计算装置805的示例可以包括但不限于高度移动装置(例如,智能电话、车辆和其它机器中的装置、人和动物携带的装置等)、移动装置(例如,平板计算机、笔记本计算机、便携式计算机、个人计算机、便携式电视、无线电等)以及未被设计用于移动性的装置(例如,台式计算机、服务器装置、其它计算机、信息亭、其中内置有一个或更多个处理器和/或与一个或更多个处理器联接的电视、无线电等)。计算装置805可以可在通信上联接(例如,经由i/o接口825)到外部存储器845和网络850,以便与包括相同或不同配置的一个或更多个计算装置的任何数目的联网组件、装置和系统进行通信。计算装置805或任何连接的计算装置可以用作服务器、客户端、瘦服务器、通用机、专用机或另一标签,提供服务器、客户端、瘦服务器、通用机、专用机或另一标签的服务,或者被称为服务器、客户端、瘦服务器、通用机、专用机或另一标签。i/o接口825可以包括但不限于使用任何通信或i/o协议或标准(例如,以太网、802.11xs、通用系统总线、wimax、调制解调器、蜂窝网络协议等)以便与计算环境800中的至少所有连接的组件、装置和网络进行信息通信的有线和/或无线接口。网络850可以是任何网络或网络的组合(例如,互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。计算装置805可以使用计算机可用介质或计算机可读介质和/或使用其进行通信,该计算机可用介质或计算机可读介质包括临时性介质和非临时性介质。临时性介质包括传输介质(例如,金属线缆、光纤)、信号、载波等。非临时性介质包括磁性介质(例如,磁盘和磁带)、光学介质(例如,cdrom、数字视频盘、蓝光盘)、固态介质(例如,ram、rom、闪存、固态存储器)和其它非易失性存储器或内存。计算装置805可以用于在一些示例计算环境中实现技术、方法、应用、处理或计算机可执行指令。计算机可执行指令可以被从临时性介质中检索,以及被存储在非临时性介质上并且被从非临时性介质中检索。可执行指令可以源自任何编程、脚本和机器语言(例如,c、c++、c#、java、visualbasic、python、perl、javascript等)中的一种或更多种。处理器810可以在本机或虚拟环境中的任何操作系统(os)(未示出)下执行。可以部署一个或更多个应用,包括逻辑单元855、应用编程接口(api)单元860、输入单元865、输出单元870、分级单元875、屏蔽单元880、聚类单元885以及可视化单元890和便于不同单元彼此通信、与os通信以及与其它应用(未示出)通信的单元间通信机构895。例如,分级单元875、屏蔽单元880、聚类单元885和可视化单元890可以实现图1和图7中示出的一个或更多个处理。所描述的单元和元件可以在设计、功能、配置或实现方式上有所不同,并且不限于所提供的描述。在一些示例实现方式中,当api单元860接收到信息或执行指令时,可以将信息或执行指令传送给一个或更多个其它单元(例如,分级单元875、屏蔽单元880、聚类单元885和可视化单元890)。例如,分级单元875可以对经由网络或输入单元接收的数据项进行分级,以生成分级列表的一部分。另外,屏蔽单元880可以屏蔽或隐藏部分分级列表,并且聚类单元885可以对分级列表的暴露部分进行迭代聚类。另外,可视化单元890可以生成代表分级列表的聚类的可视化,并且经由输出单元870导出可视化。在一些情形下,在上述的一些示例实现方式中,逻辑单元855可以被配置为控制单元之间的信息流并且引导由api单元860、输入单元865、分级单元875、屏蔽单元880、聚类单元885和可视化单元890提供的服务。例如,一个或更多个处理或实现方式的流程可以由逻辑单元855单独地或者与api单元860结合地控制。尽管已示出并描述了一些示例实现方式,但是提供这些示例实现方式是为了将本文中描述的主题传达给熟悉该领域的人。应该理解,本文中描述的主题可以按各种形式实施,而不限于所描述的示例实现方式。可以在没有那些具体限定或描述的主题的情况下或者在没有描述的其它或不同元素或主题的情况下实践本文中描述的主题。熟悉本领域的人应该了解,可以在不脱离本文中描述的如所附的权利要求及其等同物所限定的主题的情况下对这些示例实现方式进行改变。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1