时间序列的快速分组的制作方法_5

文档序号:9620898阅读:来源:国知局
连接608允许设备诸如通过网络108与其他计算设备通信。这些网络可包括有线网络以及 无线网络。
[0116] 如此处所使用的,"计算机可读介质"包括计算机存储介质和通信介质。计算机存 储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法 或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于, 随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程存储器(EEPR0M)、闪存或其他 存储器技术、紧致盘ROM(CD-ROM)、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘 存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。
[0117] 相反,通信介质可在诸如载波等已调制数据信号中具体化计算机可读指令、数据 结构、程序模块或其他数据。如本文所定义的,计算机存储介质不包括通信介质。
[0118] 计算机可读介质108可包括用于使计算设备600能够执行本文描述的功能的各种 模块和功能组件。在一些实现中,计算机可读介质108可包括用于执行对多个时间序列进 行分组以及与对多个时间序列进行分组有关的操作的变换器模块110和群集模块116。变 换器模块110和/或群集模块116可包括多个处理器可执行指令,处理器可执行指令可包 括单个指令模块或可被分成任何数量的指令模块。这些指令还可包括例如计算设备100的 硬件组件的驱动程序。
[0119] 变换器模块110和/或群集模块116可以全部或部分地实现在计算设备600上。 虽然在图6中被例示为存储在计算设备600的计算机可读介质108中,但是变换器模块110 和群集模块116或其各部分可使用可由计算设备600访问的任何形式的计算机可读介质来 实现。在一些实现中,变换器模块110和/或群集模块116被部分地实现在另一设备或服 务器上。此外,计算机可读介质108可包括其他模块,诸如操作系统、设备驱动程序、程序数 据等、以及由群集模块116和其他模块使用的数据(例如,时间序列数据集112、时间序列群 集120、LSH表122、特征向量集116、以及特征向量集的子集118)。
[0120] 计算机可读介质108或其他机器可读存储介质存储具体化本文所描述的方法或 功能中的任何一个或多个的一组或多组指令(例如,软件)。在由计算设备600执行期间, 这些指令还可完全或至少部分地驻留在计算机可读介质108内和处理器106内。程序代码 可被存储在一个或多个计算机可读存储器设备或其他计算机可读存储设备中,诸如计算机 可读介质108。此外,虽然已经描述了示例设备配置和架构,但其他实现不限于此处所描述 的特定配置和架构。从而,本公开可扩展到其他实现,如本领域技术人员已知或将要知道的 那样。
[0121] 此处所描述的示例环境、系统和计算设备只是适用于某些实现的示例,而非旨在 对可以实现此处所描述的过程、组件和特征的环境、架构和框架的使用范围或功能提出任 何限制。因此,此处的实现可用于众多环境或体系结构,并且可以在通用或专用计算系统或 具有处理能力的其他设备中实现。一般而言,参考附图描述的任何功能都可使用软件、硬件 (例如,固定逻辑电路)或这些实现的组合来实现。由此,此处所描述的过程、组件和模块可 由计算机程序产品来实现。
[0122] 此外,本发明提供了如在附图中描述和示出的各种示例实现。然而,本发明不限于 此处所描述并示出的实现,而可扩展到其他实现,如本领域技术人员已知或将变得已知的。 说明书中对"一个示例"、"一些示例"、"一些实现"或类似短语的引用意味着所描述的特定 特征、结构或特性被包括在至少一个实现中,并且这些短语在说明书各处的出现不一定都 指代同一实现。
[0123] 结语
[0124] 尽管用结构特征和/或方法动作专用的语言描述了本主题,但所附权利要求书中 定义的主题不限于上述具体特征或动作。更确切而言,上述具体特征和动作是作为实现权 利要求的示例形式公开的。本公开旨在覆盖所公开的实现的任一和所有改编或变型,并且 所附权利要求书不应被解释为限于说明书中所公开的具体实现。相反,本文的范围完全由 所附权利要求书以及这些权利要求所授权的等效技术方案的完整范围来确定。
【主权项】
1. 一种方法,包括: 收集多个时间序列,其中所述多个时间序列中的每一个时间序列包括一系列数值; 生成多个特征向量,其中所述多个特征向量中的每一个特征向量对应于所述多个时间 序列之一; 至少部分地基于所述多个特征向量的子集在粒度水平与用于群集的距离阈值之间进 行映射; 至少部分地基于所述映射来生成对应于所述多个粒度水平之一的多个种子;以及 将所述多个时间序列中的每一时间序列分配给所述多个种子之一。2. 如权利要求1所述的方法,其特征在于,生成所述多个特征向量包括: 确定用于划分所述多个时间序列中的每一时间序列的数目; 根据所述数目来划分所述多个时间序列中的每一时间序列来为每一时间序列形成多 个片段,其中所述多个片段中的每一片段包括近乎相等数目的数值;以及 对所述多个片段中的每一者中的每一片段内的数值求平均。3. 如权利要求2所述的方法,其特征在于,确定用于划分所述多个时间序列中的每一 时间序列的数目包括: 计算所述多个时间序列中的每一时间序列的功率谱; 选择一截止频率,以使得对于所述多个时间序列中的至少第一阈值百分比,低于所述 截止频率的频率分量的能量是所述多个时间序列的能量的至少第二阈值百分比;以及 至少部分地基于所述截止频率来确定所述数目。4. 如权利要求3所述的方法,其特征在于,至少部分地基于所述截止频率来确定所述 数目包括将所述截止频率乘以二。5. 如权利要求1所述的方法,其特征在于,至少部分地基于所述映射来生成对应于所 述多个粒度水平之一的多个种子包括: 至少部分地基于数值到码元的映射,通过将所述多个特征向量的每一数值编码成码元 来变换所述多个特征向量的子集; 至少部分地基于所述映射来确定对应于所述多个粒度水平之一的距离阈值;以及 至少部分地基于所述距离阈值来生成所述多个种子。6. 如权利要求1所述的方法,其特征在于,所述粒度水平之一至少部分地基于用户输 入来选择。7. 如权利要求1所述的方法,其特征在于,所述多个特征向量的子集是从所述多个特 征向量中随机采样的。8. 如权利要求1所述的方法,其特征在于,将所述多个时间序列中的每一时间序列分 配给所述多个种子之一是至少部分地基于局部性敏感散列的。9. 一种系统,包括: 一个或多个处理器; 存储器,其包括多个计算机可执行组件,所述多个计算机可执行组件包括用于以下操 作的模块: 收集多个时间序列,其中所述多个时间序列中的每一个时间序列包括一系列数值; 生成多个特征向量,其中所述多个特征向量中的每一个特征向量对应于所述多个时间 序列之一; 至少部分地基于所述多个特征向量的至少一个子集来生成对应于一粒度水平的多个 种子;以及 将所述多个时间序列中的每一时间序列分配给所述多个种子之一。10.-种存储计算机可执行指令的计算机可读介质,所述计算机可执行指令在被执行 时使一个或多个处理器执行动作,所述动作包括: 收集对应于多个计算设备的多个时间序列,其中所述多个时间序列中的每一时间序列 包括一系列数值,所述数值表示所述计算设备中的相应计算设备在一时间段期间的资源消 耗; 至少部分地基于所述多个时间序列中的每一时间序列的功率谱来生成多个特征向 量,其中所述多个特征向量中的每一特征向量对应于所述多个时间序列中的相应的时间序 列; 通过将基于密度的群集应用于所述多个特征向量的至少一部分来标识群集; 至少部分地基于所述多个特征向量的子集在粒度水平与用于所述多个群集中的每一 群集的距离阈值之间进行映射; 至少部分地基于所述映射来生成对应于所述粒度水平之一的多个种子,其中所述粒度 水平之一至少部分地基于用户输入来选择; 至少部分地基于散列值将所述多个时间序列中的每一时间序列分配给所述多个种子 之一;以及 呈现所述多个群集中的至少一个群集的图形表示以指示所述计算设备中的至少一个 计算设备在所述时间段期间的资源消耗。
【专利摘要】在一些示例中,可以用快速且高效的方式来分析和分组时间序列数据集。例如,将多个时间序列快速分组到各个群集中可以通过数据缩减、确定群集群体、以及通过局部性敏感散列进行快速匹配来实现。在一些情景中,用户可以选择用于将时间序列分组到各个群集中的粒度水平,这可涉及群集数目与该群集中两个时间序列之间的最大距离之间的折衷。
【IPC分类】G06F17/30
【公开号】CN105378714
【申请号】CN201380077452
【发明人】Y·党, Q·王, Q·赵, S·王, R·J·丁, Q·傅, D·张
【申请人】微软技术许可有限责任公司
【公开日】2016年3月2日
【申请日】2013年6月14日
【公告号】EP3008633A1, EP3008633A4, US20160140208, WO2014198052A1
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1