基于数据内容来压缩数据的制作方法

文档序号:9553237阅读:351来源:国知局
基于数据内容来压缩数据的制作方法
【专利说明】
【背景技术】
[0001]计算机系统的用户可能期望在数据存储服务器上备份用户的数据。通常,用户利用第三方支付存储(pay-for-storage)公司来在存储公司的数据存储服务器上备份用户的数据。这些第三方支付存储公司可以管理很多用户的大量数据。类似地,公司本身可以通过在其自己的服务器上备份其自己的数据而产生大量数据。
【附图说明】
[0002]下面的详细描述参考附图,其中:
图1图示了根据本公开的示例的用于基于数据内容来压缩数据的计算系统的框图;
图2图示了根据本公开的示例的基于数据内容来压缩数据的方法;以及图3图示了根据本公开的示例的基于数据内容来压缩数据的方法。
【具体实施方式】
[0003]专门从事存储其用户的大量数据的公司可能期望最大化其数据存储能力,而同时减少或消除较低优先级或不使用的数据或者客户不再为其支付以存储的数据。类似地,维护其自己的数据备份的公司可能希望通过删除或减少较旧的数据来减少数据存储需求。一个解决方案仅仅是在某个时间之后删除数据。然而,该解决方案无法保留高价值或重要的数据、或者在其他情况下(otherwise)期望被保留的数据。鉴于当今世界上收集数据中的挑战,仅仅删除数据可能不会向已经首先收集数据添加价值。
[0004]因此,数据存储公司可能期望允许数据的智能减少和删除的解决方案。例如,数据存储公司可能希望智能地减少和删除与期满的客户账户相关联的数据,以便于减少存储数据所需要的存储空间量。这样做可以在维护高价值数据的同时允许公司释放宝贵的存储空间。如果客户稍后决定重新激活客户的帐户,这可能是特别有用的。此外,法规可能要求某些类型的数据甚至在客户账户期满之后也被维护。具有数据存储需要的其他方也可以从本公开的技术受益。
[0005]以下将通过参考基于数据内容的数据压缩的若干示例来描述各种实施例,其允许数据的智能减少和删除。用于数据压缩的该方法检查数据的内容和/或文件类型,以智能地确定数据是否应当被保持、改变(例如,压缩、转换成不同的文件或数据类型等)或删除。
[0006]在一些实现方式中,通过基于数据内容的数据压缩来智能地减少和删除数据允许对存储系统的有效利用。在另一示例中,允许数据压缩过程的定制向系统管理员提供用于删除或清除(purge)所有数据的替代选项。这里描述的技术还可以使得系统管理员能够通过使用预定数据压缩策略来快速地实现数据压缩。这些和其他优点从下面的描述中将是显而易见的。
[0007]图1图示了根据本公开的示例的用于基于数据内容来压缩数据的计算系统100的框图。应当理解,计算系统100可以包括任何适当类型的计算设备,包括例如智能电话、平板计算机、台式计算机、膝上型计算机、工作站、服务器等。
[0008]如所示出的,示例性计算系统100可以包括处理器102、存储器104、数据存储区106、帐户模块108和压缩模块110。应当理解,这里示出的组件这里示出的组件是为了说明的目的,并且在一些情况下,可以由一个或多个不同的或附加组件来执行关于特定组件描述的功能。类似地,应当理解,功能的部分或全部可以被组合成比示出的更少的组件。
[0009]处理器102可以被配置为处理用于由计算系统100执行的指令。所述指令可以被存储在非暂时性有形计算机可读存储介质上,诸如在存储器104中或在单独的设备(未示出)上、或在存储用于使得可编程处理器执行这里描述的技术的指令的任何其他类型的易失性或非易失性存储器。替代地或另外,示例性计算系统100可以包括专用硬件,诸如一个或多个集成电路、专用集成电路(ASIC)、专用特殊处理器(ASSP)、现场可编程门阵列(FPGA)或专用硬件的前述示例的任何组合,以用于执行这里描述的技术。在一些实现方式中,在适当时,可以使用多个处理器连同多个存储器和/或多个类型的存储器。
[0010]示例性计算系统100的数据存储区106可以包含用户数据。在一个示例中,数据存储区106可以是硬盘驱动器或硬盘驱动器(或其他类似类型的存储介质)的集合。如所示,数据存储区106可以被包括在示例性计算系统100中,或者在另一示例中,数据存储区106可远离计算系统100并且诸如经由网络通信地耦合到计算系统100。数据存储区106还可以是多个数据存储区的集合。在一个示例中,数据存储区106可以是整个数据存储服务器或配置为存储大量数据的数据存储服务器的集合。
[0011]账户模块108可以被配置为维护和管理用户帐户。例如,帐户模块108可以允许新的用户诸如通过接口而在计算系统100上注册账户。帐户模块108还可以确定用户的帐户是否已经例如因为用户尚未维护该帐户或为该账户支付而期满。如果帐户模块108确定该帐户已经期满,则帐户模块108可以警告压缩模块110。
[0012]另外,计算系统100的用户可以通过账户模块108向数据存储区106上传或修改用户的数据。每个用户的数据可以与该用户的账户相关联。除了上传数据之外,用户还可以修改现有数据或移除数据。还可以基于用户的偏好来自动地上传或修改数据。
[0013]如果帐户模块108警告压缩模块110:用户的帐户已经期满,则压缩模块110可以开始基于数据内容来压缩与期满的账户相关联的数据。在一个示例中,压缩过程可以自动开始,或者替代地,压缩过程可以由用户、在某个时间段度过之后或通过特定事件被触发。虽然这里将描述若干示例性压缩过程,其不应当被看作是限制性的,而仅仅是说明可能的变化的类型的压缩过程。
[0014]由压缩模块110执行的压缩过程的一个示例包括将音频文件转换成文本文件。在一个示例中,包含音乐的音频文件可以简单地被删除,而不被转换。一旦音频文件被转换成文本文件,原始音频文件就可以被压缩模块110删除,而新创建的文本文件可以被保留在数据存储区106中。在该示例中,压缩过程将音频文件的内容保存为文本文件,而同时显著减少用于存储该内容所需要的存储空间。
[0015]在由压缩模块110执行的压缩过程的另一示例中,压缩模块110可以通过压缩技术将视频文件从较高质量/分辨率转换成较低质量/分辨率视频文件。一旦视频文件被转换成较低质量/分辨率,原始视频文件就可以由压缩模块110删除,而新创建的较低质量/分辨率视频文件可以被保留在数据存储区106中。在该示例中,压缩过程保存视频文件的内容,而同时显著减少用于存储该内容所需要的存储空间。
[0016]在压缩过程的另一示例中,压缩模块110可以将诸如Microsoft Word文件、Office Open XML文件、可移植文档格式文件、超文本标记语言文件、可扩展标记语言文件等之类的包含文本的文件转换成纯文本文件。压缩过程可以移除格式、图像和其他信息,而同时维护文件的文本内容。可以针对包括电子表格文件、演示文件等的其他类型的文件执行类似的压缩过程。
[0017]在压缩过程的又一示例中,压缩模块110可以将诸如zip文件、个人存储表文件等之类的复合文件剥离成包含在复合文件中的单独的文件。可以基于每个文件的内容来进一步压缩每一个单独的文件,如这里所公开的。例如,如果存在个人存储表文件,则其可以被拆开到其单独的电子邮件消息。压缩模块110可以删除对单独的电子邮件消息的任何附件,而同时保留每一个单独的电子邮件消息的内容。
[0018]在一些实现方式中,压缩模块110可以扫描每个单独的文件的内容,所述每个单独的文件被存储在数据存储区106中并且与用户的账户相关联,以便基于其内容来分离某些文件。可以取决于每个文件的内容来执行压缩。例如,确定为包含医疗信息的任何文件可以在不被改变的情况下被保存,而任何非医疗文件可以被永久删除或以其他方式压缩。类似地,确定为包含法律信息的任何文件可以类似地在不被改变的情况下被保存,而任何非法律文件可以被永久删除或以其他方式压缩。包括关键词、类别或其他标记的任何类型的内容可以被扫描,并且可以用于应用适当的压缩过程。一旦文件通过其内容而确定,所述文件就可以通过内容类型被分离。以该方式,所述文件可以基于内容类型而被存储在不同的数据存储区中。另外,某些内容文件类型可以被删除、不改变或以其他方式而与其他内容类型不同地被处理。
[0019]示例性计算系统100的压缩模块110可以单独地或以任何适当的组合一起利用这里描述的任何适当数目的不同压缩过程。不同的压缩过程可以被同时、连续地或在一段时间内按间隔执行。一旦压缩模块110完成(一个或多个)压缩过程,剩余数据可以被存储在数据存储区106中(或在另一数据存储区中),并且原始数据可以被删除。
[0020]示例性计算系统100还可以包括用于使得计算系统100的管理用户能够定制压缩模块的策略模块(未示出)。该策略模块可以使得管理用户能够从预先配置的压缩策略中进行选择、仓il建新的压缩策略、或者修改现有的压缩策略。
[0021]在一个示例中,管理用户可以通过策略模块而选择压缩策略,其检测所有音频文件。如上所讨论的,一旦检测到音频文件,包含音乐的音频文件就可以被删除,而包含语音音频的音频文件可以被压缩或转换成不同的音频文件类型、质量或大小。在另一示例中,管理用户可以通过策略模块而选择压缩策略,其检测所有视频文件。一旦检测到视频文件,视频文件就可以在质量方面降低。这些仅仅是可以利用的策略的示例,并且应当理解,可以利用其他策略或策略的组合,如这里所述。在没有策略模块的示例性计算系统100中,可以包括预先配置的压缩策略。
[0022]图2图示了根据本公开的示例的基于数据内容来压缩数据的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1