一种获取信息的方法及装置的制作方法

文档序号:6332720阅读:167来源:国知局
专利名称:一种获取信息的方法及装置的制作方法
技术领域
本发明涉及数据处理领域,尤其涉及一种获取信息的方法及装置。
背景技术
随着社会信息化程度不断提高,信息系统数据量不断膨胀,不同行业需要处理、分析大量并且不断更新的数据流。目前,各行业面临的问题是数据量非常大,但其中真正有价值的信息却很少,因此,如何从大量并且不断更新的数据中挖掘出有价值的信息以对后续业务进行指导,成为困扰各行业的难点。数据挖掘就是为顺应从大量数据中获取有价值信息的需要应运而生的数据处理技术。数据挖掘又称数据库中的知识发现(knowledge discovery indatabase),是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。从大量数据中获取有价值的信息,目前通用的做法是利用关系数据库,具体过程为将用于获取信息的大量数据统一加载到关系数据库中,然后在此基础上对加载的数据进行数据挖掘以求发现有用的信息。关系数据库是以关系模型为基础的数据库,该关系模型中定义了各种数据关系,即利用定义的关系来描述数据,其中,一个关系既可以用来描述一个实体及其属性,也可以用来描述实体间的联系。因此,根据关系数据库对数据进行处理,首先将数据源文件完成完整加载形成满足关系数据库范式检查的数据集合,然后对数据库表在组合属性上进行投影计算,得到计算统计值。在实际应用中,采用关系数据库从大量数据中获取信息,需要等待用于获取信息的全部数据产生完毕后再一次性加载到关系数据库中处理,使得在关系数据库中需要进行关系计算的数据量聚集,由此导致的问题在于 一方面,需要消耗大量的CPU、I/O、内存等系统资源,系统开销很大;另一方面,需要一次性处理的数据量庞大,处理过程需要耗费大量的时间,信息获取效率低。综上所述,现有技术基于关系数据库从数据中获取信息,信息获取效率低,并且系统开销大。

发明内容
有鉴于此,本发明实施例提供一种获取信息的方法及装置,采用该技术方案,一方面提高了信息获取的效率,另一方面降低了系统开销。本发明实施例通过如下技术方案实现根据本发明实施例的一个方面,提供了一种获取信息的方法。根据本发明实施例提供的获取信息的方法,预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;针对每个子时间段执行加载当前子时间段产生的数据;
确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二
信息熵;根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。根据本发明实施例的另一个方面,还提供了一种获取信息的装置。根据本发明实施例提供的获取信息的装置,包括数据加载单元,用于确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段,并加载当前子时间段产生的数据;第一信息熵确定单元,用于确定所述数据加载单元加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;第二信息熵确定单元,用于确定所述数据加载单元在当前子时间段之前的所有子时间段加载的数据中所述各项集对应的第二信息熵;项集集合更新单元,用于根据所述第一信息熵确定单元确定的各项集对应的第一信息熵以及所述第二信息熵确定单元确定的第二信息熵更新用于标识获取的信息的项集
皇A
朱口 ο通过本发明实施例提供的上述至少一个技术方案,预先确定用于获取信息的数据,并将产生数据的时间段划分为多个子时间段,针对每个子时间段执行加载当前子时间段产生的数据,确定加载的数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵,确定在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵,并根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。采用该技术方案,将用于获取信息的数据根据其产生时间划分为多个子时间段,一次只加载一个时间段的数据,基于该时间段内产生的数据更新用于标识获取的信息的项集集合,与现有技术相比,将从数据中获取信息的任务分布为多个执行,大大减少了每次处理的数据量,从而提高了信息获取的效率,并且降低了系统开销。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中图1为本发明实施例一提供的获取信息的方法流程图一;图2为本发明实施例一提供的确定第一信息熵的流程图;图3为本发明实施例一提供的确定第二信息熵的流程图;图4为本发明实施例一提供的更新用于标识获取的信息的项集集合的流程图;图5为本发明实施例一提供的获取信息的方法流程图二 ;图6为本发明实施例三提供的获取信息的方法流程图二 ;
图7为本发明实施例三提供的获取信息的方法流程图三;图8为本发明实施例三提供的获取信息的方法流程图四;图9为本发明实施例三提供的获取信息的方法流程图五;图10为本发明实施例三提供的获取信息的方法流程图六;图11为本发明实施例三提供的获取信息的方法流程图七;图12为本发明实施例四提供的获取信息的方法流程图。
具体实施例方式为了给出提高信息获取的效率以及减少系统开销的实现方案,本发明实施例提供了一种获取信息的方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。实施例一根据本发明实施例一,提供了一种获取信息的方法,该方法将用于获取信息的数据根据其产生时间划分为多个子时间段,一次只加载一个时间段的数据,基于该时间段内产生的数据更新用于标识获取的信息的项集集合,将从数据中获取信息的任务分布为多个执行以达到提高信息获取的效率以及降低系统开销的目的。本发明实施例一提供的获取信息的方法中,需要预先确定用于获取信息的数据, 并将产生该数据的时间段划分为多个子时间段。优选地,可以将产生该数据的子时间段划分为W个等时间间隔T的多个子时间段,其中,该时间间隔T大于等于估计得到的从每个子时间段中获取信息所需的时长,即保证在加载当前子时间段产生的数据之前,从上一子时间段产生的数据中获取信息完毕,根据该优选方式,避免了加载当前子时间段对应的数据后,由于上一子时间段对应的数据还未处理完毕(即还未从数据获取信息完毕)而导致当前子时间段对应的数据处理滞后的问题,从而能够保证数据处理的连续性,提高数据处理的效率。应当理解,以上提供的划分子时间段的方法仅为本发明实施例一提供的优选实施方式,具体应用中,可以考虑系统处理能力以及具体的数据处理量等因素,灵活确定划分方式,此处不再一一列举。在确定用于获取信息的数据以及完成子时间段的划分以后,本发明实施例一提供的获取信息的方法如图1所示,针对划分得到的每个子时间段执行如下步骤101至步骤 104 步骤101、加载当前子时间段产生的数据。该步骤101中,在确定每个子时间段后,对该子时间段进行计时,当该子时间段结束后,意味着对应该子时间段的数据产生完毕,则记载当前子时间段产生的数据。实际应用中,可以通过时间控制器进行计时,并触发加载各子时间段产生的数据。步骤102、确定加载的当前子时间段产生的数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵。在执行该步骤102之前,预先设定要获取信息的数据的数据属性,可以根据实际需要设置一个或多个数据属性,并由设置的数据属性组合得到项集。例如,特殊情况下,只设置一个数据属性,则对应的项集也为一个,该项集对应该数据属性;若设置N个数据属性 (N大于等于2),则可对该N个数据属性进行组合得到多个分别对应不同数据属性的项集, 例如,有3个数据属性A、B、C,则可以组合得到7种项集,该7个项集分别为{A}、{B}、{C}、 {A、B}、{B、C}、{A、C}、{A、B、C}。该步骤102中,确定第一信息熵的具体过程将在后续实施例中详细说明,此处暂不描述。步骤103、确定在当前子时间段之前的所有子时间段产生的数据中各项集对应的
第二信息熵。该步骤103中,若当前子时间段为第一个子时间段,则在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵均为0。该步骤103中,确定第二信息熵的具体过程将在后续实施例中详细说明,此处暂不描述。步骤104、根据确定的各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。该步骤103中,更新用于标识获取的信息的项集集合的具体过程将在后续实施例中详细说明,此处暂不描述。至此,根据一个子时间段产生的数据更新用于标识获取的信息的项集集合的过程结束,即从当前子时间段产生的数据中获取信息完毕。上述流程中,步骤102和步骤103没有严格的执行顺序,实际应用中可以先执行步骤103再执行步骤102,或者并行执行。本发明实施例一中,在确定用于获取信息的数据后,按照图1所述的流程依次对各子时间段产生的数据进行处理,从而完成从各子时间段产生的数据中获取信息的过程。图1所述流程的步骤102中,确定加载的所述数据中每个项集对应的第一信息熵的过程,如图2所示,包括如下步骤步骤201、确定加载的数据中符合该项集对应的数据属性的数据量。步骤202、确定加载的数据的总数据量。步骤203、根据确定的符合该项集对应的数据属性的数据量以及总数据量,确定该项集对应的第一信息熵。至此,确定一个项集对应的第一信息熵的过程结束。上述流程中,步骤201和步骤 202没有严格的执行顺序,实际应用中可以先执行步骤202再执行步骤201,或者并行执行。图2所示流程的步骤201以及步骤202中,数据的数据量可以为数据记录的条数, 也可以为数据占用的存储空间大小。图2所示流程的步骤203中,根据确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵,包括确定符合该项集对应的数据属性的数据量与所述总数据量的比值;利用该比值乘以对该比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第一信息熵。本发明实施例中,对该比值取对数可认为是运用对数函数进行区段扩散,因为此函数值为负,所以将得到的乘积的负值确定为该项集对应的第一信息熵。图1所述流程的步骤103中,确定在当前子时间段之前的所有子时间段产生的数据中每个项集对应的第二信息熵的过程,如图3所示,包括如下步骤步骤301、确定当前子时间段之前的所有子时间段产生的数据中符合该项集对应的数据属性的数据量。步骤302、确定当前子时间段之前的所有子时间段产生的数据的总数据量。步骤303、根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵。至此,确定一个项集对应的第二信息熵的过程结束。上述流程中,步骤301和步骤 302没有严格的执行顺序,实际应用中可以先执行步骤302再执行步骤301,或者并行执行。图3所示流程的步骤301以及步骤302中,数据的数据量可以为数据记录的条数, 也可以为数据占用的存储空间大小。图3所示流程的步骤303中,根据符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵,包括确定该符合该项集对应的数据属性的数据量与所述总数据量的比值;利用该比值乘以对该比值取对数得到的值,将得到的乘积的负值确定为该项集对
应的第二信息熵。本发明实施例中,对该比值取对数可认为是运用对数函数进行区段扩散,因为此函数值为负,所以将得到的乘积的负值确定为该项集对应的第二信息熵。图1所述流程的步骤104中,根据确定的各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合的过程,如图4所示,包括如下步骤步骤401、确定对应的第一信息熵以及第二信息熵之和达到第一阈值的第一项集集合,其中第一项集集合中的第一项集通过对应的第一信息熵以及第二信息熵标识;步骤402、利用确定的第一项集集合更新用于标识获取的信息的项集集合。至此,根据确定的各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合的过程结束。图4所示流程的步骤402中,利用确定出的第一项集集合更新用于标识获取的信息的项集集合的过程,具体包括若第一项集集合中的第一项集包含在用于标识获取的信息的项集集合中,则利用该第一项集集合中通过对应的第一信息熵以及第二信息熵标识的第一项集替换该用于标识获取的信息的项集集合中的相应项集;若第一项集集合中的第一项集未包含在用于标识获取的信息的项集集合中,则删除该用于标识获取的信息的项集集合中的相应项集。进一步地,若当前子时间段非产生所述数据的时间段中的最后一个子时间段,则上述步骤104中,即根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合,还包括确定对应的第一信息熵达到第二阈值的第二项集集合,其中第二项集集合中的第二项集通过对应的第一信息熵标识;利用所述第二项集集合更新用于标识获取的信息的项集集合。其中利用所述第二项集集合更新用于标识获取的信息的项集集合,包括将第二项集集合中未包含在用于标识获取的信息的项集集合中的第二项集,加入所述用于标识获取的信息的项集集合中。通过以上实施例对本发明提供的技术方案中从数据中获取信息的过程进行了详细的描述,为更好地理解本发明实施例,以下进一步结合针对用于获取信息的数据为用户话单记录时的完整处理过程进行说明。在执行本发明实施例一提供的获取信息的方法之前,进行如下设置设定项集隐含信息熵阈值Eptl,其中,隐含信息熵对应以上所述的第一信息熵,阈值 Eptl对应以上所述的第二阈值;设定项集信息熵阈值&,其中,信息熵即隐含信息熵和累计信息熵之和,累计信息熵对应以上所述的第二信息熵,阈值&对应以上所述的第一阈值;设定时间窗口数Iwl,其中,时间窗口对应以上所述的子时间段,用于对各子时间段进行计时,即时间窗口的滑动时间间隔对应子时间段的时间间隔;设定时间窗口库表,分别与设定的时间窗口对应,用于加载对应时间窗口内产生的数据;设定输出潜在频繁项集集合ITEM,其中,集合中的每个项集可通过三元组{项集、 累计信息熵、隐含信息熵}表示,该潜在频繁项集集合ITEM对应以上所述的用于标识获取的信息的项集集合。以上设置过程中,阈值^jtl可以参考如下因素设置1、对项集的所有隐含信息熵的概率分布区间进行分段(p' pi = 1,2,...,n),然后在按照如下公式得到项集隐含信息熵阈值Eptl
处于第/个子区间段的所有项集隐含信息熵个数’ p0r所有项集的隐含信息熵总数x Pi其中项集的所有隐含信息熵的概率分布区间,即表示所有项集的隐含信息熵的分布, 区间的端点分别为项集的所有隐含信息熵的最小值以及最大值;对项集的所有隐含信息熵的概率分布区间进行分段,即将确定的概率分布区间划分为多个子区间段,子区间段个数可以根据实际的概率分布区间长度确定,例如,概率分布区间为
,则可以将该概率分布区间为划分为5个子区间段,每个子区间段长度为 0. 1 ;p' i为第i个子区间段的右边端点,η为子区间段的个数。2、对稳态情况下(各时间窗口均已加载运算),对项集的所有累计信息熵的概率分布区间进行分段(P" i,i = 1,2,. . .,η),然后在按照如下公式得到项集信息熵阈值
y处于第/个子区间段的所有项集累计信息熵个数
权利要求
1.一种获取信息的方法,其特征在于,预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;针对每个子时间段执行 加载当前子时间段产生的数据;确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二信息熵;根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集皇A朱口 ο
2.如权利要求1所述的方法,其特征在于,将产生所述数据的时间段划分为多个子时间段,包括将产生所述数据的时间段划分为等时间间隔的多个子时间段;其中,所述时间间隔大于等于估计得到的从每个子时间段中获取信息所需的时长。
3.如权利要求1所述的方法,其特征在于,确定加载的所述数据中每个项集对应的第一信息熵,包括确定加载的所述数据中符合该项集对应的数据属性的数据量以及加载的所述数据的总数据量;根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵。
4.如权利要求3所述的方法,其特征在于,根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵,包括确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值; 利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第一信息熵。
5.如权利要求1所述的方法,其特征在于,确定在当前子时间段之前的所有子时间段产生的数据中每个项集对应的第二信息熵,包括确定当前子时间段之前的所有子时间段产生的数据中符合该项集对应的数据属性的数据量以及当前子时间段之前的所有子时间段产生的数据的总数据量;根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵。
6.如权利要求5所述的方法,其特征在于,根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵,包括确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值; 利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第二信息熵。
7.如权利要求3或5所述的方法,其特征在于,所述数据量为 数据记录的条数;或数据占用的存储空间大小。
8.如权利要求1所述的方法,其特征在于,根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合,包括确定对应的第一信息熵以及第二信息熵之和达到第一阈值的第一项集集合,其中所述第一项集集合中的第一项集通过对应的第一信息熵以及第二信息熵标识;利用所述第一项集集合更新用于标识获取的信息的项集集合。
9.如权利要求8所述的方法,其特征在于,利用所述第一项集集合更新用于标识获取的信息的项集集合,包括若第一项集集合中的第一项集包含在用于标识获取的信息的项集集合中,则利用所述第一项集集合中通过对应的第一信息熵以及第二信息熵标识的第一项集替换所述用于标识获取的信息的项集集合中的相应项集;若第一项集集合中的第一项集未包含在用于标识获取的信息的项集集合中,则删除所述用于标识获取的信息的项集集合中的相应项集。
10.如权利要求8所述的方法,其特征在于,若当前子时间段非产生所述数据的时间段中的最后一个子时间段,则根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合,还包括确定对应的第一信息熵达到第二阈值的第二项集集合,其中所述第二项集集合中的第二项集通过对应的第一信息熵标识;利用所述第二项集集合更新用于标识获取的信息的项集集合。
11.如权利要求10所述的方法,其特征在于,利用所述第二项集集合更新用于标识获取的信息的项集集合,包括将第二项集集合中未包含在用于标识获取的信息的项集集合中的第二项集,加入所述用于标识获取的信息的项集集合中。
12.如权利要求1所述的方法,其特征在于,分别根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合后,还包括根据设定的待提取数据属性以及所述用于标识获取的信息的项集集合中各项集对应的数据属性,对所述用于标识获取的信息的项集集合中保存的项集进行分组处理。
13.一种获取信息的装置,其特征在于,包括数据加载单元,用于确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段,并加载当前子时间段产生的数据;第一信息熵确定单元,用于确定所述数据加载单元加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;第二信息熵确定单元,用于确定所述数据加载单元在当前子时间段之前的所有子时间段加载的数据中所述各项集对应的第二信息熵;项集集合更新单元,用于根据所述第一信息熵确定单元确定的各项集对应的第一信息熵以及所述第二信息熵确定单元确定的第二信息熵更新用于标识获取的信息的项集集合。
14.如权利要求13所述的装置,其特征在于,所述数据加载单元,包括时间段划分模块,用于确定用于获取信息的数据,将产生所述数据的时间段划分为等时间间隔的多个子时间段;其中,所述时间间隔大于等于估计得到的从每个子时间段中获取信息所需的时长;加载模块,用于对所述时间段划分模块划分的各个子时间段进行计时,在当前子时间段结束后,加载当前子时间段产生的数据。
15.如权利要求13所述的装置,其特征在于,所述第一信息熵确定单元,包括第一数据量确定模块,用于确定加载的所述数据中符合该项集对应的数据属性的数据量以及加载的所述数据的总数据量;第一信息熵确定模块,用于根据所述第一数据量确定模块确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵。
16.如权利要求15所述的装置,其特征在于,所述第一信息熵确定模块,具体用于确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第一信息熵。
17.如权利要求13所述的装置,其特征在于,所述第二信息熵确定单元,包括第二数据量确定模块,用于确定当前子时间段之前的所有子时间段产生的数据中符合该项集对应的数据属性的数据量以及当前子时间段之前的所有子时间段产生的数据的总数据量;第二信息熵确定模块,用于根据所述第二数据量确定模块确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵。
18.如权利要求17所述的装置,其特征在于,所述第二信息熵确定模块,具体用于确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第二信息熵。
19.如权利要求13所述的装置,其特征在于,所述项集集合更新单元,包括第一项集集合确定模块,用于确定对应的第一信息熵以及第二信息熵之和达到第一阈值的第一项集集合,其中所述第一项集集合中的第一项集通过对应的第一信息熵以及第二信息熵标识;第一更新模块,用于利用所述第一项集集合确定模块确定的第一项集集合更新用于标识获取的信息的项集集合。
20.如权利要求19所述的装置,其特征在于,所述第一更新模块,具体用于在第一项集集合中的第一项集包含在用于标识获取的信息的项集集合中时,利用所述第一项集集合中通过对应的第一信息熵以及第二信息熵标识的第一项集替换所述用于标识获取的信息的项集集合中的相应项集;在第一项集集合中的第一项集未包含在用于标识获取的信息的项集集合中时,删除所述用于标识获取的信息的项集集合中的相应项集。
21.如权利要求19所述的装置,其特征在于,所述项集集合更新单元,还包括第二项集集合确定模块,用于在当前子时间段非产生所述数据的时间段中的最后一个子时间段时,确定对应的第一信息熵达到第二阈值的第二项集集合,其中所述第二项集集合中的第二项集通过对应的第一信息熵标识;第二更新模块,用于利用所述第二项集集合确定模块确定的第二项集集合更新用于标识获取的信息的项集集合。
22.如权利要求21所述的装置,其特征在于,所述第二更新模块,用于将第二项集集合中未包含在用于标识获取的信息的项集集合中的第二项集,加入所述用于标识获取的信息的项集集合中。
23.如权利要求13所述的装置,其特征在于,还包括分组处理单元,用于在分别根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合后,根据设定的待提取数据属性以及所述用于标识获取的信息的项集集合中各项集对应的数据属性,对所述用于标识获取的信息的项集集合中保存的项集进行分组处理。
全文摘要
本发明公开了一种获取信息的方法及装置,主要技术方案包括预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;针对每个子时间段执行加载当前子时间段产生的数据;确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二信息熵;根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。采用该技术方案,一方面提高了信息获取的效率,另一方面降低了系统开销。
文档编号G06F17/30GK102411594SQ201010292828
公开日2012年4月11日 申请日期2010年9月25日 优先权日2010年9月25日
发明者李少年, 蔡俊 申请人:中国移动通信集团湖南有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1