挖掘信息模板的方法及装置的制造方法

文档序号:9708392阅读:271来源:国知局
挖掘信息模板的方法及装置的制造方法
【技术领域】
[0001]本公开涉及信息技术领域,尤其涉及一种挖掘信息模板的方法及装置。
【背景技术】
[0002]现代生活中,用户每天都会接收到大量的通知类信息,这些信息常以短信息、邮件、即时消息等方式发送。在对这些大量的信息进行研究时发现,这些信息通常具有相似的文本架构,而基于这些文本架构所挖掘出的信息模板,在提高用户体验、促进自然语言处理技术等方面具有十分重要的意义。
[0003]频繁序列挖掘作为当前信息模板挖掘中一种常用的方法,该方法通过预先设定的阈值,从海量信息中挖掘出信息模板。在实际应用中,如果某条信息出现的频率高于预先设定的阈值,则将该信息作为信息模板。

【发明内容】

[0004]本公开提供一种挖掘信息模板的方法及装置。
[0005]根据本公开实施例的第一方面,提供一种挖掘信息模板的方法,所述方法包括:
[0006]获取建模信息集合,所述建模信息集合包含多条建模信息;
[0007]分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
[0008]对所述多条加密信息进行聚类,得到至少一个信息模板。
[0009]根据本公开实施例的第二方面,提供一种挖掘信息模板的装置,所述装置包括:
[0010]获取模块,用于获取建模信息集合,所述建模信息集合包含多条建模信息;
[0011]加密模块,用于分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
[0012]聚类模块,用于对所述多条加密信息进行聚类,得到至少一个信息模板。
[0013]根据本公开实施例的第三方面,提供一种挖掘信息模板的装置,包括:
[0014]处理器;
[0015]用于存储处理器可执行的指令的存储器;
[0016]其中,所述处理器被配置为:
[0017]获取建模信息集合,所述建模信息集合包含多条建模信息;
[0018]分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
[0019]对所述多条加密信息进行聚类,得到至少一个信息模板。
[0020]本公开的实施例提供的技术方案可以包括以下有益效果:
[0021]通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。
[0022]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0023]此处的附图被并入说明书中并组成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0024]图1是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图。
[0025]图2是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图。
[0026]图3是根据一示例性实施例示出的一种挖掘信息模板的装置的结构示意图。
[0027]图4是根据一示例性实施例示出的一种挖掘信息模板的装置的框图。
【具体实施方式】
[0028]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0029]图1是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图,如图1所示,挖掘信息模板方法用于服务器中,包括以下步骤。
[0030]在步骤101中,获取建模信息集合,该建模信息集合包含多条建模信息。
[0031]在步骤102中,分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息。
[0032]在步骤103中,对多条加密信息进行聚类,得到至少一个信息模板。
[0033]本公开实施例提供的方法,通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。
[0034]在本公开的另一个实施例中,获取建模信息集合,包括:
[0035]获取多条待处理信息,每条待处理信息至少包括发送端标识;
[0036]将多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识;
[0037]根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息;
[0038]将第一预设数量的待处理信息组成建模信息集合。
[0039]在本公开的另一个实施例中,分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息,包括:
[0040]对于任一条建模信息,根据建模信息的接收端标识,获取建模信息的地域标识;[0041 ]对建模信息的接收端标识进行加密,得到建模信息的第一特征码;
[0042]根据建模信息中包含的数值信息的类型,对建模信息中的数值信息进行加密,得到建模信息的第二特征码;
[0043]将建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。
[0044]在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板,包括:
[0045]对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息;
[0046]对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息;
[0047]对多条第二合并信息进行聚类,得到至少一个信息模板。
[0048]在本公开的另一个实施例中,对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息,包括:
[0049]从多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码;
[0050]对于任一第一目标加密信息组中的加密信息,按照接收时间由晚到早的顺序进行排序;
[0051 ]保存第一目标加密信息组中接收时间最晚的加密信息,并删除第一目标加密信息组中其余的加密信息,得到一条第一合并信息。
[0052]在本公开的另一个实施例中,对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息,包括:
[0053]从多条第一合并信息中,获取多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码;
[0054]对于任一第二目标加密信息组,获取第二目标加密信息组中第一合并信息的数量及第二目标加密信息组中第一合并信息的最晚接收时间;
[0055]将第二目标加密信息组的地域标识、第二目标信息组中第一合并信息的数量、第二目标加密信息组的第二特征码及第二目标加密信息组中第一合并信息的最晚接收时间组成一条第二合并信息。
[0056]在本公开的另一个实施例中,对多条第二合并信息进行聚类,得到至少一个信息模板,包括:
[0057]将多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识;
[0058]对于任一第三目标加密信息组,获取第三目标加密信息组中任一第二合并信息所合并的第一合并信息的数量,如果第二合并信息所合并的第一合并信息的数量大于第一阈值,则将第二合并信息对应的信息内容、第二合并信息合并的第一合并信息的数量、第三目标加密信息组的最晚接收时间组成的一个条目;
[0059]将第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,信息模板的接收时间为多个条目的最晚接收时间。
[0060]在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板之后,还包括:
[0061 ]对每个信息模板进行覆盖率验证;
[0062]根据验证结果,从至少一个信息模板中,确定出实际信息模板。
[0063]在本公开的另一个实施例中,对每个信息模板进行覆盖率验证,包括:
[0064]获取测试信息集合,测试信息集合包括多条测试信息;
[0065]对多条测试信息分别进行处理,得到多个第一测试信息组;
[0066]根据多个第一测试信息组,对每个信息模板进行覆盖率验证。
[0067]在本公开的另一个实施例中,获取测试信息集合,包括:
[0068]从待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数量的待处理信息,得到测试信息集合。
[0069]在本公开的另一个实施例中,对多条测试信息分别进行处理,得到多个第一测试信息组,包括:
[0070]对多条测试信息进行加密处理,得到多条测试加密信息;
[0071]对多条测试加密信息中满足第三合并条件的测试加密信息分别进行合并,得到多条第三合并信息;
[0072]将多条第三合并信息划分为多个第一测试信息组,每个第一测试信息组中的第三合并信息具有相同的地域标识。
[0073]在本公开的另一个实施例中,对多条测试信息进行加密处理,得到多条测试加密信息,包括:
[0074]对于任一条测试信息,根据测试信息的接收端标识,获取测试信息的地域标识;
[0075]对测试信息的接收端标识进行加密,得到测试信息的第一特征码;
[0076]将测试信息的地域标识、第一特征码及测试信息的信息内容组成一条测试加密信息。
[0077]在本公开的另一个实施例中,对多条测试加密信息进行合并,得到多条第三合并信息,包括:
[0078]从多条测试加密信息中,获取多个第二测试信息组,每个第二测试信息组中的测试加密信息具有相同的地域标识及信息内容;
[0079]获取任一第二测试信息组中测试加密信息的数量;
[0080]将第二测试信息组的地域标识、第二测试信息组中测试加密信息的数量、第二测试信息组的信息内容组成一条测试合并信息。
[0081]在本公开的另一个实施例中,根据多个第一测试信息组,对每个信息模板进行覆盖率验证,包括:
[0082]对于任一信息模板,获取每个第一测试信息组与信息模板相匹配的信息数量;
[0083]如果信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值,则获取相匹配的信息数量与第一测试信息组包含的测试信息数量的比值。
[0084]在本公开的另一个实施例中,根据验证结果,从至少一个信息模板中,确定出实际信息模板,包括:
[0085]如果相匹配的信息数量与第一测试信息组包含的测试信息数量的比值在预设范围内,则将信息模板作为实际信息模板。
[0086]上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再
--赘述。
[0087]图2是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图,如图2所示,挖掘信息模板的方法用于服务器中,包括以下步骤。
[0088]在步骤201中,服务器获取建模信息集合,该建模信息集合包含多条建模信息。
[0089]在现代生活中,用户每天都会接收到服务商发送的通知类信息,这些信息以短信息、邮件、即时消息等形式发送。通常这些信息在发送时,会采用统一的信息模板,由相应的服务商服务器填充用户的相关信息后,自动地发送给每个用户。通过对这些信息进行研究,可挖掘出这些信息所应用的信息模板。这些信息模板不仅能够帮助用户了解服务商的最新动态,提高体验效果,而且能够促进自然语言处理技术的发展。
[0090]需要说明的是,由于不同类型的信息所涉及的服务商是不同的,而不同服务商服务器所发送的信息内容通常是不同的,因此,为了更有针对性进行模板挖掘,提高挖掘出的信息模板的准确性,本实施例提供的方法在挖掘信息模板时,需要收集同一类型的信息,进而从该类型的信息中挖掘信息模板。
[0091]例如,服务器可收集移动、联通、电信等服务商服务器发送给用户的各种短信息,进而从收集到的短信息中挖掘信息模板;也可以收集不同即时应用服务器发给用户的即时信息,进而从收集到的即时信息中挖掘信息模板;还可以收集不同邮件服务器发送给用户的通知邮件,进而从收集到的通知邮件中挖掘信息模板等等。
[0092]由于收集到的待处理信息数量较大,如果根据收集到的所有待处理信息挖掘信息模板,信息模板挖掘速度将会很慢,为此,服务器可根据收集到的待处理信息,获取建模信息集合
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1