挖掘信息模板的方法及装置的制造方法_3

文档序号：9708392阅读：来源：国知局

得到加密信息1、加密信息2、加密信息3。
[0140]20313、服务器保存第一目标加密信息组中接收时间最晚的加密信息，并删除第一目标加密信息组中其余的加密信息，得到一条第一合并信息。
[0141]通常具有相同地域标识、第一标识码及第二标识码的信息为服务商服务器发给同一用户的具有相同信息内容的通知信息，这些信息在发送过程中因服务器故障被多次重复发送。在进行信息模板挖掘时，为了减少信息模板挖掘的计算量，服务器可保存第一目标加密信息组中接收时间最晚的加密信息，并删除第一目标加密信息组中其余的加密信息。该接收时间最晚的加密信息即为第一合并信息。
[ΟΙ42] 例如，第一目标加密信息组中加密信息I为〈beij ing，a ,Number，2015/06/01/12:00:00>，加密信息 2 为<beijing，a，Number，2015/01/04/07:00:00〉，加密信息 3 为〈beijing，a ,Number，2015/02/01/08:30〉，加密信息4为〈tian jin，c，PhoneNumber ,2015/04/04/10:15:00〉，则服务器可保存加密信息I，并删除加密信息2和加密信息3。
[0143]2032、服务器对多条第一合并信息中满足第二合并条件的加密信息分别进行合并，得到多条第二合并信息。
[0144]在一实施例中，第二合并条件为具有相同的地域标识及第二特征码等。
[0145]示例的，服务器在对多条第一合并信息中满足第二合并条件的加密信息分别进行合并，得到多条第二合并信息时，可采用如下步骤20321?30323。
[0146]20321、服务器从多条第一合并信息中，获取多个第二目标加密信息组，每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码。
[0147]由于每条第一合并信息均可表示成由地域标识、第一特征码、第二特征码及接收时间组成的四元组，因此，服务器器可根据每条第一合并信息的四元组标识形式，获取具有相同的地域标识、第二特征码的第一合并信息，进而将具有相同的地域标识、第二特征码的第一合并信息组成第二目标加密信息组。
[0148]例如，服务器通过对多条加密信息中满足第一合并条件的加密信息分别进行合并，得到的多条第一合并信息，其中，第一合并信息I为〈shanghai，c ,Number ,2015/07/03/10:00:00>，第一合并信息2为〈shanghai ,a,Number ,2015/01/08/07:00:00>，第一合并信息3为〈beij ing, b, PhoneNumber ,2015/02/05/08: 30:12>,第一合并信息4为〈shanghai，b，PhoneNumber, 2014/07/18/09:00:02>，第一合并信息 5为〈beijing，b ,PhoneNumber，2015/05/04/10:20:00>、第一合并信息 6 为〈tianjin，c，PhoneNumber ,2015/07/12/06:20:00〉。服务器将地域标识为shangha1、第二特征码为Number的第一合并信息1、第一合并信息2组成一个第二目标加密信息组;将地域标识为beij ing、第二特征码为PhoneNumber的第一合并信息3、第一合并信息5组成一个第二目标加密信息组。
[0149]20322、对于任一第二目标加密信息组，服务器获取第二目标加密信息组中第一合并信息的数量及第二目标加密信息组中第一合并信息的最晚接收时间。
[0150]在本实施例中，第二目标加密信息组中第一合并信息的数量可以为2个、3个等，本实施例不对第二目标加密信息组中第一合并信息的数量作具体的限定。在本实施例中，第二目标加密信息组中第一合并信息的数量可用Cl表示。
[0151 ]在本实施例中，服务器还将按照接收时间由晚到早的顺序，对该第二目标加密信息组中的第一合并信息进行排序，并根据排序结果，获取该第二加密信息组中第一合并信息的最晚接收时间。在本实施例中，第二加密信息组中第一合并信息的最晚接收时间可用Iatestdatetime I 表不。
[0152]以上述由第一合并信息3、第一合并信息5组成的第二目标加密信息组为例，服务器可获取到该第二目标加密信息组中的第一合并信息的数量为2个。由于第一合并信息3的接收时间为〈2015/02/05/08: 30:12〉，第一合并信息5的接收时间为〈015/05/04/10:20:00>，因此，服务器可获取到该第二目标加密信息组中第一合并信息的最晚接收时间为2015/05/04/10:20:00ο
[0153]20323、服务器将第二目标加密信息组的地域标识、第二目标加密信息组中第一合并信息的数量、第二目标加密信息组的第二特征码及第二目标加密信息组中第二合并信息的最晚接收时间组成一条第二合并信息。
[0154]在一实施例中，每条第二合并信息为一条可用〈place，cl ,contentNew ,latestdatet imel>表示的四元组信息。
[0155]需要说明的是，上述以对一个第二目标加密信息组中的多条第一合并信息进行合并为例进行说明的，对于其他的第二目标加密信息组中多条第一合并信息的合并过程，可参考上述对任一第二目标加密信息组中的多条第一合并信息进行合并的过程，此处不再赘述。
[0156]为了便于对多条第二合并信息进行管理，服务器还将多条第二合并信息组成一个集合 corpus2。
[0157]2033、服务器对多条第二合并信息进行聚类，得到至少一个信息模板。
[0158]虽然通过上述过程，已将建模信息组中的多条建模信息合并成多条第二合并信息，但合并后得到的第二合并信息的数量仍然较多，且这些第二合并信息中的中部分第二合并信息仍然具有相同的特征，因此，服务器可通过对多条第二合并信息进行聚类，得到至少一个信息模板。
[0159]在本公开的另一个实施例中，服务器对多条第二合并信息进行聚类，得到至少一个信息模板时，可采用如下步骤20331?20333。
[0160]20331、服务器将多条第二合并信息划分为多个第三目标加密信息组，每个第三目标加密信息组中的第二合并信息具有相同的地域标识。
[0161]通常根据不同的地域特点，通常服务商服务器向用户发送的信息内容是不同，当然，根据不同的信息内容，服务器挖掘出的信息模板也是不一样的。因此，为了更有针对性地挖掘出信息模板，服务器可根据第二合并信息的地域标识，将多条第二合并信息划分为多个第三目标加密信息组，每个第三目标加密信息组中的第二合并信息具有相同的地域标识。
[0162]在具体实施时，服务器可根据COrPus2中包含的第二合并信息的地域标识，将集合corpus2划分为η个不相交的子集合，如corpus2(placei)、corpus2(place〗)、corpus2(place3)…..、corpus2(placen)。对于任一corpus2(placei)，该corpus2(placei)中每个第二合并信息对应的地域标识均为placei，且corpus2(placei)中的每个第二合并信息为一条可用〈count，countentNew，datetime>表示的三元组信息。
[0163]20332、对于任一第三目标加密信息组，服务器获取第三目标加密信息组中任一第二合并信息所合并的加密信息数量，如果第二合并信息所合并的加密信息的数量大于第一阈值，则将第二合并信息对应的信息内容、第二合并信息合并的加密信息的数量、第二合并信息的最晚接收时间组成的一个条目。
[0164]为了保证所挖掘的信息模板的准确性，对于任一第三目标加密信息组，服务器可预先设置第一阈值，该第一阈值可以为10、20、30等，进而基于频繁子序列挖掘的方法，从该目标加密信息组中挖掘信息模板。该过程中，服务器可将该第三目标加密信息组中的任一第二合并信息所合并的加密信息数量与地域阈值进行比较，如果该第二合并信息所合并的加密信息的数量大于第一阈值，则将该第二合并信息对应的信息内容、第二合并信息合并的加密信息的数量、第三目标加密信息组的最晚接收时间组成一个条目，该条目可以用〈pat、c2、latestDatetime2>，其中，pat为信息内容，c2为信息第二合并信息所合并的信息数量，latestDatetime2为第二合并信息的最晚接收时间。
[0165]20333、服务器将第三目标加密信息组中具有相信息内容的多个条目进行合并，得到一个信息模板，信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和，信息模板的接收时间为多个条目的最晚接收时间。
[0166]服务器将该第三目标加密信息组中具有相同信息内容的多个条目进行合并，得到一条模板信息，该信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和，信息模板的接收时间为多个条目的最晚接收时间。
[0167]需要说明的是，上述以对任一第三目标加密信息组进行聚类得到一个信息模板为例进行说明的，对于将其他第三目标加密信息组进行聚类得到信息模板的过程，可参见上述步骤2033，本实施例不再赘述。
[0168]由上述步骤201至203可以看出，本公开实施例的信息模板的挖掘过程，实质上是对中间模板进行抽象，并覆盖其中的人名、地名等文字类型的隐私信息，以及银行卡号、手机号等数值信息的过程。以对上述步骤2024中的短信1、短信2、短信3进行信息模板挖掘为例，采用本公开实施例提供的方法，可得到如下的信息模板:
[0169]【银行】尊敬的〈*>先生/女士，您已经于〈Time〉将原手机号尾号〈Number〉修改成尾号为〈Number〉的手机号，请使用新手机号办理电子银行业务，如有疑问请致电〈PhoneNumber>0
[0170]在步骤204中，服务器对每个信息模板进行覆盖率验证。
[0171]一般情况下，通过上述信息模板挖掘过程，已经可以保证用户的隐私信息在模板中被完全屏蔽，但为了防止程序bug，导致信息模板没有完全屏蔽用户的隐私信息，本实施例提供的方法还将对挖掘出的全部信息模板进行覆盖率验证。其中，覆盖率验证是指计算信息模板在测试信息集合中的覆盖比例，也即是，匹配信息的数量在所有信息中所占的比例。
[0172]对于每个信息模板的三元组pat、c2、latestDatetime2>，理论上，每个信息模板在对应的corpus2(placei)中待处理信息的最小覆盖率为C，设定corpus2(placei)中包含的待处理信息为N，则pat在corpus2(placei)中的覆盖率rate = c/N。
[0173]通常，挖掘出的信息模板pat在其他信息集合上的覆盖率的期望值也应为rate，一般该期望值会有ε的波动，也就是说，该信息模板pat在其他信息集合上的覆盖率期望应该在[rate-ε ,rate+ε]之间。对于覆盖率位于[0，rate-e)的pat，因覆盖率较小，可从对应的信息模板删除。给定覆盖数阈值m，对于覆盖数小于m的pat，也应从对应的信息模板删除，从而使得实际信息模板的覆盖率均在[rate-ε，I ]，且具有一定的绝对覆盖数量。
[0174]需要说明的是，信息模板的挖掘过程是从待处理信息中归纳信息模板的过程，而覆盖率验证是用模板匹配测试信息的过程，两者为两个相反的过程，可从正反量方面保证挖掘出的信息模板中不包含用户的隐私信息。另外，覆盖率验证过程与模板挖掘过程使用的信息集合并没有交集，都是从原始信息集合中随机抽取的，用这两组具有类似分布的不同信息集合，进一步地保证了挖掘出的信息模板中不包含用户的隐私信息。
[0175]示例性地，服务器在对每个信息模板进行覆盖率验证时，可采用如下步骤2041?2043。
[0176]2041、服务器获取测试信息集合，该测试信息集合包括多条测试信息。
[0177]为提高验证结果的准确性，服务器将从待处理信息的发送端标识对应的信息集合中剩余的待处理信息中，获取第二预设数量的待处理信息，并将第二预设数量的待处理信息组成测试信息集合。其中，第二预设数量可以为100、200、300等，本实施例不对第二预设数量作具体的限定。
[0178]2042、服务器对多条测试信息分别进行处理，得到多个第一测试信息组。
[0179]服务器在对多条测试信息分别进行处理，得到多个第一测试信息组时，可采用如下步骤20421?20423。
[0180]20421、服务器对多条测试信息进行加密处理，得到多条测试加密信息。
[0181]服务器在对多条测试信息进行加密处理，得到多条测试加密信息时，可采用如下步骤204211 ?204213。
[0182]204211、对于任一条测试信息，服务器根据测试信息的接收端标识，获取测试信息的地域标识。
[0183]通

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6