一种快速匹配短信文本的方法

文档序号:7688991阅读:133来源:国知局
专利名称:一种快速匹配短信文本的方法
技术领域
本发明涉及一种移动通讯业务领域,具体的说就是提髙短信内容匹配的算法技巧的解决 方法。
背景技术
在移动的短信业务中,短信跟踪匹配发挥巨大的作用,为开展业务奠定了基础,基于该 技术的产品、服务、应用也随之孕育而生。随着业务的快速发展以及市场的需求,需要将该 技术改进,做强,提高跟踪匹配的效率。现有的文本匹配技术中,采用源文本与目标文本逐字进行匹配的方式,该种匹配方法占 用系统资源多,效率低,无法满足海量短信话单的匹配要求。发明内容本发明的目的是实现短信文本的快速匹配,而且可以满足海量短信话单的匹配要求,具 有较好的实用价值。本发明是这样实现的, 一种快速匹配短信文本的方法,其特征在于将需要匹配的短信 文本通过",、。"等中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算 出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash 值进行比较,通过相似度来控制输出匹配结果; 具体包括以下步骤a) 将每条源短信文本按照",、。"等中英文标点符号分割成一个个碎片,并计算这些碎 片的Hash值,并将这些Hash值存于内存中b) 以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单,并加载、 提取话单文件中每条通话记录中的短信内容,将这些短信内容按照",、。"等中英文 标点符号分割成一个个碎片,并计算这些碎片的Hash值;c) 将目标短信文本的每个碎片的Hash值与源短信文本的每段短信的每个碎片的Hash值 进行比较;d) 通过比较后,如相似度大于系统设定的值,则进行下一条目标短信内容比较;e) 如发现相似度不满足系统设定的值,则进行下一条源短信内容比较匹配,直到找到相 似度满足系统设定的值,并将结果输出;下面结合附图及实施例对本发明做进一步说明。


图1为本发明的系统工作流程图。
具体实施方式
如图1所示,本发明一种快速匹配短信文本的方法,其特征在于将需要匹配的短信文本通过",、。"等中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较,通过相似度来控制输出匹配结果; 该方法具体包括以下步骤a) 将每条源短信文本按照",、。"等中英文标点符号分割成一个个碎片,并计算这些碎 片的Hash值,并将这些Hash值存于内存中;b) 以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单,并加载、 提取话单文件中每条通话记录中的短信内容,将这些短信内容按照",、。"等中英文 标点符号分割成一个个碎片,并计算这些碎片的Hash值;c) 将目标短信文本的每个碎片的Hash值与源短信文本的每段短信的每个碎片的Hash值 进行比较;d) 通过比较后,如相似度大于系统设定的值,则进行下一条目标短信内容比较;e) 如发现相似度不满足系统设定的值,则进行下一条源短信内容比较匹配,直到找到相 似度满足系统设定的值,并将结果输出;为了满足系统的需要,话单获取可以以FTP方式获取话单,包括采用其他协议获取和从 短信中心或其他存储短信话单文件的服务器上获取短信话单;源短信的Hash值可存储在内存 中或数据库中;所述的源短信的加载可以以全量或增量的方式通过文件加载或者通过其他消 息协议的方式加载。所述的系统设定的值可以存储在文件(如XML标准格式文件)或数据库中,并可以通过 程序对这些文件或数据库进行修改,从而使匹配计算时按照修改后的相似度值进行比较。相 似度为话单文件中每条话单记录内容同种子的相似性的一个度量值。在匹配中,按照碎片进 行比较,将匹配上的碎片的个数作为分子,源短信文本的碎片数作为分母,则相似度为分 子/分母。考虑到用户的转发行为中,通常会在待转短信的首或未添加一些信息,故在实际应 用中,相似度通常设置为80%;如果要得到两段短信文本是否完全一致,则将相似度设置为 100%即可。为了保证匹配结果的安全性,在匹配结果输出之前,还可以对匹配结果进行加密,其加 密方式可以是整条记录加密,也可对整条记录中的某些字段进行加密,最后通过文件的方式 输出,也可以通过其他实时消息接口的方式输出到其他系统。
权利要求
1. 一种快速匹配短信文本的方法,其特征在于将需要匹配的短信文本通过“,、。”等中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较,通过相似度来控制输出匹配结果;具体包括以下步骤a)将每条源短信文本按照“,、。”等中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值,并将这些Hash值存于内存中;b)以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单,并加载、提取话单文件中每条通话记录中的短信内容,将这些短信内容按照“,、。”等中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值;c)将目标短信文本的每个碎片的Hash值与源短信文本的每段短信的每个碎片的Hash值进行比较;d)通过比较后,如相似度大于系统设定的值,则进行下一条目标短信内容比较;e)如发现相似度不满足系统设定的值,则进行下一条源短信内容比较匹配,直到找到相似度满足系统设定的值,并将结果输出;
2. 根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于话单获取可以以 FTP方式获取话单,包括采用其他协议获取和从短信中心或其他存储短信话单文件的服务器 上获取短信话单。
3. 根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于源短信的Hash 值可存储在内存中或数据库中。
4. 根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于所述的源短信的 加载可以以全量或增量的方式通过文件加载或者通过其他消息协议的方式加载。
5. 根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于所述的系统设定 的值可以存储在文件(如XML标准格式文件)或数据库中,并可以通过程序对这些文件或数 据库进行修改,从而使匹配计算时按照修改后的相似度值进行比较。
6. 根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于所述的匹配结果的输出可以以文件的方式输出,也可以通过其他实时消息接口的方式输出到其他系统。
7. 根据权利要求1至6的任意一项所述的一种快速匹配短信文本的方法,其特征在于所述的匹配结果,在其输出之前,为了保证匹配结果的安全性,可以对匹配结果进行加密, 其加密方式可以是整条记录加密,也可对整条记录中的某些字段进行加密。
全文摘要
本发明涉及一种快速匹配短信文本的方法,其特征在于将需要匹配的短信文本通过“,、。”等中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较,通过相似度来控制输出匹配结果;本发明不仅提高了跟踪匹配的效率,而且可以满足海量短信话单的匹配要求,具有较好的实用价值。
文档编号H04W4/12GK101398837SQ20081007198
公开日2009年4月1日 申请日期2008年10月23日 优先权日2008年10月23日
发明者吴仁平 申请人:深圳市奇迹通讯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1