一种商函制作的方法及系统的制作方法

文档序号:6563494阅读:198来源:国知局
专利名称:一种商函制作的方法及系统的制作方法
技术领域
本发明涉及一种商函制作的方法及系统,尤其涉及一种标准化地址地名的商函制作的方法及系统。
背景技术
商函营销数据库在邮政直邮业务中发挥着关键性作用,每年可为邮政带来500万的直接收益。但营销数据库的数据采集及更新维护主要靠人工采集整理并输入计算机直接打印商函,不仅效率低下,质量也难以得到保证。如目前深圳市邮政的营销数据库有30万条企业名址,现在国家局下发20万条企业名址。但在这20万企业名址中,大概只有5万条数据是营销中央数据库中没有的。也就是说,需要剔除15万条名址,否则将发生大量重复投递的情况,为数据营销带来严重的不良影响。但这15万条重复的记录,通过数据库名址匹配,因为名址的写法很不规范,只有不到10%的匹配率。大量的商函地址地名需要人工查重,工作量很大。由于用户地址很不规范,人工整理成本高。就目前而言,人日均处理2000条左右,而营销数据库的企业数据有30万条,需耗费150个人日,远远不能满足当前快速增长的业务的要求;而随着营销数据库建设力度的加大,数据量急剧膨胀,人工整理的效率将会越来越低。
中国专利CN 99101790.0“邮件等的地址阅读器、分类机以及字符串识别方法”,提供了一种用于识别邮件表面上的收件人地址的地址阅读方法和系统。但是,该技术只是用于对现成邮件进行分拣,无法进行商函邮件制作。
中国专利CN 01809377.9“用于混合邮件的分送处理的方法和系统”,提供了一种用于混合邮件的分送处理的方法和系统。该系统包括收集并存储可变数据的信关、有存储固定数据存储器的系统管理站、和邮件制作站。在客户间共享的各信关,把数据按地理位置分组,并把可变数据发送至一个适当地理位置的邮件制作设施。邮件制作设施响应从信关收到的可变数据,向系统管理站发送传输相应固定数据的请求,并接收相应固定数据。邮件制作站制作邮件标准件,该标准件包括所述固定数据和相应的可变数据。
但是,该系统还需要对最后的邮件标准件还要进一步分拣并为地理上分组的邮寄来制作函件。同时,该系统没有提供处理中文地址地名的相应功能。

发明内容
针对商函地址地名库中大量的地名重复,而且许多地址地名不规范,难以投递等问题,发明提供一种商函制作的方法及系统。本发明内容如下一种商函制作的方法,包括如下步骤a1.通过商函工作站输入商函地址;b1.把输入的商函地址传输到地址标准化引擎进行原始商函地址信息的标准化处理;c1.所述地址标准化引擎通过网络把已进行标准化处理的商函送到高速商函打印机打印。
所述b1步骤包括如下步骤a2.所述地址标准化引擎对输入的商函地址进行Token化处理;b2.所述地址标准化引擎把经过Token化的商函地址切分为路径部分和门牌部分;c2.所述地址标准化引擎对所述路径部分处理为标准路径;对所述门牌部分处理为标准门牌;d2.所述地址标准化引擎把所述标准路径和标准门牌组合为标准地址。
所述步骤a2中Token化处理是指逐个识别中文地址的单个汉字或者字符并进行归类;所述归类存放为Token表,可以包括如下部分Token符为_ccw_asc_num,Token码为0x0001,表示阿拉伯数字;Token符为_ccw_asc_char,Token码为0x0002,表示大小写字母;Token符为_ccw_other,Token码为0x0004,表示其他ASC字符;Token符为_ccw_link,Token码为0x0008,表示中英文连接字符;Token符为_ccw_mark,Token码为0x0010,表示中英文街道门牌号或者信箱号;Token符为_ccw_cn_num,Token码为0x0020,表示中文数字和拉丁数字;
Token符为_ccw_cn_ord,Token码为0x0040,表示叙述提示词;Token符为_ccw_cn_jymd,Token码为0x0080,表示天干地支序号;Token符为_ccw_cn_dnxb,Token码为0x0100,表示方位词;Token符为_ccw_cn_normal,Token码为0x0200,表示普通汉字;所述Token化处理包括如下步骤a3.所述地址标准化引擎对商函地址的字符串开始位置的地址指针Pos设为0,并读取该字符;b3.地址标准化引擎判断是所述字符指向的否为地址结尾,如果是则结束;否则,读取地址的下一个字符;c3.查找Token表,并取得所述字符的Token类型;d3.和上一个字符的Token类型比较,判断是否相同,如果相同则进行所述步骤b3;否则,e3.记录相同类型的Token的类型、开始位置和长度于所述地址标准化引擎的存储单元,并进行所述步骤b3。
所述步骤b2包括如下步骤a4.所述地址标准化引擎判断所述Token表是否为表尾,如果是表尾就结束,否则,b4.取下一个Token,并判断是否尾中英文数字或者字母,如果否则进行步骤a4,如果是,则,c4.判断前面一个Token最前边是什么,如果是街道,则标记街道门牌,则进行步骤a4;如果是花园、小区或者大厦,则标记住宅门牌,结束;如果是其他,则,d4.判断下一个Token的最后边是否为门牌,如果否,则进行步骤a4,如果是,则标记住宅门牌,结束。
所述步骤c2包括如下步骤a5.所述地址标准化引擎对路径进行标准化;b5.所述地址标准化引擎对门牌进行标准化;其中b5步骤包括c5.所述地址标准化引擎对门牌表达式的指针Pos设置为0;d5.所述地址标准化引擎判断所述门牌表达式的位置是否结束,如果否,则,e5.取下一个最长表达式,并向右N步进行分析,所述N为表达式的长度;f5.判断是否符合表达式,如果符合,则结束,否则,进行步骤d5。
一种商函制作系统,包括商函工作站,用于采集待投递商函用户的原始商函地址信息;商函打印机,用于打印商函信封;在商函工作站和商函打印机之间,连接有地址标准化引擎,用于使得输入的原始商函地址信息标准化,并用标准化的商函地址驱动商函打印机打印商函信封。
所述地址标准化引擎包括地址输入接口,用于接收要输入的商函地址信息;Token化/切分单元,用于把所述输入的商函地址进行Token化并且切分为路径部分和门牌部分;路径标准化单元,用于对所述路径部分进行标准化;门牌标准化单元,用于对所述门牌部分进行标准化;标准地址输出单元,用于组合并输出标准化地址。
所述地址标准化引擎是与所述商函工作站和商函打印机联成网络的计算机。
和现有技术相比,通过以上技术方案,本发明可以把输入的中英文地址地名标准化,并用标准化的地址制作商函。从而克服大量不规范的地址地名,减少、甚至消除地名地址重复的现象。


图1为商函制作系统的示意图;图2为地址标准化引擎的硬件组成逻辑示意图;图3为商函制作流程示意图;图4为Token化的商函地址切分为路径部分和门牌部分流程示意图;图5为把经过Token化的商函地址切分为路径部分和门牌部分的流程示意图;图6为对门牌分析的流程图。
具体实施例方式
如图1所示,一种商函制作系统,包括商函工作站2,用于采集待投递商函用户的原始名称和地址信息;商函打印机3,用于打印商函信封;在商函工作站2和商函打印机3之间,连接有地址标准化引擎1,用于使得输入的原始名称和地址信息标准化。
所述地址标准化引擎1是与所述商函工作站2和商函打印机3联成网络的计算机。
如图2所示,为地址标准化引擎的硬件组成逻辑示意图。
所述地址标准化引擎1包括地址输入接口11,用于接收要输入的地名地址;Token化/切分单元12,用于把所述输入的地名地址进行Token化并且切分为路径部分和门牌部分;路径标准化单元13,用于对所述路径部分进行标准化;门牌标准化单元14,用于对所述门牌部分进行标准化;标准地址输出单元15,用于组合所述路径标准化单元13输出的标准化路径和所述门牌标准化单元14输出的标准化的门牌为标准化地址,并输出标准化地址。
如图3所示一种商函制作的方法,包括如下步骤a1.通过商函工作站输入商函地址;b1.对输入的商函地址进行标准化处理;c1.根据标准化的地址打印商函。
其中,所述b1步骤包括如下步骤a2.对输入的商函地址进行Token化处理;b2.把经过Token化的商函地址切分为路径部分和门牌部分;c2.对所述路径部分处理为标准路径;对所述门牌部分处理为标准门牌;d2.把所述标准路径和标准门牌组合为标准地址。
所述步骤a2中Token化处理是指逐个识别中文地址的单个汉字或者字符并进行归类;所述归类存放为Token表,包括如下部分(1)Token符为_ccw_asc_num,Token码为0x0001,表示阿拉伯数字;
(2)Token符为_ccw_asc_char,Token码为0x0002,表示大小写字母;(3)Token符为_ccw_other,Token码为0x0004,表示其他ASC字符;(4)Token符为_ccw_link,Token码为0x0008,表示中英文连接字符;(5)Token符为_ccw_mark,Token码为0x0010,表示中英文街道门牌号或者信箱号;(6)Token符为_ccw_cn_num,Token码为0x0020,表示中文数字和拉丁数字;(7)Token符为_ccw_cn_ord,Token码为0x0040,表示叙述提示词;(8)Token符为_ccw_cn_jymd,Token码为0x0080,表示天干地支序号;(9)Token符为_ccw_cn_dnxb,Token码为0x0100,表示方位词;(10)Token符为_ccw_cn_normal,Token码为0x0200,表示普通汉字。
如图4所示,所述Token化处理包括如下步骤a3.地址的字符串开始位置,地址指针Pos设为0;b3.判断是否为地址结尾,如果是则结束;否则,读取地址的下一个字符;c3.查找Token表,并取得该字符的Token类型;d3.和上一个字符的Token类型比较,判断是否相同,如果相同则进行所述步骤b3;否则,e3.记录相同类型的Token的类型、开始位置和长度,并进行所述步骤b3。
如例1“爱国路48号泰宁花园1-302”将被token化为“爱国路”Token码为0x0200,长度为6;“48”Token码为0x0200,长度为2;“泰宁花园”Token码为0x0020,长度为10;“1”Token码为0x0001,长度为1;“-”Token码为0x0008,长度为1;“302”Token码为0x0001,长度为3。
将地址切分为路径部分和门牌部分。
门牌分为2种街道门牌和住宅门牌。如例1所示,48是街道门牌号,1-302是住宅门牌号。
路径是指住宅门牌号前面的地址。
如图5所示,所述步骤b2,即把经过Token化的商函地址切分为路径部分和门牌部分包括如下步骤a4.判断所述Token表是否为表尾,如果是表尾就结束,否则,b4.取下一个Token,并判断是否尾中英文数字或者字母,如果否则进行步骤a4,如果是,则,c4.判断前面一个Token最前边是什么,如果是街道,则标记街道门牌,则进行步骤a4;如果是花园、小区或者大厦,则标记住宅门牌,结束;如果是其他,则,d4.判断下一个Token最后边是否是门牌,如果否,则进行步骤a4,如果是,则标记住宅门牌,结束。
路径标准化,可以通过本申请人的专利申请号为CN200610062161.9“按投递地址段自动制作商函的方法及其系统”来实现。流程包括对路径部分分词。如“爱国路48号泰宁花园”的分词结果为“爱国路,48号,泰宁花园”。
从最右边的词开始分析其路径,并且标准化。
门牌标准化是识别住宅门牌部分可能出现的栋号、单元号及房间室号,并用统一规格进行输出。
住宅门牌是通过解析门牌表达式来识别的;门牌表达式从形式上抽象了用户可能的住宅门牌写法。
如门牌={数字}/(期/区){数字}/(栋、幢) {数字}/(单元){数字}/{数字}/(楼、层){数字}(室、房);上述表达式是最完整的住宅门牌的抽象,即N期M栋X单元Y层Z室。
如图6所示,门牌分析算法采用LR(N)文法分析原理,将门牌表达式按组成成分的多少由大到小排列,然后采用自左向右最大探测N步然后逐渐递减的方式分析门牌组成。
门牌分析流程包括如下步骤
c5.门牌表达式的指针Pos=0;d5.判断表达式的位置是否结束,如果否,则,e5.取下一个最长表达式,并向右N步进行分析,所述N为表达式的长度;f5.判断是否符合表达式,如果符合,则结束,否则,进行步骤d5。
如“1栋302/”(其中“/”是系统自动添加的结尾标识符)分析过程如下1.门牌开始为数字类型的token“1”,可以继续向右探索;2.下一个token是栋号识别词“栋”,做成功标识并继续向右探索;3.下一个token数字类型的token“302”,继续向右探索4.最后一个token为结尾标示符,做成功标识,探索结束。
5.用标准模板输出标准门牌。
最后,组合标准路径和标准门牌组合并输出。
例如输入地址“爱国路48号泰宁花园1栋302”。
标准路径为“深圳市罗湖区爱国路48号泰宁花园”;标准门牌为“1栋302室”;组合输出标准地址“深圳市罗湖区爱国路48号泰宁花园1栋302室”。
权利要求
1.一种商函制作的方法,包括如下步骤a1.通过商函工作站输入商函地址;b1.把输入的商函地址传输到地址标准化引擎(1)进行原始商函地址信息的标准化处理;c1.所述地址标准化引擎(1)通过网络把已进行标准化处理的商函送到高速商函打印机打印。
2.根据权利要求1所述商函制作的方法,其特征在于所述b1步骤包括如下步骤a2.所述地址标准化引擎(1)对输入的商函地址进行Token化处理;b2.所述地址标准化引擎(1)把经过Token化的商函地址切分为路径部分和门牌部分;c2.所述地址标准化引擎(1)对所述路径部分处理为标准路径;对所述门牌部分处理为标准门牌;d2.所述地址标准化引擎(1)把所述标准路径和标准门牌组合为标准地址。
3.根据权利要求2所述商函制作的方法,其特征在于所述步骤a2中Token化处理是指逐个识别中文地址的单个汉字或者字符并进行归类;所述归类存放为Token表,可以包括如下部分(1)Token符为_ccw_asc_num,Token码为0x0001,表示阿拉伯数字;(2)Token符为_ccw_asc_char,Token码为0x0002,表示大小写字母;(3)Token符为_ccw_other,Token码为0x0004,表示其他ASC字符;(4)Token符为_ccw_link,Token码为0x0008,表示中英文连接字符;(5)Token符为_ccw_mark,Token码为0x0010,表示中英文街道门牌号或者信箱号;(6)Token符为_ccw_cn_num,Token码为0x0020,表示中文数字和拉丁数字;(7)Token符为_ecw_cn_ord,Token码为0x0040,表示叙述提示词;(8)Token符为_ccw_cn_jymd,Token码为0x0080,表示天干地支序号;(9)Token符为_ccw_cn_dnxb,Token码为0x0100,表示方位词;(10)Token符为_ccw_cn_normal,Token码为0x0200,表示普通汉字;所述Token化处理包括如下步骤a3.所述地址标准化引擎(1)对商函地址的字符串开始位置的地址指针Pos设为0,并读取该字符;b3.地址标准化引擎(1)判断是所述字符指向的否为地址结尾,如果是则结束;否则,读取地址的下一个字符;c3.查找Token表,并取得所述字符的Token类型;d3.和上一个字符的Token类型比较,判断是否相同,如果相同则进行所述步骤b3;否则,e3.在所述地址标准化引擎(1)的存储单元记录下相同类型的Token的类型、开始位置和长度,并进行所述步骤b3。
4.根据权利要求2所述商函制作的方法,其特征在于所述步骤b2包括如下步骤a4.所述地址标准化引擎(1)判断所述Token表是否为表尾,如果是表尾就结束,否则,b4.取下一个Token,并判断是否尾中英文数字或者字母,如果否则进行步骤a4,如果是,则,c4.判断前面一个Token最前边是什么,如果是街道,则标记街道门牌,则进行步骤a4;如果是花园、小区或者大厦,则标记住宅门牌,结束;如果是其他,则,d4.判断下一个Token的最后边是否为门牌,如果否,则进行步骤a4,如果是,则标记住宅门牌,结束。
5.根据权利要求2所述商函制作的方法,其特征在于所述步骤c2包括如下步骤a5.所述地址标准化引擎(1)对路径进行标准化;b5.所述地址标准化引擎(1)对门牌进行标准化;其中b5步骤包括c5.所述地址标准化引擎(1)对门牌表达式的指针Pos设置为0;d5.所述地址标准化引擎(1)判断所述门牌表达式的位置是否结束,如果否,则,e5.取下一个最长表达式,并向右N步进行分析,所述N为表达式的长度;f5.判断是否符合表达式,如果符合,则结束,否则,进行步骤d5。
6.一种商函制作系统,包括商函工作站(2),用于采集待投递商函用户的原始商函地址信息;商函打印机(3),用于打印商函信封;其特征在于,在商函工作站和商函打印机之间,连接有地址标准化引擎(1),用于使得输入的原始商函地址信息标准化,并用标准化的商函地址驱动商函打印机打印商函信封。
7.根据权利要求6所述商函制作系统,其特征在于所述地址标准化引擎(1)包括地址输入接口(11),用于接收要输入的商函地址信息;Token化/切分单元(12),用于把所述输入的商函地址进行Token化并且切分为路径部分和门牌部分;路径标准化单元(13),用于对所述路径部分进行标准化;门牌标准化单元(14),用于对所述门牌部分进行标准化;标准地址输出单元(15),用于组合并输出标准化地址。
8.根据权利要求6或7所述商函制作系统,其特征在于所述地址标准化引擎(1)是与所述商函工作站(2)和商函打印机(3)联成网络的计算机。
全文摘要
为了把输入的中英文地址地名标准化,并用标准化的地址制作商函。从而克服大量不规范的地址地名,减少、甚至消除地名地址重复的现象。本发明提供一种商函制作系统,包括商函工作站(2),用于采集待投递商函用户的原始商函地址信息;商函打印机(3),用于打印商函信封;在商函工作站和商函打印机之间,连接有地址标准化引擎(1),用于使得输入的原始商函地址信息标准化,并用标准化的商函地址驱动商函打印机打印商函信封。
文档编号G06F17/30GK1963872SQ20061015743
公开日2007年5月16日 申请日期2006年12月6日 优先权日2006年12月6日
发明者李凯乐, 谈宏, 王晓敏, 张强, 刘宗沛, 华衡, 霍俊, 孙文峰 申请人:深圳市络道科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1