本发明涉及电商物流,具体涉及一种电商异常收货地址自动标记算法。
背景技术:
1、随着科技的不断进步以及互联网的普及,网购已经成为了人们日常生活的一部分,而为了降低买家对所购产品费用之外的开销的敏感度,商家往往采用包邮的方式提高买家购买的欲望,进而提高成交量,但在现实生活中,一些偏远地区的用户为了获取包邮资格会故意在选取地区时定位到商家预设的包邮地区或者较低邮费地区内,然后在详细地址中填写正确的地址信息,而现有的地址信息审核方法无法对该种情况进行判断,如中国专利公开的一种对快递寄件信息的审核方法及系统(公开号:cn116071015a),该专利技术中采用有限节点机制判断地址数据是否有效,仅能对地址信息进行判断其是否有误,导致商品在收取到快递站后,快递公司仍能根据正确的详细地址信息正常运输和配送,而商家将会承担较为高昂的邮费,造成经济损失。
技术实现思路
1、本发明所要解决的技术问题:防止片材在生产使用时起翘的情况。提出了一种电商异常收货地址自动标记算法,通过对用户输入的详细地址进行解析和比对,能够判断该详细地址是否正确,同时通过将正确的详细地址与用户的选择地区进行匹配,能够判断出该详细地址是否位于商家预设的地区内,以此决定是否发货,从而避免商家承担较为高昂的邮费,节约了成本。
2、为解决上述技术问题,本发明采用如下技术方案:一种电商异常收货地址自动标记算法,包括以下步骤:
3、s1:获取包含用户选择地区和详细地址的电商平台地址,提取出详细地址中包含各级行政区划的有效地址信息;
4、s2:采用地址分词法对有效地址信息进行解析,以形成若干个有效的地址词组;
5、s3:将若干个有效的地址词组与正确的地址信息库进行逐级比对,匹配合格的进行下一级比对,逐级比对全部匹配,输出该有效地址信息为合格地址信息;
6、s4:将合格地址信息与电商平台地址的用户选择地区进行匹配,匹配合格,判定该电商平台地址正确,匹配不合格,判定该电商平台地址错误。在实际工作时,通过对用户输入的详细地址进行解析和比对,能够判断该详细地址是否正确,同时通过将正确的详细地址与用户的选择地区进行匹配,能够判断出该详细地址是否位于在商家预设的包邮地区内,决定是否发货,从而避免商家承担较为高昂的邮费,节约了成本。
7、作为优选,在所述步骤s2中,采用地址分词法对有效地址信息进行解析,以形成若干个有效的地址词组时采用以下子步骤:
8、a1:建立map词典,获取各级行政区划的地址信息,将同一地址的不同名称合并生成相应的词组集合并存入map词典;
9、a2:通过map词典将详细地址中的有效地址信息拆分成若干个有效的地址词组。能够提高解析的准确度,以及提高工作效率。
10、作为优选,在所述步骤a1中,还包括以下步骤:
11、b1:将各级行政区划的地址信息中的原始用字的同音字词、相似字词以及缩写字词存入map词典;
12、b2:根据map词典将有效地址信息中存在的同音字词、相似字词以及缩写字词替换为正确的地址信息,然后通过map词典将详细地址中的有效地址信息拆分成若干个有效的地址词组。
13、作为优选,在所述步骤b1中,将各级行政区划的地址信息中的字词的同音字词、相似字词以及缩写字词存入map词典包括以下子步骤:
14、c1:对各级行政区划的地址名词进行获取,获取后采用逐字衍生关联的方式关联相应的关联字;
15、c2:针对关联字与地址名词中的原始用字进行差异化赋分;
16、c3:将关联字和差异化赋分作为衍生关联集合填入map词典中。
17、作为优选,在所述步骤c2中,针对关联字与地址名词中的原始用字进行差异化赋分包括以下子步骤:
18、d1:对各级行政区划的地址名词中的原始用字的同音字词进行衍生关联,将音节声调完全相同的关联字的差异化赋分值设置为最小,将音节相同但声调不同的关联字的差异化赋分值设置为大于音节声调完全相同的关联字的差异化赋分值;
19、对各级行政区划的地址名词中的原始用字的相似字词进行衍生关联,将对单字进行增删改的到的关联字的差异化赋分值设置为大于音节相同但声调不同的关联字的差异化赋分值;
20、对各级行政区划的地址名词中的原始用字的缩写字词进行衍生关联,将对单字提取发音元素后采用全拼形式的关联字的差异化赋分值设置为大于对单字进行增删改的到的关联字的差异化赋分值,将对单字提取发音元素后进行缩写的关联字的差异化赋分值设置为大于对单字提取发音元素后采用全拼形式的关联字的差异化赋分值。
21、作为优选,在所述步骤c2中,根据map词典将有效地址信息中存在的同音字词、相似字词或者缩写字词替换为正确的地址信息时包括以下子步骤:
22、e1:对存在相应的同音字词、相似字词或者缩写字词的有效地址信息通过map词典进行逐字衍生关联;
23、e2:将逐字衍生关联后的关联字与map词典进行匹配,当差异化赋分值之和小于设定的阈值时,采用相关联的正确的地址信息对有效地址信息中的同音字词、相似字词或者缩写字词进行替换。
24、通过建立map词典,方便解析出正确的地址词组,同时通过逐字衍生关联的方式,可以将有效地址信息中存在的同音字词、相似字词以及缩写字词替换为正确的地址信息,从而实现对地址信息的修正,提高了识别的精度和和准确率。
25、作为优选,步骤s3中,包括以下步骤:
26、f1:建立例外词典,填入正确的地址信息;
27、f2:将无法拆分出有效的地址词组的有效地址信息以及比对不合格的有效地址信息均与例外词典进行匹配,匹配合格,判定该详细地址为合格地址信息,转入步骤s4,匹配不合格,判定该详细地址错误。
28、作为优选,步骤f1中,包括以下步骤;
29、g1:将正确的地址信息的模糊描述信息以及对正确的地址信息的简称存入例外词典中。通过建立例外词典能够对日常容易混浠的地址信息进行进一步的比对,避免误判,提高了准确率。
30、作为优选,步骤s3中,还包括以下步骤:
31、h1:提取出若干个有效的地址词组中包含省份的地址词组,将包含省份的地址词组与全国的省份进行匹配,匹配不合格的清除该包含省份的地址词组,并继续将若干个有效地址词组中包含省份的地址词组与全国的省份进行匹配,匹配合格的转入步骤i2,若干个有效地址词组中包含省份的地址词组全部不匹配的转入步骤f2;
32、h2:提取若干个有效地址词组中包含市的地址词组,将包含市的地址词组与对应的省份的市进行匹配,匹配不合格的清除该包含市的地址词组,并继续将若干个有效地址词组中包含市的地址词组与对应的省份的市进行匹配,匹配合格的转入步骤i3,若干个有效地址词组中包含市的地址词组全部不匹配的清除包含该省份的地址词组,转入步骤i1;
33、h3:然后提取若干个有效地址词组中包含区或者县的地址词组与对应的市的区或者县进行匹配,匹配不合格的清除该包含区或者县的地址词组,并继续将若干个有效地址词组中包含区或者县的地址词组与对应的市的区或者县进行匹配,匹配合格后输出该地址为合格地址,若干个有效地址词组中包含区或者县的地址词组全部不匹配的清除包含该市的地址词组,转入步骤i2。
34、作为优选,步骤s1中,包括以下步骤:
35、i1:建立电商异常关键词词典,将详细地址中的非地址信息滤除并存入电商异常关键词词典;
36、i2:根据电商异常关键词词典对详细地址中的非地址信息进行滤除;
37、i3:将无法解析出有效的地址词组的有效地址信息与电商异常关键词词典进行比对,比对成功,判定该有效地址信息错误,比对不成功,拆分出该有效地址信息中的异常关键词存入电商异常关键词词典。通过建立和维护电商异常关键词词典,能够提高对详细地址中非地址信息滤除的效率,滤除的准确率高。
38、本发明的有益技术效果包括:
39、1、本发明通过对用户输入的详细地址进行解析和比对,能够判断该详细地址是否正确,同时通过将正确的详细地址与用户的选择地区进行匹配,能够判断出该详细地址是否位于在商家预设的地区内,从而避免商家承担高昂的邮费,可有效节约成本。
40、2、本发明通过建立map词典,方便解析出正确的地址词组,同时通过逐字衍生关联的方式,可以将有效地址信息中存在的同音字词、相似字词以及缩写字词替换为正确的地址信息,从而实现对地址信息的修正,提高了识别的精度和和准确率。
41、3、本发明通过建立例外词典能够对日常容易混浠的地址信息进行进一步的比对,避免误判,提高了准确率。
42、4、本发明通过建立和维护电商异常关键词词典,能够提高对详细地址中非地址信息滤除的效率,滤除的准确率高。
43、本发明的其他特点和优点将会在下面的具体实施方式、附图中详细的揭露。