一种地址标准化方法及装置与流程

文档序号：26919367发布日期：2021-10-09 16:28阅读：来源：国知局

技术特征：
1.一种地址标准化方法，其特征在于，包括：获取待处理地址数据；通过地址向量化模型对所述待处理地址数据进行处理，确定出所述待处理地址数据的语义特征向量；所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的；将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理，确定出各子地址分词；对所述各子地址分词进行词性标注，得到标准化的地址数据。2.如权利要求1所述的方法，其特征在于，所述多个训练子任务包括地址行政区划子任务、兴趣点poi分类子任务、噪音混淆子任务以及地址区划重排子任务；所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息；所述兴趣点poi分类子任务用于训练学习地址数据与poi类别的关联关系；所述噪音混淆子任务用于增强训练学习的稳定性；所述地址区划重排子任务用于训练学习地址数据的层级包含关系。3.如权利要求1所述的方法，其特征在于，基于多个训练子任务对第一历史样本集进行训练确定所述地址向量化模型，包括：针对所述第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数；根据各训练子任务的损失函数，确定出融合损失函数；根据所述融合损失函数调整所述初始的地址向量化模型，直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止，得到所述地址向量化模型。4.如权利要求3所述的方法，其特征在于，所述针对所述第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数，包括：针对地址行政区划子任务，以随机掩饰的方式，将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理，得到掩饰后的第一样本；将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理，得到所述掩饰后的第一样本的语义特征向量；根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量，确定出第一损失函数。5.如权利要求3所述的方法，其特征在于，所述针对第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数，包括：针对poi分类子任务，将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理，得到所述第一样本对应的预测poi类别；基于所述第一样本对应的预测poi类别和所述第一样本对应的标签poi类别，确定出第二损失函数。6.如权利要求3所述的方法，其特征在于，所述针对第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数，包括：针对噪音混淆子任务，将所述第一历史样本集中的第一样本包含的部分行政区划进行噪声混淆处理，得到噪声混淆后的第一样本；
将所述噪声混淆后的第一样本输入到所述初始的地址向量化模型进行处理，得到所述噪声混淆后的第一样本的语义特征向量；根据所述噪声混淆后的第一样本的语义特征向量和所述第一样本的标签语义特征向量，确定出第三损失函数。7.如权利要求3所述的方法，其特征在于，所述针对第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数，包括：针对地址区划重排子任务，将所述第一历史样本集中的第一样本包含的部分行政区划进行调换处理，得到调换后的第一样本；将所述调换后的第一样本输入到所述初始的地址向量化模型进行处理，得到所述调换后的第一样本的语义特征向量；根据所述调换后的第一样本的语义特征向量和所述第一样本的标签语义特征向量，确定出第四损失函数。8.如权利要求1至7任一项所述的方法，其特征在于，在得到标准化的地址数据之后，还包括：通过构建的地址字典树，对所述标准化的地址数据中标注的各子地址分词进行匹配识别，确定标注的各子地址分词是否符合地址标准要求；若是，则将符合地址标准要求的子地址分词存储至所述标准地址数据库，否则对不符合地址标准要求的子地址分词进行更改，并将更改后的子地址分词存储至所述标准地址数据库。9.如权利要求3所述的方法，其特征在于，在得到所述地址向量化模型之后，还包括：将第二历史样本集中的各第二样本进行聚类分析，得到多个空间距离类别；根据所述多个空间距离类别，确定所述第二历史样本集中每个第二样本的空间距离类别标注；将所述第二历史样本集中的各第二样本分别输入到所述地址向量化模型进行处理，得到所述各第二样本的语义特征向量；针对每个第二样本的语义特征向量，将所述第二样本的语义特征向量输入到预设的分类模型进行识别，确定出所述第二样本的预测空间距离类别；通过所述第二样本的预测空间距离类别与所述第二样本的空间距离类别标注之间的损失函数进行反向优化所述地址向量化模型；优化后的地址向量化模型还用于识别待处理地址数据的空间距离信息。10.一种地址标准化装置，其特征在于，包括：获取单元，用于获取待处理地址数据；处理单元，用于通过地址向量化模型对所述待处理地址数据进行处理，确定出所述待处理地址数据的语义特征向量；所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的；将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理，确定出各子地址分词；对所述各子地址分词进行词性标注，得到标准化的地址数据。

技术总结
本发明实施例提供了一种地址标准化方法及装置，该方法包括获取待处理地址数据，通过地址向量化模型对待处理地址数据进行处理，确定出待处理地址数据的语义特征向量，将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理，确定出各子地址分词，对各子地址分词进行词性标注，得到标准化的地址数据。如此，该方案无需基于地址词典对待处理地址数据进行分词处理，从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本，并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题，进而可以有效地提高待处理地址数据的标准化处理效率。效率。效率。

技术研发人员：徐阳陈立力周明伟
受保护的技术使用者：浙江大华技术股份有限公司
技术研发日：2021.07.23
技术公布日：2021/10/8

完整全部详细技术资料下载

当前第2页1 2