1.一种中文地址分词方法,其特征在于,收集至少两个地址特征,并为所述至少两个地址特征分配对应的编码,设置至少一种切分规则,还包括:
接收目标源地址;
根据所述至少两个地址特征对应的编码,为所述目标源地址生成地址编码;
在所述至少一种切分规则中,为所述地址编码确定目标切分规则;
利用所述目标切分规则,对所述地址编码进行切分。
2.根据权利要求1所述的方法,其特征在于,所述设置至少一种切分规则,包括:
将所述至少两个地址特征对应的编码进行任意组合,形成至少一种组合编码;
确定每一种所述组合编码的组合位置为对应的切分位置。
3.根据权利要求1所述的方法,其特征在于,所述地址特征包括:省、市、区、县、桥、镇、门牌号和表示方位的字中的任意两个或多个;
所述为所述至少两个地址特征分配对应的编码,包括:
为所述省、市、区、县、桥、镇、门牌号分配第一编码;
为所述表示方位的字分配第二编码。
4.根据权利要求2所述的方法,其特征在于,
所述为所述地址编码确定目标切分规则,包括:
将所述地址编码与每一种所述组合编码进行匹配,利用下述计算公式,计算所述地址编码与每一种所述组合编码的匹配度;
其中,Ti表征地址编码与组合编码i对应的匹配度;n表征组合编码i中包含的编码个数;ni表征地址编码与组合编码i中包含的编码的匹配个数;
确定最大匹配度的组合编码以及所述最大匹配度的组合编码对应的切分位置;
所述利用所述目标切分规则,对所述地址编码进行切分,包括:根据所述最大匹配度的组合编码对应的切分位置,对所述地址编码进行切分。
5.根据权利要求1所述的方法,其特征在于,在所述利用所述目标切分规则,对所述地址编码进行切分之后,进一步包括:
根据所述至少两个地址特征对应的编码,将切分后的地址编码恢复为对应的地址特征。
6.一种中文地址分词装置,其特征在于,包括:编码分配单元、设置单元、接收单元、生成单元、确定单元和分词单元,其中,
所述编码分配单元,用于收集至少两个地址特征,并为所述至少两个地址特征分配对应的编码;
所述设置单元,用于设置至少一种切分规则;
所述接收单元,用于接收目标源地址;
所述生成单元,用于根据所述编码分配单元为所述至少两个地址特征分配的对应编码,为所述接收单元接收到的所述目标源地址生成地址编码;
所述确定单元,用于根据所述设置单元中设置的所述至少一种切分规则,为所述生成单元生成的所述地址编码确定目标切分规则;
所述分词单元,用于利用所述确定单元确定的所述目标切分规则,对所述生成单元生成的所述地址编码进行切分。
7.根据权利要求6所述的装置,其特征在于,所述设置单元,用于:
将所述至少两个地址特征对应的编码进行任意组合,形成至少一种组合编码;
确定每一种所述组合编码的组合位置为对应的切分位置。
8.根据权利要求6所述的装置,其特征在于,所述地址特征包括:省、市、区、县、桥、镇、门牌号和表示方位的字中的任意两个或多个;
所述编码分配单元,用于:为所述省、市、区、县、桥、镇、门牌号分配第一编码;为所述表示方位的字分配第二编码。
9.根据权利要求7所述的装置,其特征在于,所述确定单元,包括:计算子单元和确定子单元,其中,
所述计算子单元,用于将所述地址编码与每一种所述组合编码进行匹配,利用下述计算公式,计算所述地址编码与每一种所述组合编码的匹配度;
其中,Ti表征地址编码与组合编码i对应的匹配度;n表征组合编码i中包含的编码个数;ni表征地址编码与组合编码i中包含的编码的匹配个数;
所述确定子单元,用于确定最大匹配度的组合编码以及所述最大匹配度的组合编码对应的切分位置;
所述分词单元,用于根据所述最大匹配度的组合编码对应的切分位置,对所述地址编码进行切分。
10.根据权利要求6所述的装置,其特征在于,进一步包括:恢复单元,其中,所述恢复单元,用于根据所述至少两个地址特征对应的编码,将切分后的地址编码恢复为对应的地址特征。