一种基于NER的非标准中文快递寄件信息识别方法及系统

文档序号:27432742发布日期:2021-11-17 22:27阅读:220来源:国知局
一种基于NER的非标准中文快递寄件信息识别方法及系统
一种基于ner的非标准中文快递寄件信息识别方法及系统
技术领域
1.本发明涉及智能快递技术领域,具体涉及一种基于ner的非标准中文快递寄件信息识别方法及系统。


背景技术:

2.随着互联网和电子商务的兴起,快递行业飞速发展。这给末端快递员的揽件和派件带来的了巨大的压力。如何提升用户体验感和快递行业的寄件效率已经成为目前的研究重点。通过在快递下单过程中减轻繁琐程度规范化用户快递寄件信息,可以提高快递下单效率和末端快递员的配送效率,是解决目前快递揽件和派件效率低下的一种可行且有效的途径。
3.现有技术中,只考虑了用户输入规范的寄件信息的情况,即每个客户输入文本格式为姓名

电话号

省/自治区/直辖市

市/自治州/县/自治县



详细地址,但是实际应用场景中,由于中文快递地址信息表达方式的多样性和复杂性,使解析过程变得尤为复杂。针对该问题,现有的解决方法基于规则的中文地址解析方法、基于统计模型的中文地址解析方法和基于深度学习的中文地址解析方法。然而基于规则的中文地址解析方法,该方法在具有严格规则性的地址信息上有一定的识别精度,并且在很大程度上依赖较为完备的词典以及需要人工参与修正。当用户输入非标准快递地址信息时,识别精度大打折扣;针对基于规则的方法适应性不强、扩展性较差等问题,基于统计模型的中文快递地址解析方法应用到了中文快递地址解析上,这在一定程度上克服了基于词典和规则方法的不足,同时避免了基于规则方法的切分规则对分词效率低的问题。基于统计的中文地址切分方法效果虽较传统的基于规则的地址切分方法好,并且概率模型具有良好的分割效果和良好的解释性,但是该方法的分词效果受到特征设定的限制,所以需要防止特征过多出现模型训练过拟合等问题;基于深度学习的中文地址信息解析方法在很大程度上改善了中文分词的效率和计算性。由于基于深度学习的地址解析方法大多应用于英文领域、只完成了部分非规范化的中文地址新信息的处理、识别地址要素,并且在参数较复杂时,模型的灵活性不高,并不能很好的贴合用户的实际需要。同时用户输入形式不固定、种类繁多,大大增强了中文寄件信息解析的难度。因此现有的算法一般很难直接用于非标准化中文快递寄件信息识别问题的求解。
4.综上,现有的研究存在以下不足:
5.1)现有的研究仅在具有严格规则性的地址信息上有一定的识别精度,并且现有方法很大程度上依赖较为完备的词典以及需要人工参与修正,适应性不强、扩展性较差;
6.2)现有的方法的分词效果受到特征设定的限制,所以需要防止特征过多出现模型训练过拟合等问题;
7.3)现有的方法只完成了部分非规范化的中文地址新信息的处理、识别地址要素,并且在参数较复杂时,模型的灵活性不高,并不能很好的贴合用户的实际需要。


技术实现要素:

8.本发明提供一种基于ner的非标准中文快递寄件信息识别方法,方法得到准确合理的标签预测序列,根据预测标签,得到所需实体。
9.方法包括:
10.步骤1:从快递公司的下单数据统一获取快递寄件信息,然后对于数据预处理,得到标注数据集;
11.步骤2:读取数据,建立文本向量化模型进行单词特征表示,得到单词嵌入和位置嵌入;
12.步骤3:建立时序概率预测模型进行语义解码,得到对应的标签得分概率;
13.步骤4:建立最大化概率预测学习数据集中的标签转移概率,修正时序概率预测模型的输出,得到准确合理的标签预测序列;
14.步骤5:对非标准中文快递寄件信息实体识别结果进行可视化展示。
15.本发明中,所述步骤1的具体步骤如下:
16.步骤1.1:从快递公司的下单数据统一获取快递寄件信息,形成中文快递寄件信息数据集;
17.步骤1.2:对于得到的中文快递寄件信息数据集,进行预处理,将文本以单个字符为单元进行分词;
18.步骤1.3:以bieo体系进行对单个字符进行标注。
19.本发明中,所述步骤2包括:建立文本向量化模型进行词嵌入,对单词的特征进行表示,构建快递寄件信息文本中词序列的分布,用以评估其中任意一词序列的概率。
20.本发明中,所述步骤3还包括:利用时序概率预测模型从双向记忆所需要的信息和遗忘无用信息;
21.时序概率预测模型的单元由当前时刻的输入字x
t
、单元状态c
t
、临时单元状态隐藏状态h
t
、遗忘门f
t
、记忆门i
t
和输出门o
t
组成;
22.步骤3.1:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算遗忘门,选择要遗忘的信息得到f
t
。公式如下:
23.f
t
=σ(w
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0024]
步骤3.2:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算记忆门选择要记忆的信息,得到i
t
和临时细胞状态公式如下:
[0025]
i
t
=σ(w
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0026]
步骤3.3:根据记忆门的值i
t
,遗忘门的值,f
t
,临时细胞状态上一时刻细胞状态c
t
‑1,去计算当前时刻的细胞状态c
t
。公式如下:
[0027][0028]
步骤3.4:根据前一时刻的隐层状态h
t
‑1,当前时刻的输入词x
t
和当前时刻的细胞状态c
t
,计算输出门的值o
t
和隐层状态h
t
。公式如下:
[0029]
h
t
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0030]
o
t
=σ(w
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0031]
在每个单元时刻都通过记忆门和遗忘门对单元状态中的信息进行更新、丢弃,计算出有用的信息传递到下一单元,最终得到与句子长度相同的状态序列{h0,h1,h2,...,h
n
‑1,}。
[0032]
本发明中,所述步骤4还包括:
[0033]
通过最大化概率预测模型从训练数据中获得约束性规则,通过约束性规则保证预测标签的合法性;
[0034]
步骤4.1:标记序列的score,对于一个输入序列,对于给定的一个标记序列的标签,它的得分定义为:
[0035]
score=emissionscore+transitionscore
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0036]
步骤4.2:令emissionscore=x
0,start
+x
1,b

name
+

+x
n

1,o
+x
n,end
,其中x
0,start
和x
n,end
可以设置为0;
[0037]
步骤4.3:令transitionscore=t
start

>b

name
+t
b

name

>i

name
+...+t
o

>end
,transitionscore就是该序列状态转移矩阵中对应的和;
[0038]
步骤4.4:计算最大化概率预测模型的损失;给定一个输入序列,它的标记序列可能有很多,最大化概率预测模型的目的是使真实的序列的score在所有可能的序列的score和的占比最高,相关计算公式如下:
[0039][0040]
本发明中,所述步骤4.2中emissionscore的生成方法如下:
[0041]
步骤4.2.1:句子中的任意一词向量经过时序概率预测模型得到序列中每个位置的对应标签打分的和x
1,b

name
+x
2,i

name

+x
n

1,o
作为输出,输出到crf层进行emissionscore的计算。
[0042]
本发明中,步骤4.3中transitionscore的生成方法如下:
[0043]
步骤4.3.1:序列的i和i+1之间对应一个概率值,transitionscore是该序列状态转移矩阵中任意位置之间概率对应的和;
[0044]
本发明中,层级寄件信息标注体系标签包括:“b

name”、“e

name”、“i

name”、“b

tel”、“e

tel”、“i

tel”、“b

province”、“e

province”、“i

province”、“b

city”、“e

city”、“i

city”、“b

area”、“e

area”、“i

area”、“b

details”、“e

details”、“i

details”、“o”;
[0045]
其中b代表着实体词语的第一个字,e代表实体词语的最后一个字、i代表着实体词语中间的字,o代表非实体。这些独立的词被用作文本矢量化的输入。
[0046]
本发明还提供一种基于ner的非标准化中文快递寄件信息识别系统,包括:客户端,用于输入用户的中文快递寄件信息,以及可视化输出文本中快递地址信息的解析结果;
[0047]
服务器端,执行所述计算机程序,以实现基于ner的非标准化中文快递寄件信息识别方法的步骤;
[0048]
数据库端,用于存储客户群的中文快递寄件信息。
[0049]
从以上技术方案可以看出,本发明具有以下优点:
[0050]
本发明提出的基于ner的非标准中文快递寄件信息识别方法中,将用户在客户端输入的中文快递地址信息文本以单个字符为最小分割单元进行分割,然后将分割出的每个
字符进行标注,生成的带有标签的文本输入到文本向量化模型。
[0051]
其次,利用文本向量化模型进行词嵌入,由于文本向量化模型是基于bert模型的,所以它可以借鉴bert的优势,更彻底捕捉句子之间的依赖关系,构建快递寄件信息中的文本序列。然后,提出了时序概率预测模型,将经过文本向量化处理的数据转化成具有上下文相关的词向量输入到时序概率预测模型中进行进一步的语义解码,输出每一个标签的预测分值。然后提出了最大化概率预测模型解码bilstm层的输出序列,最大化概率预测模型可以从训练数据中获得约束性规则,用以保证预测标签是合理的,根据最终得到的预测标签,转换成所对应的实体。最后将得到的结果返回至用户界面,便于用户以可视化的查看快递寄件信息文本识别的准确度。
[0052]
针对非标准化中文快递寄件信息识别问题在现有研究中存在的不足,本发明在建立非标准化中文快递地址信息识别模型时,首先将用户在客户端输入的中文快递地址信息文本以单个字符为最小分割单元进行分割,然后将分割出的每个字符进行标注。生成的带有标签的文本输入到文本向量化模型,进行词嵌入,构建出快递寄件信息文本中词序列的分布,得到任意一次序列的预测概率。利用时序概率预测模型,将经过文本向量化的处理的数据转化成具有上下文相关的词向量进行进一步的语义解码,得到的每一个标签的预测分值作为下游推理任务的输入。最大化概率预测模型解码经时序概率预测模型的输出序列,降低非法序列出现的概率,得到最有可能的合法的预测标签。根据预测标签和转化为对应实体,最后将得到的识别结果返回至用户界面,验证中文快递寄件信息文本识别的准确度。针对非标准化中文快递寄件信息识别问题,本发明提供的新的求解模型和求解算法,提高了非标准化中文快递寄件信息识别的精确度。并且通过对比实验,证明基于ner的非标准化中文快递寄件信息识别模型在性能上优于其他传统模型以及市面上现有较为成熟的地址解析方法,具有实用价值。
附图说明
[0053]
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0054]
图1为基于ner的非标准中文快递寄件信息识别方法的流程图;
[0055]
图2为文本向量化模型结构图;
[0056]
图3为时序概率预测模型单元结构图;
[0057]
图4为时序概率预测模型整体结构图;
[0058]
图5为基于ner的非标准化中文快递寄件信息识别模型的体系结构图;
[0059]
图6为本发明的基于ner的非标准化中文快递寄件信息识别的输入输出示意图。
具体实施方式
[0060]
本发明提出的基于ner的非标准中文快递寄件信息识别方法中,所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和
设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0061]
本发明提出的基于ner的非标准中文快递寄件信息识别方法附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0062]
本发明提出的基于ner的非标准中文快递寄件信息识别方法中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0063]
如图1至6所示,本发明提供的基于ner的非标准中文快递寄件信息识别方法包括:
[0064]
s1:从快递公司的快递下单数据统一获取快递寄件信息,然后对于数据预处理,得到标注数据集;
[0065]
其中,步骤1.1:从快递公司的下单是数据统一获取快递寄件信息,形成中文快递寄件信息数据集。
[0066]
步骤1.2:对于得到的中文快递寄件信息数据集,进行预处理,将文本以单个字符为单元进行分词。
[0067]
步骤1.3:以bieo体系进行对单个字符进行标注。本发明的层级寄件信息标注体系标签包括:“b

name”、“e

name”、“i

name”、“b

tel”、“e

tel”、“i

tel”、“b

province”、“e

province”、“i

province”、“b

city”、“e

city”、“i

city”、“b

area”、“e

area”、“i

area”、“b

details”、“e

details”、“i

details”、“o”。其中b代表着实体词语的第一个字,e代表实体词语的最后一个字、i代表着实体词语中间的字,o代表非实体。这些独立的词被用作文本矢量化的输入。
[0068]
s2:读取数据,建立文本向量化模型进行单词特征表示,得到单词嵌入和位置嵌入;
[0069]
利用文本向量化模型进行词嵌入,构建快递寄件信息文本中词序列的分布,用以评估其中任意一词序列的概率。
[0070]
s3:建立时序概率预测模型进行语义解码,得到每个单词对应的标签得分概率;
[0071]
步骤s3中,利用时序概率预测模型从前后两个方向记忆所需要的信息和遗忘无用信息。时序概率预测模型的单元结构由当前时刻的输入字x
t
、单元(细胞)状态c
t
、临时单元(细胞)状态隐藏状态h
t
、遗忘门f
t
、记忆门i
t
和输出门o
t
组成。
[0072]
步骤3.1:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算遗忘门,选择要遗忘的信息得到f
t
。公式如下:
[0073]
f
t
=σ(w
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0074]
步骤3.2:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算记忆门选择要记忆的信息,得到i
t
和临时细胞状态公式如下:
[0075]
i
t
=σ(w
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0076]
步骤3.3:根据记忆门的值i
t
,遗忘门的值,f
t
,临时细胞状态上一时刻细胞状态c
t
‑1,去计算当前时刻的细胞状态c
t
。公式如下:
[0077][0078]
步骤3.4:根据前一时刻的隐层状态h
t
‑1,当前时刻的输入词x
t
和当前时刻的细胞状态c
t
,计算输出门的值o
t
和隐层状态h
t
。公式如下:
[0079]
h
t
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0080]
o
t
=σ(w
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0081]
在每个单元时刻都通过记忆门和遗忘门对单元状态中的信息进行更新、丢弃,计算出有用的信息传递到下一单元,最终得到与句子长度相同的状态序列{h0,h1,h2,...,h
n
‑1,}。
[0082]
s4:建立最大化概率预测模型学习数据集中的标签转移概率,修正时序概率预测模型的输出,得到准确合理的标签预测序列;
[0083]
也就是通过最大化概率预测模型从训练数据中获得约束性规则,将通过这些规则保证预测标签的合法性。
[0084]
步骤4.1:标记序列的score,对于一个输入序列,对于给定的一个标记序列的标签,它的得分定义为:
[0085]
score=emissionscore+transitionscore
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0086]
步骤4.2:令emissionscore=x
0,start
+x
1,b

name
+...+x
n

1,o
+x
n,end
,其中x
0,start
和x
n,end
可以设置为0。
[0087]
本发明中,步骤4.2中emissionscore的生成方法如下:
[0088]
步骤4.2.1:句子中的任意一词向量经过时序概率预测层得到序列中每个位置的对应标签打分的和x
1,b

name
+x
2,i

name
...+x
n

1,o
作为输出,输出到最大化概率预测模型中进行emissionscore的计算。
[0089]
步骤4.3:令transitionscore=t
start

>b

name
+t
b

name

>i

name
+...+t
o

>end
,transitionscore就是该序列状态转移矩阵中对应的和。
[0090]
本发明中,步骤4.3中transitionscore的生成方法如下:
[0091]
步骤4.3.1:序列的i和i+1之间对应一个概率值,transitionscore是该序列状态转移矩阵中任意位置之间概率对应的和;
[0092]
步骤4.4:计算损失;给定一个输入序列,它的标记序列可能有很多,最大化概率预测模型的目的是使真实的序列的score在所有可能的序列的score和的占比最高,相关计算公式如下:
[0093][0094]
s5:对非标准中文快递寄件信息实体识别结果进行可视化展示。
[0095]
本发明中,步骤5还包括:将经过基于ner的非标准化中文快递寄件信息识别模型解析的中文快递寄件信息文本的结果以可视化的方式返回到用户界面;用户可以查看实体识别的结果以及精确度。
[0096]
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。具体步骤如下:
[0097]
步骤一,从快递公司的快递下单数据统一获取快递寄件信息,然后对于数据预处理,得到标注数据集
[0098]
步骤1.1:从快递公司的快递下单数据获取寄件信息,形成中文快递寄件信息数据集。
[0099]
步骤1.2:对于得到的中文快递寄件信息数据集,进行预处理,将文本以单个字符为单元进行分词。
[0100]
步骤1.3:以bieo体系进行对单个字符进行标注。本发明的层级寄件信息标注体系标签包括:“b

name”、“e

name”、“i

name”、“b

tel”、“e

tel”、“i

tel”、“b

province”、“e

province”、“i

province”、“b

city”、“e

city”、“i

city”、“b

area”、“e

area”、“i

area”、“b

details”、“e

details”、“i

details”、“o”。其中b代表着实体词语的第一个字,e代表实体词语的最后一个字、i代表着实体词语中间的字,o代表非实体。这些独立的词被用作文本矢量化的输入。层级标注体系如表1所示。
[0101]
表1层级寄件信息标注体系
[0102][0103][0104]
步骤二,利用文本向量化模型进行词嵌入,构建快递寄件信息文本中词序列的分布,用以评估其中任意一词序列的概率。
[0105]
附图2给出了一个简单示例。由于步骤一获取的数据集规模较大,这里给出一个简单示例,描述用户输入文本中应包含的部分快递寄件文本信息。附图2展示了利用文本向量化模型进行词嵌入用以构建快递寄件信息文本中词序列的分布的整体流程。通过文本向量化模型评估其中任意一词序列的概率。为了训练双向特征,文本向量化模型的预训练任务包括遮蔽语言和预测下一个句子两部分组成。由于本发明的文本向量化模型是基于bert的文本向量化模型,它的整体框架借鉴了bert的多层transformer的encoder,将encoder堆叠起来,以达到更好的效果。每一层的encoder是由一层muti

head

attention和一层feed

forword组成。encoder中利用self

attention进行全连接计算,可使字与字之间的相关性更准确的被表述出来。
[0106]
步骤三,利用时序概率预测模型进行语义解码,得到每个单词对应的标签得分概率。
[0107]
附图3和附图4给出了一个简单示例。利用时序概率预测模型是由前向两个方向的时序组成的可以从前后两个方向记忆所需要的信息和遗忘无用信息的模型。时序概率预测模型的结构单元由当前时刻的输入字x
t
、单元(细胞)状态c
t
、临时单元(细胞)状态隐藏状态h
t
、遗忘门f
t
、记忆门i
t
和输出门o
t
组成。
[0108]
步骤3.1:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算遗忘门,选择要遗忘的信息得到f
t
。公式如下:
[0109]
f
t
=σ(w
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0110]
步骤3.2:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算记忆门选择要记忆的信息,得到i
t
和临时细胞状态公式如下:
[0111]
i
t
=σ(w
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0112]
步骤3.3:根据记忆门的值i
t
,遗忘门的值,f
t
,临时细胞状态上一时刻细胞状态c
t
‑1,去计算当前时刻的细胞状态c
t
。公式如下:
[0113][0114]
步骤3.4:根据前一时刻的隐层状态h
t
‑1,当前时刻的输入词x
t
和当前时刻的细胞状态c
t
,计算输出门的值o
t
和隐层状态h
t
。公式如下:
[0115]
h
t
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0116]
o
t
=σ(w
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0117]
由附图3可知,x
t
是t时刻加入的信息,在每个单元时刻都通过记忆门和遗忘门对单元状态中的信息进行更新、丢弃,计算出有用的信息传递到下一单元,最终得到与句子长度相同的状态序列{h0,h1,h2,...,h
n
‑1,},这些门结构能让信息选择性通过,用来去除或者增加信息到细胞状态。经运算最终得到当前神经元的输出o
t
。附图4为时序概率预测模型结构图,其中,时序概率预测模型的输入是经文本向量化模型得到的经过嵌入的词向量,输出的是每个字对应的预测标签,如0.9(b

name),0.7(i

name),0.05(e

area,0.01(o)。
[0118]
步骤四,通过最大化概率预测模型学习数据集中的标签转移概率,修正时序概率预测模型的输出,得到准确合理的标签预测序列,步骤包括:
[0119]
步骤4.1:标记序列的score,对于一个输入序列,对于给定的一个标记序列的标签,它的得分定义为:
[0120]
score=emissionscore+transitionscore
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0121]
步骤4.2:令emissionscore=x
0,start
+x
1,b

name
+...+x
n

1,o
+x
n,end
,其中x
0,start
和x
n,end
可以设置为0;
[0122]
步骤4.3:令transitionscore=t
start

>b

name
+t
b

name

>i

name
+...+t
o

>end
,transitionscore就是该序列状态转移矩阵中对应的和;
[0123]
步骤4.4:计算损失;给定一个输入序列,它的标记序列可能有很多,最大化概率预
测模型的目的是使真实的序列的score在所有可能的序列的score和的占比最高,相关计算公式如下:
[0124][0125]
附图5给出了基于ner的非标准化中文快递寄件信息识别模型的模型架构图。
[0126]
附图6给出了非标准化中文寄件信息识别的输入输出示意图,方便为用户进行可视化展示。
[0127]
步骤五,对非标准化中文快递寄件信息实体识别结果进行可视化展示,本发明提供了一种非标准化中文快递寄件信息解析结果可视化的方法,将用户不规则的中文快递寄件信息的识别结果以可视化的方式返回。
[0128]
本发明还提供一种基于ner的非标准化中文快递寄件信息识别系统,包括:客户端,用于输入用户的中文快递寄件信息,以及可视化输出文本中快递地址信息的解析结果;服务器端,执行所述计算机程序,以实现基于ner的非标准中文快递寄件信息识别方法的步骤;数据库端,用于存储客户群的中文快递寄件信息。
[0129]
客户端使用jsp技术,提供操作和展示界面,包括中文快递寄件基本信息的输入,其中包括姓名、电话号、省/自治区/直辖市、市/自治州/县/自治县、区、详细地址以及无效信息等,以及非标准化中文快递寄件信息实体识别结果进行可视化展示;服务器端用java技术实现,拦截的请求,进行处理,然后将结果返回到客户端;数据库端,采用mysql数据库建立数据库存储客户群的快递寄件基本信息。
[0130]
基于ner的非标准化中文快递寄件信息识别系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0131]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1