有限状态机的地址解析方法及装置的制造方法_3

文档序号:9865489阅读:来源:国知局
按照尽可能对输入串进行切分的原则设计,可W通过在city, business 设置权重为1达到此目的,假设现在有一个输入串是AB,那么在WFSTl上可W捜索到的路径 有如下两条:
[0087] 第一条路径(节点编号构成):0 1 3 2 5,权重和为1+1 = 2;第二条路径(节点编号 构成):0 2 4 5,权重和为1。
[0088] 当选择权重最大的那条路径即第一条那么输出便是A(city)B(business),运也是 对输入串尽可能切分的一种设计。如果将状态机设计为尽可能匹配输入串的长度,那么将 上述状态机的权重选择改为选择路径权重最小的即可,运样输入串AB的输出便是AB (business),运样便是尽可能的匹配输入串。
[0089] 无论上述哪种设计策略,仅仅一种切分原则都无法避免误切分的问题,假设采用 尽可能切分策略,且A =北京,B =工商银行,在实际情况中AB很可能不分开更好。所W,仅仅 依靠带权重的状态机来设计切分原则,运样的解码结果准确率不够高。仅依靠带权重的状 态机的另一个缺点是对语义无法进行检查,比如输入串是上海市天安口,它的输出就是上 海市(city)天安口(business)。运个地址串符号地址的结构,即符号地址语法本,但语义上 不正确,因为上海没有天安口,但当前的状态机无法核查。
[0090] 因为,为了解决上述问题,进一步地提高解码的准确性,在解码器中设置语言模型 结合权重信息进行解码,参见图9的解码过程。
[0091] 图9是本申请另一个实施例的有限状态机的地址解析方法的流程图。
[0092 ] 如图9所示,在步骤104之后,该有限状态机的地址解析方法可W还包括W下步骤:
[0093] 步骤201,接收待解析的地址信息;
[0094] 步骤202,应用所述第四状态机对所述地址信息进行解码。
[00M]步骤203,根据预设的权重获取解码结果的权重值。
[0096] 步骤204,根据预设的语言模型对解码结果进行评分。
[0097] 步骤205,根据所述评分和所述权重值进行插值处理获取解码结果。
[0098] 具体地,当解码器接收到待进行解析的地址信息时,应用上述实施例构建的第四 状态机对地址信息进行地址解码。
[0099] 为了保证解码结果的准确性,本实施例根据预先建立的地址语料库训练一个语言 模型,在解码过程中,对所有候选解码结果将其权重和与语言模型得分进行插值,选择得分 最高的作为解码结果。运样用语言模型来进行语义上的检查,比如上述的上海市天安口在 真实的地址中很少见,因为并不存在,所W语言模型对运个输入串的打分非常低,在和状态 机的解码路径权重和插值时就能降低运个输入串的整体得分。
[0100] 本申请实施例的有限状态机的地址解析方法,通过接收待解析的地址信息,应用 所述第四状态机对所述地址信息进行解码,根据预设的权重获取解码结果的权重值,根据 预设的语言模型对解码结果进行评分,根据所述评分和所述权重值进行插值处理获取解码 结果。由此,实现了通过规则语言和解释程序自动构建的地址解析状态机,W及预设的语言 模型进行地址解析,提高了地址解析的准确性和通用性。
[0101] 为了实现上述实施例,本申请还提出一种有限状态机的地址解析装置。
[0102] 图10是本申请一个实施例的有限状态机的地址解析装置的结构示意图。
[0103] 如图10所示,该有限状态机的地址解析装置包括:
[0104] 描述模块11,用于根据预配的资源字典中的多个地址类型,采用预设的语法规则 描述需要解析的地址结构;
[0105] 第一构建模块12,用于通过所述语法规则的解释程序将所述地址结构翻译成状态 机框架,并根据所述状态机框架构建第一状态机;
[0106] 第二构建模块13,用于根据所述资源字典中与每个地址类型对应的地址资源,构 建与每个地址类型对应的第二状态机,并将所有的第二状态机合并加环构建第Ξ状态机;
[0107] 第Ξ构建模块14,用于将所述第一状态机和所述第Ξ状态机合并构建第四状态 机,W便解码器应用所述第四状态机进行地址解码。
[0108] 需要说明的是,前述对有限状态机的地址解析方法实施例的解释说明也适用于该 实施例的有限状态机的地址解析装置,此处不再寶述。
[0109] 具体地,所述地址结构包括W下至少之一:
[0110] 城市信息、区信息、W及商圈信息;
[0111] 城市信息W及商圈信息;
[0112] 区信息W及商圈信息。
[0113] 具体地,所述状态机框架包括:
[0114] 每个地址类型的分割标签;
[0115] 与每个分割标签对应的开始标识、中间过程标识W及结束标识;
[0116] 状态机中的起始节点和终止节点。
[0117] 在一个实施例中,
[0118] 描述模块11用于:采用预设的语法规则描述需要解析的地址结构,W及与地址结 构对应的权重信息;
[0119] 第一构建模块12用于:通过所述语法规则的解释程序将所述地址结构和所述权重 信息,翻译成携带地址权重的状态机框架,并根据所述状态机框架构建携带地址权重的第 一状态机。
[0120] 本申请实施例的有限状态机的地址解析装置,根据预配的资源字典中的多个地址 类型,采用预设的语法规则描述需要解析的地址结构;通过所述语法规则的解释程序将所 述地址结构翻译成状态机框架,并根据所述状态机框架构建第一状态机;根据所述资源字 典中与每个地址类型对应的地址资源,构建与每个地址类型对应的第二状态机,并将所有 的第二状态机合并加环构建第Ξ状态机;将所述第一状态机和所述第Ξ状态机合并构建第 四状态机,W便解码器应用所述第四状态机进行地址解码。由此,实现了通过规则语言和解 释程序自动构建地址解析状态机,并且随着拓扑结构的变化适应调整状态机结构,提高了 地址解析的灵活性,可扩展性,W及通用性。
[0121] 图11是本申请另一个实施例的有限状态机的地址解析装置的结构示意图,如图11 所示,基于图10所示实施例,还包括:
[0122] 接收模块15,用于接收待解析的地址信息;
[0123] 解码模块16,用于应用所述第四状态机对所述地址信息进行解码。
[0124] 进一步地,还包括;
[0125] 处理模块17,用于根据预设的权重获取解码结果的权重值,根据预设的语言模型 对解码结果进行评分,根据所述评分和所述权重值进行插值处理获取解码结果。
[0126] 需要说明的是,前述对有限状态机的地址解析方法实施例的解释说明也适用于该 实施例的有限状态机的地址解析装置,此处不再寶述。
[0127] 本申请实施例的有限状态机的地址解析装置,通过接收待解析的地址信息,应用 所述第四状态机对所述地址信息进行解码,根据预设的权重获取解码结果的权重值,根据 预设的语言模型对解码结果进行评分,根据所述评分和所述权重值进行插值处理获取解码 结果。由此,实现了通过规则语言和解释程序自动构建的地址解析状态机,W及预设的语言 模型进行地址解析,提高了地址解析的准确性和通用性。
[0128] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可W在任 一个或多个实施例或示例中W合适的方式结合。此外,在不相互矛盾的情况下,本领域的技 术人员可W将本说明书中描述的不同实施例或示例W及不同实施例或示例的特征进行结 合和组合。
[0129] 此外,术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对重要性 或者隐含指明所指示的技术特征的数量。
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1