地址结构化方法及装置的制造方法_2

文档序号:8361543阅读:来源:国知局
r>[0030] 图2为本发明地址结构化方法实施例中示例地址文本的依存句法图结构;
[0031] 图3为本发明地址结构化装置的方框图。
【具体实施方式】
[0032] 下面结合附图,通过对本发明的【具体实施方式】详细描述,将使本发明的技术方案 及其有益效果显而易见。
[0033] 参见图1,其为本发明地址结构化方法一较佳实施例的流程图。该方法主要包括:
[0034] 步骤10、将地址文本切分为地址词序列;步骤20、根据预定义的反映地址词特性 的词性标注集对地址词序列中每个地址词进行词性标注;步骤30、按照预定义的地址词依 存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地 址词之间的依存关系作为边,生成反映地址结构的依存句法图结构。本发明为了最终提供 依存句法图结构,需要解决2个主要问题:对任意地址进行切分和标注,再在切分标注的 基础上生成依存句法图结构。
[0035] 首先通过步骤10和20进行地址的切分和标注。以"深圳市南山区高新中一道软件 大厦713"为例,首先通过地址切分,该地址表不为"株圳市 南山区 尚新中一道 软件大厦一一713",得到了地址词的序列,然后,通过地址标注,该地址表示为了标注序列 "株圳市/市 南山区/区 尚新中一道/道路 软件大厦/楼栋 713/房间"。
[0036] 由于屈折语系的语言自带词分隔符,地址切分相对简单,下面仅以中文地址为例 来说明本发明。本发明所指的中文地址,是由Unicode中CJK字符集所收录的字符组成,包 含了绝大部分中文,以及小部分非中文的字符。在当前任务中,地址切分,或者叫做地址 分词,目的就是将中文地址中的"词"切割出来。由于地址词的概念在哪一个地方都没有 明确的定义,所以很难有确定的正确答案。有关专家的调查表明,在母语为汉语的被试者 之间,对汉语文本中出现的词语的认同率只有大约70%。所以遇到切分歧义问题不代表系 统或者方法是不可靠的或者一定有一种是错误的。本发明按照两个切分基本的原则来确保 在一般情况下地址词不产生歧义:
[0037] 1)最小单位原则,切分出来的词是否能保持不丧失语义,并且不增加歧义。
[0038] 2)无水波效应原则,对一个词的切分是否影响了其他词的语义。保证词的切分对 其他词没有影响。
[0039] 在本发明一较佳实施例中,首先使用纯粹的统计模型HMM来进行地址词的切分。 该方法是常见的分词方法,不再赘述。然后,再根据预定的词性标注集(taggingset)进 行地址标注。本发明的地址标注任务和通常的词性标注很类似,只不过判断的是每个词实 际的物理空间范畴,这个范畴由本发明的地址标注系统给出。也就是说,本发明进行词性 标注的过程与一般的自然语言词性标注过程相同,但是本发明的词性标注集主要关注于地 址词所表示的物理空间范畴,而非词的名词、动词、形容词或其他词性。
[0040] 为了方便处理地址,本发明按照地址词所占据空间的特点,提出了标注的主干。 然后,为了兼容另一部分语句,引入了一部分词性标注,比如"与"标签(tag)。请注意, 标注只代表地址词所占据空间的性质,并不存在强制的层级包含关系。比如在新加坡"国 家"和"市"是同一个空间。在梵蒂冈,"国家"在空间上从属于罗马"市"。在标注的时候关 注它的性质,而不是它的空间大小。如下表一是本发明一较佳实施例的标注系统的详细内 容。本发明称对应于地址实体的地址词为实体地址词,实体地址词可以对应用表一中的国 家、省、市、区、街道、社区、片区、道路、门牌号、楼栋、房间、交汇处或地铁线等标签来标注。
[0041] 表一、地址标注体系
【主权项】
1. 一种地址结构化方法,其特征在于,包括: 步骤10、将地址文本切分为地址词序列; 步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行 词性标注; 步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分 析,W实体地址词作为节点,W实体地址词之间的依存关系作为边,生成反映地址结构的依 存句法图结构。
2. 根据权利要求1所述的地址结构化方法,其特征在于,所述地址为中文地址。
3. 根据权利要求2所述的地址结构化方法,其特征在于,步骤10中基于隐马尔可夫模 型进行地址文本切分。
4. 根据权利要求1所述的地址结构化方法,其特征在于,步骤20中基于隐马尔可夫模 型进行词性标注。
5. 根据权利要求4所述的地址结构化方法,其特征在于,步骤20中还使用预定义的标 注规则对词性标注结果进行修正。
6. 根据权利要求1所述的地址结构化方法,其特征在于,所述词性标注集包括代表实 体地址词所占据空间的标签。
7. 根据权利要求6所述的地址结构化方法,其特征在于,所述代表实体地址词所占据 空间的标签为国家、省、市、区、街道、社区、片区、道路、n牌号、楼栋、房间、交汇处或地铁 线。
8. 根据权利要求1所述的地址结构化方法,其特征在于,所述预定义的依存关系规则 为包含关系、n牌号指向关系、邻接关系或同名关系。
9. 一种地址结构化装置,其特征在于,包括: 地址文本切分模块,用于将地址文本切分为地址词序列; 地址词标注模块,用于根据预定义的反映地址词特性的词性标注集对地址词序列中每 个地址词进行词性标注; 依存句法分析模块,用于按照预定义的地址词依存关系规则,对标注后的地址词序列 进行依存句法分析,W实体地址词作为节点,W实体地址词之间的依存关系作为边,生成反 映地址结构的依存句法图结构。
10. 根据权利要求9所述的地址结构化装置,其特征在于,所述地址为中文地址。
【专利摘要】本发明涉及一种地址结构化方法及装置。该地址结构化方法包括:步骤10、将地址文本切分为地址词序列;步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构的依存句法图结构。本发明还提供了地址结构化装置。本发明地址结构化方法及装置能够高效的自动化的生成依存句法图结构来表示地址文本中词之间的依存关系;人工干预的策略简单,不需要了解大量的背景知识;本发明扩展了依存树的结构,使之能够以图的形式表达地址词间的关系。
【IPC分类】G06F17-30
【公开号】CN104679850
【申请号】CN201510080522
【发明人】茹旷, 边旭, 吴颖徽, 马帅, 贾西贝
【申请人】深圳市华傲数据技术有限公司
【公开日】2015年6月3日
【申请日】2015年2月13日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1