一种用户的生活圈提取方法及系统的制作方法_2

文档序号:8282393阅读:来源:国知局
标识训练地址集,所述标识训练地址集包括训练敏感词以及用于描述所述 训练敏感词的生活圈类型的训练生活圈类型标识,获取标识特征模板,所述标识特征模板 包括至少一条对所述标识训练地址集进行特征描述的标识特征,将所述标识训练地址集和 所述标识特征模板采用条件随机场模型进行训练,得到地址标识训练模型;
[0032] 步骤S103,包括:获取至少一个所述用户的实际地址,将所述实际地址进行切分 得到实际最小切分结果;
[0033] 步骤S104,包括:将所述实际最小切分结果输入所述地址切分训练模型,得到用 于描述所述实际最小切分结果的成词类型的实际成词类型标注,根据所述实际最小切分结 果的实际成词类型标注,将所述实际最小切分结果重新组合为生活圈名称;
[0034] 步骤S105,包括:从所述实际最小切分结果中选取与生活圈类型相关的实际敏感 词,将所述实际敏感词输入所述地址标识训练模型,得到用于描述所述实际敏感词的生活 圈类型的实际生活圈类型标识;
[0035] 步骤S106,包括:对每个所述实际地址生成包括所述生活圈名称及对相应的实际 敏感词的实际生活圈类型标识的生活圈。
[0036] 本发明通过训练地址,训练出地址切分训练模型和地址标识训练模型,并将实际 地址通过地址切分训练模型和地址标识训练模型分别提取出相应的生活圈名称及实际生 活圈类型标识,从而准确地识别出用户的地址的生活圈的名称和类型。
[0037] 其中,步骤SlOl获取多个用于进行训练的切分训练地址,对所述切分训练地址进 行切分得到切分最小训练结果,并采用条件随机场模型进行训练。对所述切分训练地址进 行切分得到切分最小训练结果可以采用现有的自动切分方法实现,例如采用现有名称为 snailseg的分词工具,其为开源的最小切分软件,在github上面可以下载到源码。切分 最小训练结果指的是将训练地址进行最小切分,例如:"北辰世纪中心"的最小切分结果为: "北"、"辰"、"世纪"、"中心"。
[0038] 将切分最小训练结果添加用于描述所述切分最小训练结果的成词类型的训练成 词类型标注,得到切分训练地址集。训练成词类型标注可以采用人工对所有的切分最小训 练结果进行标注,成词类型标注指的是该最小训练结果在成词时的类型的标注。优选地,成 词类型包括词开头、词中间或结尾、以及单独成词。例如"利泽中二路"的最小切分结果为 "利泽"、"中二"、"路",则"利泽"为词开头,"中二"和"路"为词中间或结尾,而"北三环东路 北京化工大学"的最小切分结果为"北三环"、"东路"、"北京化工大学",其中"北三环"为词 开头,"东路"为词中间或结尾,而"北京化工大学"为单独成词。
[0039] 在处理地址时,会遇到很多规则解决不了的难题。
[0040] (1)地址切分中会遇到切分歧义和新地址的难题,切分歧义如:中关村北大街、中 关村/北大街,用规则很难解决到底该在哪里切分;而每当新地址出现的时候,也要不断的 添加新的规则,这也是一项无止境的工作。
[0041] (2)地址标注会遇到标注歧义的问题。下面就标注歧义来说明。
[0042] 例如"XX中心"这么一个地址单元,可能是一个"写字楼",也可能是一家"公司"或 是一家"机构"。例如:"北辰世纪中心"就是一个写字楼,而"寿山福海养老中心"就是一个 机构。如果通过人工指定规则的话,就会比较繁琐,而且也不一定能解决好。
[0043] 条件随机场(CRF)理论可以用于序列标记、数据分割、组块分析等自然语言处理 任务中。在中文分词、中文人名识别、歧义消解等汉语自然语言处理任务中都有应用,表现 很好。
[0044] 对于一个给定的条件随机场,输入序列X为训练的数据,输出序列y为标记的结 果,通过计算条件概率P (Yi = yi IX),P (Yp1= y H,Yi= y i IX)相应的数学期望,选择其中期 望值最大的Yi作为^的结果。
[0045] 目前基于CRF的主要工具实现有CRF,FlexCRF,CRF++,和CRFsuite,本发明优选 使用 CRFsuite0
[0046] 对于上述地址切分和标注问题基于条件随机场(CRF)的模型是怎么解决呢?其 实,地址单元之间是有关联的,例如,"北辰世纪中心"后面有"12层"这么一个"楼层"的类 型,因此"北辰世纪中心"是一个"写字楼"的概率要大于一个"机构"。条件随机场模型在 训练的时候,得到很多这样的信息。在后续标注时,就给出准确的答案。CRF就是这样利用 词的前后关系进行处理的。
[0047] 切分特征模板对所述切分训练地址集进行特征描述,对于条件随机场模型来说, 训练时需要训练数据及特征模板,这样训练模型就会根据事先写好的特征模板训练出每 个特征的权重。特征函数是状态特征函数和转移特征函数的统一形式表示。特征函数通常 是二值函数,取值要么为1要么为0。条件随机场模型采用如下特征函数:
[0048]
【主权项】
1. 一种用户的生活圈提取方法,其特征在于,包括: 地址切分训练步骤,包括:获取多个用于进行训练的切分训练地址,对所述切分训练地 址进行切分得到切分最小训练结果,获取切分训练地址集,所述切分训练地址集包括所述 切分最小训练结果W及用于描述所述切分最小训练结果的成词类型的训练成词类型标注, 获取切分特征模板,所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征 描述的切分特征,将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训 练,得到地址切分训练模型; 地址标识训练步骤,包括:获取多个用于进行训练的标识训练地址,对所述标识训练地 址进行切分得到标识最小训练结果,从所述标识最小训练结果中选取与生活圈类型相关的 训练敏感词,获取标识训练地址集,所述标识训练地址集包括训练敏感词W及用于描述所 述训练敏感词的生活圈类型的训练生活圈类型标识,获取标识特征模板,所述标识特征模 板包括至少一条对所述标识训练地址集进行特征描述的标识特征,将所述标识训练地址集 和所述标识特征模板采用条件随机场模型进行训练,得到地址标识训练模型; 实际地址获取步骤,包括;获取至少一个所述用户的实际地址,将所述实际地址进行切 分得到实际最小切分结果. 实际地址切分步骤,包括:将所述实际最小切分结果输入所述地址切分训练模型,得到 用于描述所述实际最小切分结果的成词类型的实际成词类型标注,根据所述实际最小切分 结果的实际成词类型标注,将所述实际最小切分结果重新组合为生活圈名称; 实际地址标识步骤,包括:从所述实际最小切分结果中选取与生活圈类型相关的实际 敏感词,将所述实际敏感词输入所述地址标识训练模型,得到用于描述所述实际敏感词的 生活圈类型的实际生
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1