一种用户的生活圈提取方法及系统的制作方法

文档序号:8282393阅读:205来源:国知局
一种用户的生活圈提取方法及系统的制作方法
【技术领域】
[0001] 本发明涉及电子商务相关技术领域,特别是一种用户的生活圈提取方法及系统。
【背景技术】
[0002] 在电子商务网站进行购物的用户所填写的收货地址中蕴含着丰富的信息,识别出 用户地址中的小区名字、写字楼名字或办公地点名字等对电子商务公司来说是很重要的工 作。
[0003] 现有提取地址的"生活圈"关键词,一般都是利用自组织词库进行分词查找。
[0004] 然而,通过自组织词库,无法精确的从收货地址中将"生活圈"的名字和类型提取 出来。

【发明内容】

[0005] 基于此,有必要针对现有技术无法精确的从收货地址中将"生活圈"的名字和类型 提取出来的技术问题,提供一种用户的生活圈提取方法及系统。
[0006] 一种用户的生活圈提取方法,包括:
[0007] 地址切分训练步骤,包括:获取多个用于进行训练的切分训练地址,对所述切分训 练地址进行切分得到切分最小训练结果,获取切分训练地址集,所述切分训练地址集包括 所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型 标注,获取切分特征模板,所述切分特征模板包括至少一条用于对所述切分训练地址集进 行特征描述的切分特征,将所述切分训练地址集和所述切分特征模板采用条件随机场模型 进行训练,得到地址切分训练模型;
[0008] 地址标识训练步骤,包括:获取多个用于进行训练的标识训练地址,对所述标识训 练地址进行切分得到标识最小训练结果,从所述标识最小训练结果中选取与生活圈类型相 关的训练敏感词,获取标识训练地址集,所述标识训练地址集包括训练敏感词以及用于描 述所述训练敏感词的生活圈类型的训练生活圈类型标识,获取标识特征模板,所述标识特 征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征,将所述标识训练地 址集和所述标识特征模板采用条件随机场模型进行训练,得到地址标识训练模型;
[0009] 实际地址获取步骤,包括:获取至少一个所述用户的实际地址,将所述实际地址进 行切分得到实际最小切分结果;
[0010] 实际地址切分步骤,包括:将所述实际最小切分结果输入所述地址切分训练模型, 得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注,根据所述实际最小 切分结果的实际成词类型标注,将所述实际最小切分结果重新组合为生活圈名称;
[0011] 实际地址标识步骤,包括:从所述实际最小切分结果中选取与生活圈类型相关的 实际敏感词,将所述实际敏感词输入所述地址标识训练模型,得到用于描述所述实际敏感 词的生活圈类型的实际生活圈类型标识;
[0012] 生活圈提取步骤,包括:对每个所述实际地址生成包括所述生活圈名称及对相应 的实际敏感词的实际生活圈类型标识的生活圈。
[0013] 一种用户的生活圈提取系统,包括:
[0014] 地址切分训练模块,用于:获取多个用于进行训练的切分训练地址,对所述切分训 练地址进行切分得到切分最小训练结果,获取切分训练地址集,所述切分训练地址集包括 所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型 标注,获取切分特征模板,所述切分特征模板包括至少一条用于对所述切分训练地址集进 行特征描述的切分特征,将所述切分训练地址集和所述切分特征模板采用条件随机场模型 进行训练,得到地址切分训练模型;
[0015] 地址标识训练模块,用于:获取多个用于进行训练的标识训练地址,对所述标识训 练地址进行切分得到标识最小训练结果,从所述标识最小训练结果中选取与生活圈类型相 关的训练敏感词,获取标识训练地址集,所述标识训练地址集包括训练敏感词以及用于描 述所述训练敏感词的生活圈类型的训练生活圈类型标识,获取标识特征模板,所述标识特 征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征,将所述标识训练地 址集和所述标识特征模板采用条件随机场模型进行训练,得到地址标识训练模型;
[0016] 实际地址获取模块,用于:获取至少一个所述用户的实际地址,将所述实际地址进 行切分得到实际最小切分结果;
[0017] 实际地址切分模块,用于:将所述实际最小切分结果输入所述地址切分训练模型, 得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注,根据所述实际最小 切分结果的实际成词类型标注,将所述实际最小切分结果重新组合为生活圈名称;
[0018] 实际地址标识模块,用于:从所述实际最小切分结果中选取与生活圈类型相关的 实际敏感词,将所述实际敏感词输入所述地址标识训练模型,得到用于描述所述实际敏感 词的生活圈类型的实际生活圈类型标识;
[0019] 生活圈类型模块,用于:对每个所述实际地址生成包括所述生活圈名称及对相应 的实际敏感词的实际生活圈类型标识的生活圈。
[0020] 本发明通过训练地址,训练出地址切分训练模型和地址标识训练模型,并将实际 地址通过地址切分训练模型和地址标识训练模型分别提取出相应的生活圈名称及实际生 活圈类型标识,从而准确地识别出用户的地址的生活圈的名称和类型。
【附图说明】
[0021] 图1为本发明一种用户的生活圈提取方法的工作流程图;
[0022] 图2为切分训练地址集的例子示意图;
[0023] 图3为切分特征模板的例子不意图;
[0024] 图4为标识训练地址集的例子示意图;
[0025] 图5为标识特征模板的例子示意图;
[0026] 图6为切分标识的例子不意图;
[0027] 图7为本发明一种用户的生活圈提取系统的结构模块图。
【具体实施方式】
[0028] 下面结合附图和具体实施例对本发明做进一步详细的说明。
[0029] 如图1所示为本发明一种用户的生活圈提取方法的工作流程图,包括:
[0030] 步骤S101,包括:获取多个用于进行训练的切分训练地址,对所述切分训练地址 进行切分得到切分最小训练结果,获取切分训练地址集,所述切分训练地址集包括所述切 分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注,获 取切分特征模板,所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描 述的切分特征,将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训 练,得到地址切分训练模型;
[0031] 步骤S102,包括:获取多个用于进行训练的标识训练地址,对所述标识训练地址 进行切分得到标识最小训练结果,从所述标识最小训练结果中选取与生活圈类型相关的训 练敏感词,获取
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1