基于网络数据分析的潜在用户挖掘方法_2

文档序号:9524227阅读:来源:国知局
人物描述信息特征词,执行步骤402,否则返回结论:网页 正文信息中不存在人物描述信息。
[0031] 步骤402判断网页正文信息中是否存在人名特征; 其存在条件为;在网页正文内容中匹配到人名特征字符串,并且仅匹配到一次,人名特 征字符串的匹配正则表达式为:
如存在,执行步骤403,否则返回结论:网页正文信息中不存在人物描述信息。
[0032] 步骤403抽取人名; 抽取上述匹配到的人名特征字符串,并写入上述XML结构相应标签中。
[0033] 步骤404判断网页正文中是否存在性别特征词; 其存在条件为:网页正文内容中存在特征词:男、女,并且特征词只出现一次。
[0034] 如符合存在条件,执行步骤405,否则执行步骤406。
[0035] 步骤405抽取性别信息; 性别信息为上述正文内容中存在的性别特征词:男或者女,将其写入上述XML结构相 应标签中。
[0036] 步骤406判断网页正文内容中是否存在出生日期信息; 其存在条件为:在网页正文内容中匹配到出生日期特征字符串,并且仅匹配到一次,出 生日期特征字符串的匹配正则表达式为:
如存在,执行步骤407,否则执行步骤408。
[0037] 步骤407抽取出生日期信息; 抽取W上匹配到的出生日期特征字符串,写入上述XML结构相应标签中。
[0038] 步骤408判断网页正文中是否存在职务信息; 本实施例中维护了一个职务信息数据库,数据库中枚举了所有可能的职务名称,如总 经理、总裁、总统等。步骤408的处理流程为:依次获取职务信息数据库中的职务名称,判断 该名称是否在网页正文信息中出现,如出现则执行步骤409,否则执行步骤410。职务信息 数据库由维护人员依据现实情况预先维护好。
[0039] 步骤409抽取职务信息; 将上述职务信息数据库中存在的,并且出现在网页正文内容中的职务名称写入XML结 构相应标签中,如出现多个职务名称,一起写入XML结构相应标签中。
[0040] 步骤410判断网页正文中是否存在职称信息; 本实施例中维护了一个职称信息数据库,数据库中枚举了所有可能的职称名称,如研 究员、教授、编审等。步骤410的处理流程为:依次获取职称信息数据库中的职称名称,判断 该名称是否在网页正文内容中出现,如出现则执行411,否则将上述步骤抽取到的人物描述 信息XML结构输出。职称信息数据库由维护人员依据国家职称评定办法预先维护好。
[0041] 步骤411抽取职称信息; 将上述职称信息数据库中存在的,并且出现在网页正文内容中的职称名称写入XML结 构相应标签中,如出现多个职称名称,一起写入XML结构相应标签中。
[0042] 最后,将上述步骤抽取到的人物描述信息XML结构整体输出。
[0043] 步骤50针对存在邮件或者手机号码的网页正文信息,进行分词,获取关键词组, 并对每一关键词进行权重计算; 优选的,在步骤50中,在对每一个关键词进行权重计算之前,为了更好地提取到能够 反映网页正文信息的关键词,可W根据预先维护好的停用词表对获取的关键词组进行过 滤,例如,将转载、方法、效率、比方等词过滤掉。
[0044] 在步骤50中,对每一关键词进行权重计算的方法是;计算关键词在网页正文中的 词频(TF),同时计算该关键词的文件频率(IDF),将两者的乘积作为该关键词的权重。关键 词权重的计算公式为:
步骤60对关键词进行权重排序,生成特征关键词向量,用于描述偏好信息; 依据关键词的权重,对关键词依据权重从大到小排序。优选地,为了限制关键词的数 量,本实施例预先设定了有效关键词权重阔值,对权重低于阔值的关键词从关键词组中删 除。
[0045] 将关键词连同权重一并输出,作为表征网页正文信息的关键词特征向量,送一关 键词特征向量将用来描述用户偏好。
[0046] 步骤70将邮件地址、手机号码、识别的可能存在的人物描述信息W及所生成的关 键词特征向量保存至潜在用户数据库; 巧引上述获取到的信息作为一组记录保存到潜在用户数据库中,其中关键词特征向量 用来描述用户偏好。
[0047] 为了更好的说明本发明所述方法的有益效果,本实施例不妨W-个示例说明基于 本发明所述方案生成的潜在用户数据库的应用价值,如表1所示。表中第一列为开展的业 务名称,表中第一行为潜在用户数据库中挖掘到的用户信息,表中其他位置为基于业务,针 对潜在用户信息,所开展的精准营销的内容。
[0048]表1
必须指出的是,上述表1所述应用示例旨在说明本发明所述方法获取到的潜在用户数 据库的应用价值,其内容不包含在本发明涉及的内容W及权利要求之内。
[0049]W上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范 围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方 案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
【主权项】
1. 一种基于网络数据分析的潜在用户挖掘方法,其特征在于,包括: 米集互联网网页; 网页初始化,获取网页中的正文信息; 抽取网页正文信息中可能存在的邮件地址、手机号码; 针对存在邮件地址或者手机号码的网页正文信息,识别可能存在的人物描述信息; 针对存在邮件地址或者手机号码的网页正文信息,进行分词,获取关键词组,并对每一 关键词进行权重计算; 对关键词进行权重排序,生成关键词特征向量,用于描述偏好信息; 将邮件地址、手机号码、识别的可能存在的人物描述信息以及所生成的关键词特征向 量保存至潜在用户数据库。2. 如权利要求1所述的方法,其特征在于:所述步骤采集互联网网页进一步包括:根据 输入的预定网址,采集该网址下的所有网页。3. 如权利要求1所述的方法,其特征在于:所述抽取网页正文信息中可能存在的邮件 地址、手机号码进一步包括: 在网页正文信息中匹配邮件地址正则表达式; 抽取成功匹配的邮件地址; 在网页正文信息中匹配手机号码正则表达式; 抽取成功匹配的手机号码。4. 如权利要求3所述的方法,其特征在于:邮件地址正则表达式为:5. 如权利要求3所述的方法,其特征在于:手机号码正则表达式为:6. 如权利要求1所述的方法,其特征在于:所述人物描述信息包括:姓名、性别、出生年 月、职务、职称。7. 如权利要求1、6所述的方法,其特征在于:所述识别可能存在的人物描述信息进一 步包括: 判断网页正文信息中是否存在人物描述信息特征词; 判断网页正文信息中是否存在人名特征; 抽取人名; 判断网页正文中是否存在性别特征词; 抽取性别信息; 判断网页正文内容中是否存在出生日期信息; 抽取出生日期信息; 判断网页正文中是否存在职务信息; 抽取职务信息; 判断网页正文中是否存在职称信息; 抽取职称息; 将上述步骤抽取到的人物描述信息整体输出。8. 如权利要求7所述的方法,其特征在于:存在人名特征的条件进一步为:在网页正 文内容中匹配到人名特征字符串,并且仅匹配到一次,人名特征字符串的匹配正则表达式 为:9. 如权利要求7所述的方法,其特征在于:存在出生日期信息条件进一步为:在网页正 文内容中匹配到出生日期特征字符串,并且仅匹配到一次,出生日期特征字符串的匹配正 则表达式为:10. 如权利要求1所述的方法,其特征在于:对每一关键词进行权重计算进一步包括: 计算关键词在正文中的词频(TF),同时计算该关键词的文件频率(IDF),关键词权重为TF 与IDF的乘积,关键词权重的计算公式为:
【专利摘要】本发明公开了一种基于网络数据分析的潜在用户挖掘方法,该方法包括:采集互联网网页;网页初始化,获取网页中的正文信息;抽取网页正文信息中可能存在的邮件地址、手机号码;针对存在邮件地址或者手机号码的网页正文信息,识别可能存在的人物描述信息;针对存在邮件地址或者手机号码的网页正文信息,进行分词,获取关键词组,并对每一关键词进行权重计算;对关键词进行权重排序,生成关键词特征向量,用于描述偏好信息;将邮件地址、手机号码、人物描述信息以及关键词特征向量保存至潜在用户数据库。本发明通过对网络数据的分析,挖掘潜在用户及其特点与偏好,据此可以实现针对性邮件、短信精准营销。
【IPC分类】G06F17/30
【公开号】CN105279191
【申请号】CN201410348303
【发明人】吴晨
【申请人】吴晨
【公开日】2016年1月27日
【申请日】2014年7月22日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1