基于网络数据分析的潜在用户挖掘方法_2

文档序号：9524227阅读：来源：国知局

人物描述信息特征词，执行步骤402,否则返回结论：网页正文信息中不存在人物描述信息。
[0031] 步骤402判断网页正文信息中是否存在人名特征；其存在条件为；在网页正文内容中匹配到人名特征字符串，并且仅匹配到一次，人名特征字符串的匹配正则表达式为：
如存在，执行步骤403,否则返回结论：网页正文信息中不存在人物描述信息。
[0032] 步骤403抽取人名；抽取上述匹配到的人名特征字符串，并写入上述XML结构相应标签中。
[0033] 步骤404判断网页正文中是否存在性别特征词；其存在条件为：网页正文内容中存在特征词：男、女，并且特征词只出现一次。
[0034] 如符合存在条件，执行步骤405,否则执行步骤406。
[0035] 步骤405抽取性别信息；性别信息为上述正文内容中存在的性别特征词：男或者女，将其写入上述XML结构相应标签中。
[0036] 步骤406判断网页正文内容中是否存在出生日期信息；其存在条件为：在网页正文内容中匹配到出生日期特征字符串，并且仅匹配到一次，出生日期特征字符串的匹配正则表达式为：
如存在，执行步骤407,否则执行步骤408。
[0037] 步骤407抽取出生日期信息；抽取W上匹配到的出生日期特征字符串，写入上述XML结构相应标签中。
[0038] 步骤408判断网页正文中是否存在职务信息；本实施例中维护了一个职务信息数据库，数据库中枚举了所有可能的职务名称，如总经理、总裁、总统等。步骤408的处理流程为：依次获取职务信息数据库中的职务名称，判断该名称是否在网页正文信息中出现，如出现则执行步骤409,否则执行步骤410。职务信息数据库由维护人员依据现实情况预先维护好。
[0039] 步骤409抽取职务信息；将上述职务信息数据库中存在的，并且出现在网页正文内容中的职务名称写入XML结构相应标签中，如出现多个职务名称，一起写入XML结构相应标签中。
[0040] 步骤410判断网页正文中是否存在职称信息；本实施例中维护了一个职称信息数据库，数据库中枚举了所有可能的职称名称，如研究员、教授、编审等。步骤410的处理流程为：依次获取职称信息数据库中的职称名称，判断该名称是否在网页正文内容中出现，如出现则执行411，否则将上述步骤抽取到的人物描述信息XML结构输出。职称信息数据库由维护人员依据国家职称评定办法预先维护好。
[0041] 步骤411抽取职称信息；将上述职称信息数据库中存在的，并且出现在网页正文内容中的职称名称写入XML结构相应标签中，如出现多个职称名称，一起写入XML结构相应标签中。
[0042] 最后，将上述步骤抽取到的人物描述信息XML结构整体输出。
[0043] 步骤50针对存在邮件或者手机号码的网页正文信息，进行分词，获取关键词组，并对每一关键词进行权重计算；优选的，在步骤50中，在对每一个关键词进行权重计算之前，为了更好地提取到能够反映网页正文信息的关键词，可W根据预先维护好的停用词表对获取的关键词组进行过滤，例如，将转载、方法、效率、比方等词过滤掉。
[0044] 在步骤50中，对每一关键词进行权重计算的方法是；计算关键词在网页正文中的词频（TF)，同时计算该关键词的文件频率（IDF)，将两者的乘积作为该关键词的权重。关键词权重的计算公式为：
步骤60对关键词进行权重排序，生成特征关键词向量，用于描述偏好信息；依据关键词的权重，对关键词依据权重从大到小排序。优选地，为了限制关键词的数量，本实施例预先设定了有效关键词权重阔值，对权重低于阔值的关键词从关键词组中删除。
[0045] 将关键词连同权重一并输出，作为表征网页正文信息的关键词特征向量，送一关键词特征向量将用来描述用户偏好。
[0046] 步骤70将邮件地址、手机号码、识别的可能存在的人物描述信息W及所生成的关键词特征向量保存至潜在用户数据库；巧引上述获取到的信息作为一组记录保存到潜在用户数据库中，其中关键词特征向量用来描述用户偏好。
[0047] 为了更好的说明本发明所述方法的有益效果，本实施例不妨W-个示例说明基于本发明所述方案生成的潜在用户数据库的应用价值，如表1所示。表中第一列为开展的业务名称，表中第一行为潜在用户数据库中挖掘到的用户信息，表中其他位置为基于业务，针对潜在用户信息，所开展的精准营销的内容。
[0048]表1
必须指出的是，上述表1所述应用示例旨在说明本发明所述方法获取到的潜在用户数据库的应用价值，其内容不包含在本发明涉及的内容W及权利要求之内。
[0049]W上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。
【主权项】
1. 一种基于网络数据分析的潜在用户挖掘方法，其特征在于，包括：米集互联网网页；网页初始化，获取网页中的正文信息；抽取网页正文信息中可能存在的邮件地址、手机号码；针对存在邮件地址或者手机号码的网页正文信息，识别可能存在的人物描述信息；针对存在邮件地址或者手机号码的网页正文信息，进行分词，获取关键词组，并对每一关键词进行权重计算；对关键词进行权重排序，生成关键词特征向量，用于描述偏好信息；将邮件地址、手机号码、识别的可能存在的人物描述信息以及所生成的关键词特征向量保存至潜在用户数据库。2. 如权利要求1所述的方法，其特征在于：所述步骤采集互联网网页进一步包括：根据输入的预定网址，采集该网址下的所有网页。3. 如权利要求1所述的方法，其特征在于：所述抽取网页正文信息中可能存在的邮件地址、手机号码进一步包括：在网页正文信息中匹配邮件地址正则表达式；抽取成功匹配的邮件地址；在网页正文信息中匹配手机号码正则表达式；抽取成功匹配的手机号码。4. 如权利要求3所述的方法，其特征在于：邮件地址正则表达式为：5. 如权利要求3所述的方法，其特征在于：手机号码正则表达式为：6. 如权利要求1所述的方法，其特征在于：所述人物描述信息包括：姓名、性别、出生年月、职务、职称。7. 如权利要求1、6所述的方法，其特征在于：所述识别可能存在的人物描述信息进一步包括：判断网页正文信息中是否存在人物描述信息特征词；判断网页正文信息中是否存在人名特征；抽取人名；判断网页正文中是否存在性别特征词；抽取性别信息；判断网页正文内容中是否存在出生日期信息；抽取出生日期信息；判断网页正文中是否存在职务信息；抽取职务信息；判断网页正文中是否存在职称信息；抽取职称息；将上述步骤抽取到的人物描述信息整体输出。8. 如权利要求7所述的方法，其特征在于：存在人名特征的条件进一步为：在网页正文内容中匹配到人名特征字符串，并且仅匹配到一次，人名特征字符串的匹配正则表达式为：9. 如权利要求7所述的方法，其特征在于：存在出生日期信息条件进一步为：在网页正文内容中匹配到出生日期特征字符串，并且仅匹配到一次，出生日期特征字符串的匹配正则表达式为：10. 如权利要求1所述的方法，其特征在于：对每一关键词进行权重计算进一步包括：计算关键词在正文中的词频（TF)，同时计算该关键词的文件频率（IDF)，关键词权重为TF 与IDF的乘积，关键词权重的计算公式为：
【专利摘要】本发明公开了一种基于网络数据分析的潜在用户挖掘方法，该方法包括：采集互联网网页；网页初始化，获取网页中的正文信息；抽取网页正文信息中可能存在的邮件地址、手机号码；针对存在邮件地址或者手机号码的网页正文信息，识别可能存在的人物描述信息；针对存在邮件地址或者手机号码的网页正文信息，进行分词，获取关键词组，并对每一关键词进行权重计算；对关键词进行权重排序，生成关键词特征向量，用于描述偏好信息；将邮件地址、手机号码、人物描述信息以及关键词特征向量保存至潜在用户数据库。本发明通过对网络数据的分析，挖掘潜在用户及其特点与偏好，据此可以实现针对性邮件、短信精准营销。
【IPC分类】G06F17/30
【公开号】CN105279191
【申请号】CN201410348303
【发明人】吴晨
【申请人】吴晨
【公开日】2016年1月27日
【申请日】2014年7月22日

完整全部详细技术资料下载

当前第2页1 2