基于网络数据分析的潜在用户挖掘方法

文档序号：9524227阅读：466来源：国知局

基于网络数据分析的潜在用户挖掘方法
【技术领域】
[0001] 本发明涉及互联网数据处理领域，尤其是一种潜在用户挖掘方法。
【背景技术】
[0002] 随着网络的不断发展和营销手段的不断更新，邮件营销、短信营销已经成为新兴的热口营销模式，在国内外都得到了广泛的应用。送类营销手段是将电子邮件、短信作为专业的营销工具，将企业的产品信息、促销信息等发送给目标用户，从而实现与顾客的快速高效沟通。
[0003] 但是，由于发现目标用户本身不易，许多企业采用了基于邮件地址列表、手机号码段的盲目群发方式来进行产品营销，营销效果难言理想。许多用户收到很多对其毫无价值的商业电子邮件、短信，产生了垃圾邮件、骚扰短信的反感印象，点击率低、被举报，用户怨声载道时常发生。
[0004] 邮件服务商、移动运营商、防火墙软件商为了迎合用户需要，解决垃圾邮件、短信泛滥问题，建立起了反垃圾邮件、短信机制，使得大部分群发的邮件、短信被送至垃圾箱甚至被彻底阻隔，造成了群发邮件、短信的投递效果大幅度下降，既产生了运营成本，又未能将信息及时送到用户处。
[0005] 于是，如何发现潜在用户，如何对潜在用户进行区分并了解其感兴趣的内容，是目前很多企业在开展针对性营销时非常关必的问题。
[0006] 而解决送一问题的核必就在于发现潜在用户的同时，发现用户特点，挖掘蕴藏在 E-MAIL、手机号码背后的用户兴趣点，获取用户的真实需求。并据此实现个性化、小规模、低频率、高效率的精准邮件、短信营销。
[0007] 面向互联网的潜在用户挖掘方法旨在通过行之有效的互联网数据分析手段建设可W掲示用户特征的潜在用户数据库。
[0008] 相关技术如专利号为"201210248221. 1"的专利公开的技术为"本发明提供一种移动互联网内容的用户偏好推送方法与装置，用于根据用户的访问获取用户的互联网内容偏好信息，同时根据该偏好信息向用户进行有针对性的内容推送"该移动互联网内容的用户偏好推送方法包括：基于用户的访问行为获取所述用户访问的第一信息；对所述第一信息所涉及的网络内容进行分类处理，得到第二信息；针对所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息，根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容"。该方法实施过程中从移动互联网的服务器中得到所述用户访问的基础数据，包括用户访问的业务内容，此应用领域面向电信服务商自有服务运营层面。
[0009] 相关技术如专利号为"201210121176. 3"的专利公开的技术为"掲示了一种邮件群发方法及系统，该方法包括如下步骤；获取当前邮件所需发送的所有邮箱地址；将属于同一邮件域的邮箱地址进行汇总；将不同邮件域的邮箱地址均匀插分W生成发送队列；设定发送间隔时间，W使在所述发送队列中的同一邮件域的邮件发送间隔时间大于该邮件域服务商垃圾邮件的报警闭值；根据所述发送间隔时间和所述发送队列逐一发送邮件"。该方法解决的是优化邮件的发送时间间隔问题，确保发送时间间隔大于垃圾邮件报警闭值，从而提高群发邮件的达到率。不涉及用户及用户需求挖掘的问题。

【发明内容】

[0010] 本发明的目的是针对上述问题，提供一种基于网络数据分析的潜在用户挖掘方法。所述技术方案如下：一种基于网络数据分析的潜在用户挖掘方法，其步骤包括如下：采集互联网网页；网页初始化，获取网页中的正文信息；抽取网页正文信息中可能存在的邮件地址、手机号码；针对存在邮件地址或者手机号码的网页正文信息，识别可能存在的人物描述信息；针对存在邮件地址或者手机号码的网页正文信息，进行分词，获取关键词组，并对每一关键词进行权重计算；对关键词进行权重排序，生成特征关键词向量，用于描述偏好信息；将邮件地址、手机号码、识别的可能存在的人物描述信息W及所生成的关键词特征向量保存至潜在用户数据库。
[0011] 可选地，所述步骤采集互联网网页进一步包括；根据输入的预定网址，采集该网址下的所有网页。
[0012] 可选地，所述人物描述信息包括；姓名、性别、出生年月、职务、职称。
[0013] 可选地，在所述步骤对每一关键词进行权重计算之前，方法还包括：根据预先设置的停用词表对关键词组中的垃圾关键词进行过滤。
[0014] 可选地，所述步骤对每一关键词进行权重计算进一部包括；计算关键词在正文中的词频（TF)，同时计算该关键词的文件频率（IDF)，关键词权重为TF与IDF的乘积。
[0015] 可选地，所述步骤对关键词进行权重排序之前，方法还包括；根据预先设定的权重阔值，对权重低于阔值的关键词从关键词组中删除。
[0016] 本发明提供的技术方案的有益效果是：通过对网络数据的分析，发现潜在用户，同时挖掘出蕴藏在用户联系方式背后的用户特点与偏好，进而生成潜在用户数据库。基于送一数据库，可W实现个性化、针对性、小规模、低重复的邮件、短信精准营销，避免盲目投递，消除负面影响。
【附图说明】
[0017] 本发明将通过例子并参照附图的方式说明，其中：图1是本发明潜在用户挖掘方法的流程图；图2是本发明抽取邮件地址、手机号码的流程图；图3是本发明识别人物描述信息的流程图。
【具体实施方式】
[0018] 为了解决现有技术中邮件营销、短信营销的盲目性问题，本发明提供了一种基于网络数据分析的潜在用户挖掘方法，为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方式作进一步地详细描述：本实施例提供了一种基于网络数据分析的潜在用户挖掘方法，如图1所示，该方法包括：步骤10采集互联网网页；每隔一定时间对网络进行一次采集。本实施例中，采集间隔时间可W任意设置，依据所采集网站的特点而灵活设定。对于互动类的网站，如论坛，间隔时间设的较短；对于信息公开类的网站，如高校师生信息公开栏目，间隔时间设的很长。
[0019] 优选地，为了有效降低采集规模、提升采集效率，考虑到采集目标内容的特点，本实施例根据输入的预定网址，只对U化中含有预定网址的网页进行采集，对于U化中不包含预定网址的网页删去不做处理。预定网址由维护人员依据经验输入。预定网址主要集中在论坛、博客、评论、电子公告板、电子商务网站、百科网站、信息公开类网站。
[0020] 步骤20网页初始化，获取网页中的正文信息；巧引优选地，所述正文信息包括：标题、正文内容、发布时间、网站名称。由于当所述网页来自互动类网站时，如论坛、电子公告板、博克，能够反映网页主题的很可能为其所在板块名称，所W针对论坛、电子公告板、博克时，网页正文信息还包括板块名称。
[0021] 步骤30抽取网页正文信息中可能存在的邮件地址、手机号码；邮件地址和手机号的抽取流程如图2所示，通过正则表达式匹配的方法来实现，具体流程包括：步骤301在网页正文信息中匹配邮件地址正则表达式。
[0022] 邮件地址正则表达式为：
如果匹配成功，执行步骤302,如果匹配失败，直接执行步骤303。
[0023] 步骤302抽取上述匹配到的邮件地址，所抽取的邮件地址可能存在一个或者多个，抽取所有并输出。
[0024] 步骤303在网页正文信息中匹配手机号码正则表达式。
[00巧]手机号码正则表达式为：
如果匹配成功，执行步骤304,如果30U303均匹配失败，则返回失败。
[0026] 步骤304抽取手机号码，所抽取的手机号码可能存在一个或者多个，抽取所有并输出。
[0027] 步骤40针对正文信息中存在邮件地址或者手机号码的网页正文信息，识别可能存在的人物描述信息；可能存在的人物描述信息包括：姓名、性别、出生年月、职务、职称。其中，姓名为必选项，否则认为网页中不存在人物描述信息。性别、出生年月、职务、职称为可选项，不要求都识别得到结果。姓名、性别、出生年月、职务、职称都根据预先定义的规则来识别。本实施例中，可能存在的人物描述信息用一个XML结构来描述并记录。
[0028] 识别可能存在的人物描述信息的识别流程如图3所示。识别只针对正文中存在邮件地址或者手机号码的网页。
[0029] 步骤401判断网页正文信息中是否存在人物描述信息特征词；特征词包括；简介、介绍、履历、简历、个人陈述、工作经历。特征词由维护人员依据经验分析预先维护好。
[0030] 如网页正文信息中存在

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴晨;
技术所有人：吴晨;
我是此专利的发明人

上一篇：一种面包屑导航方法及装置的制造方法
上一篇：信息处理方法、装置及电子设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。