在社交网络中对用户信息处理的方法和装置与流程

文档序号：11147898阅读：502来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及互联网技术领域，尤其是一种在社交网络中对用户信息处理的方法和装置。

背景技术：

企业传统的产品推广方式包括短信群发、电话外呼以及互联网弹窗等，但这些推广方式精准度不高，而且会造成用户反感。

根据用户信息构建用户画像能够进行精准营销。但是，企业本身所具有的用户信息不够全面，从而导致所构建的用户画像不够完善。

技术实现要素：

本发明实施例所要解决的技术问题是：提供一种在社交网络中对用户信息处理的方法和装置，能够将用户信息与移动用户号码簿号码或用户上网账号关联。

根据本发明的一方面，提供一种在社交网络中对用户信息处理的方法，包括：通过爬取社交网络中的用户信息建立用户信息库，所述用户信息携带用户ID；获取用户话单中访问所述社交网络的URL，并从所述URL中提取用户ID；在所述用户信息库中查找提取的用户ID对应的用户信息，并将用户信息与用户话单中的移动用户号码簿号码或用户上网账号关联。

在一个实施例中，所述通过爬取社交网络中的用户信息建立用户信息库包括：利用用户的账号和密码登录所述社交网络；爬取所述用户的用户信息并存储在所述用户信息库中；爬取所述用户的每个关注人的用户信息并将所述关注人的用户信息存储在所述用户信息库中；将所述关注人作为所述用户，重复执行爬取所述用户的关注人的用户信息并将所述关注人的用户信息存储在所述用户信息库中的操作。

在一个实施例中，所述爬取所述用户的关注人的用户信息并将所述关注人的用户信息存储在所述用户信息库中包括：获取所述用户的关注人ID并依次存放在待爬取队列的队尾；爬取待爬取队列的队头的关注人的用户信息并将该关注人的用户信息存储在所述用户信息库中，直至取待爬取队列为空队列。

在一个实施例中，在爬取每个用户的用户信息后，将该用户的用户ID存放在已爬取集合中；在爬取所述用户的关注人的用户信息之前，还包括：判断关注人ID是否在已爬取集合中，如果否，则爬取该关注人的用户信息；如果是，则爬取下一个关注人的用户信息。

在一个实施例中，以随机时间间隔爬取所述用户的关注人的用户信息。

在一个实施例中，如果在建立用户信息库的过程中发现登录所述社交网络的所述用户的账号异常，则利用另一个用户的账号和密码重新登录所述社交网络。

根据本发明的另一方面，提供一种在社交网络中对用户信息处理的装置，包括：爬虫单元，用于通过爬取社交网络中的用户信息建立用户信息库，所述用户信息携带用户ID；获取单元，用于获取用户话单中访问所述社交网络的URL，并从所述URL中提取用户ID；关联单元，用于在所述用户信息库中查找提取的用户ID对应的用户信息，并将用户信息与用户话单中的移动用户号码簿号码或用户上网账号关联。

在一个实施例中，登录模块，用于利用用户的账号和密码登录所述社交网络；

爬虫模块，用于爬取所述用户的用户信息并存储在所述用户信息库中；爬取所述用户的关注人的用户信息并将关注人的用户信息存储在所述用户信息库中；将所述关注人作为所述用户，重复执行爬取所述用户的关注人的用户信息并将所述关注人的用户信息存储在所述用户信息库中的操作。

在一个实施例中，所述爬虫模块包括：获取子模块，用于获取所述用户的关注人ID并依次存放在待爬取队列的队尾；爬虫子模块，用于爬取待爬取队列的队头的关注人的用户信息并将该关注人的用户信息存储在所述用户信息库中，直至取待爬取队列为空队列。

在一个实施例中，所述爬虫模块，还用于在爬取每个用户的用户信息后，将该用户的用户ID存放在已爬取集合中；在爬取所述用户的关注人的用户信息之前，判断关注人ID是否在已爬取集合中，如果否，则爬取该关注人的用户信息；如果是，则爬取下一个关注人的用户信息。

在一个实施例中，所述爬虫模块以随机时间间隔爬取所述用户的关注人的用户信息。

在一个实施例中，还包括：反防爬单元，用于如果在建立用户信息库的过程中发现登录所述社交网络的所述用户的账号异常，则利用另一个用户的账号和密码重新登录所述社交网络。

本发明通过爬取社交网络的用户信息建立用户信息库，当获取到话单中用户访问社交网络的URL包含的用户ID后，可以在用户信息库中查询到该用户ID对应的用户信息并把该用户信息与移动用户号码簿号码或用户上网账号，例如ADSL宽带账号关联起来，从而可以完善用户画像，根据完善的用户画像可以提高营销成功率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明在社交网络中对用户信息处理的方法一个实施例的流程示意图；

图2是本发明在社交网络中对用户信息处理的方法另一个实施例的流程示意图；

图3是本发明在社交网络中对用户信息处理的装置一个实施例的结构示意图；

图4是本发明在社交网络中对用户信息处理的装置另一个实施例的结构示意图；

图5是本发明在社交网络中对用户信息处理的装置又一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明的发明人发现，社交网络中包含用户的很多公开信息，如果能将社交网络中的用户信息与用户本身关联，则可以使得获取到的用户信息更加全面。

图1是本发明在社交网络中对用户信息处理的方法一个实施例的流程示意图。如图1所示，该方法包括如下步骤：

步骤102，通过爬取社交网络中的用户信息建立用户信息库，该用户信息携带用户ID。

这里，社交网络例如可以是新浪微博、豆瓣网等。以新浪微博为例，每个微博用户的用户信息URL具有固定的格式，URL携带有用户ID。通过爬取社交网络所有注册用户的用户信息，可以建立社交网络的用户信息库。

步骤104，获取用户话单中访问社交网络的URL，并从URL中提取用户ID。

当用户话单中携带访问某个社交网络，例如新浪微博的记录时，可以从访问新浪微博的URL中提取出用户ID。

步骤106，在用户信息库中查找提取的用户ID对应的用户信息，并将用户信息与用户话单中的用户上网账号关联。

用户话单中包含移动用户号码簿号码(MDN)或用户上网账号，例如ADSL宽带账号。在用户信息库中查找到提取的用户ID对应的用户信息后，将用户信息与用户上网账号关联。

本实施例通过爬取社交网络的用户信息建立用户信息库，当获取到话单中用户访问社交网络的URL包含的用户ID后，可以在用户信息库中查询到该用户ID对应的用户信息并把该用户信息移动用户号码簿号码或用户上网账号，例如ADSL宽带账号关联起来，从而可以完善用户画像，根据完善的用户画像可以提高营销成功率。

图2是本发明在社交网络中对用户信息处理的方法另一个实施例的流程示意图。如图2所示，该方法包括如下步骤：

步骤202，利用用户的账号和密码登录社交网络。

例如，在新浪微博注册几个微博账号作为测试账号。从测试账号中选取某个账号和密码登录新浪微博。具体的登录过程可以如下：首先输入账号和密码，模拟get请求获取服务器下发的服务器时间、动态验证编码、公钥等信息。随后根据服务器下发的上述信息组合成post请求，从而登录到该用户的微博页面。

步骤204，爬取用户的用户信息并存储在用户信息库中。

模拟get请求，在返回的页面中可以获取到用户的用户信息。

步骤206，爬取用户的关注人的用户信息并将关注人的用户信息存储在用户信息库中。

在实际应用中，社交网络可能会采取反爬取措施，即发现有规律或频繁的爬取行为时，会发送账号异常消息，例如，要求发送验证码重新登录账号或者直接封号等。因此，优选地，可以以随机时间间隔爬取用户的每个关注人的用户信息，以避免账号出现异常现象。另外，如果在建立用户信息库的过程中发现登录社交网络的用户的账号异常，例如收到验证消息，则可以利用另一个用户的账号和密码重新登录社交网络，并继续爬取用户信息。

步骤208，将所述关注人作为步骤206中的所述用户，重复执行步骤206中爬取用户的关注人的用户信息并将关注人的用户信息存储在用户信息库中的操作。

每个关注人同样会有关注人，通过重复执行步骤206，可以爬取关注人的关注人的用户信息，如此循环可以得到所有注册用户的用户信息。

步骤104，获取用户话单中访问社交网络的URL，并从URL中提取用户ID。

步骤106，在用户信息库中查找提取的用户ID对应的用户信息，并将用户信息与用户话单中的移动用户号码簿号码或用户上网账号关联。

步骤104和步骤106的具体实现可以参照图1所示实施例的描述，在此不再赘述。

本实施例提供了一种具体建立用户信息库的方法，通过爬取用户的用户信息以及用户的关注人的用户信息，继而重复爬取关注人的关注人的用户信息，可以得到所有注册用户的用户信息，从而建立用户信息库。

在一个具体实施例中，图2所示步骤206可以通过如下方式来实现：获取用户的关注人ID并依次存放在待爬取队列的队尾；爬取待爬取队列的队头的关注人的用户信息并将该关注人的用户信息存储在用户信息库中，直至取待爬取队列为空队列。

仍以新浪微博为例，微博用户关注人列表URL具有固定的格式，每个URL中携带有关注人ID。通过发起get请求，可以在返回的页面中获取到用户的关注人ID。在获取到用户的关注人ID后将关注人ID依次存放在待爬取队列的队尾。然后，每次从队列中pop出一个关注人ID，并爬取该关注人的用户信息，也即，每次都爬取待爬取队列的队头的关注人的用户信息，直到队列为空队列。

为了避免重复爬取某个用户的用户信息，提高爬取效率，在一个实施例中，在爬取每个用户的用户信息后，可以将该用户的用户ID存放在已爬取集合中；并且，在爬取用户的关注人的用户信息之前，可以先判断待爬取的关注人ID是否在已爬取集合中，如果否，表明该关注人的用户信息未被爬取，则爬取该关注人的用户信息；如果是，表明该关注人的用户信息已被爬取，则爬取下一个关注人的用户信息。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图3是本发明在社交网络中对用户信息处理的装置一个实施例的结构示意图。如图3所示，该装置包括爬虫单元301、获取单元302、关联单元303，其中：

爬虫单元301，用于通过爬取社交网络中的用户信息建立用户信息库，用户信息携带用户ID；

获取单元302，用于获取用户话单中访问社交网络的URL，并从URL中提取用户ID；

关联单元303，用于在用户信息库中查找提取的用户ID对应的用户信息，并将用户信息与用户话单中的移动用户号码簿号码或用户上网账号关联。

本实施例通过爬虫单元301爬取社交网络的用户信息建立用户信息库，当获取单元302获取到话单中用户访问社交网络的URL包含的用户ID后，可以通过关联单元302在用户信息库中查询到该用户ID对应的用户信息并把该用户信息与移动用户号码簿号码或用户上网账号，例如ADSL宽带账号关联起来，从而可以完善用户画像，根据完善的用户画像可以提高营销成功率。

图4是本发明在社交网络中对用户信息处理的装置另一个实施例的结构示意图。该实施例中的爬虫单元301包括：

登录模块311，用于利用用户的账号和密码登录社交网络；

爬虫模块321，用于爬取用户的用户信息并存储在用户信息库中；爬取用户的每个关注人的用户信息并将关注人的用户信息存储在用户信息库中；将所述关注人作为所述用户，重复执行爬取用户的关注人的用户信息并将关注人的用户信息存储在用户信息库中的操作。

在实际应用中，社交网络可能会采取反爬取措施，即发现有规律或频繁的爬取行为时，会发送账号异常消息，例如，要求发送验证码重新登录账号或者直接封号等。因此，优选地，爬虫模块321可以以随机时间间隔爬取用户的每个关注人的用户信息，以避免账号出现异常现象。

在又一个实施例中，图4所示的爬虫模块321可以包括：获取子模块和爬虫子模块，其中：

获取子模块，用于获取用户的关注人ID并依次存放在待爬取队列的队尾。

爬虫子模块，用于爬取待爬取队列的队头的关注人的用户信息并将该关注人的用户信息存储在用户信息库中，直至取待爬取队列为空队列。

在又一个实施例中，为了避免重复爬取某个用户的用户信息，提高爬取效率，参见图4，爬虫模块321，还可以用于在爬取每个用户的用户信息后，将该用户的用户ID存放在已爬取集合中；在爬取用户的关注人的用户信息之前，判断关注人ID是否在已爬取集合中，如果否，表明该关注人的用户信息未被爬取，则爬取该关注人的用户信息；如果是，表明该关注人的用户信息已被爬取，则爬取下一个关注人的用户信息。

图5是本发明在社交网络中对用户信息处理的装置又一个实施例的结构示意图。如图5所示，该实施例中的装置还可以包括：

反防爬单元501，用于如果在建立用户信息库的过程中发现登录社交网络的用户的账号异常，例如收到验证消息或被封号，则利用另一个用户的账号和密码重新登录社交网络，并继续爬取用户信息。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马怡安
技术所有人：中国电信股份有限公司
我是此专利的发明人

上一篇：一种具备染色效果检测功能的整经机及整经方法与制造工艺
上一篇：一种全自动整经机的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。