基于社交网络的人物信息搜索与关系网绘制的方法

文档序号:9667451阅读:415来源:国知局
基于社交网络的人物信息搜索与关系网绘制的方法
【技术领域】
[0001]本发明涉及网络信息获取与处理领域,特别是一种基于社交网络的人物信息搜索与关系网绘制的方法。
【背景技术】
[0002]社交网络服务(Social Networking Services,SNS)凭借其丰富的用户参与性和互动性,在短时间内风靡全球,例如国外的Facebook、Twitter、Linkedin,国内由校内网演变的人人网、新浪微博与腾讯空间等,以及各类垂直型社交网站等。据2014年1月,中国互联网络信息中心(CNNIC)发布的《第33次中国互联网络发展状况统计报告》,截至到2013年12月,中国网民规模已达到6.18亿,互联网普及率为45.8% ;另据CNNIC《2014年中国社交类应用用户行为研究报告》数据显示,截至2014年6月,三大社交类应用(SP时通信、社交网站与微博)在整体网民中的覆盖率分别为89.3%、61.7%与43.6%。这些社交网络服务既有社交类应用的基本属性,又有其各自的特点,社交网站、即时通信偏于沟通、交流、互动,微博则更偏向信息传播,让人们从中获取新闻资讯,三类应用互为补充。用户在Facebook、微博等社交网络上大量地发表信息,以更直观的方式海量存在于SNS社交网络中,从而使得虚拟社交的内容越来越丰富。这些信息为SNS中的每个信息节点赋予了完整的人格和形象,并使其成为网民最重要的信息发布与获取渠道。社交网络数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。因此,急需功能强大的海量数据的关系数据获取方法,这将带来数据挖掘技术与社会网络分析技术的融合,形成数据搜索在社会网络分析中的社会和商业应用价值。
[0003]目前主流的社交搜索引擎主要是国外的Ark、Aardvark及Spokeo等,未见国内有类似产品。Ark通过一系列层级筛选,索引来自Facebook、Twitter、Linkedin、Meetup、Mixi和人人网等社交平台上关于用户的个人注册信息,把这些信息聚合起来分析处理。Aardvark则是个基于村庄模式的社交搜索引擎,是把问题传送给最可能回答这个问题的人,传统的搜索引擎在于通过信息字段匹配找到正确的网页,而社交搜索引擎则是找到正确的人去满足用户的信息索取的需求。Spokeo是一款社会化网络聚合工具,可以把一些BSP、社会化网络、相片分享、视频分享等内容聚合到一起,以单独的Blog形式发布。以上这些引擎基本实现了跨站的人物信息获取并聚合展示,但未见其有针对人物关系网。
[0004]本发明在深入分析已有国内外相关理论研究成果和国外相关产品的应用特点的基础上,实现人物数据获取技术、各社交网络的人物行为模型、人物关系网络绘制算法及其若干关键技术,重点突出数据的准确性、内容的完整性、信息的可视化等特点。

【发明内容】

[0005]有鉴于此,本发明的目的是提供一种基于社交网络的人物信息搜索与关系网绘制的方法,可让用户对社交网络中的目标人物的社会关系、活动脉络与思想动态等进行深度的分析。
[0006]本发明采用以下方案实现:一种基于社交网络的人物信息搜索与关系网绘制的方法,包括以下步骤:
步骤S1:提供一数据采集层,用以采用API导入法、模拟点击法以及网络爬虫法对不同社交网站里的数据进行抽取存储至本地的非关系型数据库中;
步骤S2:提供一数据清洗模块,用以将抽取到的数据进行数据清洗;
步骤S3:将经过数据清洗后的数据进行存储;
步骤S4:提供一数据显示模块,用以将从不同社交网站获取的数据经过数据清洗、存储及后期分析后用统一的形式进行呈现。
[0007]进一步地,所述API导入法通过调用社交网站官方提供的API获取社交网站的用户信息、博文信息以及粉丝关系信息,具体为采用BasicAuth授权方式,结合Curl和API,采用多账号轮流采集,并适时sle印,绕过社交网络开发平台对开发者IP请求次数以及用户请求次数的限制,实现对社交网站各种数据的采集。
[0008]进一步地,所述网络爬虫法适应于不开放API的社交网站,对社交网站所发表的信息进行文本采集;所述网络爬虫法采用一种多队列爬取策略,即控制社交网站中每个人物节点队列的爬取速度,对活跃用户的数据爬取速度快,而少去不活跃用户的数据,且每次爬取数据后根据人物节点用户的背景数据和用户关系数据重新计算人物的活跃度,以更新用户活跃分级爬取队列再次进行数据爬取。
[0009]进一步地,所述模拟点击法采用Selenium法和HtmlUnit法进行数据采集;所述Selenium法直接运行在浏览器中,将在浏览器中采集到的数据进行自动录制动作并自动生成Net、Java、Perl不同语言的测试脚本,所述浏览器包括IE、Mozilla Firefox、MozillaSuite浏览器;所述HtmlUnit法将返回文档模拟成HTML,直接处理所述文档。
[0010]进一步地,所述步骤S2中,数据清洗包括以下步骤:
步骤S21:数据分析:通过不同的关联条件,将数据库的信息根据不同的需求进行个性化分析,所述个性化分析的内容包括用户不同社交网址的关联排序以及用户在不同社交网址的活跃度;
步骤S22:定义转换规则:根据数据分析得到的结果定义数据清洗的转换规则,即根据数据源的个数与数据源中数据的质量,为模式相关的数据清洗和转换选定一种算法;
步骤S23:验证:数据清洗前应该对预先定义的数据清洗转换规则的正确性和清洗的效率进行验证和评估,即在数据源中选择数据样本进行清洗验证,当测试结果不满足数据清洗要求时对原有的数据清洗的转换规则进行调整和改进;
步骤S24:数据清洗:在数据源上执行预先设计好并且己经得到验证的数据清洗转换规则,在源数据上对数据进行清洗前,对源数据进行备份防止源数据的丢失或损坏;
步骤S25:干净数据的回流:当数据被清洗之后,干净的数据则替换数据源中原有的数据。
[0011]进一步地,所述步骤S3中经过数据清洗得到的数据包括人物分类数据、社区关联数据以及人物详细数据。
[0012]进一步地,所述步骤S3中将数据清洗后的数据存储至一远程Web数据库,用户使用一客户终端经一 Web服务器连接至所述远程Web数据库获取所需数据。
[0013]进一步地,所述步骤S4中用户采用浏览器作为操作控制的入口与内容的展示界面,统一展示界面包括RSS格式的人物信息列表与其相应社交网站的人物关系网动态图;进行所述人物关系网动态图展示时,建立三维立体坐标系,以亲疏度表示被搜索元素和关系节点之间的距离,根据立体坐标系各轴上的数据确定元素的显示位置和元素间距,则三维图示中距离越小关系越亲密。
[0014]进一步地,所述统一展示界面采用微软Visual Stud1平台上创建的Silverlight应用程序实现。
[0015]进一步地,所述社交网站包括Twitter、Facebook、Linkedin、G+、新浪微博以、腾讯微博以及人人网。
[0016]与现有技术相比,本发明通过研究人物数据的高效获取与智能处理技术,并通过多源信息统一展示与人物关系网动态绘制等技术,实现面向全球主流社交网络的人物信息搜索引擎;本发明利用人物电子邮件地址、用户名同目标人物的直接高度相关性,就可以从各种主流社交网络中提取出人物详细的公开信息,通过数据清洗、数据关联,最终运用人物关系网图的动态绘制技术,清晰地刻画出人物社会关系,并提供一个可视化人机界面,使数据的分析更具有交互性与准确性。本发明的研究成果将推进社交网络大数据领域相关研究的发展与完善,具有巨大的商业价值、社会效益和良好的产业化市场前景。
【附图说明】
[0017]图1为本发明的方法流程图。
[0018]图2为本发明的系统架构图。
[0019]图3为本发明的爬取策略的示意图。
[0020]图4为本发明的爬取程序的流程图。
[0021]图5为用户获取数据的示意图。
[0022]
【具体实施方式】
[0023]下面结合附图及实施例对本发明做进一步说明。
[0024]本实施例提供一种基于社交网络的人物信息搜索与关系网绘制的方法,如图1所示,包括以下步骤:
步骤S1:提供一数据采集层,用以采用API导入法、模拟点击法以及网络爬虫法对不同社交网站里的数据进行抽取存储至本地的非关系型数据库中;
步骤S2:提供一数据清洗模块,用以将抽取到的数据进行数据清洗;
步骤S3:将经过数据清洗后的数据进行存储;
步骤S4:提供一数据显示模块,用以将从不同社交网站获取的数据经过数据清洗、存储及后期分析后用统一的形式进行呈现。
[0025]在本实施例中,系统架构图如图2所示,包括用户数据抽取、数据清洗、数据存储、目标人物搜索与数据显示等几个关键技术。
[0026]在本实施例中,所述API导入法通过调用社交网站官方提供的API获取社交网站的用户信息、博文信息以及粉丝关系信息。由于目前各社交网站平台的用户身份鉴权有OAuthl.0、0Auth2.0和BasicAuth三种方式。虽然OAuthl.0的授权方式申请到的授权AccessToken比较稳定,但是有的社交网站将暂停该方式的授权服务,而0Auth2.0需要每天刷新AccessToken,无法满足对数据稳定高效的采集,因此,本实施例采用BasicAuth的授权方式,结合Curl和API,采用多账号轮流采集,适时sleep等一系列手段,绕过开发平台对开发者IP请求次数以及用户请求次数方面的限制,实现对社交网站各种数据的高效、稳定、完整的采集。
[0027]在本实施例中,所述
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1