一种基于真实社会关系和大数据的网络信息分析方法与流程

文档序号:11865658阅读:700来源:国知局

本发明涉及数据处理技术领域,特别涉及一种基于真实社会关系和大数据的网络信息分析方法。



背景技术:

在全球经济、技术一体化的今天,我国IT行业已经开启了大数据的起航之旅,大数据已经在经济领域发挥重要作用。据计世咨讯预测,2015年,政府、互联网、电信、金融等领域市场规模占据近一半的市场份额。大数据在主要经济领域的发展趋势如下:

1.大数据在经济预警方面发挥重要作用

在2008年金融危机中,阿里平台的海量交易记录预测了经济指数的下滑。2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,预示了经济危机的来临。数以万计的中小制造商及时获得阿里巴巴的预警,为预防危机做好了准备。

2.大数据分析成为市场营销的重要手段

与传统的市场研究方法不同,大数据的市场研究方法不再局限于抽样调查,而是基于几乎全样本空间。例如,百度拥有中国最大的消费者行为数据库,覆盖95%的中国网民,搜索市场占比达87%。百度基于最真实的用户行为数据和多维度研究工具,帮助宝洁精准的定位了消费者的地域分布、兴趣爱好等信息,根据百度分析的结论,宝洁适时地调整了营销策略。

3.大数据在临床诊断、远程监控、药品研发等领域发挥重要作用

我国目前已经有十余座城市开展了数字医疗。病历、影像、远程医疗等都会产生大量的数据并形成电子病历及健康档案。基于这些海量数据,医院能够精准地分析病人的体征、治疗费用和疗效数据,可避免过度及副作用较为明显的治疗,此外还可以利用这些数据进行实现计算机远程监护,对慢性病进行管理等。

4.大数据为金融领域的客户管理、营销管理及风险管理提供重要支撑

大数据能够解决金融领域海量数据的存储、查询优化及声音、影像等非结构化数据的处理。金融系统可以通过大数据分析平台,导入客户社交网络、电子商务、终端媒体产生的数据,从而构建客户视图。依托大数据平台可以进行客户行为跟踪、分析,进而获取用户的消费习惯、风险收益偏好等。针对用户这些特性,银行等金融部门能够实施风险及营销管理。

当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义。中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。

互联网采集的大数据信息量庞大,每次对人际关系网络分析、预测、预判时都需要对所有有效的大数据信息进行遍历浏览,该部分工作量庞大无法人工处理,我们需采用网页机器人技术来替代人工完成数据遍历访问的工作。由于系统分析需对所有处理数据进行遍历访问,这样将大大的降低了系统分析速率,并无形增加了系统计算资源。

基于真实社会关系和大数据的网络分析发明目的是通过分析大数据网络人群或者个体的人际交际网络,引入重点人真实的社会关系,分析网络人群或个体与重点人真实的社会关系,能有效扩展重点人真实的社会交际圈、朋友圈、社会关系圈等,以作为已了解真实社会关系的补充。

现今急需一种基于真实社会关系和大数据的网络信息分析方法以大数据为基础,使用虚拟的社会关系与真实的社会关系之间的对比分析,结合虚拟网络人际关系的复杂性,以群体意识、个人意识进行心理状态区分,并以大数据的整体思想进行碰撞,建立一套独有的大数据人际关系心理学体系。



技术实现要素:

本发明的目的是为了解决上述问题,提供一种基于真实社会关系和大数据的网络信息分析方法以大数据为基础,使用虚拟的社会关系与真实的社会关系之间的对比分析,结合虚拟网络人际关系的复杂性,以群体意识、个人意识进行心理状态区分,并以大数据的整体思想进行碰撞,建立一套独有的大数据人际关系心理学体系。

为了达到上述目的,本发明的基于真实社会关系和大数据的网络信息分析方法包括以下步骤:

(1)重点客户网络交互信息的抓取,利用既有部署的蜘蛛群集,在每个蜘蛛节点同时运行多个采集线程,采集基于静态IP方式或动态IP方式,不定期访问目标网站通过时间戳,校对信息的更新情况,对重点人微博、贴吧、博客、论坛、QQ群的交互信息进行爬虫式增量采集,并对采集目标信源信息进行自学习,自动更新频率高的信源进行自适应地高频率采集,并实时记录采集相关信息之间的关系;

(2)分析交互信息,系统通过分布式采集集群在互联网上通过爬虫抓取的方式采集重点交互信息数据,经过对单条交互数据加工、清洗、挖掘、分类、自动文摘、语义库管理等工作完成数据预处理,并通过对单条交互信息分析、上下文场景分析、真实社会关系与网络社会关系对比分析等,将分析结果数据导入社会关系信息库中。

本发明提供一种基于真实社会关系和大数据的网络信息分析方法以大数据为基础,使用虚拟的社会关系与真实的社会关系之间的对比分析,结合虚拟网络人际关系的复杂性,以群体意识、个人意识进行心理状态区分,并以大数据的整体思想进行碰撞,建立一套独有的大数据人际关系心理学体系。

附图说明:

图1:本发明基于真实社会关系和大数据的网络信息分析的模块流程示意图。

具体实施方式:

为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。

在本发明一宽泛实施例中,基于真实社会关系和大数据的网络信息分析方法包括以下步骤:

(1)重点客户网络交互信息的抓取,利用既有部署的蜘蛛群集,在每个蜘蛛节点同时运行多个采集线程,采集基于静态IP方式或动态IP方式,不定期访问目标网站通过时间戳,校对信息的更新情况,对重点人微博、贴吧、博客、论坛、QQ群的交互信息进行爬虫式增量采集,并对采集目标信源信息进行自学习,自动更新频率高的信源进行自适应地高频率采集,并实时记录采集相关信息之间的关系;

(2)分析交互信息,系统通过分布式采集集群在互联网上通过爬虫抓取的方式采集重点交互信息数据,经过对单条交互数据加工、清洗、挖掘、分类、自动文摘、语义库管理等工作完成数据预处理,并通过对单条交互信息分析、上下文场景分析、真实社会关系与网络社会关系对比分析等,将分析结果数据导入社会关系信息库中。

系统分为体系支持层、数据采集层、数据存储分析层、平台层、应用层。

硬件支撑层:包括网络设备、安全设备、存储系统、主机系统,是整个系统的硬件基础。

数据采集层:主要负责采集对重点人微博、博客、贴吧、论坛、QQ群中的交互数据,并存储原始数据供数据处理和分析使用,采集基于静态IP方式或动态IP方式,不定期访问目标网站通过时间戳,校对信息的更新情况。

数据存储层:系统通过分布式采集集群在互联网上通过爬虫抓取的方式采集重点交互信息数据,经过对单条交互数据加工、清洗、挖掘、分类、自动文摘、语义库管理等工作完成数据预处理,并通过对单条交互信息分析、上下文场景分析、真实社会关系与网络社会关系对比分析等,将分析结果数据导入社会关系信息库中。数据存储层是完成人际关系分析工作的基础。

平台层:平台层对整个应用层进行有效支撑,构建了业务环境。良好的业务支撑平台,在系统开发时能够提高开发效率,保证开发质量,在系统使用中又可以保证各项业务的顺利应用,技术含量较高。

应用层:为用户呈现数据、操作数据的主要处理层,该层根据SOA和工作门户的思想进行构建,能将真实社会关系信息进行合理的配置和优化。

如图1所示,基于真实社会关系和大数据的网络信息分析系统包括数据采集和录入、分布式集群管理、分析数据存储管理和用户端真实社会关系分析。

显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的精神所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1