数据分析方法和系统的制作方法

文档序号:8282370阅读:347来源:国知局
数据分析方法和系统的制作方法
【技术领域】
[0001]本公开的实施例涉及数据分析方法和系统,尤其涉及对互联网上的内容进行处理的方法和系统。
【背景技术】
[0002]社会科学领域课题研宄过程中材料的收集、整理和分析是至关重要的一环。如何有效收集和积累与课题研宄相关的材料是做好课题研宄的前提和保障。没有资料,就无从研宄,更谈不上观点和创新。
[0003]收集与课题相关联的资料的途径很多,例如问卷调查,课题访谈,课题研讨会等。然而,收集资料通常需要花费大量的时间,通常研宄课题一半以上的时间都用在资料的收集上。因此,如何缩短收集资料所需的时间,降低收集资料的成本是人们期望的。
[0004]另一方面,随着科技的发展,网络资源越来越丰富。例如,当今快速发展的社交网络为人们提供了在线交流和传播信息,形成新的媒介生态环境,为人们构建了一张巨大的社会网络且不断演化,关键是这些信息都被记录下来,可以让我们能够更好的观察到人类社会的复杂行为模式。
[0005]可是,在海量的网络数据中查找有用的信息需要花费大量时间外,还需要大量复杂重复的劳动,例如,需要不断的筛选和重复查找。而且,如何组织和整理查找到的资料也是让人头疼的工作。因此,高效地利用各种网络数据是人们期望的。

【发明内容】

[0006]本发明目的是解决上述问题中的一个或多个。
[0007]本发明在一个方面提供一种对互联网上的内容进行处理的方法,包括:
[0008]接收用户输入;
[0009]根据所述用户输入获取互联网上的内容和关于该内容的属性信息;
[0010]对所述内容进行词频统计和属性信息分析;
[0011]接收用户关于分析方法的选择;
[0012]根据用户所选择的分析方法处理所述内容。
[0013]本发明在另一方面提供一种对互联网上的内容进行处理的系统,包括:
[0014]一个或多个数据存储服务器;
[0015]一个或多个爬虫服务器;以及
[0016]一个或多个算法服务器,
[0017]所述爬虫服务器根据用户输入获取互联网上的内容和关于该内容的属性信息,
[0018]所述数据存储服务器存储所述内容和所述属性信息,
[0019]所述算法服务器对所述内容进行词频统计和属性信息分析,并根据用户所选择的分析方法处理所述内容。
[0020]本发明在又一方面提供一种对互联网上的内容进行处理的系统,包括:
[0021]用于接收用户输入的装置;
[0022]用于根据所述用户输入获取互联网上的内容和关于该内容的属性信息的装置;
[0023]用于对所述内容进行词频统计和属性信息分析的装置;
[0024]用于接收用户关于分析方法的选择的装置;
[0025]用于根据用户所选择的分析方法处理所述内容的装置。
[0026]本发明在另一方面提供一种计算机可读存储介质,其中存储有用于执行根据本发明的方法的指令。
【附图说明】
[0027]从下面结合附图对本发明的【具体实施方式】的描述中可以更好地理解本发明,其中:
[0028]图1示出了根据本发明示例实施例的对互联网上的内容进行处理的方法的流程图;
[0029]图2示出了根据本发明示例实施例的对互联网上的内容进行处理的系统;
[0030]图3示出了根据本发明的示例实施例的计算装置的框图。
【具体实施方式】
[0031]下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置,而是在不脱离本发明的精神的前提下覆盖了相关元素或部件的任何修改、替换和改进。
[0032]社会科学人员在做课题研宄时,需查询大量资料和数据,而目前缺少对此类资料信息归类和总结,搜索内容存在大量重复和质量问题,给用户造成重复筛选和不断查找。本发明,基于网络爬虫和数据挖掘技术很好解决了这一难题。网络爬虫和数据挖掘是指互联网上提供检索服务的系统工具。服务器通过网络搜索,将互联网上大量网站的页面信息收集到本地,提供用户所需的信息或相关指引。
[0033]同时,社交网络(例如脸书、微博等)产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,根据本发明可以通过深入挖掘这些数据来了解用户,挖掘用户的行为习惯和喜好。
[0034]图1示出了根据本发明的示例实施例对互联网上的内容进行处理的方法的流程图。
[0035]当用户通过客户端的用户界面进行登录操作时,本发明的方法开始(步骤210)。例如,用户可以通过在客户端的用户界面处输入用户名或者密码,来进行登录。当然,本领域的技术人员可以理解,用户还可以通过其它方式登录,例如匿名登录。
[0036]用户成功登录后,例如可以在用户界面呈现搜索栏,以接收用户输入。
[0037]在步骤212,用户在搜索栏输入想要从互联网上查询的内容,即检索主题。例如,用户正在进行的研宄课题是“90后上网游戏行为”,用户可以在搜索栏输入“90后上网游戏行为”。可选地,检索主题例如可以通过关键词的形式输入。
[0038]根据本发明的可选实施例,用户可以对搜索范围进行限制。例如,用户可以选择所要获取的互联网内容具体的发布(或创建)时间,从而选择只搜索在特定的一段时间内发布的互联网内容。
[0039]用户还可以选择要获取的互联网内容发布的地点,例如将搜索内容限定为是从哪个国家或具体地是哪个城市发布的,当然用户还可以更进一步限定为是从哪个小区或具体哪个建筑发布的。
[0040]此外,用户还可以选择要获取的互联网内容的来源。例如,用户可以限定只在脸书或者某个具体的微博中进行搜索。通过限定互联网内容的来源(例如互联网上的内容所发布的网站),以提高查询效率和针对性。
[0041]在步骤214,根据用户输入获取互联网内容和/或相关的属性信息,并存储搜索结果O
[0042]根据本发明的可选实施例,采用网络爬虫获取互联网内容和属性信息。获取的互联网内容可以包括例如社交网络上发布的消息、用户评论等,获取的互联网内容也可以包括网络上发布的各种新闻等。
[0043]网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
[0044]根据本发明实施例,除了获取互联网内容外,还获取互联网内容的属性信息。其中属性信息包括互联网内容的发布时间、发布地点、来源等。属性信息还可以包括关于互联网内容的发布者的信息,例如发布者的性别、年龄、身份、出生、家庭背景、收入、职业、教育背景等。
[0045]在步骤216,对所获取的互联网内容进行词频统计和/或属性信息分析。
[0046]根据本发明的示例实施例,词频统计之前可以选择对获取的互联网内容进行切词。本领域的技术人员可以理解切词并不是必须的。通常对于某些语言的互联网内容,例如中文,切词特别是有益的。通过切词可以删除没有实质意义或专指程度很低的词。
[0047]根据本发明的示例实施例,词频统计例如采用TF-1DF方法。TF-1DF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随它在文件中出现的次数成正比增加,但同时会
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1