数据分析方法和系统的制作方法_3

文档序号:8282370阅读:来源:国知局
br>[0075]当在这里使用时,术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其它数据那样的信息的任何方法或技术实施的易失性和非易失性、可拆卸和不可拆卸的介质。存储器1008和存储装置1010是计算机存储介质的例子。计算机存储介质包括,但不限于,RAM、ROM、EEPR0M、闪速存储器、或其他存储器技术、CD-ROM、数字多功能盘(DVD)、或其它光存储装置、磁带盒、磁带、磁盘存储装置、或其它磁存储装置、或可被使用来存储想要的信息和可被装置1002访问的任何其它介质。任何这样的计算机存储介质可以是装置1002的一部分。
[0076]装置1002还可包括允许装置1002与其它装置通信的通信装置1016。通信装置1016可包括但不限于,调制解调器、网络接口卡(NIC)、集成网络接口、射频发射机/接收机、红外端口、USB连接、或用于将计算装置1002连接到其它计算装置的其它接口。通信装置1016可包括有线连接或无线连接。通信装置1016可以发送和/或接收通信介质。
[0077]术语“计算机可读介质”可包括通信介质。通信介质典型地体现在诸如载波那样的“调制的数据信号”或其它输送机制中的计算机可读指令或其它数据,并包括任何信息传递介质。术语“调制的数据信号”可包括使其特性以这样的方式设置或改变的信号,即:把信息编码到信号中。
[0078]装置1002可包括输入装置1014,诸如键盘、鼠标、笔、话音输入装置、触摸输入装置、红外照相机、视频输入装置、和/或任何其它输入装置。诸如一个或多个显示器、扬声器、打印机、和/或任何其它输出装置那样的输出装置1012也可以被包括在装置1002中。输入装置1014和输出装置1012可以经由有线连接、无线连接或它们的任何组合被连接到装置1002。在一个实施例中,来自另一个计算装置的输入装置或输出装置可被用作用于计算装置1002的输入装置1014或输出装置1012。
[0079]计算装置1002的部件可以通过各种互连,诸如总线,而被连接。这样的互连可包括诸如PCI Express那样的外围设备互连(PCI)、通用串行总线(USB)、firewire (IEEE1394)、光总线结构等等。在另一个实施例中,计算装置1002的部件可以通过网络而互联。例如,存储器1008可以由位于通过网络互连的不同物理位置的多个物理存储器单元组成。
[0080]本领域技术人员将认识到,被利用来存储计算机可读指令的存储装置可以跨网络分布。例如,经由网络可访问的另一计算装置可以存储用来实施这里提供的一个或多个实施例的计算机可读指令。计算装置1002可以访问另一计算装置以及下载一部分或所有的计算机可读指令用于执行。替换地,计算装置1002可以按需要下载计算机可读指令的片段,或某些指令可以在计算装置1002上执行而某些指令在另一计算装置上执行。
[0081]以上已经参考本发明的具体实施例来描述了本发明,但是本领域技术人员均了解,可以对这些具体实施例进行各种修改、组合和变更,而不会脱离由权利要求或其等同物限定的本发明的精神和范围。
【主权项】
1.一种对互联网上的内容进行处理的方法,包括: 接收用户输入; 根据所述用户输入获取互联网上的内容和关于该内容的属性信息; 对所述内容进行词频统计和属性信息分析; 接收用户关于分析方法的选择; 根据用户所选择的分析方法处理所述内容。
2.如权利要求1所述的方法,还包括接收用户确定的变量。
3.如权利要求2所述的方法,其中由用户根据所述变量和所述变量间的关系选择所述分析方法。
4.如权利要求2所述的方法,其中由用户根据所述词频统计和属性信息分析确定所述变量。
5.如权利要求2所述的方法,其中,根据用户所选择的分析方法处理所述内容包括采用所述分析方法对所述变量进行分析。
6.如权利要求1所述的方法,其中所述接收用户输入包括接收用户输入的检索主题和限制条件。
7.如权利要求6所述的方法,其中所述检索主题以关键词的形式输入。
8.如权利要求6所述的方法,其中所述限制条件限定要获取的互联网上的内容的发布时间、发布地点和/或来源。
9.如权利要求8所述的方法,其中所述来源指所述互联网上的内容所发布的网站。
10.如权利要求1所述的方法,其中对所述内容进行词频统计包括对所述内容进行情感色彩分析或观点倾向分析。
11.如权利要求1所述的方法,其中所述属性信息包括所述内容的发布时间、发布地点、来源、发布者的性别、发布者年龄、发布者的身份中的一个或多个。
12.如权利要求1所述的方法,其中对所述内容进行词频统计和属性信息分析包括分析所述内容的发布者的特征。
13.如权利要求1所述的方法,其中所述分析方法包括相关分析、方差分析、回归分析、因子分析和聚类分析中的一个或多个。
14.如权利要求1所述的方法,还包括存储所述内容和所述属性信息。
15.如权利要求1所述的方法,其中所述获取采用网络爬虫进行。
16.一种对互联网上的内容进行处理的系统,包括: 一个或多个数据存储服务器; 一个或多个爬虫服务器;以及 一个或多个算法服务器, 所述爬虫服务器根据用户输入获取互联网上的内容和关于该内容的属性信息, 所述数据存储服务器存储所述内容和所述属性信息, 所述算法服务器对所述内容进行词频统计和属性信息分析,并根据用户所选择的分析方法处理所述内容。
17.如权利要求16所述的系统,所述算法服务器包括第一算法服务器和第二算法服务器,其中所述第一算法服务器对所述内容进行词频统计和属性信息分析,所述第二算法服务器根据用户所选择的分析方法处理所述内容。
18.如权利要求16所述的系统,其中所述爬虫服务器从客户端设备接收所述用户输
19.如权利要求16所述的系统,其中所述算法服务器从客户端设备接收用户对分析方法的选择。
20.如权利要求19所述的系统,其中所述算法服务器还从客户端设备接收用户确定的变量。
21.一种对互联网上的内容进行处理的系统,包括: 用于接收用户输入的装置; 用于根据所述用户输入获取互联网上的内容和关于该内容的属性信息的装置; 用于对所述内容进行词频统计和属性信息分析的装置; 用于接收用户关于分析方法的选择的装置; 用于根据用户所选择的分析方法处理所述内容的装置。
22.如权利要求21所述的系统,其中所述用于接收用户输入的装置包括用于接收用户输入的检索主题和限制条件的装置。
23.如权利要求21所述的系统,其中对所述内容进行词频统计包括对所述内容进行情感色彩分析。
24.如权利要求21所述的系统,其中所述属性信息包括所述内容的发布时间、发布地点、来源、发布者的性别、发布者年龄、发布者的身份中的一个或多个。
25.如权利要求21所述的系统,还包括用于接收用户确定的变量的装置。
【专利摘要】本发明涉及数据分析方法和系统,特别是对互联网上的内容进行处理的方法和系统。该方法包括接收用户输入,根据所述用户输入获取互联网上的内容和关于该内容的属性信息,对所述内容进行词频统计和属性信息分析;接收用户关于分析方法的选择,根据用户所选择的分析方法处理所述内容。根据本发明,由用户确定研究变量以及变量间的关系,并根据变量和变量间的关系选择相应分析方法。
【IPC分类】G06F17-30
【公开号】CN104598549
【申请号】CN201410854194
【发明人】钟惠波, 王富, 杜文滔, 王长梅
【申请人】北京畅游天下网络技术有限公司
【公开日】2015年5月6日
【申请日】2014年12月31日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1