数据分析方法和系统的制作方法_2

文档序号：8282370阅读：来源：国知局

随著它在语料库中出现的频率成反比下降。
[0048]在一份给定的文件里，词频(term frequency，TF)因子指的是某一个给定的词语在文档中出现的次数。一般来说，词频越高越显得文档和该词相关，就应该给予这个单词更高的权重。这个数字通常会被正规化，以防止它偏向长的文件。
[0049]逆文档频率因子(IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。IDF代表的是文档集合范围的一种全局因子，它只和给定的文档集合有关，与具体文档无关。所以IDF考虑的不是文档本身的特征，而是特征单词之间的相对重要性。当越多的文档包含某个单词时，则其IDF值越小，意味着这个词区分不同文档的能力越差。TF*IDF就可以得到该词的权重。
[0050]由于互联网，特别是社交网络中包括了大量用户例如对人物、事件、产品等有价值的评论信息。这些评论信息表达了用户的各种感情色彩与情感倾向性，譬如喜、怒、哀、乐、批评、赞扬、支持、反对等。
[0051]因此，根据本发明示例实施例，进行词频统计还包括但不限于对互联网内容进行情感分析或观点倾向分析等。根据本发明示例实施例，可以使用情感词典及与其关联信息分析文本情感。
[0052]除了对互联网内容进行词频统计分析之外，根据本发明示例实施例，还对还互联网内容的属性信息进行分析，即分析互联网内容针对所述属性信息的分布情况。例如，分析所获取的互联网内容的地理分布，得知这些互联网内容是从哪些地点发布的。如果某个地点发布的较多，则说明这个地点的人们对搜索主题比较关心或者该主题与其有切身厉害关系。同时结合情感分析，还可以知道不同地方人们对搜索主题的情感差异。
[0053]根据本发明示例实施例，进行词频统计和属性信息分析还可以包括分析互联网内容发布者(或评论者)的特征(例如人格特征等)。
[0054]在步骤218，用户可以选择直接输出步骤216中的结果还是进行进一步分析。选择进一步分析则本发明的方法进行到步骤220，否则进行到步骤226直接输出结果。当然本领域的技术人员可以理解步骤218不是必须的，本发明可以不包括该步骤，而直接从步骤216进行到步骤220。
[0055]在步骤220，接收用户关于分析方法的选择。
[0056]用户可以选择的述分析方法包括相关分析、方差分析、回归分析、因子分析和聚类分析等。
[0057]例如，回归分析可以根据目前所拥有的信息(数据)来建立所关心的变量和其它有关变量的关系，这种关系一般称为模型。如果用Y表示感兴趣的变量，用X表示其它可能与Y有关的变量，则可以建立函数关系Y = f(x)。这里Y称为因变量，X称为自变量。一旦建立了回归模型，除了对变量的关系有了进一步的定量理解之外，还可以利用该模型(函数)通过自变量对因变量做预测。
[0058]根据本发明的示例实施例，在选择分析方法之前，用户可以确定感兴趣的(即要研宄的)变量和/或参数，以及变量之间的关系。这样用户可以根据所确定的变量和变量间的关系来选择分析方法。
[0059]例如，如果要从互联网上用户对产品的评论研宄质量和用户满意度之间的因果关系，由于通常产品质量会影响用户的满意情况，因此设用户满意度为因变量，记为Y ;则质量为自变量，记为X。通常用户满意度还与产品的价格和形象有关，因此还可以以“用户满意度”为因变量，“质量”、“形象”和“价格”为自变量。在确定好变量之后，可以选择相应的分析方法，例如选择回归分析。
[0060]根据本发明的可选实施例，例如，用户可以根据词频统计和/或属性信息分析的结果确定变量和/或变量间的关系。
[0061]根据本发明的另一可选实施例，可以以属性信息中包含的一个或多个属性作为变量(例如自变量)，还可以选择以研宄的课题作为变量(例如因变量)。
[0062]在步骤224根据用户所选择的分析方法对所获取的互联网内容进行分析。这可以包括，例如，采用用户选择的分析方法对用户确定的变量进行分析。
[0063]分析结果在步骤226输出给用户，之后本发明的方法在步骤228结束。
[0064]图2示出了根据本发明的示例实施例的对互联网上的内容进行处理的系统。
[0065]该系统例如可以包括一个或多个客户端200、一个或多个数据存储服务器400、一个或多个爬虫服务器600，以及一个或多个算法服务器800。虽然在图2中存储服务器400、爬虫服务器600以及算法服务器800示出为相互独立的服务器，但是根据本发明的可选实施例，可以只使用一个服务器来实现存储服务器400、爬虫服务器600以及算法服务器800的功能。
[0066]根据来自客户端200的用户输入(即任务)，爬虫服务器600进行信息爬取，获取互联网内容和/或相关的属性信息，并将结果存储至数据存储服务器400中。
[0067]算法服务器800访问数据存储服务器400，对所获取的互联网内容进行词频统计和属性信息分析。
[0068]算法服务器800还从客户端200接收用户确定的变量以及用户关于分析方法的选择，根据用户所选择的分析方法对所获取的互联网内容进行分析，将分析得出的结果存储至数据存储服务器400，并提供给客户端200。
[0069]总之，根据本发明，对互联网上的信息进行检索查询，为用户提供基础的数据统计分析和文本分析，且用户可选择深入分析，系统为用户输出详细的分析报告。根据本发明，简化用户搜索喜欢的内容，提供更便捷的人机交互体验，而且保存每次用户检索到的信息，便于用户对数据的二次观看和分析，为科学研宄人员提供方便、准确、高效的信息搜索平台。
[0070]虽然上文以互联网的内容为例说明了本发明的数据分析方法和系统，当然本领域的技术人员可以理解本发明中的数据不限于互联网内容。
[0071]图3示出示例性计算装置。图3示出的计算装置仅仅是本发明可用的操作环境的一个例子。所述计算装置例如是本发明的算法服务器或者爬虫服务器或者是数据存储服务器。示例性计算装置包括，但不限于，个人计算机、服务器计算机、手持或膝上型装置、移动装置(诸如，移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费者电子装置、小型计算机、大型计算机、包括任何的上述系统或装置的分布式计算环境等等。
[0072]示例性实施例是在由一个或多个计算装置执行的“计算机可读指令”的一般上下文中被描述的。计算机可读指令可以经由计算机可读介质(下面讨论的)来分发。计算机可读指令可以被实施为诸如功能、对象、应用编程接口(API)、数据结构等等那样的程序模块，所述程序模块执行特定的任务或实施特定的抽象数据类型。典型地，计算机可读指令的功能性可以如在各种环境中希望的那样被组合或分布。
[0073]图3包括被配置成实施这里提供的一个或多个实施例的计算装置1002的例子。在一个配置中，计算装置1002包括至少一个处理单元1006和存储器1008。取决于计算装置的确切配置和类型，存储器1008可以是易失性的(举例而言，诸如RAM)、非易失性的(举例而言，诸如ROM、闪速存储器等等)、或二者的某种组合。这种配置在图3上用虚线1004例示。存储器1008是上文所述的内存的一个例子。
[0074]在其它实施例中，装置1002可包括附加特征和/或功能性。例如，装置1002还可包括附加的存储装置(例如，可拆卸和/或不可拆卸的)，包括但不限于，磁存储装置、光存储装置等等。这样的附加存储装置在图3上用存储装置1010例示。在一个实施例中，实施这里提供的一个或多个实施例的计算机可读指令可以是在存储装置1010中。存储装置1010还可存储实施操作系统、应用程序等等的其它计算机可读指令。计算机可读指令可被装载在存储器1008中，用于例如由处理单元1006执行。<

完整全部详细技术资料下载

当前第2页1 2 3