获取网络文本数据的方法和系统的制作方法

文档序号：6369123阅读：150来源：国知局

专利名称：获取网络文本数据的方法和系统的制作方法
技术领域：
本发明涉及计算机网络技术，特别地涉及一种获取网络文本数据的方法和系统。
背景技术：
随着计算机网络的广泛应用，计算机网络中的信息量也日益增大。在一些应用场合，要求尽可能高效地获取网页中的信息。网页中的信息可以分为两类，一类是静态数据，包含在超文本标识语言(HTML)文件中，通过下载页面源代码即可。另一类是动态数据，这些数据在页面源代码中是不可见的，例如以推送(POST)的方式或异步JavaScript和XML(Asynchronous JavaScript and XML, AJAX)方式传递到浏览器。在相关技术中，通常利用JavaScript表现引擎重新执行获取数据的相关脚本代码从而获得执行结果，达到抓取动态数据的目的。此种方式需要构造一个浏览器(IE)核心主键JavaScript表现引擎，编码工程量大，而且定位相关数据的代码需要人工干预处理方式不够灵活，通过重复执行相关脚本代码效率低下，并且具有重复性劳动。因此现有技术中的获取网页动态数据的效率较低。在电子商务领域，人们关心的最多的是有关商品的信息，而这些信息往往是以文本的形式出现，例如商品名称、性能参数等，并且从事商品交易的人经常会对商品进行评论，这些评论是反映商品性能和服务质量的重要信息，往往受到人们的重点关注。但是在网页的动态数据中，除了对商品的评论，还有其他文本信息，在这种情况下想要有针对性地只获取商品评论信息，通常采用的是人工筛选的方式。不仅仅是商品的评论信息，对于其他指定类型的文本信息也采用的是人工筛选的方式，这种方式效率比较低。

发明内容
有鉴于此，本发明提供一种获取网络文本数据的方法和系统，能够提高从网页的动态数据中获取指定内容类型的文本信息的效率。为实现上述目的，根据本发明的一个方面，提供了一种获取网络文本数据的方法。本发明的获取网络文本数据的方法包括如下步骤对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目，从上述文本条目中选择关键词，并且计算每个关键词的第一类比值和第二类比值，其中，所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值，所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值，并且所述第一类文本条目与所述第二类文本条目互为补集；根据各个关键词的上述比值得出该关键词的对应概率，关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率；从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据，所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发；从所述响应数据中提取文本信息，对于提取的文本信息内的各个文本条目，根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目。
进一步地，所述根据各个关键词的上述比值得出该关键词的对应概率，包括根据如下公式进行计算P(AI Ti) =Pl (Ti)/[Pl (Ti) +P2 (Ti)];其中P(A|Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率，Pl(Ti)表示第i个关键词的第一类比值，P2(Ti)表示第i个关键词的第二类比值，i为自然数。进一步地，所述根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率，包括根据如下公式进行计算P (A I Tl, T2, Τ3. . . Tη) = (Ρ1ΧΡ2ΧΡ3Χ· · · XPn) X [Ρ1ΧΡ2ΧΡ3Χ. . · ΧΡη+(1_Ρ1) X (1-Ρ2) X (I-Pn)];其中:P (A I Tl, Τ2, Τ3. . . Τη)表示所述文本信息内的文本条目是第一类文本条目的概率；Ρη表示所述文本信息内的文本条目中出现的第η个关键词的对应概率，η为自然数。进一步地，在从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据之后，所述方法还包括触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据；比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址，根据比较得到的地址之间的区别确定多个地址，所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址；获取所述多个地址中的数据并保存。进一步地，所述网页提交的请求信息包括通过ajax方式或通过推送方式提交的请求信息。进一步地，所述响应数据包括JSON格式的文本数据。进一步地，所述第一类文本条目是评论商品的文本；所述第二类文本条目是评论商品的文本以外的其他文本。根据本发明的另一方面，提出了一种获取网络文本数据的系统。本发明的获取网络文本数据的系统包括比值模块、概率模块、抓包模块、输出模块，其中所述比值模块，用于对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目，从上述文本条目中选择关键词，并且计算每个关键词的第一类比值和第二类比值，其中，所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值，所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值；所述概率模块，用于根据各个关键词的上述比值得出该关键词的对应概率，关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率；所述抓包模块，用于从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据，所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发；所述输出模块，用于从所述响应数据中提取文本信息，对于提取的文本信息内的各个文本条目，根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目。进一步地，所述概率模块还用于根据如下公式进行计算P (A| Ti) =Pl (Ti)/[Pl (Ti)+P2 (Ti)];其中P (A I Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率，Pl (Ti)表示第i个关键词的第一类比值，P2 (Ti)表示第i个关键词的第二类比值，i为自然数。进一步地，所述输出模块还用于根据如下公式进行计算Ρ(Α|Τ1，Τ2，Τ3...Τη)= (Ρ1ΧΡ2ΧΡ3Χ· · · XPn) X [P1XP2XP3X. · · ΧΡη+(1-Ρ1) X (1-P2) X (I-Pn)];其中P (A I Tl, T2, Τ3. . . Τη)表示所述文本信息内的文本条目是第一类文本条目的概率；Ρη表示所述文本信息内的文本条目中出现的第η个关键词的对应概率，η为自然数。进一步地，还包括触发模块、分析模块、和获取模块，其中触发模块，用于触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据；分析模块，用于比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址，根据比较得到的地址之间的区别确定多个地址，所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址；获取模块，用于获取所述多个地址中的数据。进一步地，所述分析模块还用于确定所述多次翻页操作时到达的末页。根据本发明的技术方案，一方面，直接以抓包的方式获取服务器的响应数据，能够比较高效地获取动态数据；另一方面，通过自动侦辨的方式从动态数据中提取指定内容类型的文本信息，例如对于商品的评论文本，能够高效地得到需要的文本信息；又一方面，在动态数据分布在多页连续网页的情况下能够无需反复触发翻页按钮即可获得后续网页的动态内容，节省了处理时间。所有以上都有助于高效地从网页中获取指定内容类型的文本信息。

附图用于更好地理解本发明，并不构成对本发明的不当限定。其中图I是根据本发明实施例的获取网络数据的系统在网络中的配置位置的示意图；图2是根据本发明实施例的侦辨文本条目的方法的主要步骤的示意图；以及图3是根据本发明实施例的获取网络文本数据的系统的基本结构的示意图。
具体实施例方式以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识至IJ，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。图I是根据本发明实施例的获取网络数据的系统在网络中的配置位置的示意图。如图I所示，类似于现有技术，客户端11处于本地网络12中，本地网12络与服务器13连接，客户端11经由本地网络12向服务器13发送访问请求例如HTTP协议访问请求，服务器13经由本地网络12向客户端11返回响应例如HTTP协议响应。本地网络中配置有网络转发装置121，例如网关、路由器等设备，用来在服务器13和客户端11之间进行数据转发。为了本地网络的安全，在网络转发装置121内通常有网络监控服务。因为现有的客户端通常经由本地网络中的相关设备访问服务器，所以客户端与服务器之间的请求数据、响应数据都可以从本地网络中采用现有的“抓包”的方式获得，即从本地网络在客户端和服务器之间转发的数据中直接获取需要的数据。因此如图I所示，本发明实施例的获取网络数据的系统10可以设置在网络转发装置121中。
网络转发装置转发的数据中包含多种类型以及功能的数据，在本实施例中选择了抓取服务器向客户端发送的响应数据，因为动态数据就包含在该响应数据中，所以通过抓取响应数据即可获得动态数据，然后可以进行数据分析，无需重新执行获取数据的相关脚本代码，有助于提闻获取动态数据的效率。网页可以采用JavaScript函数进行ajax的方式或采用推送(Post)的方式来发送请求信息以请求服务器发送指定的动态数据。服务器在收到这种请求信息后，向客户端返回动态数据的网络地址例如统一资源定位符URL，客户端即可从该URL获得包含评论信息的动态数据。动态数据可能是文本、图片、视频、或其他格式的数据，因此抓包模块获取的网络数据也可能包含有上述各种格式的数据。但在实际应用中，可能只需获取某一种类的动态数据。例如，在电子商务领域中，买家在评论商品时，在页面的表单中输入评论的内容然后提交到服务器，客户端在打开网页后可以看到这些评论。评论信息是一种动态数据，它能够从某一角度反映出商品的销售情况和前景，是往往需要关心的内容，而抓包模块通常按时间段抓取该时间段内的所有数据包，其中包含有各种数据，除了包含了评论文本的html文件之外，还可以有图片等文件。所以优选的方式应当是先抓包模块抓取的数据包做出筛选，保留包含中文字符的信息，从而得到多个文本条目。对于得到的多个文本条目，如前所述，若采用人工的方式根据其内容进行筛选则效率较低。因此，在本实施例中，采用一种基于贝叶斯分类算法的侦辨文本条目的方法，该方法可以应用于识别文本条目是否为指定类型的文本条目，当然可以应用于识别文本是否为商品评论文本。以下结合图2对该方法作详细说明，图2是根据本发明实施例的侦辨文本条目的方法的主要步骤的示意图。步骤S21 :预先选取一个或多个第一类文本条目以及一个或多个第二类文本条目。这里的第一类文本条目和第二类文本条目互为补集，例如，“评论文本”和“非评论文本”就构成补集。也就是说对于一个文本条目，它不是第一类文本条目就是第二类文本条
目，二者必居其一。本步骤是选择训练集，即选择已知类别的文本条目，根据这些已知类别的文本条目，在后续的步骤中要得出各个关键词的对应概率，关键词的对应概率是“具有该关键词的文本条目是第一类文本条目”的概率。为了节省篇幅，以选取一个评论文本作为第一类文本，以及一个非评论文本作为第二类文本为例对图2中的各个步骤加以说明。评论文本“使用心得各方面都不错，屏够大，触屏灵敏，用着舒服。不足就是耳机那里不太好，插入时好像接触不稳，得来回调整才可以；播放视频时插入及拔出耳机时视频会暂停，但是屏中并未显示暂停播放的标志，需要手动播放。不知是个别机的问题，还是手机本身是这样的？有谁遇到过这样的情况么？望可以解答下。”非评论文本“请问货物从北京出仓，运送到山东泰安需要多长时间？我已经等了4天了，货物追踪还是显示在送往济南双建快递。京东不是承诺I 5天到货么，请帮忙解答下，谢谢。”
步骤S22 :从步骤S21中选取的文本条目中选择关键词。本步骤中的关键词的选取方式取决于指定类型的文本条目的语义特点。例如，指定的类型的文本条目是商品的评论文本，根据评论文本的语义特点，其中多含有形容词，例如“不错”、“不足”等，因此可以从文本条目中选取各种形容词作为关键词；而对于抓包模块抓取的服务器响应内容中的文本信息，其中既包含评论文本，也包含其他类型的，例如是咨询文本，而咨询文本的语义特点是包含“解答”、“请问”这类词语。另外，有些文本内既包含有评论内容，也包含咨询的问题，这种文本也可以视作评论文本，或根据实际需要而定。本实施例中，从评论文本中选择如下关键词解答、不错、不足。从非评论文本中选择如下关键词解答、请问。步骤S23 :计算每个关键词的第一类比值和第二类比值。这里的第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的
次数之和的比值；第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值。各个关键词在评论文本和非评论文本中出现的次数以及第一类比值和第二类比值如表I所示。表I
权利要求
1.一种获取网络文本数据的方法，其特征在于，包括如下步骤对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目，从上述文本条目中选择关键词，并且计算每个关键词的第一类比值和第二类比值，其中，所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值，所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值，并且所述第一类文本条目与所述第二类文本条目互为补集；根据各个关键词的上述比值得出该关键词的对应概率，关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率；从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据，所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发；从所述响应数据中提取文本信息，对于提取的文本信息内的各个文本条目，根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目。
2.根据权利要求I所述的方法，其特征在于，所述根据各个关键词的上述比值得出该关键词的对应概率，包括根据如下公式进行计算P (A I Ti) =Pl (Ti) / [PI (Ti) +P2 (Ti)]；其中P (A I Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率，Pl (Ti)表示第i个关键词的第一类比值，P2(Ti)表示第i个关键词的第二类比值，i为自然数。
3.根据权利要求I或2所述的方法，其特征在于，所述根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率，包括根据如下公式进行计算 P (A| Tl, T2, T3. Tn) =(P1XP2XP3X. . . XPn) X [P1XP2XP3X. . . XPn+(l_Pl) X (1-P2) X (I-Pn)]；其中P (A I Tl, T2, T3. . . Tn)表示所述文本信息内的文本条目是第一类文本条目的概率； Pn表示所述文本信息内的文本条目中出现的第n个关键词的对应概率，n为自然数。
4.根据权利要求I所述的方法，其特征在于，在从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据之后，所述方法还包括触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据；比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址，根据比较得到的地址之间的区别确定多个地址，所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址；获取所述多个地址中的数据并保存。
5.根据权利要求4所述的方法，其特征在于，所述网页提交的请求信息包括通过ajax方式或通过推送方式提交的请求信息。
6.根据权利要求4或5所述的方法，其特征在于，所述响应数据包括JSON格式的文本数据。
7.根据权利要求4或5所述的方法，其特征在于，所述第一类文本条目是评论商品的文本；所述第二类文本条目是评论商品的文本以外的其他文本。
8.一种获取网络文本数据的系统，其特征在于，包括比值模块、概率模块、抓包模块、输出模块，其中所述比值模块，用于对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目，从上述文本条目中选择关键词，并且计算每个关键词的第一类比值和第二类比值，其中，所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值，所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值；所述概率模块，用于根据各个关键词的上述比值得出该关键词的对应概率，关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率；所述抓包模块，用于从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据，所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发；所述输出模块，用于从所述响应数据中提取文本信息，对于提取的文本信息内的各个文本条目，根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目。
9.根据权利要求8所述的系统，其特征在于，所述概率模块还用于根据如下公式进行计算P (A I Ti) =Pl (Ti) / [PI (Ti) +P2 (Ti)]；其中P (A I Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率，Pl (Ti)表示第i个关键词的第一类比值，P2(Ti)表示第i个关键词的第二类比值，i为自然数。
10.根据权利要求8或9所述的系统，其特征在于，所述输出模块还用于根据如下公式进行计算 P (A| Tl, T2, T3. Tn) =(P1XP2XP3X. . . XPn) X [P1XP2XP3X. . . XPn+(l_Pl) X (1-P2) X (I-Pn)]；其中P (A I Tl, T2, T3. . . Tn)表示所述文本信息内的文本条目是第一类文本条目的概率； Pn表示所述文本信息内的文本条目中出现的第n个关键词的对应概率，n为自然数。
11.根据权利要求8所述的系统，其特征在于，还包括触发模块、分析模块、和获取模块，其中触发模块，用于触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据；分析模块，用于比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址，根据比较得到的地址之间的区别确定多个地址，所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址；获取模块，用于获取所述多个地址中的数据。
12.根据权利要求11所述的系统，其特征在于，所述分析模块还用于确定所述多次翻页操作时到达的末页。
全文摘要
本发明提供一种获取网络文本数据的方法和系统，能够提高从网页的动态数据中获取指定内容类型的文本信息的效率。在该方法中，直接以抓包的方式获取服务器的响应数据，通过自动侦辨的方式从动态数据中提取指定内容类型的文本信息。采用本发明的技术方案，有助于高效地从网页中获取指定内容类型的文本信息。
文档编号G06F17/21GK102810110SQ20121013796
公开日2012年12月5日申请日期2012年5月7日优先权日2012年5月7日
发明者徐舟林, 唐红军, 王彬申请人:北京京东世纪贸易有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐舟林;唐红军;王彬
技术所有人：北京京东世纪贸易有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。