网站内容监控方法和装置与流程

文档序号：15686486发布日期：2018-10-16 21:06阅读：351来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及互联网技术领域，特别是涉及一种网站内容监控方法和装置。

背景技术：

随着互联网技术的发展，通过网络提供的内容越来越丰富。但有时候，文学、影视、电商等行业的正版网站的内容会被盗版网站批量盗取，对正版网站的流量营收和作者版权造成较大影响，不仅影响网站服务器安全，而且对内容安全构成威胁并导致行业内的不良竞争。

技术实现要素：

本申请的目的在于提供一种网络内容监控方法和装置，以针对盗版行为和结果提供风险即时发现、风险关联预警、盗版网站关联信息追溯，另外实现清晰可见的盗版行为和网站流量的趋势的展示，达到直观的使用效果展现。

一种网站内容监控方法，其包括：

接收第一爬虫程序根据预设的第一网站提供的第一网站内容的信息从第二网站爬取到的第二网站内容的信息；

根据所述第二网站内容的信息确定所述第二网站收录所述第一网站内容的情况；

根据所述第二网站收录所述第一网站内容的情况，统计所述第二网站对所述第一网站的盗版数据。

一种网站内容监控装置，包括：

盗版信息接收模块，用于接收第一爬虫程序根据预设的第一网站提供的第一网站内容的信息从第二网站爬取到的第二网站内容的信息；

盗版判断模块，用于根据所述第二网站内容的信息确定所述第二网站收录所述第一网站内容的情况；

盗版统计模块，用于根据所述第二网站收录所述第一网站内容的情况，统计所述第二网站对所述第一网站的盗版数据。

通过本申请实施例的网站内容监控方法和装置，可以大幅度提升互联网文学站点所面临的受保护的半公开或公开数据被盗版爬虫持续爬取的风险的感知度，为文学版权维权提供了有效的盗版证据支撑，为文学行业提供了深入打击盗版站群的预警参考数据。另外，结合爬虫检测系统，可提供简易明晰的数据展示和效果观测。

附图说明

为了更清楚的说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。

图1为根据本申请实施例的网站内容监控方法流程图；

图2为根据本申请实施例的监控数据统计示意图；

图3为根据本申请实施例的网站内容监控方法流程图；

图4为根据本申请实施例的网站内容监控方法流程图；

图5为根据本申请实施例的网站爬取规则配置界面示意图；

图6为根据本申请实施例的网站内容监控方法流程图；

图7为根据本申请实施例的网站内容监控方法流程图；

图8为根据本申请实施例的网站内容监控方法流程图；

图9为根据本申请实施例的网站内容监控方法流程图；

图10为根据本申请实施例的网站内容监控方法流程图；

图11为根据本申请实施例的网站内容监控方法流程图；

图12为根据本申请实施例的爬虫分析结果示意图；

图13为根据本申请实施例的被盗版总览示意图；

图14为根据本申请实施例的网站内容监控装置的示意图；

图15为根据本申请实施例的网站内容监控装置的示意图；

图16为根据本申请实施例的网站内容监控装置的示意图；

图17为根据本申请实施例的网站内容监控装置的示意图；

图18为根据本申请实施例的网站内容监控装置的示意图；

图19为根据本申请实施例的网站内容监控装置的示意图；

图20为根据本申请实施例的网站内容监控装置的示意图；

图21为根据本申请实施例的网站内容监控装置的示意图；

图22为根据本申请实施例的网站内容监控装置的示意图；

图23为根据本申请实施例的网站内容监控装置的硬件结构示意图。

具体实施方式

以下结合说明书附图及具体实施例进一步说明本申请。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

网络爬虫是一种自动获取网页内容的程序。在文学、影视、电商等行业中，网络爬虫可被盗版网站轻易利用于批量拉取正版网站公开或半公开的信息，迅速处理据为己有，对正版网站的流量营收和作者版权造成较大影响。例如，在文学行业，盗版网站通常利用小说采集器作为网络爬虫，配合开源小说内容管理系统(cms)(如杰奇cms)进行建设，成本较低，传播方式较广(包括论坛，网盘和p2p下载等)，造成人工打击难度极大，同时可在短时间内给正版文学网站带来直接的网站流量和用户的流失，用户付费意愿降低，间接造成正版文学网站的增值服务收入的下降，作家和正版文学网站损失严重。除此之外，对于一个正版网站而言，恶意爬虫的大量请求会消耗服务器的性能，甚至会造成服务器宕机。

鉴于以上，本申请实施例提供了一种网站内容监控方法和装置，以针对盗版行为和结果提供风险即时发现、风险关联预警、盗版网站关联信息追溯，另外实现清晰可见的盗版行为和网站流量的趋势的展示，达到直观的使用效果展现。

图1为根据本申请实施例的一种网站内容监控方法流程图，其包括以下步骤：

步骤101：接收第一爬虫程序根据第一网站提供的第一网站内容的信息从第二网站爬取到的第二网站内容的信息。

根据本申请实施例，第一爬虫程序例如是由第一网站所属的服务器执行的python语言编写的、爬取第二网站的爬取脚本程序。第一网站为正版网站，第二网站为盗版网站。第一爬虫程序可以根据预先配置的第一网站内容的信息、第二网站的搜索入口以及爬取规则，从第二网站爬取第二网站内容的信息，上报给第一网站所属的服务器。第一网站内容和第二网站内容包括出版物和/或在线播放的媒体内容等。第一网站内容的信息可以包括至少一个第一摘要信息项，第二网站内容的信息可以包括：至少一个第二摘要信息项。例如，在第一网站和第二网站的内容为网络书籍的情况下，第一摘要信息项为第一网站中的网络书籍的书名、作者名称等，第二摘要信息项为第二网站中的网络书籍的摘要信息和阅读入口。

在步骤101中，第一爬虫程序根据第一网站提供的第一网站内容的信息从第二网站爬取第二网站内容的信息包括以下步骤：

获取第二网站中用于在第二网站中搜索第二网站内容的接口；通过所述接口，根据所述至少一个第一摘要信息项，搜索第二网站内容的信息。

服务器端的用户可以通过配置页面预先配置在第二网站中搜索第二网站内容的入口以及至少一个第一摘要信息项，然后爬虫程序根据这个入口，搜索第二网站内容。根据本申请实施例，例如，在获取盗版网站的书籍搜索入口之后，通过输入正版网站的书籍的作者和书名，爬虫程序进行搜索，搜索出匹配到的第二网站内容的信息。该第二网站内容的信息例如为小说摘要信息和阅读入口。其中阅读入口为第二网站内容的链接。

步骤102：根据所述第二网站内容的信息确定所述第二网站收录所述第一网站内容的情况。

根据本申请实施例，在该步骤中，服务器判断所述至少一个第一摘要信息项是否与所述至少一个第二摘要信息项相匹配，如果匹配，则确定所述第二网站收录了所述第二网站内容。

例如，在第一网站和第二网站的内容为网络书籍的情况下，当服务器判断第一网站中的网络书籍的书名和作者名称出现在第二网站的网络书籍的摘要信息中时，则判断第二网站收录了第一网站中该第一摘要信息对应的网络书籍。

步骤103：根据所述第二网站收录所述第一网站内容的情况，统计所述第二网站对所述第一网站的盗版数据。

根据本申请实施例，当服务器判断第二网站收录了第一网站内容时，统计第二网站对第一网站的盗版数据，例如，第二网站收录第一网站内容的数量等等。

图2为根据本申请实施例的监控数据统计示意图，其中详细展示了被盗书籍信息和对应的盗版网站信息、最短盗版时间差、被盗书籍的类别、书籍的被盗率等等，并可按关注的字段排序和导出数据。例如，图2中示出了当天、昨天、近7天、近15天、近30天被盗版书籍趋势、被盗版书籍比例、被盗版书籍详情的图表。被盗书籍趋势图利用柱状图和曲线图展示用户所选日期区间内的被盗书籍每天的类别分布、被盗率的变化趋势等等，可直观看出当前盗版目标的热门指标分布，为之后的监测保护策略提供参考。其中，类别名由正版网站的分类决定。被盗版书籍比例图为包括被盗书籍的类型(如男性、女性小说)比例以及被盗率(即，例如监控正版网站的100本书，其中有94本书被盗，则被盗率为94％)的圆形饼图。被盗书详情中统计了被盗版的书籍名称、最短盗版时差、盗版站名、盗版站日均uv(uniquevisitor(独立访客))等等。其中的uv指标来源于alexa.cn中盗版网站的日均访问ip地址数，可以反映出对正版网站业务和收入的影响。最短盗版时差是通过服务器持续监控书籍的最新章节得出的，是盗版网站盗取正版网站书籍最新章节的时间差，可以反映盗版网站的技术实力和对正版网站的威胁程度。图2中统计的数据可以通过excel格式导出。

通过本申请实施例的上述方法，可以自动对盗版行为进行实时监控，为之后的监测保护策略提供参考，减少了人工监控的成本。

图3为根据本申请实施例的一种网站内容监控方法流程图，其中，在所述第一网站内容和第二网站内容为网络出版物的情况下，步骤103中，所述根据所述第二网站收录所述第一网站内容的情况，统计所述第二网站对所述第一网站的盗版数据包括：

步骤301：当确定所述第二网站收录了所述第一网站的网络出版物时，统计第二网站收录的第一网站的网络出版物章节和对应的第一网站的网络出版物的章节更新时间差。

通过统计第二网站收录的第一网站的网络出版物章节和对应的第一网站的网络出版物的章节更新时间差，可以判断第二网站对第一网站的威胁程度。二者的更新时间差越小，说明第二网站跟随第一网站的内容越紧，用户有可能直接访问第二网站便可以满足其及时浏览网络出版物的需求，而不需要访问第一网站，这样第二网站对第一网站威胁越大。

图4为根据本申请实施例的一种网站内容监控方法流程图。如图4所示，在图3的基础上，根据本申请实施例，步骤301中，统计第二网站收录的第一网站的网络出版物章节和对应的第一网站的网络出版物的章节更新时间差具体包括以下步骤：

步骤401：获取第一网站的第一网络出版物的第一标识。

根据本申请实施例，第一网络出版物的第一标识可以是由服务器端的用户通过配置页面预先配置的。该第一标识例如为第一网络出版物在第一网站的编号。

步骤402：从第二网站中的网络出版物的阅读入口中，获取第二网站收录的、和第一网络出版物相同的第二网络出版物的第二标识。

第一爬虫程序通过第二网站的搜索入口，搜索出第二网站的网络出版物的阅读入口，该阅读入口包括第二网站的网络出版物的链接。然后，从该阅读入口获取第二网站收录的、和第一网站的第一网络出版物相同的第二网络出版物的第二标识。该第二标识例如为第二网站收录的网络出版物在第二网站中的编号。

步骤403：定期通过所述第一标识和第二标识获取第一网络出版物和第二网络出版物的章节标题。

第一爬虫程序对第一网站和第二网站都是定期爬取的，在爬取的过程中，分别通过第一标识从第一网站的阅读入口获取第一网络出版物的目录页并通过第二标识从第二网站的阅读入口获取第二网络出版物的目录页，再根据目录页获取各章节标题。通过这样，可以及时获取第一网络出版物和第二网络出版物的最新更新章节。

步骤404：记录首次获取到第一出版物的第一章节标题的时间和对应的第二网络出版物的第二章节标题的时间。

当服务器得到第一爬虫程序首次获取到的第一出版物的第一章节标题时，记录该获取到第一章节标题的时间，作为第一章节更新的时间。然后服务器根据第一爬虫程序获取到的第二网络出版物的目录页，通过对第一章节标题与第二网络出版物目录页中的章节标题进行字符串正则匹配，判断第二网络出版物的目录中是否有和第一章节标题相同的第二章节标题，如果有，则判断第二章节也进行了更新，也记录获取到第二章节标题的时间，作为第二章节更新的时间。正则匹配是对字符串进行匹配，其利用事先定义好的一些特定字符及这些特定字符的组合，组成一个“规则字符串”，然后用这个“规则字符串”去匹配文本中的字符，判断文本中是否有符合“规则字符串”的字符。

步骤405：比较首次获取到第一章节标题的时间和第二章节标题的时间，计算二者的时间差，将该时间差作为第二网站的网络出版物章节和第一网站对应的网络出版物的章节更新时间差。

根据本申请实施例，在服务器首次获取到第一章节标题的时间和第二章节标题的时间之后，可以计算二者的时间差，将其作为第一章节和第二章节更新时间差。

在得到第一网络出版物和第二网络出版物对应的各章节更新时间差之后，可以计算各章节的平均更新时间差和最短更新时间差(最短盗版时差)。平均更新时间差为各章节更新时间差的总和除以章节数目。最短更新时间差为各章节更新时间差中最小的值。

图5为根据本申请实施例的网站爬取规则配置界面示意图，可以用于前述实施例中提到的各种配置。例如，在该配置界面中预先配置盗版网站的名称、目录链接、目录页章节正则、搜索入口、搜索规则、书籍编号提取规则等等。

其中，盗版网站的名称例如为：xxx小说网。

目录链接配置的是盗版网站书籍目录地址的模版格式，用于配合后续的book_sn提取正则表达式，从每个盗版网站书籍的实际目录地址(如：http://www.xxx.tw/86_86745/,http://www.xxx.tw/9_9080/等)中，提取出对应的书籍编号(例如：86_86745和9_9080)。

目录页章节正则是用于提取目录页面中存放的、正版和盗版书籍的章节标题和更新时间，可以用于后继的计算，例如将盗版书籍的更新时间减去正版书籍的更新时间，得出正版书籍每个章节被盗版的时间差。所述提取过程例如是通过正则表达式设置匹配规则以及要提取的内容。示例的正则表达式为：<dd><astylehref＝“/\d+_\d+/\d+\.html”>([^\<]+)</a></dd>()。其中，匹配规则是“/\d+_\d+/\d+\.html”，即如果有页面html代码，从中匹配符合“十进制数字字符”+“_”+“十进制数字字符”+“/”+“十进制数字字符”+“.html”的代码，然后从中提取出([^\<]+)对应的文本。具体而言，在搜索结果页面html代码里，提取其中匹配此正则表达式模式的文本，即为所需章节名。例如，在搜索结果页面html代码中，具有<dd><astylehref＝“/86_86745/4962825.html”>第二百二十七章天师降妖术</a>＝＝$0</dd>，通过正则匹配，“/86_86745/4962825.html”符合匹配规则，则可以从书籍目录页面html代码中提取出文本“第二百二十七章天师降妖术”，即为最新章节名。

搜索入口配置的是盗版网站检索书籍的功能入口(如：http://zhannei.baidu.com/cse/search？s＝16829369641378287696&q＝书籍名+作者名)，输入书籍名和作者名即可返回盗版网站中，匹配到的小说简要信息和阅读入口。

搜索规则用于提取搜索入口中的页面结果中的书籍名、作者等信息，用于判定正版书籍是否被收录(即被盗版)，提取最后更新时间等指标。如提取书名规则(#results>.result-game-item-title-link>0)，则按照规则提取搜索结果页面html代码里id＝results元素下，第1个class＝result-game-item-title-link的元素，并提取该元素内的文本，即为所需书名。

书籍编号提取规则用于配合目录链接的模版，提取盗版书籍在盗版网站的书籍编号，从而和正版网站的同一书籍的编号对应绑定。

图6为根据本申请实施例的网站内容监控方法流程图。其中，在前述实施例的基础上，进一步包括以下步骤：

步骤601：解析在预定时间段内访问第二网站的每日平均ip地址数量；

在这种情况下，步骤103中，统计第二网站对第一网站的盗版数据进一步包括：统计在预定期间段内访问第二网站的每日平均ip地址数量。

步骤601在步骤103之前执行，可以和其他步骤的处理并行进行。

alexa网站是互联网首屈一指的免费提供网站流量信息的公司。根据本申请实施例，第一爬虫程序可以通过向alexa网站提供的查询接口发出http请求，提取与第二网站流量相关的数据，例如访问第二网站的ip地址，上报给服务器。

服务器根据第一爬虫程序上报的第二网站的流量数据，判断在预定时间段内访问第二网站的每日平均ip地址数量。

因为第二网站是对第一网站内容进行盗版的网站，访问第二网站的流量是衡量第一网站用户流失的一个指标，通过对第二网站的流量的监控，可以得出第二网站对第一网站造成的流量损失，进一步得出收益损失。

图7为根据本申请实施例的网站内容监控方法流程图，其中，在前述实施例的基础上，进一步包括：

步骤701：获取访问第一网站的第二爬虫程序的特征。

根据本申请实施例，第一网站的服务器获取访问第一网站的第二爬虫程序的特征。这些特征例如包括：第二爬虫程序的ip地址、地理位置、爬取第一网站的手法等等。

步骤702：根据预设的监控策略对所述第二爬虫程序的特征进行统计。

服务器基于获取到的第二爬虫程序的特征，根据预设的监控策略对第二爬虫程序的特征进行统计。例如，预设的监控策略包括：可疑路径策略、频率策略、爬取间隔策略、采集器爬取策略，然后统计第二爬虫程序是低频爬取还是高频爬取、爬取的路径是否是可疑路径、是否是用采集器爬取等等。

通过这样，第一网站的服务器可以对其他服务器爬取第一网站的爬虫进行监控，以进行预警。

图8为根据本申请实施例的网站内容监控方法流程图，其中，在图7的基础上，步骤701中，获取访问第一网站的第二爬虫程序的特征包括：

步骤801：获取所述第二爬虫程序访问第一网站的路径，根据所述路径和预设的访问第一网站受保护的接口的路径，计算所述第二爬虫程序在预定的时间段内访问第一网站受保护的接口占第二爬虫程序访问第一网站的接口的比例。

根据本申请实施例，第一网站受保护的接口为用于获取第一网站中的网络书籍内容的阅读入口。服务器可以记录第二爬虫程序访问第一网站的路径，比较其与预设的受保护的接口的路径是否相同，判断其访问的对象。如果通过进行比较，判断出第二爬虫程序访问第一网站的路径与预设的一个受保护的接口的路径相同，则判断出爬虫程序访问的是第一网站受保护的接口，表示其有可能在爬取第一网站中受保护的内容。

服务器通过计算第二爬虫程序在预定的时间段内，例如一周内，访问第一网站受保护的接口占第二爬虫程序访问第一网站的接口的比例，可以得出第二爬虫程序对第一网站内容的威胁程度或恶意度指标。所述比例越大，则表示第二爬虫程序对第一网站的威胁越大。

步骤702中根据预设的监控策略对所述第二爬虫程序的特征进行统计包括：

步骤802：判断所述比例是否大于预设的比例。

根据本申请实施例，预设的监控策略为可疑路径策略，其中，预先配置有符合可疑路径爬取的比例，然后判断所述访问比例是否大于预定的比例。

步骤803：如果所述比例大于预设的比例，则将所述第二爬虫程序计入到访问第一网站的爬虫数目中。

根据本申请实施例，如果所述比例大于预设的比例，所述第二爬虫有可能为恶意爬虫，对其进行统计。

通过本申请实施例，通过统计爬虫程序访问第一网站受保护的接口占其访问第一网站的接口的比例，可以判断爬虫是否对第一网站有威胁，以更准确地预警。

图9为根据本申请实施例的网站内容监控方法流程图，其中，在图7的基础上，步骤701中，获取访问第一网站的第二爬虫程序的特征包括：

步骤901：获取所述第二爬虫程序访问第一网站的路径，根据所述路径和预设的访问第一网站受保护的接口的路径，计算所述第二爬虫程序在预定的时间段内访问第一网站受保护的接口的频率。

步骤702中根据预设的监控策略对所述第二爬虫程序的特征进行统计包括：

步骤902：判断所述访问频率是否大于预定的次数。

根据本申请实施例，预设的监控策略为频率策略，其中，预先配置有符合高频爬取特征的次数，然后判断所述访问频率是否大于预定的次数。

步骤903：如果所述访问频率大于所述预设的次数，则将所述第二爬虫程序计入到访问第一网站的爬虫数目中，并统计所述第二爬虫程序爬取所述第一网站内容的方式为高频爬取。如果所述访问频率不大于所述预设的次数，则统计所述第二爬虫程序爬取所述第一网站内容的方式为低频爬取。

通过对第二爬虫爬取第一网站内容的频率进行统计，可以进一步得知第二爬虫对第一网站的威胁程度，更好地预警。

图10为根据本申请实施例的网站内容监控方法流程图，其中，在图7的基础上，步骤701中，获取访问第一网站的第二爬虫程序的特征包括：

步骤1001：根据所述第二爬虫程序访问第一网站的路径和预设的访问第一网站受保护的接口的路径，记录所述第二爬虫程序在预定的时间段内访问第一网站受保护的接口的时间。

步骤702中，根据预设的监控策略对所述第二爬虫程序特征进行统计包括：

步骤1002：判断所述时间中是否至少有三个相邻时间之间的间隔是相同的。

根据本申请实施例，所述监控策略为爬取间隔策略。服务器通过计算所述时间之间的差值，判断所述时间之间的间隔是否固定的。其中至少计算三个相邻时间之间的间隔。

步骤1003：如果是固定的，则将所述第二爬虫程序计入到访问第一网站的爬虫数目中。

根据本申请实施例，如果判断第二爬虫程序对第一网站受保护的接口的访问的时间间隔是固定的，则表示第二爬虫程序是有规律地对第一网站受保护的内容进行爬取，是对第一网站有威胁的。在这种情况下，统计第二爬虫程序。

图11为根据本申请实施例的内容监控方法流程图，其中，在图7的基础上，步骤701中，获取访问第一网站的第二爬虫程序的特征包括：

步骤1101：获取所述第二爬虫程序对第一网站发出的访问请求的数据包头部的字段顺序和字段值。

在有的情况下，盗版网站使用的爬虫程序是成熟的采集器，服务器可以通过对市面上的成熟的采集器的特征进行统计，以进一步对爬虫程序进行监控。

例如，服务器统计出采集器在采集正版网站的过程中，发出的http请求集合中采样的样本(集合中各个核心请求特征基本相同)。

第1个样本：

gethttp://10.26.71.56:8881/0_1/3.htmlhttp/1.1

accept:*/*

user-agent:baiduspider+(+http://www.baidu.com/search/spider.htm)

referer:http://10.26.71.56:8881/book/1/

host:10.26.71.56:8881

第2个样本：

gethttp://10.26.71.56:8881/0_1/3.htmlhttp/1.1

accept:*/*

referer:http://10.26.71.56:8881/book/1/

user-agent:mozilla/5.0(iphone；u；cpuiphoneos3_0likemacosx；en-us)applewebkit/528.18(khtml,likegecko)version/4.0mobile/7a341safari/528.16

content-type:application/x-www-form-urlencoded

accept-language:zh-cn

accept-encoding:gzip,deflate

host:10.26.71.56:8881

connection:\s？keep-alive

从上述两个样本来看，其中数据包头部的“accept”、“user-agent”、“referer”字段的前后顺序是固定的2种，分别是“accept”、“user-agent”、“referer”和“accept”、“referer”、“user-agent”。另外，http请求中某些字段的值也是固定的，例如，“accept”字段的值为“*/*”、“content-type”的值为“application/x-www-form-urlencoded”。

根据本申请实施例，服务器在统计采集器发出的http请求样本时，可以不考虑http请求的实际用途，而是仅将其中的代码作为字符串来处理。

步骤702中，根据预设的监控策略对所述第二爬虫程序特征进行统计包括：

步骤1102：判断所述字段顺序与预设的字段顺序以及所述字段值与预设的字段值是否匹配。

根据本申请实施例，预设的监控策略为采集器爬取策略，其中，预先配置有符合可疑采集器爬取的字段顺序和字段值。服务器在判断第二爬虫程序是否是所述采集器时，可以使用正则表达式对上述请求特征中的字段值和字段的顺序以及第二爬虫程序发出的http请求，进行严格匹配。根据本申请实施例，如果经过正则匹配计算，得出第二爬虫程序发出的http请求中的“accept”、“user-agent”、“referer”字段和第一样本或第二样本中的字段顺序相同，且“accept”和“content-type”字段值和第一样本或第二样本中的字段值相同，则判断为匹配。

步骤1103：如果匹配，则将所述第二爬虫程序计入到访问第一网站的爬虫数目中。

通过上述方式，可以判断第二爬虫程序是否是用所述采集器对第一网站进行采集。

服务器端可以统计多个采集器的特征，分别与第二爬虫程序进行比较，判断第二爬虫程序是否是使用了其中一个采集器。由于采集器的爬取力度更大，通过判断第二爬虫程序是否为采集器，可以进一步判断第二爬虫程序对正版网站的威胁程度。

实际中，多个盗版网站有可能形成盗版站群，该多个盗版网站关联着一个或多个相同的ip地址。因此，可以在获取到第二网站的ip地址之后，获取与该ip地址关联的域名，以获取其他盗版网站。

通过这样，可以进行盗版网站关联信息追溯，及时发现盗版站群，进行风险关联预警，进一步减小对正版网站造成的损失。

根据本申请实施例，在根据图9-图11所示的实施例统计爬虫数目时，可以将通过各个实施例的方法统计出的爬虫数加起来，得到总的爬虫数。有的爬虫可能几个统计条件都满足，在这种情况下，为避免重复统计爬虫的数目，可以根据爬虫的标识来识别是否是相同的爬虫。所述爬虫的标识例如为：爬取的uid(用户设备标识)+爬取的目标域名。另外可以加上爬虫的ip地址作为筛选条件,uid+爬取的目标域名+ip地址相同的爬虫为一个爬虫。

图12为根据本申请实施例的爬虫分析结果示意图，展示了系统检测出的各类爬虫的对应指标，可以操作将爬虫加入黑名单或白名单，达到持续对爬虫的爬取手法和地域分布进行监控的目的。如图12所示，通过统计可以得出爬虫趋势、爬虫类型分布、实时爬虫详情、离线爬虫图等。

其中，爬虫趋势图展示一段周期内的各类爬虫数的变化趋势。例如，在2016年12月18日，统计出的低频爬取的爬虫为70个、可疑路径的爬虫为11个、可疑采集器的爬虫为7个、高频爬取的爬虫为457个。爬虫类型图展示各类爬虫数量在一段周期内的总数各自占比。实时爬虫详情图展示了爬虫的ip地址、地理位置、爬取手法(可疑路径、可疑采集器、高频爬取、低频爬取)、策略命中次数(选定时间段内，命中了预先配置的爬虫爬取手法检测模型的次数)、恶意度指标等等。离线爬虫详情图展示了基于历史数据分析出的各个爬虫的详细情况，其中包括使用采集器的爬虫。统计的数据例如包括爬虫的ip地址、地理位置、爬取手法(可以采集器)、命中预先配置的规则的次数、污点分值、发现方式等等。

图13为根据本申请实施例的被盗版总览示意图，展示主要监控指标：被盗书数、爬虫数、平均被盗时间。

其中，被盗版趋势展示一个周期(默认为7天内)的爬虫数、平均被盗时间和被盗书数量的指标和变化趋势，可直观反映爬虫反制效果和威胁趋势。被盗书数是指盗版网站收录了正版网站书籍的数目。爬虫数是指访问正版网站的爬虫的数目。平均被盗时间是盗版网站和正版网站的对应书籍的对应章节之间的更新时间差的平均值。被盗书top列表展示监控中的正版书籍被各盗版网站收录的次数由多到少排名。盗版站影响图展示盗版网站对业务影响指标，按盗版书籍的数量排名，附带盗版网站的流量(每月的访问ip数)。爬虫top列表展示捕捉到的爬虫情况，按选定时间区间内命中检测策略的次数的爬虫由多到少排名。

通过本申请实施例的网站内容监控方法，可以大幅度提升互联网文学站点所面临的受保护的半公开或公开数据被盗版爬虫持续爬取的风险的感知度，为文学版权维权提供了有效的盗版证据支撑，为文学行业提供了深入打击盗版站群的预警参考数据。另外，结合爬虫检测系统，可提供简易明晰的数据展示和效果观测。

图14为根据本申请实施例的网站内容监控装置的示意图，该网站内容监控装置用于服务器端。如图14所示，网站内容监控装置1400包括：

盗版信息接收模块1401，用于接收第一爬虫程序根据预设的第一网站提供的第一网站内容的信息从第二网站爬取到的第二网站内容的信息。

其中，第一爬虫程序根据第一网站提供的第一网站内容的信息从第二网站爬取第二网站内容的信息是通过以下方式进行的：

获取第二网站中用于在第二网站中搜索第二网站内容的接口；通过所述接口，根据所述至少一个第一摘要信息项，搜索第二网站内容的信息。

盗版判断模块1402，用于根据所述第二网站内容的信息确定所述第二网站收录所述第一网站内容的情况。

根据本申请实施例，盗版判断模块1402判断所述至少一个第一摘要信息项是否与所述至少一个第二摘要信息项相匹配，如果匹配，则确定所述第二网站收录了所述第二网站内容。

例如，在第一网站和第二网站的内容为网络书籍的情况下，当盗版判断模块1402判断第一网站中的网络书籍的书名和作者名称出现在第二网站的网络书籍的摘要信息中时，则判断第二网站收录了第一网站中该第一摘要信息对应的网络书籍。

盗版统计模块1403，用于根据所述第二网站收录所述第一网站内容的情况，统计所述第二网站对所述第一网站的盗版数据。

根据本申请实施例，当服务器判断第二网站收录了第一网站内容时，统计第二网站对第一网站的盗版数据，例如，第二网站收录第一网站内容的数量等等。另外，还可以统计出哪些书籍被盗取、各书籍被各盗版网站收录的总次数、被盗取的书籍数目、被盗取的书籍的类别比例、书籍章节被盗取的时间差等等。这些统计结果例如可以根据指定的时间段或时间区间进行查询。

通过本申请实施例的上述方法，可以自动对盗版行为进行实时监控，为之后的监测保护策略提供参考，减少了人工监控的成本。

图15为根据本申请实施例的一种网站内容监控装置示意图。如图15所示，在图14的基础上，盗版统计模块包括：

更新时间差统计模块1501：当确定所述第二网站收录了所述第一网站的网络出版物时，统计第二网站收录的第一网站的网络出版物章节和对应的第一网站的网络出版物的章节更新时间差。

图16为根据本申请实施例的一种网站内容监控装置示意图。如图16所示，更新时间差统计模块1501具体包括：

第一标识获取模块1601，用于获取第一网站的第一网络出版物的第一标识。

第二标识获取模块1602，用于从第二网站中的网络出版物的阅读入口中，获取第二网站收录的、和第一网络出版物相同的第二网络出版物的第二标识。

章节标题获取模块1603，用于定期通过所述第一标识和第二标识获取第一网络出版物和第二网络出版物的章节标题。

记录模块1604，用于记录首次获取到第一出版物的第一章节标题的时间和对应的第二网络出版物的第二章节标题的时间。

当得到第一爬虫程序首次获取到的第一出版物的第一章节标题时，记录模块1604记录该获取到第一章节标题的时间，作为第一章节更新的时间。然后服务器根据第一爬虫程序获取到的第二网络出版物的目录页，通过对第一章节标题与第二网络出版物目录页中的章节标题进行字符串正则匹配，判断第二网络出版物的目录中是否有和第一章节标题相同的第二章节标题，如果有，则判断第二章节也进行了更新，也记录获取到第二章节标题的时间，作为第二章节更新的时间。正则匹配是对字符串进行匹配，其利用事先定义好的一些特定字符及这些特定字符的组合，组成一个“规则字符串”，然后用这个“规则字符串”去匹配文本中的字符，判断文本中是否有符合“规则字符串”的字符。

更新时间比较模块1605，用于比较首次获取到第一章节标题的时间和第二章节标题的时间，计算二者的时间差，将该时间差作为第二网站的网络出版物章节和第一网站对应的网络出版物的章节更新时间差。

根据本申请实施例，首次获取到第一章节标题的时间和第二章节标题的时间之后，可以计算二者的时间差，将其作为第一章节和第二章节更新时间差。

图17为根据本申请实施例的网站内容监控装置示意图。在图14的基础上，所述网站内容监控装置可以进一步包括：

ip地址解析模块1701，用于解析在预定时间段内访问第二网站的每日平均ip地址数量；

在这种情况下，盗版统计模块1403中，统计第二网站对第一网站的盗版数据进一步包括：统计在预定期间段内访问第二网站的每日平均ip地址数量。

ip地址解析模块1701的处理在盗版统计模块1403的处理之前进行，可以和其他模块的处理并行进行。

ip地址解析模块1701根据第一爬虫程序上报的第二网站的流量数据，判断在预定时间段内访问第二网站的每日平均ip地址数量。

图18为根据本申请实施例的网站内容监控装置示意图。如图18所示，该网站内容监控装置1800包括：盗版信息接收模块1801、盗版判断模块1802、盗版统计模块1803。这些模块的处理和前述实施例中对应的模块处理类似或相同，此处不再进行介绍。除此之外，网站内容监控装置进一步包括：

爬虫特征获取模块1804，用于获取访问第一网站的第二爬虫程序的特征。

根据本申请实施例，爬虫特征获取模块1804获取访问第一网站的第二爬虫程序的特征。这些特征例如包括：第二爬虫程序的ip地址、地理位置、爬取第一网站的手法等等。

爬虫统计模块1805，用于根据预设的监控策略对所述第二爬虫程序的特征进行统计。

爬虫统计模块1805基于获取到的第二爬虫程序的特征，根据预设的监控策略对第二爬虫程序的特征进行统计。例如，预设的监控策略包括：可疑路径策略、低频爬取策略、高频爬取策略、采集器爬取策略，然后统计第二爬虫程序是低频爬取还是高频爬取、爬取的路径是否是可疑路径、是否是用采集器爬取等等。

通过这样，第一网站的服务器可以对其他服务器爬取第一网站的爬虫进行监控，以进行预警。

图19为根据本申请实施例的网站内容监控装置示意图。其中，在图18的基础上，爬虫特征获取模块1804具体包括：

访问比例计算模块1901，用于获取所述第二爬虫程序访问第一网站的路径，根据所述路径和预设的访问第一网站受保护的接口的路径，计算所述第二爬虫程序在预定的时间段内访问第一网站受保护的接口占第二爬虫程序访问第一网站的接口的比例。

根据本申请实施例，第一网站受保护的接口为用于获取第一网站中的网络书籍内容的阅读入口。可以记录第二爬虫程序访问第一网站的路径，比较其与预设的受保护的接口的路径是否相同，判断其访问的对象。如果通过进行比较，判断出第二爬虫程序访问第一网站的路径与预设的一个受保护的接口的路径相同，则判断出爬虫程序访问的是第一网站受保护的接口，表示其有可能在爬取第一网站中受保护的内容。

通过计算第二爬虫程序在预定的时间段内，例如一周内，访问第一网站受保护的接口占第二爬虫程序访问第一网站的接口的比例，可以得出第二爬虫程序对第一网站内容的威胁程度或恶意度指标。所述比例越大，则表示第二爬虫程序对第一网站的威胁越大。

爬虫统计模块1805具体包括：

访问比例判断模块1902，用于判断所述比例是否大于预设的比例。

根据本申请实施例，预设的监控策略为可疑路径策略，其中，预先配置有符合可疑路径爬取的比例，然后判断所述访问比例是否大于预定的比例。

爬虫计数模块1903：如果所述比例大于预设的比例，则将所述第二爬虫程序计入到访问第一网站的爬虫数目中。

根据本申请实施例，如果所述比例大于预设的比例，所述第二爬虫有可能为恶意爬虫，对其进行统计。

图20所示为根据本申请实施例的网站内容监控装置，其中，在图18的基础上，爬虫特征获取模块1804具体包括：

访问频率计算模块2001，用于根据所述第二爬虫程序访问第一网站的路径和预设的访问第一网站受保护的接口的路径，计算所述第二爬虫程序在预定的时间段内访问第一网站受保护的接口的频率。

爬虫统计模块1805包括：

访问频率判断模块2002，用于判断所述访问频率是否大于预定的次数。

根据本申请实施例，预设的监控策略为频率策略，其中，预先配置有符合高频爬取特征的次数，然后判断所述访问频率是否大于预定的次数。

爬虫计数和频率统计模块2003，用于如果所述访问频率大于所述预设的次数，则将所述第二爬虫程序计入到访问第一网站的爬虫数目中，并统计所述第二爬虫程序爬取所述第一网站内容的方式为高频爬取。如果所述访问频率不大于所述预设的次数，则统计所述第二爬虫程序爬取所述第一网站内容的方式为低频爬取。

通过对第二爬虫爬取第一网站内容的频率进行统计，可以进一步得知第二爬虫对第一网站的威胁程度，更好地预警。

图21为根据本申请实施例的网站内容监控装置示意图。如图21所示，在图18的基础上，爬虫特征获取模块1804具体包括：

访问时间记录模块2101，用于根据所述第二爬虫程序访问第一网站的路径和预设的访问第一网站受保护的接口的路径，记录所述第二爬虫程序在预定的时间段内访问第一网站受保护的接口的时间。

爬虫统计模块1805包括：

访问间隔判断模块2102，用于判断所述时间之间的间隔是否是固定的。

通过计算所述时间之间的差值是否是固定的，如果是，则判断所述时间之间的间隔是固定的。

爬虫计数模块2103，用于在判断所述时间之间的间隔是固定的情况下，将所述第二爬虫程序计入到访问第一网站的爬虫数目中。

图22为根据本申请实施例的网站内容监控装置示意图。其中，在图18的基础上，爬虫特征获取模块1804包括：

字段获取模块2201：获取所述第二爬虫程序对第一网站发出的访问请求的数据包头部的字段顺序和字段值。

在有的情况下，盗版网站使用的爬虫程序是成熟的采集器，服务器可以通过对市面上的成熟的采集器的特征进行统计，以进一步对爬虫程序进行监控。

例如，服务器统计出某个采集器在采集正版网站的过程中，发出的http请求集合中采样的样本(集合中各个核心请求特征基本相同)。

第1个样本：

gethttp://10.26.71.56:8881/0_1/3.htmlhttp/1.1

accept:*/*

user-agent:baiduspider+(+http://www.baidu.com/search/spider.htm)

referer:http://10.26.71.56:8881/book/1/

host:10.26.71.56:8881

第2个样本：

gethttp://10.26.71.56:8881/0_1/3.htmlhttp/1.1

accept:*/*

referer:http://10.26.71.56:8881/book/1/

user-agent:mozilla/5.0(iphone；u；cpuiphoneos3_0likemacosx；en-us)applewebkit/528.18(khtml,likegecko)version/4.0mobile/7a341safari/528.16

content-type:application/x-www-form-urlencoded

accept-language:zh-cn

accept-encoding:gzip,deflate

host:10.26.71.56:8881

connection:\s？keep-alive

根据本申请实施例，服务器在统计采集器发出的http请求样本时，可以不考虑http请求的实际用途，而是仅将其中的代码作为字符串来处理。

匹配模块2202：判断所述字段顺序与预设的字段顺序以及所述字段值与预设的字段值是否匹配。

爬虫计数模块2203：如果匹配，则将所述第二爬虫程序计入到访问第一网站的爬虫数目中。

通过上述方式，可以判断第二爬虫程序是否是用所述采集器对第一网站进行采集。

通过这样，可以进行盗版网站关联信息追溯，及时发现盗版站群，进行风险关联预警，进一步减小对正版网站造成的损失。

根据本申请实施例，在根据图20-图22所示的实施例统计爬虫数目时，可以将通过各个实施例的各模块统计出的爬虫数加起来，得到总的爬虫数。有的爬虫可能几个统计条件都满足，在这种情况下，为避免重复统计爬虫的数目，可以根据爬虫的标识来识别是否是相同的爬虫。所述爬虫的标识例如为：爬取的uid(用户设备标识)+主机域名,另外可以加上爬虫的ip地址作为筛选条件。相同uid+主机域名+ip地址的爬虫为一个爬虫。

通过本申请实施例的网站内容监控装置，可以大幅度提升互联网文学站点所面临的受保护的半公开或公开数据被盗版爬虫持续爬取的风险的感知度，为文学版权维权提供了有效的盗版证据支撑，为文学行业提供了深入打击盗版站群的预警参考数据。另外，结合爬虫检测系统，可提供简易明晰的数据展示和效果观测。

图23所示为根据本申请实施例的网站内容监控装置的硬件结构示意图。

参照图23，该媒体播放质量测试装置可以包括：处理器2301(例如cpu)、通信总线2302、接口2303、存储器2304。其中，通信总线2302用于实现该媒体播放质量测试装置中各组成部件之间的连接通信。接口2303包括用户接口和网络接口。用户接口用于接收用户输入的信息，并将接收的信息发送至处理器2301进行处理。显示器可以为lcd显示器、led显示器，也可以为触摸屏，用于显示需要显示的数据。可选的用户接口还可以包括标准的有线接口、无线接口等。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器2304可以是高速ram存储器，也可以是稳定的或非易失性存储器，例如磁盘存储器。存储器2304可选的还可以是独立于前述处理器2301的存储装置。如图23所示，作为一种计算机存储介质的存储器2304中可以存储有图13-图20中的各个模块。在图23中，仅示出了模块1401-1403用于示例。这些模块例如为指令模块。处理器2301执行存储于存储器2304中的模块，用于完成这些模块的指定功能。作为一种计算机存储介质的存储器2304中还可以存储计算机程序指令，用于当由处理器2301执行时，执行图3、图4，图6-图12中的方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的，应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述各实施例的功能模块可以位于一个终端或网络节点，或者也可以分布到多个终端或网络节点上。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如cd-rom等)、磁光存储介质(如mo等)等。

因此，本申请还提供了一种非易失性存储介质，其中存储有内容分级程序，该内容分级程序用于执行本申请上述实施例方法中的任何一种实例。

以上所述仅为本申请的实例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐文韬;郑云文;胡珀;郑兴;郭晶;张强;范宇河;王放;杨勇
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。