转载回流数据的检测方法和装置与流程

文档序号：11063529阅读：716来源：国知局

本申请涉及互联网领域，具体而言，涉及一种转载回流数据的检测方法和装置。

背景技术：

网站的转载回流指的是网民通过点击其它网站对该网站的内容引用或转载链接，来到目标网站，在相关技术，一般采用分享插件的形式将网站内容分享出去，由于每次进行分享的统一资源定位符(即URL)都会包含特定的参数，这样，其它用户通过分享的URL访问网站时，网站服务器均会识别出URL中的特定参数，从而记录这次访问的数据为一次有效的回流数据。

目前，大部分网站都需要统计网站的转载回流数据，网站的转载回流数据是统计网站在互联网中影响力的重要指标，在实际应用中，有的网站由于包含敏感性信息而不适合嵌入上述分享插件，且当该网站被以一些其它形式(即不是通过分享插件进行分享或者转载)分享时，由于分享的URL中不包含上述的特定的参数，当用户通过分享的URL访问该网站时，这次访问的数据就不会被认为是有效的回流数据，从而造成统计数据不准确。

针对相关技术中检测网站回流数据的准确度较低的技术问题，目前尚未提出有效的解决方案。

技术实现要素：

本申请实施例提供了一种转载回流数据的检测方法和装置，以至少解决相关技术中检测网站回流数据的准确度较低的技术问题。

根据本申请实施例的一个方面，提供了一种转载回流数据的检测方法，该检测方法包括：获取第一网站的地址，其中，第一网站设置有第二网站的链接；获取经由链接访问第二网站产生的访问数据；根据第一网站的地址判断第一网站是否在预设网站集合内；如果判断出第一网站不在预设网站集合内，则确定访问数据为转载回流数据。

进一步地，根据第一网站的地址判断第一网站是否在预设网站集合内包括：解析第一网站的地址，得到第一网站的域名标识；获取预设网站集合内网站的域名标识；判断预设网站集合内是否存在域名标识与第一网站的域名标识相匹配的网站，其中，如果判断出预设网站集合内不存在域名标识与第一网站的域名标识相匹配的网站，则确定第一网站不在预设网站集合内。

进一步地，访问数据记录有第二网站中被访问过的网页地址，其中，如果判断出第一网站不在预设网站集合内，则该检测方法还包括：从访问数据中获取网页地址；判断通过网页地址所访问的网页是否为第二网站的网站首页或者栏目首页，其中，如果判断出网页地址所访问的网页不为第二网站的网站首页或者栏目首页，则确定访问数据为转载回流数据。

进一步地，访问数据还记录有通过链接访问第二网站的用户的ID，其中，在确定访问数据为转载回流数据之后，该检测方法还包括：从访问数据中获取用户的ID；判断预设数据库中是否存在与用户的ID相匹配的预存用户ID，其中，预设数据库用于存储已统计的转载回流数据、预存用户ID以及已统计的转载回流数据与预存用户ID的对应关系；如果判断出预设数据库中不存在与用户的ID相匹配的预存用户ID，则将访问数据、用户的ID以及访问数据与用户的ID的对应关系存入预设数据库。

进一步地，获取第一网站的地址包括：获取经由第一网站访问第二网站的访问日志，其中，访问日志用于存储通过第二网站的追踪插件获取到的访问数据；从访问数据中获取第一网站的地址。

根据本申请实施例的另一方面，还提供了一种转载回流数据的检测装置，该检测装置包括：第一获取单元，用于获取第一网站的地址，其中，第一网站设置有第二网站的链接；第二获取单元，用于获取经由链接访问第二网站产生的访问数据；第一判断单元，用于根据第一网站的地址判断第一网站是否在预设网站集合内；确定单元，用于当第一判断单元判断出第一网站不在预设网站集合内时，确定访问数据为转载回流数据。

进一步地，第一判断单元包括：解析模块，用于解析第一网站的地址，得到第一网站的域名标识；域名获取模块，用于获取预设网站集合内网站的域名标识；判断模块，用于判断预设网站集合内是否存在域名标识与第一网站的域名标识相匹配的网站，其中，如果判断出预设网站集合内不存在域名标识与第一网站的域名标识相匹配的网站，则确定第一网站不在预设网站集合内。

进一步地，访问数据记录有第二网站中被访问过的网页地址，该检测装置还包括：第三获取单元，用于当第一判断单元判断出第一网站不在预设网站集合内时，从访问数据中获取网页地址；第二判断单元，用于判断通过网页地址所访问的网页是否为第二网站的网站首页或者栏目首页，其中，确定单元还用于当第二判断单元判断出网页地址所访问的网页不为第二网站的网站首页或者栏目首页时，确定访问数据为转载回流数据。

进一步地，访问数据还记录有通过链接访问第二网站的用户的ID，该检测装置还包括：标识获取单元，用于在确定访问数据为转载回流数据之后，从访问数据中获取用户的ID；标识判断单元，用于判断预设数据库中是否存在与用户的ID相匹配的预存用户ID，其中，预设数据库用于存储已统计的转载回流数据、预存用户ID以及已统计的转载回流数据与预存用户ID的对应关系；处理单元，用于如果判断出预设数据库中不存在与用户的ID相匹配的预存用户ID，则将访问数据、用户的ID以及访问数据与用户的ID的对应关系存入预设数据库。

进一步地，第一获取单元包括：日志获取模块，用于获取经由第一网站访问第二网站的访问日志，其中，访问日志用于存储通过第二网站的追踪插件获取到的访问数据；地址获取模块，用于从访问数据中获取第一网站的地址。

通过本申请，采用如下步骤，获取第一网站的地址，其中，第一网站设置有第二网站的链接；获取经由链接访问第二网站产生的访问数据；根据第一网站的地址判断第一网站是否在预设网站集合内；如果判断出第一网站不在预设网站集合内，则确定访问数据为转载回流数据，通过对访问行为的来源网站(即第一网站)的分析来确定访问行为产生的访问数据是否转载回流数据，从而解决了相关技术中检测网站回流数据的准确度较低的技术问题，提高了网站回流数据的检测准确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的转载回流数据的检测方法的流程图；以及

图2是根据本申请实施例的转载回流数据的检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

统一资源定位符：Uniform Resource Locator，简称URL，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。

JS：Javascript，一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为Javascript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最早是在HTML(标准通用标记语言下的一个应用)网页上使用，用来给HTML网页增加动态功能。

Tracker：用于收集对目标网页的访问行为所产生的信息。

根据本申请实施例，提供了一种转载回流数据的检测方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的转载回流数据的检测方法的流程图，如图1所示，该检测方法包括如下步骤：

步骤S102，获取第一网站的地址，其中，第一网站设置有第二网站的链接。

步骤S104，获取经由链接访问第二网站产生的访问数据。

步骤S106，根据第一网站的地址判断第一网站是否在预设网站集合内。

步骤S108，如果判断出第一网站不在预设网站集合内，则确定访问数据为转载回流数据。

通过上述实施例，采用如下步骤，获取第一网站的地址，其中，第一网站设置有第二网站的链接；获取经由链接访问第二网站产生的访问数据；根据第一网站的地址判断第一网站是否在预设网站集合内；如果判断出第一网站不在预设网站集合内，则确定访问数据为转载回流数据，通过对访问行为的来源网站(即第一网站)的分析来确定访问行为产生的访问数据是否转载回流数据，从而解决了相关技术中检测网站回流数据的准确度较低的技术问题，提高了网站回流数据的检测准确度。

可选地，步骤S102的获取第一网站的地址可以包括：获取经由第一网站访问第二网站的访问日志，其中，访问日志用于存储通过第二网站的追踪插件获取到的访问数据；从访问数据中获取第一网站的地址。

需要说明的是，上述的网站的地址或者链接可以是网站的URL，由于网站可能具有多个网页，因此，可能存在多个不同的URL对应于一个网站；上述的第一网站即来源网站，第二网站即目标网站。

具体地，为了收集用户在目标网站(即上述第二网站)的访问行为所产生的访问信息，可以先在目标网站部署用JS脚本语言编写的Tracker插件，以统计用户在目标网站中的各种访问行为，例如：当用户通过点击外部链接(如第一网站中分享的链接)跳转到目标网站时，插件会在跳转到着陆的目标网页时自动收集来源网站(即第一网站)的URL，即来源URL，然后将记录有来源URL的访问数据发送到指定的服务器中，在服务器端收到上述访问数据后，将访问数据保存到访问日志中。

通过上述实施例，利用Tracker插件可以准确地收集用户的访问行为所产生的各种访问数据。

下面将详述步骤S104的获取经由链接访问第二网站产生的访问数据所记载的实施例。

在用户浏览网页时，可以通过不同的方式访问目标网站，如直接在浏览器中输入地址访问、通过浏览器的历史记录访问、通过收藏夹访问、通过其它网站的分享链接访问，当用户通过输入地址、历史记录、收藏夹等方式访问时，该访问行为没有对应的来源URL，而转载回流数据必然是包含来源URL的数据，因此，在检测转载回流数据时，需要过滤掉访问日志中不包含来源URL的访问数据，具体是逐条分析服务器端的访问日志，从访问日志中解析出某个时间段内的所有访问数据，再逐个检测访问数据，从中筛选出包含来源URL的访问数据。

通过上述实施例，可以实现过滤掉不包含来源URL的访问数据。

在一个可选的实施例中，步骤S106的根据第一网站的地址判断第一网站是否在预设网站集合内可以包括：解析第一网站的地址，得到第一网站的域名标识；获取预设网站集合内网站的域名标识；判断预设网站集合内是否存在域名标识与第一网站的域名标识相匹配的网站，其中，如果判断出预设网站集合内不存在域名标识与第一网站的域名标识相匹配的网站，则确定第一网站不在预设网站集合内。

需要说明的是，上述预设网站集合可以包括目标网站自身、合作网站、各类搜索引擎(如百度、谷歌)等，当用户通过目标网站首页的导航链接、合作网站的友情链接、搜索引擎中搜索出来的链接来访问目标网站时，该访问行为所产生的访问数据不属于回流数据。

具体地，从访问数据中获取来源网站的URL，并对来源URL进行解析以得到域名标识，如对“http://www.phperz.com/web‐design/javascript/12345.html”进行解析，即能得到该来源URL的域名标识为“phperz.com”，同样的，也可以利用相同的方法得到网站集合中各个网站的域名标识，然后将“phperz.com”与网站集合中各个网站的域名标识进行对比，若网站集合中没有域名标识与“phperz.com”相同的网站，则确定来源网站不在预设网站集合内。

通过上述实施例，可以滤除访问数据中来源于目标网站、搜索引擎以及合作网站的访问所产生的访问数据。

在一个可选的实施例中，访问数据记录有第二网站中被访问过的网页地址，其中，如果判断出第一网站不在预设网站集合内，则本申请的检测方法还可以包括：从访问数据中获取网页地址；判断通过网页地址所访问的网页是否为第二网站的网站首页或者栏目首页，其中，如果判断出网页地址所访问的网页不为第二网站的网站首页或者栏目首页，则确定访问数据为转载回流数据。

具体地，当用户只是访问目标网站的首页或者栏目首页时，所产生的访问数据也不是有效的转载回流数据，因此，在检测转载回流数据还需要滤除访问网站首页或者栏目首页的这一部分访问数据，具体是从访问数据中获取用户的访问行为所访问的具体网页的URL，如“http://www.phperz.com/”，通过对该URL进行分析可知，该URL只包含域名部分(即“phperz.com”)，即该页面为目标网站的首页，因此，用户访问该URL所产生的访问数据不为转载回流数据。

又如“http://www.phperz.com/web‐design/javascript/12345.html”，对该URL分析可知，该URL除了包括域名外，还包括其它参数(即“web-design/javascript/12345.html”)，经过对该参数的分析可知，通过该URL所访问的网页并不是栏目首页，而是“web-design”栏目下的一个子网页，因此，可以确定通过该URL进行访问所产生的访问数据为有效的转载回流数据。

通过上述实施例，可以滤除访问网站首页或者栏目首页所产生的无效数据。

进一步地，访问数据还记录有通过链接访问第二网站的用户的ID，其中，在确定访问数据为转载回流数据之后，本申请的检测方法还可以包括：从访问数据中获取用户的ID；判断预设数据库中是否存在与用户的ID相匹配的预存用户ID，其中，预设数据库用于存储已统计的转载回流数据、预存用户ID以及已统计的转载回流数据与预存用户ID的对应关系；如果判断出预设数据库中不存在与用户的ID相匹配的预存用户ID，则将访问数据、用户的ID以及访问数据与用户的ID的对应关系存入预设数据库。

具体地，确定上述访问行为所产生的访问数据为有效的转载回流数据之后，可以利用得到的结果进一步地统计回流人次、回流人数、来源网站排名等各项指标。下面以计算回流人数为例详细说明：

在确定访问数据为转载回流数据之后，可以将访问数据中记载的用户的ID与已统计的转载回流数据对应的预存用户ID逐个作对比，若存在相同的预存用户ID，则说明该用户为老用户，即回流人数未产生变化，若不存在相同的预存用户ID，则说明该用户为新用户，即回流人数增加一位，若判断出为新用户，还需要将产生的访问数据和对应的用户ID存入数据库中。

可选地，上述回流人次可以直接根据转载回流数据的数量确定，将回流数据中为同一用户进行访问所产生的回流数据统计为一人次的回流人数，即可根据回流数据统计出回流人数，来源网站排名可以根据通过统计由该来源网站的分享链接而产生的访问数据的数量来确定。

需要说明的是，在统计回流人数时，可以根据回流数据中用于标识用户的标识字符串确定是否将该用户统计为有效的回流人数。

通过上述实施例，由于采用直接对来源URL进行分析的技术方案，即使不是通过分享插件进行分享或者转载的回流也能被检测到，从而解决了相关技术中检测网站回流数据的准确度较低的技术问题，提高了网站回流数据的检测准确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请实施例还提供了一种转载回流数据的检测装置。需要说明的是，本申请实施例的转载回流数据的检测装置可以用于执行本申请实施例所提供的转载回流数据的检测方法，本申请实施例的转载回流数据的检测方法也可以通过本申请实施例所提供的转载回流数据的检测装置来执行。

图2是根据本申请实施例的转载回流数据的检测装置的示意图。如图2所示，该转载回流数据的检测装置可以包括：第一获取单元10、第二获取单元20、第一判断单元30以及确定单元40。第一获取单元10用于获取第一网站的地址，其中，第一网站设置有第二网站的链接；第二获取单元20用于获取经由链接访问第二网站产生的访问数据；第一判断单元30用于根据第一网站的地址判断第一网站是否在预设网站集合内；确定单元40用于当第一判断单元判断出第一网站不在预设网站集合内时，确定访问数据为转载回流数据。

通过上述实施例，通过第一获取单元10获取第一网站的地址，其中，第一网站设置有第二网站的链接；第二获取单元20获取经由链接访问第二网站产生的访问数据；根据第一网站的地址判断第一网站是否在预设网站集合内；然后第一判断单元30根据第一网站的地址判断第一网站是否在预设网站集合内，如果第一判断单元30判断出第一网站不在预设网站集合内，确定单元40则确定访问数据为转载回流数据，通过对访问行为的来源网站(即第一网站)的分析来确定访问行为产生的访问数据是否转载回流数据，从而解决了相关技术中检测网站回流数据的准确度较低的技术问题，提高了网站回流数据的检测准确度。

可选地，第一判断单元可以包括：解析模块，用于解析第一网站的地址，得到第一网站的域名标识；域名获取模块，用于获取预设网站集合内网站的域名标识；判断模块，用于判断预设网站集合内是否存在域名标识与第一网站的域名标识相匹配的网站，其中，如果判断出预设网站集合内不存在域名标识与第一网站的域名标识相匹配的网站，则确定第一网站不在预设网站集合内。

通过上述实施例，可以滤除访问数据中来源于目标网站、搜索引擎以及合作网站的访问所产生的访问数据。

可选地，访问数据记录有第二网站中被访问过的网页地址，检测装置还可以包括：第三获取单元，用于当第一判断单元判断出第一网站不在预设网站集合内时，从访问数据中获取网页地址；第二判断单元，用于判断通过网页地址所访问的网页是否为第二网站的网站首页或者栏目首页，其中，确定单元还用于当第二判断单元判断出网页地址所访问的网页不为第二网站的网站首页或者栏目首页时，确定访问数据为转载回流数据。

通过上述实施例，可以滤除访问网站首页或者栏目首页所产生的无效数据。

可选地，访问数据还记录有通过链接访问第二网站的用户的ID，本申请的检测装置还可以包括：标识获取单元，用于在确定访问数据为转载回流数据之后，从访问数据中获取用户的ID；标识判断单元，用于判断预设数据库中是否存在与用户的ID相匹配的预存用户ID，其中，预设数据库用于存储已统计的转载回流数据、预存用户ID以及已统计的转载回流数据与预存用户ID的对应关系；处理单元，用于如果判断出预设数据库中不存在与用户的ID相匹配的预存用户ID，则将访问数据、用户的ID以及访问数据与用户的ID的对应关系存入预设数据库。

可选地，第一获取单元可以包括：日志获取模块，用于获取经由第一网站访问第二网站的访问日志，其中，访问日志用于存储通过第二网站的追踪插件获取到的访问数据；地址获取模块，用于从访问数据中获取第一网站的地址。

通过上述实施例，利用Tracker插件可以准确地收集用户的访问行为产生的各种访问数据。

本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然，需要注意的是，上述模块涉及的方案可以不限于上述实施例中的内容和场景，且上述模块可以运行在计算机终端或移动终端，可以通过软件或硬件实现。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李新国;吴茜;冯鸳鹤;
技术所有人：北京国双科技有限公司;
我是此专利的发明人

上一篇：一种互联网内容标签的管理方法及装置与制造工艺
上一篇：关联内容的展示方法及装置与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。