网站评估方法、装置及电子设备与流程

文档序号:19991521发布日期:2020-02-22 02:20阅读:108来源:国知局
网站评估方法、装置及电子设备与流程

本发明涉及互联网技术领域,特别是涉及一种网站评估方法、装置及电子设备。



背景技术:

网站评估是结合网站的属性信息(例如网站响应时间、网站内容质量、网站的链接数量、链接质量、网站服务器稳定性等),给出一个网站整体的评估结果,网站评估对于提升网站的价值有着重要作用,比如当用户需要投资或者投放广告时,会根据网站评估结果选择合适的网站,评估结果越优的网站会优先吸引用户注意。

现有网站评估主要是各评估机构对网站进行评估后进行公示,此类评估方法的评估指标较为单一,比如评估指标只有网站的外部链接数,或者只有用户链接数和页面浏览数。而现有利用多指标进行网站评估的方法,多采用赋权法给不同的指标赋予一定的权重,再通过加权求和的方式得到网站的评估结果,对于一个指标,所赋予的权重往往是固定的,但是网站运行环境复杂,不同的指标在不同的环境下实际影响网站运行的程度是不同的,这种固定权重的评估方式导致评估结果准确性较差。



技术实现要素:

本发明实施例的目的在于提供一种网站评估方法、装置及电子设备,以提高网站评估的准确性。具体技术方案如下:

第一方面,本发明实施例提供了一种网站评估方法,该方法包括:

获取待评估网站多个指标的指标数据;

根据所述多个指标的指标数据,确定所述待评估网站各指标的指标分数;

分别对所述各指标的指标分数进行消减运算,得到所述各指标消减后的指标分数;

融合所述各指标消减后的指标分数,得到所述待评估网站的评估结果。

特别的,所述多个指标的指标数据包括多项公开的评估信息数据和运行状态数据;

所述获取待评估网站多个指标的指标数据,包括:

利用数据爬取技术,获取所述待评估网站的多项公开的评估信息数据;

向所述待评估网站的网站服务器发送探测数据包,接收并解析所述网站服务器返回的响应数据包,得到所述待评估网站的运行状态数据。

特别的,所述接收并解析所述网站服务器返回的响应数据包,得到所述待评估网站的运行状态数据,包括:

接收并解析预设周期内多个时刻所述网站服务器返回的响应数据包,得到所述预设周期内各时刻所述待评估网站的离散运行状态数据;

计算各离散运行状态数据的平均值,作为所述待评估网站的运行状态数据。

特别的,所述根据所述多个指标的指标数据,确定所述待评估网站各指标的指标分数,包括:

对所述多个指标的指标数据进行归一化处理,得到所述待评估网站各指标的指标分数。

特别的,在所述对所述多个指标的指标数据进行归一化处理,得到所述待评估网站各指标的指标分数之后,所述方法还包括:

若所述各指标的指标分数存在负数,则对所述各指标的指标分数进行平移变换,以使平移变换后的所述各指标的指标分数均大于或等于0。

特别的,在所述根据所述多个指标的指标数据,确定所述待评估网站各指标的指标分数之后,所述方法还包括:

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留。

特别的,在所述对所述多个指标的指标数据进行归一化处理,得到所述待评估网站各指标的指标分数之后,所述方法还包括:

若所述各指标的指标分数呈指数增长,则对所述各指标的指标分数进行线性变换,得到线性变换后的所述各指标的指标分数。

特别的,所述分别对所述各指标的指标分数进行消减运算,得到所述各指标消减后的指标分数,包括:

对所述各指标的指标分数进行降序排列;

按照排列顺序,利用惩罚机制公式,对所述各指标的指标分数进行消减运算,得到所述各指标消减后的指标分数,其中,所述惩罚机制公式为:

式中,dgi表示第i个指标消减后的指标分数,reli表示降序排序后的第i个指标的指标分数。

本发明实施例还提供一种网站评估装置,所述装置包括:

获取模块,用于获取待评估网站多个指标的指标数据;

确定模块,用于根据所述多个指标的指标数据,确定所述待评估网站各指标的指标分数;

消减模块,用于分别对所述各指标的指标分数进行消减运算,得到所述各指标消减后的指标分数;

融合模块,用于融合所述各指标消减后的指标分数,得到所述待评估网站的评估结果。

本发明实施例还提供一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述方法。

本发明实施例提供的一种网站评估方法、装置及电子设备,可以获取待评估网站多个指标的指标数据;根据多个指标的指标数据,确定待评估网站各指标的指标分数;分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数;融合各指标消减后的指标分数,得到待评估网站的评估结果。

本发明实施例中,根据待评估网站多个指标的指标数据确定出待评估网站各指标的指标分数,并对各指标分数进行消减融合,得到待评估网站的评估结果。网站各指标的指标分数由于贡献程度不同,会发生不同程度的削减,指标分数越低,消减程度越大,因此,在对消减后的指标分数进行融合时,越低的指标分数对于最后融合得到的评估结果的影响越小,实现了对指标分数的动态调整,从而提高了网站评估的准确性。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网站评估方法流程图。

图2为本发明实施例提供的一种权重动态变化过程示例图。

图3为本发明实施例提供的一种网站评估方法的整体技术方案流程图。

图4为本发明实施例提供的一种指标数据的处理过程示意图。

图5为本发明实施例提供的一种网站评估装置结构示意图。

图6为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有使用多种指标对网站进行评估的方法,多是采用主观赋权法或组合赋权法,这些方法偏重于对某些特定指标进行赋权操作,无法兼顾到每一项指标。因此,如何对网站进行更准确的评估成为亟待解决的问题。

针对上述问题,本发明实施例公开了一种网站评估方法、装置及电子设备,以下分别进行详细说明。

参见图1,图1为本发明实施例提供的一种网站评估方法流程图,具体技术方案包括:

s101:获取待评估网站多个指标的指标数据。

s102:根据多个指标的指标数据,确定待评估网站各指标的指标分数。

s103:分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数。

s104:融合各指标消减后的指标分数,得到待评估网站的评估结果。

本发明实施例中,根据待评估网站多个指标的指标数据确定出待评估网站各指标的指标分数,并对各指标分数进行消减融合,得到待评估网站的评估结果。网站各指标的指标分数由于贡献程度不同,会发生不同程度的削减,指标分数越低,消减程度越大,因此,在对消减后的指标分数进行融合时,越低的指标分数对于最后融合得到的评估结果的影响越小,实现了对指标分数的动态调整,从而提高了网站评估的准确性。

特别的,多个指标的指标数据包括多项公开的评估信息数据和运行状态数据。相应的,s101具体可以包括:

利用数据爬取技术,获取待评估网站的多项公开的评估信息数据;向待评估网站的网站服务器发送探测数据包,接收并解析网站服务器返回的响应数据包,得到待评估网站的运行状态数据。

数据获取手段包括在公开数据库获取、在数据交易平台获取、利用爬取技术获取等,其中爬取技术是一种按照一定的规则,自动地浏览网站、获取数据的过程,可以通过加载浏览器驱动,模拟人为操作查看网站,点击网页按钮,查看网页图片,阅读网页文本,然后把看到的数据都保存下来。

本发明实施例中利用分布式爬取技术主动获取多项公开的评估信息数据,获取的评估信息数据主要包括网站的alexa排名(一种关于网站的世界排名)、现有科技公司提供的网页评级值、反映网站自然流量的权重值、独立用户访问数、页面浏览量、链接数等数值型数据。通过分布式爬取技术可以加快数据的获取速度,提高数据获取的准确性,将数据整理为结构化数据存储,提高数据分析的效率。

从第一次爬取开始,爬取过程中如果获取到数据,则本次爬取结果有效,得到有效的评估信息数据,则进行下一个步骤;如果因为超时或未获取到数据,则说明本次爬取结果无效,数据无效;当爬取过程中未获取到有效爬取结果时,重新尝试获取数据,当尝试次数大于等于预设次数且仍未获取到有效数据值时,采用上一次的有效爬取结果代替本次中无效的爬取结果,以提高数据爬取的有效性。

如果爬取过程中一直没有获取到有效数据,则采用默认的无效值作为爬取结果。在获取数据之前,对指标数据特点进行分析,对每一个指标给出一个不可能获取到的特定值作为指标默认的无效值,比如,一个指标只可能取正整数,则取-1作为这个指标默认的无效值。在后续方法步骤中,只对有效数据进行处理。如果识别到数据为默认的无效值,则不进行处理。

本发明实施例中通过探测技术获取待评估网站的运行状态数据,探测技术是指通过发送icmp(internetcontrolmessageprotocol,互联网控制消息协议)数据包到服务器,即利用ping(packetinternetgroper,因特网包探索器,用于测试网络通性)、curl(commandlineuniformresourcelocator,一种文件传输工具)、traceroute(一种路由跟踪命令)、nslookup(nameserverlookup,用于域名查询)、dig(domaininformationgroper,用于域名查询)等命令向服务器发送请求,获取网站服务器的返回的响应数据包并进行解析,获取服务器的运行状态。运行状态数据主要包括网站访问的丢包率、时延、抖动、dns(domainnamesystem,域名系统)解析时间等数据。

特别的,接收并解析网站服务器返回的响应数据包,得到待评估网站的运行状态数据的步骤,可以包括:

接收并解析预设周期内多个时刻网站服务器返回的响应数据包,得到预设周期内各时刻待评估网站的离散运行状态数据;计算各离散运行状态数据的平均值,作为待评估网站的运行状态数据。

预设周期可以根据实际需求设置特定时间,可以设置为12小时、三天、四天、五天、七天等。本发明实施例中以预设周期为七天举例说明,即每次接收七天内网站服务器返回的响应数据包,并解析响应数据包,得到七天内网站的离散运行状态数据,根据获取到的数据计算七天的均值作为待评估网站的运行状态数据,提高数据探测的稳定性。如果解析七天中任意一天的响应数据包得到数据,则数据有效,最后的运行状态数据即为有效值。如果解析七天的响应数据包没有得到数据,则认为数据无效,则采用默认的无效值作为运行状态数据的探测结果,同样的,识别为无效值的运行状态数据不参与到后续过程中。

特别的,s102具体可以为:对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数。

本发明实施例中,通过归一化算法将获取到的多个指标的指标数据统一量纲,例如,采用z-score(标准差标准化)归一化算法,统一所有数据的表示意义为距离平均数的相对标准距离。在数据分析过程中,由于各评价指标的性质不同,往往具有不同的量纲和量纲单位。当各指标的数值水平相差很大时,如果直接在原始指标值上进行分析,就会导致数值较高的指标在综合分析中起到突出作用,而数值较低的指标的作用就会被削弱。为了消除指标之间的量纲影响,需要对数据进行归一化分析和处理,以解决指标数据之间的可比性,以便进行综合的评测分析。多个指标的指标数据经过归一化处理后,各指标处于同一量纲,得到待评估网站各指标的指标分数。

通过削减分数来进行分数融合的过程中必须保证所有指标分数都是正数,而归一化后得到的指标分数可能有正有负。

因此,在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,本发明实施例提供的方法还包括:

若各指标的指标分数存在负数,则对各指标的指标分数进行平移变换,以使平移变换后的各指标的指标分数均大于等于0。

这里平移变换是指,取所有指标分数中最小值的绝对值,对所有指标分数加上该绝对值,实现指标分数平移,平移不会影响数据的其他特性。比如通过归一化得到指标分数为3、2、1、-1、-2、-3,平移幅度取最小值的绝对值,即为-3的绝对值3,在所有指标分数上加3,得到平移后的指标分数值为6、5、4、2、1、0,保证所有分数大于等于0。

在数据获取阶段获取了海量数据,可能会存在数据重复的情况,如果直接计算会存在一个指标的数据多次计算的情况,导致评估结果不准确。因此,步骤s102之后,本发明实施例提供的方法还包括:

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留。

本发明实施例中,在确定待评估网站各指标的指标分数后,包括对指标分数进行分布校验的步骤。将不同网站的同一个指标的指标分数提取出来组成一个数据列,多个指标对应多个数据列,对所有数据列两两之间进行分布校验,即每一数据列都会与其余所有的数据列进行分布校验,对于处于同一数据分布情况的数据列,选择一个数据列的指标分数进行保留,其余的则不参与到后续处理的过程中。

当两个数据列处于同一分布时,说明这两个数据列对应的两个指标实际测量的是网站的同一个属性,此时,如果这两个数据都计算的话,该属性的指标分数就会计算两次,产生重复计算,导致最后的评估结果不准确,因此对于处于同一数据分布情况的数据列,选择一个数据列的指标分数进行保留,以保证所有数据列的独立性,从而保证评估结果的准确性。

如果同时存在数据重复和指标分数为负数的情况,在一种可实现方式中,在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,本发明实施例提供的方法包括:

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留;

若各指标的指标分数存在负数,则对各指标的指标分数进行平移变换,以使平移变换后的各指标的指标分数均大于等于0。

而分布检验的步骤可以在确定指标分数之后实现、或者平移变换之后实现。因此,上述方法只是本发明实施例提供的一种可实现方式。

在另一种可实现方式中,如果同时存在数据重复和指标分数为负数的情况,在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,本发明实施例提供的方法包括:

若各指标的指标分数存在负数,则对各指标的指标分数进行平移变换,以使平移变换后的各指标的指标分数均大于等于0;

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留。

数据归一化之后,指标分数可能会存在偏态分布,即指标分数集中位置偏向于数值小的一侧或偏向于数值大的一侧时,将所有数值融合后的结果会偏向数值大的一侧或数值小的一侧,导致评估结果不准确。

因此,在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,本发明实施例提供的方法还包括:

若待评估网站各指标的指标分数呈指数增长,则对归一化后的指标分数进行线性变换,得到线性变换后的待评估网站各指标的指标分数。

本发明实施例中,对数据归一化处理后,分析指标分数分布情况,当指标分数分布范围比较大且整体分布情况呈偏态分布时,需要对指标分数进行线性转换。比如有10000个数值,其中90%的数值集中于0-100,剩余10%的数值集中于100-10000,相对来说集中于0-100的数值变化幅度不大,而集中于100-10000的数值变化幅度非常大,直接进行计算得到的结果会受到这10%的数值的影响。此时指标分数的位置集中偏向于数值小的一侧,即指标分数增长呈指数增长,对所有指标分数的数值进行对数转换、取平方根等处理,使数值的增速逐渐减缓,可以把变化幅度大的数值向变化幅度小的数值靠近,将指数分数转换为线性分布,将大量堆积在零值附近的信息展开。如果指标分数整体分布情况较好,则不用进行线性转换。

如果同时存在数据重复、偏态分布和指标分数为负数的情况,则在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,本发明实施例提供的一种方法包括:

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留;

若待评估网站各指标的指标分数呈指数增长,则对保留的指标分数进行线性变换,得到线性变换后的待评估网站各指标的指标分数;

若所述各指标的指标分数存在负数,则对线性变换后的指标分数进行平移变换,以使平移变换后的所述各指标的指标分数均大于或等于0。

在平移变换、线性变换和分布校验三个步骤中,平移变换的步骤没有顺序要求,可以在分布校验之前、或者分布校验之后线性变换之前、或者线性变换之后。因此,上述方法只是本发明实施例提供的一种可实现方式。

在其他可实现方式中,如果同时存在数据重复、偏态分布和指标分数为负数的情况,则在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,本发明实施例提供的方法包括:

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留;

若所述各指标的指标分数存在负数,则对线性变换后的指标分数进行平移变换,以使平移变换后的所述各指标的指标分数均大于或等于0;

若待评估网站各指标的指标分数呈指数增长,则对保留的指标分数进行线性变换,得到线性变换后的待评估网站各指标的指标分数。

在其他可实现方式中,如果同时存在数据重复、偏态分布和指标分数为负数的情况,则在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,本发明实施例提供的方法还包括:

若所述各指标的指标分数存在负数,则对线性变换后的指标分数进行平移变换,以使平移变换后的所述各指标的指标分数均大于或等于0;

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留;

若待评估网站各指标的指标分数呈指数增长,则对保留的指标分数进行线性变换,得到线性变换后的待评估网站各指标的指标分数。

总之,步骤s102中确定待评估网站各指标的指标分数之后,可以根据实际情况进行平移变换、线性变换和分布校验三个步骤中的任意步骤。

而分布检验的步骤还可以在获取到指标数据之后实现,因此,在另一种可实现方式中,在步骤s101之后,进行分布校验,即:

获取待评估网站多个指标的指标数据;

确定多个网站各指标的指标数据;

提取各网站同一指标的指标数据,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标数据进行保留。

然后根据保留的指标数据,确定待评估网站各指标的指标分数,并对各指标的指标分数进行线性变换、平移变换等处理。

特别的,分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数,包括:

对各指标的指标分数进行降序排列;

按照排列顺序,利用惩罚机制公式,对各指标的指标分数进行消减运算,得到各指标消减后的指标分数,其中,惩罚机制公式为:

式中,dgi表示第i个指标消减后的指标分数,reli表示降序排序后的第i个指标的指标分数。

本发明实施例中,指标分数代表对网站每一项指标的定性评估,对网站的各个指标的指标分数进行降序排列,按照排列先后次序,将指标分数代入惩罚机制公式,得到削减后的指标分数,最后对削减后的所有指标分数进行加和,得到融合后的总分,即为该网站的评估结果。对每个网站的总分进行排序,可以根据排名结果衡量不同网站的性能。进行分数融合的公式为:

式中,p代表网站的指标总个数,dcgp表示融合后的总分。

惩罚机制主要从用户角度出发,假设用户更关注网站做得好的指标,而对于不够好的指标则会缺乏关注度,因此对于这些不够好的指标,会对其分数执行相应的惩罚。对于一般的多指标赋权算法而言,权重通过主观赋权法、客观赋权法、组合赋权法等算法给予每个指标固定的权重。而对于惩罚机制,计算过程中网站各指标的指标分数由于贡献程度不同,会发生不同程度的削减,指标分数越低,消减程度越大,因此,在对消减后的指标分数进行融合时,越低的指标分数对于最后融合得到的评估结果的影响越小,实现了对指标分数的动态调整,客观体现为指标的权重发生动态变化。就是说排序靠后的指标分数对应的指标的重要度低,消减处理的目的是使得分数越小的指标对评估结果的影响越小。

如图2所示,权重动态变化过程的方案示例如下:

对于三个网站a、b、c,评估指标分别为指标x、指标y、指标z,不同指标下不同网站对应不同的指标分数,在指标权重相同的评估过程中,三个网站的总分相等,评估结果相同,排名相同。但实际上,网站a是在90分的指标上提了2分,网站b是在60分的指标上提了2分,网站c是在30分的指标上提了2分,而在分数高的指标上提高分数的难度大于在分数低的指标上提高分数的难度,所以这三个网站的排名应该是a>b>c,所以权重相同得到的评估结果不准确。

而在权重动态变化的网站评估方法处理中,对每个网站的指标分数先进行排序,得到从高到低的排序结果,对于网站a为92>60>30,对于网站b为90>62>30,对于网站c为90>60>32,然后代入惩罚机制公式中,求得削减后的分数,将削减后的指标分数进行加和得到网站所有指标的总分为网站的评估结果,此时,网站a、b、c的总分不同,评估结果不同,根据总分排序得到网站的排名为a>b>c。同时根据削减后的指标分数在网站总分中所占比例作为网站的每个指标所占的实时权重。这样可以提高表现好的指标的权重。

整体来说,本发明实施例中,由搭建的分布式节点设备获取并存储网站数据,由主控设备执行归一化、对数转换、分布校验、分数融合等数据处理,最终在终端上展示所有网站的评估结果。如图3所示,为本发明实施例提供的一种网站评估方法的整体技术方案流程图。

搭建分布式节点,节点就是服务器,搭建节点就是把代码放到服务器上,而分布式可以加快爬取和探测的速度,提高系统整体的可靠性、可用性和扩展性。搭建过程就是通过设置crontab(一种在固定时间或固定间隔执行程序的命令)定时任务自动执行预设程序,因为在服务器中是通过网站域名搜索网站的,所以从区域dns(域名系统)服务器中获取域名,并进行去重,得到网站的域名,因为分布式节点之间无法相互访问,所以将得到的域名加载到redis(remotedictionaryserver,远程数据服务)服务器,通过redis来作为各节点之间的通信介质,保证所有节点都能准确地负载探测、爬取等任务,在保证数据高可用性的同时加快数据的获取效率。节点服务器从redis服务器获取域名,然后根据域名从待评估网站的服务器中获取待评估网站的多个指标的指标数据,利用爬虫技术获取网站的公开评估信息数据,利用探测技术获取网站的运行状态(即网站服务器的运行状态)。

同时搭建分布式数据库用以存储所有的待评估网站的指标数据。

利用爬虫技术获取网站的公开评估信息数据,判断数据是否有效,爬取过程中如果获取到数据,则数据有效;如果因为超时或未获取到数据,则数据无效。数据无效时,重新获取数据,判断重试次数是否小于五次,如果没有超过,则继续重新尝试获取数据;当尝试次数不小于五次时,采用上一次的爬取结果代替本次中无效的爬取结果。此时,判断上一次的结果是否为空或者无效值,如果否,说明上一次的爬取结果为有效数据;如果是,说明上一次的爬取结果无效,则将指标数据设置为指标默认的无效值;将所有公开评估信息数据存储到分布式数据库。其中指标默认的无效值是在获取数据之前预先设置的。

利用探测技术获取网站服务器的运行状态,并持续获取七天的数据,计算七天数据的均值作为网站的运行状态数据,判断数据是否有效,如果七天中有任意一天获取到数据,则数据有效;如果七天中没有获取到数据,则认为数据无效,则采用默认的无效值作为运行状态数据的探测结果;将所有运行状态数据存储到分布式数据库。

对获取到的数据进行处理,包括,对所有数据的归一化处理,统一数据的量纲;判断数据分布情况,如果数据呈指数级增长,则对变化范围巨大的数据进行对数转换,将数据信息展开,如果数据呈非指数级增长,则进行下一步处理;对数据进行分布校验,评估其数据分布的独立性;进行数据融合,即将各个指标的指标分数利用惩罚机制融合得到待评估网站的评分数据,得到待评估网站的评估结果。将最终结果存储到分布式数据库中,根据需要在终端进行展示。

如图4所示,为本发明实施例提供的一种指标数据的处理过程示意图。

对存储到分布式数据库的网站的多个指标的指标数据进行处理,对多项指标通过数据归一化统一量纲,得到多个指标的指标分数。

查看指标分数是否呈指数增长,如果是,则对数据进行对数转换,使其转换为线性增长,有利于信息展开;如果否,则进行下一步处理。

提取各网站同一指标的指标分数,组成一个数据列,查看指标数据列两两之间是否属于同一分布,如果是,则对于属于同一分布的多项数据列值保留一项;如果否,则进行下一步处理。

然后对待评估网站的全部指标分数进行降序排列,按照排列顺序,依次带入惩罚机制公式,对各指标的指标分数进行消减运算,得到各指标消减后的指标分数。

对待评估网站的所有消减后的指标分数进行加和,得到待评估网站融合所有分数后的总分,得到待评估网站的评估结果。

总之,本发明实施例提供了一种网站评估方法,即利用数据爬取与探测、分布式存储与计算技术,获取网站的各种原始数据,并对原始数据进行归一化、对数转换、分布校验、结合惩罚机制的分数融合等处理,得到最终的网站评估结果。其中,数据归一化统一量纲,有利于体现数据的公平性;对数转换实现部分数据信息进行展开,有利于体现数据的完整性;数据分布校验,丢弃分布性相同的数据项,有利于体现数据的独立性。而且结合惩罚机制,保证每一个网站不同指标数据的权重的不同性,与一般的赋权算法实现多维指标融合方法比较,惩罚机制下的指标融合可实现每一行指标数据的权重动态变化,有利于体现基于数据融合方法的排名的客观性和合理性。而对多项指标分数进行融合,得到一个强调客观、合理的整合数据,可以有效地反应出各项特征对最后评估结果的影响。此方法具备普适性,可以实现对所有网站进行全方位、多指标的评估,评估结果与现有技术相比也更为公平和客观。

本发明实施例还提供一种网站评估装置,该装置包括获取模块510、确定模块520、消减模块530、融合模块540,其中:

获取模块510,用于获取待评估网站多个指标的指标数据。

确定模块520,用于根据多个指标的指标数据,确定待评估网站各指标的指标分数。

消减模块530,用于分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数。

融合模块540,用于融合各指标消减后的指标分数,得到待评估网站的评估结果。

特别的,多个指标的指标数据包括多项公开的评估信息数据和运行状态数据。相应的,获取模块510具体可以用于:

利用数据爬取技术,获取待评估网站的多项公开的评估信息数据;向待评估网站的网站服务器发送探测数据包,接收并解析网站服务器返回的响应数据包,得到待评估网站的运行状态数据。

特别的,接收并解析网站服务器返回的响应数据包,得到待评估网站的运行状态数据的步骤,可以包括:

接收并解析预设周期内多个时刻网站服务器返回的响应数据包,得到预设周期内各时刻待评估网站的离散运行状态数据;计算各离散运行状态数据的平均值,作为待评估网站的运行状态数据。

特别的,确定模块520,具体可以用于:对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数。

特别的,在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,确定模块520具体还可以用于:

若所述各指标的指标分数存在负数,则对所述各指标的指标分数进行平移变换,以使平移变换后的所述各指标的指标分数均大于或等于0。

特别的,在根据多个指标的指标数据,确定待评估网站各指标的指标分数的步骤之后,确定模块520具体还可以用于:

确定多个网站各指标的指标分数;

提取各网站同一指标的指标分数,组成一个数据列;

比较任意两个数据列,从属于同一分布的任意两个数据列中,选择一个数据列的指标分数进行保留。

特别的,在对多个指标的指标数据进行归一化处理,得到待评估网站各指标的指标分数的步骤之后,确定模块520具体还可以用于:

若待评估网站各指标的指标分数呈指数增长,则对归一化后的指标分数进行线性变换,得到线性变换后的待评估网站各指标的指标分数。

特别的,消减模块530,具体可以用于:

对各指标的指标分数进行降序排列;

按照排列顺序,利用惩罚机制公式,对各指标的指标分数进行消减运算,得到各指标消减后的指标分数,其中,惩罚机制公式为:

式中,dgi表示第i个指标消减后的指标分数,reli表示降序排序后的第i个指标的指标分数。

本发明实施例中,根据待评估网站多个指标的指标数据确定出待评估网站各指标的指标分数,并对各指标分数进行消减融合,得到待评估网站的评估结果。网站各指标的指标分数由于贡献程度不同,会发生不同程度的削减,指标分数越低,消减程度越大,因此,在对消减后的指标分数进行融合时,越低的指标分数对于最后融合得到的评估结果的影响越小,实现了对指标分数的动态调整,从而提高了网站评估的准确性。

本发明实施例还提供一种电子设备,如图6所示,电子设备包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;

存储器603,用于存放计算机程序;

处理器601,用于执行存储器上所存放的程序时,至少实现如下步骤:

获取待评估网站多个指标的指标数据;

根据多个指标的指标数据,确定待评估网站各指标的指标分数;

分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数;

融合各指标消减后的指标分数,得到待评估网站的评估结果。

上述电子设备提到的通信总线可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括ram(randomaccessmemory,随机存取存储器),也可以包括nvm(non-volatilememory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括cpu(centralprocessingunit,中央处理器)、np(networkprocessor,网络处理器)等;还可以是dsp(digitalsignalprocessor,数字信号处理器)、asic(applicationspecificintegratedcircuit,专用集成电路)、fpga(field-programmablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本实施例中,处理器601通过读取存储器603中存储的机器可执行指令,被机器可执行指令促使能够实现:获取待评估网站多个指标的指标数据;根据多个指标的指标数据,确定待评估网站各指标的指标分数;分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数;融合各指标消减后的指标分数,得到待评估网站的评估结果。本发明实施例中,网站各指标的指标分数由于贡献程度不同,会发生不同程度的削减,指标分数越低,消减程度越大,因此,在对消减后的指标分数进行融合时,越低的指标分数对于最后融合得到的评估结果的影响越小,实现了对指标分数的动态调整,从而提高了网站评估的准确性。

本发明实施例还提供一种计算机可读存储介质,其中计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时至少实现如下步骤:

获取待评估网站多个指标的指标数据;

根据多个指标的指标数据,确定待评估网站各指标的指标分数;

分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数;

融合各指标消减后的指标分数,得到待评估网站的评估结果。

本实施例中,机器可读存储介质在运行时执行本发明实施例所提供的方法的计算机程序,因此能够实现:获取待评估网站多个指标的指标数据;根据多个指标的指标数据,确定待评估网站各指标的指标分数;分别对各指标的指标分数进行消减运算,得到各指标消减后的指标分数;融合各指标消减后的指标分数,得到待评估网站的评估结果。本发明实施例中,根据待评估网站多个指标的指标数据确定出待评估网站各指标的指标分数,并对各指标分数进行消减融合,得到待评估网站的评估结果。网站各指标的指标分数由于贡献程度不同,会发生不同程度的削减,指标分数越低,消减程度越大,因此,在对消减后的指标分数进行融合时,越低的指标分数对于最后融合得到的评估结果的影响越小,实现了对指标分数的动态调整,从而提高了网站评估的准确性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1