一种搜索数据质量统计方法

文档序号:6517846阅读:217来源:国知局
一种搜索数据质量统计方法
【专利摘要】本发明涉及一种搜索数据质量统计方法,所述方法包括:(1)将搜索爬虫所抓取并做索引的信息及数据,经质量数据试验排重,获取影响搜索数据综合质量评判较大的指标项;(2)分别将所获取的指标项,对应指标特性进行分类归类;(3)设立指标项项的基准分,设立指标项得分权重公式;(4)获取指标项单项得分、分类指标项得分、全部指标项得分;(5)对按预定评判标准,对获取的计算结果进行搜索数据质量等级判断。本发明有助于将关键词的质量优劣进行具体的量化,从不同的角度给关键词进行评分,从而可以更加有针对性的对关键词进行改进和优化,提高关键词质量,给用户更好的使用体验。
【专利说明】一种搜索数据质量统计方法
【技术领域】
[0001]本发明属于数据统计,具体讲涉及一种搜索数据质量统计方法。
【背景技术】
[0002]目前的信息搜索中,用户需要得到自己想要的信息需要从大量的搜索结果中进行筛选,如果想要搜索的结果更加准确和高质量,减少用户的筛选工作,就需要把数据的质量提闻。
[0003]然而随着互联网数据信息倍数日益剧增,造成搜索冗余数据大量存在,无效的或者低质量的搜索数 据影响了用户搜索自己需要的信息,在此背景下,需要对存在的搜索数据进行数据质量分析,尽量将质量较高的信息展示给用户。

【发明内容】

[0004]针对现有技术的不足,本发明提供一种搜索数据质量统计方法,将搜索爬虫所抓取并做索引的信息及数据的质量进行量化,制定了指标项,将搜索爬虫所抓取并做索引的信息及数据,经质量影响力数据试验排重,获取影响搜索数据综合质量评判较大的指标项。分别将所获取的指标项,对应指标特性进行分类归类:全面因子指标:“新闻微件数据项前端推送平均数量”……;准确因子指标:“页面链接死链比例”…….;智能因子指标:“受访页面的独立访客”……;互动因子指标:“互动微件(有问必答微件、评分微件、投票微件)栏目总数、所占SRP总栏目数比例”……;美观因子指标:“图片(含视频缩略图)链接死链比例”……;设立指标项单项的基准分,设立分类指标项的基准分,设立全部指标项的基准分。设立指标单项得分权重公式,设立分类指标项得分权重公式,设立全部指标项得分权重公式。进行数据推送,获取各个指标项单项的数据反馈,并通过预设指标权重公式与预设指标基准分,交叉计算,获取指标项单项得分、分类指标项得分、全部指标项得分。对按预定评判标准,对获取的计算结果进行搜索数据质量等级判断。
[0005]本发明的目的是采用下述技术方案实现的:
[0006]一种搜索数据质量统计方法,其改进之处在于,所述方法包括:
[0007]( I)将搜索爬虫所抓取并做索引的信息及数据,经质量数据试验排重,获取影响搜索数据综合质量评判较大的指标项;
[0008](2)分别将所获取的指标项,对应指标特性进行分类归类;
[0009]( 3 )设立指标项的基准分,设立指标项得分权重公式;
[0010](4)获取指标项单项得分、分类指标项得分、全部指标项得分;
[0011](5)对按预定评判标准,对获取的计算结果进行搜索数据质量等级判断。
[0012]优选的,所述步骤(2)包括全面因子指标、美观因子指标、智能因子指标、准确因子指标和互动因子指标五大类。
[0013]优选的,所述步骤(4)包括指标权重乘以指标项单项基准分分数即为最终指标项得分。[0014]优选的,所述指标项单项的基准分分为10分、20分、30分和40分四档。[0015]优选的,指标项单项的基准分,存在最小值10分,存在最大值40分,会随指标项单项指标在整体质量评价体系中的重要性,而随时会发生变化。
[0016]优选的,分类指标项的基准分,存在最小值10分,但不存在最大值,会随所属指标项单项指标总数的增减,或所属各指标项单项指标基准分的加减,而随时会发生变化。
[0017]优选的,全部指标项的基准分,存在最小值10分,但不存在最大值,会随全部指标项单项指标总数的增减,或全部指标项单项指标基准分的加减,而随时会发生变化。
[0018]优选的,所述步骤(5 )包括
[0019]全部单项得分之和大于等于0,但小于最小单项基准分数的60%,定义为驳回警
生P=I ;
[0020]全部单项得分之和大于等于最小单项基准分数的60%,但小于最小单项基准分数,定义为改进提不;
[0021]全部单项得分之和大于等于最小单项基准分数,但大于最大单项基准分数,定义为可以接受;
[0022]全部单项得分之和大于等于最大单项基准分数,定义为质量优良。
[0023]与现有技术比,本发明的有益效果为:
[0024]本发明有助于将关键词的质量优劣进行具体的量化,从不同的角度给关键词进行评分,从而可以更加有针对性的对关键词进行改进和优化,提高关键词质量,给用户更好的使用体验。
[0025]本发明算法所获取的数据翔实可信,累计为(http://www.zhongsou.com)中搜综合搜索,检索出质量不达标的搜索结果达数万条,对提高(http://www.zhongsou.com)中搜综合搜索的搜索数据质量,起到了不可替代的作用。
【专利附图】

【附图说明】
[0026]图1为本发明提供的一种搜索数据质量统计方法结构图。
[0027]图2为本发明提供的一种搜索数据质量统计方法结果示意图。
【具体实施方式】
[0028]下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0029]以全面因子指标、智能因子指标和互动因子指标为例:
[0030]1、全面因子指标:分类指标总分为50分,分为4个单项指标
[0031]I)新闻微件数据项前端推送平均数量
[0032]周期为72小时,指标项单项分数为20分,通过推送的及时性,判定搜索结果是否完整全面,计算公式为Yc=YC/AA,YC=72小时内新闻微件数据向前端推送总数量,AA=新闻微件栏目总数,O ( Yc〈l,指标权重为O ;1 < Yc〈2,指标权重为60% ;2 ( Yc〈3,指标权重为80% ;Yc ^ 3,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0033]2)网页微件数据项前端推送平均数量
[0034]周期为72小时,指标项单项分数为20分,通过推送的及时性,判定搜索结果是否完整全面,计算公式为Zc=ZC/BB,ZC=72小时内新闻微件数据向前端推送总数量,BB=新闻微件栏目总数,O ( Zc〈l,指标权重为O ;1< Zc〈2,指标权重为60% ;2 ( Zc〈3,指标权重为80% ;Zc ^ 3,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0035]3)图片微件数据项前端推送平均数量
[0036]周期为72小时,指标项单项分数为10分,通过推送的及时性,判定搜索结果是否完整全面,计算公式为Xc=XC/CC,XC=72小时内新闻微件数据向前端推送总数量,CC=新闻微件栏目总数,O ( Xc〈l,指标权重为O ;1 < Xc〈2,指标权重为60% ;2 ( Xc〈3,指标权重为80% ;Xc ^ 3,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0037]4)图片微件数据项前端推送平均数量
[0038]周期为72小时,指标项单项分数为10分,通过推送的及时性,判定搜索结果是否完整全面,计算公式为Rc=RC/DD,Rc=72小时内新闻微件数据向前端推送总数量,DD=新闻微件栏目总数,O ( Rc〈l,指标权重为O ;1< Rc〈2,指标权重为60% ;2 ( Rc〈3,指标权重为80% ;Rc ^ 3,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0039]2、智能因子指标,分类指标总分为50分,分为4个单项指标。
[0040]I)词条提示改进遗留数量
[0041]周期为24小时,指标项单项分数为20分,取同末级分类关键词的统计日的指标之和的均值,定义为Ε,Ε〈0。6倍E均值,指标权重为O ;0。6倍E均值<E〈0。8倍E均值,指标权重为60% ;0。8倍E均值< E〈1倍E均值倍E均值,指标权重为80% ;E > I倍E均值,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0042]2)跳出率
[0043]周期为24小时,指标项单项分数为10分,属于用户行为分析,计算公式N=PV/UV,PV=离站页面的搜索次数,UV=受访页面的独立访客,N〈0。6倍N均值,指标权重为O ;0。6倍N均值< N〈0。8倍N均值,指标权重为60% ;0。8倍N均值< N〈1倍N均值倍E均值,指标权重为80% ;N > I倍N均值,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0044]3)受访页面的独立访客
[0045]周期为24小时,指标项单项分数为10分,受访页面的独立访客,定义为UV,UV〈0。6倍UV均值,指标权重为O ;0。6倍UV均值< UV〈0。8倍UV均值,指标权重为60% ;0。8倍UV均值< UVCl倍UV均值倍UV均值,指标权重为80% ;UV > I倍UV均值,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0046]4)受访页面的新独立访客
[0047]周期为24小时,指标项单项分数为10分,受访页面的独立访客,定义为UV (NEW),UV(NEW)〈O。6 倍 UV(NEW)均值,指标权重为 O ;0。6 倍 UV(NEW)均值≤ UV(NEW)〈O。8 倍UV(NEW)均值,指标权重为60% ;0。8倍UV(NEW)均值≤UV(NEW)〈I倍UV(NEW)均值倍UV(NEff)均值,指标权重为80% ;UV (NEW) ^ I倍UV(NEW)均值,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0048]3、互动因子指标,分类指标总分为20分,分为I个单项指标。
[0049]I)互动微件(有问必答微件、评分微件、投票微件)栏目总数所占SRP总栏目数比例
[0050]周期为24小时,指标项单项分数为10分,计算公式为T=T1/T0,Tl=互动微件栏目总数TO=SRP微件栏目总数,T〈0。6倍T均值,指标权重为O ;0。6倍T均值< T〈0。8倍T均值,指标权重为60% ;0。8倍T均值< T〈1倍T均值倍T均值,指标权重为80% ;T > I倍T均值,指标权重为100% ;指标权重乘以指标项单项分数即为最终得分。
[0051]如图2所述,将全部指标项单项得分之和,即为全部得分,并按如下进行判断:
[0052]1、全部单项得分之和大于等于0,但小于最小单项基准分数的60%,定义为驳回警告;对现有搜索结果质量的严重否定,不可以维系现状,必须下线。
[0053]2、全部单项得分之和大于等于最小单项基准分数的60%,但小于最小单项基准分数,定义为改进提示;对现有搜索结果质量的轻度否定,可以维系现状,但必须优化。
[0054]3、全部单项得分之和大于等于最小单项基准分数,但大于最大单项基准分数,定义为可以接受;对现有搜索结果质量的基本肯定,可以维系现状,不需优化。
[0055]4、全部单项得分之和大于等于最大单项基准分数,定义为质量优良;对现有搜索结果质量的完全肯定,可以维系现状,必须推荐。
[0056]实施例
[0057]2013年8月I日,此搜索数据质量统计算法应用于(http://www.zhongsou.com)中搜综合搜索,经过近2个月的数据结果反复验证,算法所获取的数据翔实可信,累计为(http://www.zhongsou.com)中搜综合搜索,检索出质量不达标的搜索结果达数万条,对提高(http://www.zhongsou.com)中搜综合搜索的搜索数据质量,起到了不可替代的作用。
[0058]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的【具体实施方式】进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
【权利要求】
1.一种搜索数据质量统计方法,其特征在于,所述方法包括: (1)将搜索爬虫所抓取并做索引的信息及数据,经质量数据试验排重,获取影响搜索数据综合质量评判较大的指标项; (2)分别将所获取的指标项,对应指标特性进行分类归类; (3)设立指标项的基准分,设立指标项得分权重公式; (4)获取指标项单项得分、分类指标项得分、全部指标项得分; (5)对按预定评判标准,对获取的计算结果进行搜索数据质量等级判断。
2.如权利要求1所述的一种搜索数据质量统计方法,其特征在于,所述步骤(2)包括全面因子指标、美观因子指标、智能因子指标、准确因子指标和互动因子指标五大类。
3.如权利要求1所述的一种搜索数据质量统计方法,其特征在于,所述步骤(4)包括指标权重乘以指标项单项基准分分数即为最终指标项得分。
4.如权利要求1所述的一种搜索数据质量统计方法,其特征在于,所述指标项单项的基准分分为10分、20分、30分和40分四档。
5.如权利要求1所述的一种搜索数据质量统计方法,其特征在于,指标项单项的基准分,存在最小值10分,存在最大值40分,会随指标项单项指标在整体质量评价体系中的重要性,而随时会发生变化。
6.如权利要求1所述的一种搜索数据质量统计方法,其特征在于,分类指标项的基准分,存在最小值10分,但不存在最大值,会随所属指标项单项指标总数的增减,或所属各指标项单项指标基准分的加减,而随时会发生变化。
7.如权利要求1所述的一种搜索数据质量统计方法,其特征在于,全部指标项的基准分,存在最小值10分,但不存在最大值,会随全部指标项单项指标总数的增减,或全部指标项单项指标基准分的加减,而随时会发生变化。
8.如权利要求1所述的一种搜索数据质量统计方法,其特征在于,所述步骤(5)包括 全部单项得分之和大于等于0,但小于最小单项基准分数的60%,定义为驳回警告; 全部单项得分之和大于等于最小单项基准分数的60%,但小于最小单项基准分数,定义为改进提示; 全部单项得分之和大于等于最小单项基准分数,但大于最大单项基准分数,定义为可以接受; 全部单项得分之和大于等于最大单项基准分数,定义为质量优良。
【文档编号】G06F17/30GK103544314SQ201310539908
【公开日】2014年1月29日 申请日期:2013年11月4日 优先权日:2013年11月4日
【发明者】张淼, 杨杭, 李小军, 康治理, 许国栋 申请人:北京中搜网络技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1