本发明属于软件测试技术领域,特别是一种利用蜕变测试评价商品搜索系统正确性的方法。
背景技术:
网购零售平台是指一类网络平台,它为用户提供供通过互联网搜索商品信息,通过电子订单发出购物请求,在商品提供商及购物者达成一致协议后,通过约定一定方式付款,以快递或当面交易等方式进行交易。目前的网购零售平台发展迅速,大型网购零售平台,比如国外的亚马逊,乐天,雅虎,国内的淘宝,京东等电商逐渐改变人们的购物和生活习惯。他们在提供商品搜索,购买,反馈评价的同时,也根据用户的浏览情况,在用户搜索商品时,个性化的为每个用户提供不同的商品,以希望于增加用户的购买几率。
网络购物平台的商品搜索功能是其最重要的功能之一。套用经济学中的长尾理论,购物平台中最热的一小部商品得到了最广泛的关注,剩下的很大一部分商品却没有人关注,造成了商品利用上的浪费。因此,商品搜索尤为重要。商品搜索使得用户可以根据自己的需求设置关键字进行商品查找,同时可以根据一些诸如标签,筛选之类的操作对搜索的结果进行分类查看,从而满足自己的商品挑选需求。
购物商品搜索系统是一个典型的大数据系统,用户通过键入搜索的关键字,以及选择相关的筛选条件来进行商品的搜索和展示。购物搜索系统的商品种类和数量多,属性各异。商品搜索系统的搜索功能的质量直接关乎到用户的使用体验,影响了用户的购买行为,也影响商品搜索功能提供商的收益。
搜索引擎质量的验证难点在于,搜索结果没有一个预期的输出,使得常用的验证软件质量的方法不能适用。一些针对普通搜索引擎搜索功能质量的测试方法已经被广泛的讨论,蜕变测试,随机步长等软件测试技术可以应用于诸如百度等的搜索引擎的质量评价。关于购物系统搜索系统,尚未有人提出评价其质量的方法。购物搜索引擎不能将用于一般的网页搜索引擎质量评价的方法等直接拿过来用,因为购物搜索引擎提供可供选择的筛选按钮,使用户可以进行条件的筛选,同时在搜索结果中也提供了诸如价格,邮费,发货地等商品属性。因此,现存的利用简单的蜕变测试,随机步长等评价百度等搜索引擎的方法并不能很好的适用于商品搜索引擎的评价。
技术实现要素:
本发明的目的在于提供一种利用蜕变测试评价商品搜索系统正确性的方法,给出评价商品搜索系统正确性的指标,有效地对购物网站搜索引擎进行搜索正确性性评价。
实现本发明目的的技术解决方案为:一种利用蜕变测试评价商品搜索系统正确性的方法,步骤如下:
步骤1,初始化搜索关键字a,其中a是在购物平台进行购买的商品;
步骤2,在待评价的商品搜索系统中,利用关键字a进行搜索,搜索结果集合记为fr1;
步骤3,根据将关键字进行位置交换,关键字联合标题、价格、发货地、可筛选属性一同筛选,对关键字进行重复,粘连,简繁体,错别字,部分缺失,掺杂无用符号的构造方法,构造后续查询关键字b;
步骤4,在待评价的商品搜索系统中,利用关键字b进行搜索,搜索结果集合记为fr2;
步骤5,在使用不同的构造方法下,对fr1和fr2进行结果的比对和计算,得出评价商品搜素功能质量的指标计算结果。
进一步地,步骤3所述根据将关键字进行位置交换,关键字联合标题、价格、发货地、可筛选属性一同筛选,对关键字进行重复,粘连,简繁体,错别字,部分缺失,掺杂无用符号的构造方法,构造后续查询关键字b,具体包括12种后续查询关键字b的构造方法,每个不同的后续关键字b的构造方法,对应着一个与该后续关键字b相关的正确性评价指标,分部如下:
(1)多关键字搜索商品时关键字位置对于搜索结果总体影响的评价指标,是指在用多个关键字搜索时,关键字位置变化,搜索结果是否产生变化,及搜索结果产生变化的程度,该指标的计算公式为
(2)多关键字搜索商品时关键字位置对于搜索结果排名影响的评价指标,是指多个关键字搜索时,关键字位置的变化,对于搜索结果中每一个具体商品排名变化的干扰程度,该指标的计算公式为result2=ave(∑(index1-index2)),其中index1和index2分别表示搜索多关键字及改变关键字顺序,两次均出现在搜索结果中的同一个商品的位置;
(3)单关键字搜索商品时商品标题与商品搜索缺失情况发生时的相关性评价指标,是指单个关键字搜索时,其中有商品a,标题为title,那么同时搜索关键字与title,商品a应该依然出现在新的搜索结果中,计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(4)单关键字搜索商品时商品发货地与商品搜索缺失情况发生时的相关性评价指标,是指单个关键字搜索时,其中有商品a,发货地为loc,那么同时搜索关键字与loc,商品a应该依然出现在新的搜索结果中,该指标的计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(5)单关键字搜索商品时商品价格与商品搜索缺失情况发生时的相关性评价指标,是指单个关键字搜索时,其中有商品a,价格为price,那么同时搜索关键字与price,商品a应该依然出现在新的搜索结果中,该指标的计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(6)单关键字搜索商品时筛选选项与商品搜索缺失情况发生的相关性评价指标,是指单个关键字搜索时,搜索结果中的商品a的详情页中有部分属性,那么在搜索商品关键字a时,开启商品搜索引擎提供的筛选功能,筛选相应属性,商品a应该依然出现在新的搜索结果中,该指标的计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(7)多关键字搜索商品时关键字重复对于搜索结果总体影响的评价指标,是指多个关键字搜索时,某个关键字重复多次时,系统应该能识别并加以处理,该指标的计算公式为
(8)多关键字搜索商品时关键字粘连对于搜索结果总体影响的评价指标,是指多个关键字搜索时,关键字之间缺少空格而直接粘连在一起,对于搜索结果的影响,该指标的计算公式为
(9)单关键字搜索商品时无用符号对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中出现搜索无用符号对于商品搜索结果的影响,该指标的计算公式为
(10)单关键字搜索商品时错别字对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中出现错别字对于商品搜索结果的影响,该指标的计算公式为
(11)长关键字搜索商品时部分缺失对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中存在缺失对于搜索结果的影响,该指标的计算公式为
(12)单关键字搜索商品时简繁体对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中简繁体差异对于商品搜索结果的影响,该指标的计算公式为
进一步地,(1)中所述多关键字搜索商品时关键字位置对于搜索结果总体影响的评价指标、(2)中所述多关键字搜索商品时关键字位置对于搜索结果排名影响的评价指标、(8)中所述多关键字搜索商品时关键字粘连对于搜索结果总体影响的评价指标,均采取以下算法:
1)初始化单个关键字或多个关键字集合,记为a;
2)检查关键字是否会返回超过100个结果,如不满足,则重新初始化关键字a;
3)将a中的多个关键字分解为两个部分,分别记为a1和a2,即a=a1+a2;
4)将a的搜索结果返回集记为fr1;
5)a的搜索返回集合取前100个;
6)构造搜索词条b为a的倒置,即b=a2+a1;
7)令b的搜索结果集记为fr2并取前100条;
8)(1)、(8)中所述指标:计算fr1与fr2的jaccard相似系数,其中jaccard相似系数定义为,有两个集合x和y,相似系数定义为x与y的交集占x与y的并集的比例;
(2)中所述指标:计算fr1和fr2中同时出现的商品的位置的变化率的平均值。
进一步地,(3)中所述单关键字搜索商品时商品标题与商品搜索缺失情况发生时的相关性评价指标,(4)中所述单关键字搜索商品时商品发货地与商品搜索缺失情况发生时的相关性评价指标,(5)中所述单关键字搜索商品时商品价格与商品搜索缺失情况发生时的相关性评价指标,均采取以下算法:
1)初始化单个关键字或多个关键字集合,记为a;
2)检查关键字是否会返回超过100个结果,如不满足,则重新初始化关键字a;
3)将a的搜索结果返回集记为fr1并取前100个,fr1为根据关键字a进行搜索的一层搜索结果;
4)对于fr1中的每个搜索结果pi,pi表示搜索结果集合中的第i个结果,i取值范围从1到100,提取其商品标题记为title,价格为price,发货地为loc;
5)构造后续关键字,计算(3)中指标b_3_i=a+title,(4)中指标b_4_i=a+loc,(5)中指标b_5_i=a+price;
6)令b_3_i的搜索结果集记为fr_3_i并取前100条;b_4_i的搜索结果集记为fr_4_i并取前100条;b_5_i的搜索结果集记为fr_5_i并取前100条;fr_3_i,fr_4_i,fr_5_i为初始关键字a与一层搜索结果fr1中每个结果pi分别利用(3)(4)(5)所述指标关键字构造方法进行结合后,再次进行的二层搜索的结果;
7)(3)中所述指标:计算pi是否属于fr_3_i,返回结果将布尔值转化为float型数,并统计100个pi计算后指标结果的均值;
(4)中所述指标:计算pi是否属于fr_4_i,返回结果将布尔值转化为float型数,并统计100个pi计算后指标结果的均值;
(5)中所述指标:计算pi是否属于fr_5_i,返回结果将布尔值转化为float型数,并统计100个pi计算后指标结果的均值。
进一步地,(6)中所述单关键字搜索商品时筛选选项与商品搜索缺失情况发生的相关性评价指标,采取以下算法:
1)初始化单个关键字或多个关键字集合,记为a;
2)检查关键字是否会返回超过100个结果,如不满足,则重新初始化关键字a;
3)将a的搜索结果返回集记为fr1并取前100个;
4)对于fr1中的每个结果pi,pi表示搜索结果集合中的第i个结果,i取值范围从1到100,解析对应的网页;
5)判断筛选属性是否提取完毕:如果提取完毕则进入6);如果没提取完毕,则提取解析后商品筛选属性di并判断di是否是搜索页面中能够开启筛选的属性,如能够开启筛选则继续6),否则退出算法;
6)记搜索关键字为a且勾选筛选属性di选项为操作b;
7)令bi的搜索结果集记为fri并取前100条;fri为初始关键字a与一层搜索结果fr1中每个结果pi利用(6)所述指标关键字构造方法进行结合后,再次进行的二层搜索的结果;
8)计算pi是否属于fri,返回结果将布尔值转化为float型数,并计算均值。
进一步地,(7)中所述多关键字搜索商品时关键字重复对于搜索结果总体影响的评价指标,(9)中所述单关键字搜索商品时无用符号对于搜索结果总体影响的评价指标,(10)中所述单关键字搜索商品时错别字对于搜索结果总体影响的评价指标,(11)中所述长关键字搜索商品时部分缺失对于搜索结果总体影响的评价指标,(12)中所述单关键字搜索商品时简繁体对于搜索结果总体影响的评价指标,均采取以下算法:
1)初始化单个关键字或多个关键字集合,记为a;
2)检查关键字是否会返回超过100个结果,如不满足,则重新初始化关键字a;
3)将a的搜索结果返回集记为fr1并取前100个;
4)对于fr1中的每个结果pi,解析对应的网页;
5)构造后续关键字为b,(7)中指标令b=a+a,(9)中指标令b=a+任意杂质符号,(10)中指标令b=a中任意一字用错别字替换,(11)中指标令b为将a中任意一个字去除后的结果,(12)中指标令b=a中任意一字用其繁体字替换;
6)计算并返回fr1和fr2的相似系数。
本发明与现有技术相比,其显著优点为:(1)加入了对商品属性、商品排名、常用商品关键字等的处理,能有效的对购物网站搜索引擎进行搜索正确性性评价;(2)通过对购物网站搜索功能的实际使用情况进行调查,得出了综合购物网站搜索功能容易出现质量问题的方面,据此给出了12个用于计算购物网站搜索功能正确性的指标,涵盖了关键字位置、变异、缺失、重复等情况,指标更全面准确;(3)给出了购物网站搜索功能在具体指标上应该满足的蜕变关系及相应的计算方法,计算方便、结果可靠。
附图说明
图1是本发明利用蜕变测试评价商品搜索系统正确性的方法流程图。
图2是初始化搜索关键字a的示意图。
图3是初始搜索结果的示意图。
图4是单关键字搜索商品时筛选选项与商品搜索缺失情况发生的相关性评价指标的算法流程图。
图5是提取解析后商品筛选属性的示意图。
图6是不存在无用符号时的商品搜索结果。
图7是存在无用符合时的商品搜索结果。
图8是评价购物网站搜索系统的指标计算结果箱型图。
具体实施方式
下面结合附图及具体实施例对本发明进行具体说明。
网络购物平台的商品搜索功能是其最重要的功能之一,本发明应用蜕变测试技术来评价网购平台商品搜索功能的搜索正确性,提出了评价购物网站搜索功能质量的流程,结合图1,本发明利用蜕变测试评价商品搜索系统正确性的方法,包括以下步骤:
第一步:初始化搜索关键字a,其中a是有意义的物体并且可以在购物平台合法购买的。具体的a的选择可以根据各个购物平台提供的热词推荐,或者搜索词条排行榜进行选取,如图2。
第二步:将a投入待评价的商品搜索系统s中,进行搜索,搜索结果(包括商品标题,商品详情页超链接,商品属性)集合记为fr1。
第三步:根据将关键字进行位置交换,关键字联合标题、价格、发货地、可筛选属性一同筛选,对关键字进行重复,粘连,简繁体,错别字,部分缺失,掺杂无用符号的构造方法,构造后续查询关键字b;具体根据本发明所提出的12个后续查询关键字的构造方法,分别构造后续查询关键字b。
第四步:将b投入待评价的商品搜索系统s中,进行搜索,搜索结果集合记为为fr2。
第五步:每个不同的后续关键字b的构造方法,同时对应着一个与后续关键字b相关的指标,利用fr1和fr2计算该指标的计算结果。
第六步:重复第一步~第五步多次并求均值,并给出待评价的商品搜索系统s在12个指标中的计算结果。
上述步骤中涉及到的12个正确性评价指标:
(1)指标1:多关键字搜索商品时关键字位置对于搜索结果总体影响的评价指标,是指在用多个关键字搜索时,关键字位置变化,搜索结果是否产生变化,及搜索结果产生变化的程度,该指标的计算公式为
(2)指标2:多关键字搜索商品时关键字位置对于搜索结果排名影响的评价指标,是指多个关键字搜索时,关键字位置的变化,对于搜索结果中每一个具体商品排名变化的干扰程度,该指标的计算公式为result2=ave(∑(index1-index2)),其中index1和index2分别表示搜索多关键字及改变关键字顺序,两次均出现在搜索结果中的同一个商品的位置;
(3)指标3:单关键字搜索商品时商品标题与商品搜索缺失情况发生时的相关性评价指标,是指单个关键字搜索时,其中有商品a,标题为title,那么同时搜索关键字与title,商品a应该依然出现在新的搜索结果中,计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(4)指标4:单关键字搜索商品时商品发货地与商品搜索缺失情况发生时的相关性评价指标,是指单个关键字搜索时,其中有商品a,发货地为loc,那么同时搜索关键字与loc,商品a应该依然出现在新的搜索结果中,该指标的计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(5)指标5:单关键字搜索商品时商品价格与商品搜索缺失情况发生时的相关性评价指标,是指单个关键字搜索时,其中有商品a,价格为price,那么同时搜索关键字与price,商品a应该依然出现在新的搜索结果中,该指标的计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(6)指标6:单关键字搜索商品时筛选选项与商品搜索缺失情况发生的相关性评价指标,是指单个关键字搜索时,搜索结果中的商品a的详情页中有部分属性,那么在搜索商品关键字a时,开启商品搜索引擎提供的筛选功能,筛选相应属性,商品a应该依然出现在新的搜索结果中,该指标的计算公式为result=i1/i2,其中i1是商品a再次出现的实际次数,i2是商品a再次出现的理论最大次数;
(7)指标7:多关键字搜索商品时关键字重复对于搜索结果总体影响的评价指标,是指多个关键字搜索时,某个关键字重复多次时,系统应该能识别并加以处理,该指标的计算公式为
(8)指标8:多关键字搜索商品时关键字粘连对于搜索结果总体影响的评价指标,是指多个关键字搜索时,关键字之间缺少空格而直接粘连在一起,对于搜索结果的影响,该指标的计算公式为
(9)指标9:单关键字搜索商品时无用符号对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中出现搜索无用符号对于商品搜索结果的影响,该指标的计算公式为
(10)指标10:单关键字搜索商品时错别字对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中出现错别字对于商品搜索结果的影响,该指标的计算公式为
(11)指标11:长关键字搜索商品时部分缺失对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中存在缺失对于搜索结果的影响,该指标的计算公式为
(12)指标12:单关键字搜索商品时简繁体对于搜索结果总体影响的评价指标,是指单个关键字搜索商品时,关键字中简繁体差异对于商品搜索结果的影响,该指标的计算公式为
然后是上述步骤中涉及到的12个评价指标的计算算法:
算法1:适用于指标1、2、8:
输入:初始多关键字数组a=a1+a2+a3......
输出:指标单词关键字输入的计算值
下面是针对这个算法的分步解释
step1初始化单个关键字或多个关键字集合,记为a。
step2检查关键字是否会返回超过100个结果,如不满足,则重新初始化关键字a(初始关键字搜索结果返回过少可能导致指标评价所使用的可用数据较少,影响其客观性)。
step3.将a中的多个关键字分解为两个部分,分别记为a1和a2,即a=a1+a2。如a为男款衣服,记a1为男款,a2为衣服。step4.将a的搜索结果返回集记为fr1。
step5.为了避免大量搜索结果带来的冗余影响,a的搜索返回集合只取前100个,即n=100。
step6.构造搜索词条b为a的倒置,即b=a2+a1。
step7-8.令b的搜索结果集记为fr2并取前100条。
step9.一个良好的购物商品搜索系统,指标1、8应该满足关系如下:fr1与fr2有较大的jaccard相似系数。指标2应该满足:fr1与fr2中,相同的商品名次变化率应该尽可能的小,即某件商品在前后两次搜索都出现,那么该商品的排名变化率即((当前位置-原来位置)/总位置个数)尽可能的要小。计算并返回相似系数或fr1和fr2中同时出现的商品的位置的变化率的平均值。其中,jaccard相似系数定义为,有两个集合x和y,相似系数定义为x与y的交集占x与y的并集的比例.
算法2:适用于指标3、4、5:
输入:初始关键字a
输出:指标单次关键字输入的计算值
下面是针对这个算法的解释,与算法一重合的注释不再备注:
step5.对于fr中的每个搜索结果pi,提取其商品标题记为title,价格为price,发货地为loc。
step6.构造后续关键字bi=a+title或a+loc或a+price。
step9.计算pi是否属于fri。
step10.好的商品搜索系统应当满足蜕变关系:任意的pi均属于对应的fri。该算法对于同关键字搜索结果中每件商品的返回结果应为布尔值t或f,计算同关键字搜索结果中所有商品的平均值
比如,关键字a为电脑,初始搜索结果如图3,则在构造b时,指标三构造为:电脑+asus/华硕vvm510lf5500vm510lvm510lfi715.6英寸笔记本电脑,指标四构造为电脑+上海,指标五构造为电脑+3769。
算法3:适用于指标6,算法流程图如图4;
输入:初始关键字a
输出:指标单次关键字输入的计算值
下面是针对这个算法的分步解释,与算法一重合的注释不再备注:
step5.对于fr中的每个结果pi,解析对应的网页。
step6.判断筛选属性是否提取完毕,如还可提取,则提取解析后商品筛选属性di并判断di是否是搜索页面中可以开启筛选的属性,如可开启筛选,则继续,否则退出算法。
step7.记搜索关键字为a且勾选筛选属性di选项为操作b。
step10-11.应当满足关系如下:任意的pi均属于对应的fri,计算pi是否属于fri,是则计数1,否则不变,然后转step7。
step12.算法结果=总技术/总可筛选属性
例如,搜索关键字衣服,出现的某条结果为pi,打开pi详情页后提取到的属性如图5,然后发现四个属性,且全部可以在淘宝筛选开关中启用。则每次分别启用一个开关,并且搜索关键字a,结果记为fri,如果pi仍然在fri,中,则计数n+1,否则不变。最后计算n/4,(0=<n<=4),最后计算所有商品的平均值
算法4:适用于指标7、9、10、11、12、14:
输入:初始关键字a
输出:指标单次关键字输入的计算值
下面是针对这个算法的分步解释,与算法一重合的注释不再备注:
step5.构造后续关键字为b,指标7令b=a+a,指标9令b=b=a+任意杂质符号,如’?’,’,’,’.’.指标10令b=a中任意一字用错别字替换。指标11令b为将a中任意一个字去除后的结果,指标12令b=a中任意一字用其繁体字替换。step7应当满足关系如下:fr1fr2有较大的相似系数,计算并返回相似系数。该算法返回结果应为0-1的实数。
例如,a为凤梨,则指标9令b=凤梨%,指标10令b=风梨,指标14令b=菠萝。
实施例1
选择进行评估的网站为国内典型的购物平台淘宝网的搜索功能,使用的关键字符从淘宝每日更新的的搜索关键字排行榜中选择,将个品类排行榜数据解析并提取到本地作为关键字使用。各品类均匀选择若干,共选择不少于1000个关键字,部分展示如图2。对于不同的关键字均进行多次迭代计算取平均值。
一,多关键字搜索商品时关键字位置对于搜索结果总体影响的评价指标。
1.设置初始搜索词条a,假定为‘衣服男’
2.经过搜索获得超过100条记录,记为集合c,满足条件,进行下一步
3.设置后续搜索词条为b‘男衣服’
4.经过搜索获得结果,记前100条为集合d
5.计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6.有上述步骤可以获得jaccard相似系数
7.重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数取平均数,多次试验之后作为评估该网站指标一的结果。
二,多关键字搜索商品时关键字位置对于搜索结果排名影响的评价指标
1设置初始搜索词条a,假定为‘衣服男’
2经过搜索获得超过100条记录,记前20条为为集合c,满足条件,进行下一步
3设置后续搜索词条为b‘男衣服’
4经过搜索获得结果,记前20条为集合d
5计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6有上述步骤可以获得jaccard相似系数
7重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数取平均数,多次试验之后作为评估该网站指标二的结果。
三,关键字搜索商品时商品标题与商品搜索缺失情况发生时的相关性评价指标
1设置初始搜索词条a,假定为‘衣服’
2经过搜索获得超过100条记录,记前100条为为集合c,满足条件,进行下一步
3对于c中每个ci,提取其对应的商品标题为title,设置后续搜索词条为bi=a+title,如‘衣服某某商品标题’
4.bi经过搜索获得结果,记前100条为集合di
5判断ci是否属于di,结果记为1满足/0不满足
重复3-5,直至每个ci都使用过
计算ci属于di的概率,即满足的ci/总的ci
更换关键字,重复实验,将实验结果平均数作为评估该网站指标三的结果。
例:关键字a为电脑,初始搜索结果如图3,则在构造b时,指标三构造为:电脑+asus/华硕vvm510lf5500vm510lvm510lfi715.6英寸笔记本电脑
四关键字搜索商品时商品发货地与商品搜索缺失情况发生时的相关性评价指标
1设置初始搜索词条a,假定为‘衣服’
2经过搜索获得超过100条记录,记前100条为为集合c,满足条件,进行下一步
3对于c中每个ci,提取其对应的发货地为loc,设置后续搜索词条为bi=a+loc,如‘衣服江苏’
4.bi经过搜索获得结果,记前100条为集合di
5判断ci是否属于di,结果记为1满足/0不满足
6重复3-5,直至每个ci都使用过
7计算ci属于di的概率,即满足的ci/总的ci
8更换关键字,重复实验,将实验结果平均数作为评估该网站指标四的结果。
例:关键字a为电脑,初始搜索结果如图3,则在构造b时,指标四构造为电脑+上海
五关键字搜索商品时商品价格与商品搜索缺失情况发生时的相关性评价指标
1设置初始搜索词条a,假定为‘衣服’
2经过搜索获得超过100条记录,记前100条为为集合c,满足条件,进行下一步
3对于c中每个ci,提取其对应的价格为price,设置后续搜索词条为bi=a+price,如‘衣服100元’
4.bi经过搜索获得结果,记前100条为集合di
5判断ci是否属于di,结果记为1满足/0不满足
6重复3-5,直至每个ci都使用过
7计算ci属于di的概率,即满足的ci/总的ci
8更换关键字,重复实验,将实验结果平均数作为评估该网站指标五的结果。
例:关键字a为电脑,初始搜索结果如图3,指标五构造为电脑+3769。
六关键字搜索商品时筛选选项与商品搜索缺失情况发生的相关性评价指标
1设置初始搜索词条a,假定为‘衣服’
2经过搜索获得超过100条记录,记前100条为为集合c,满足条件,进行下一步
3对于c中每个ci,解析其具体网页后分析筛选选项,如是否存在包邮,运费险,7天退货等。
4对于3中存在的每个筛选选项,构造后续关键字为b=a,即b为‘衣服’。同时利用网页脚本解析等操作,在搜索时模拟人工筛选,记人工筛选的结果为集合d
5判断ci是否属于di,结果记为1满足/0不满足
6重复4,直至每个筛选选项都使用过
7重复3-6,直至每个ci都使用过
8计算ci属于di的概率,即满足的ci/总的ci
9更换关键字,重复实验,将实验结果平均数作为评估该网站指标五的结果。
例,搜索关键字衣服,出现的某条结果为pi,打开pi详情页后提取到的属性如图5,然后发现四个属性,且全部可以在淘宝筛选开关中启用。则每次分别启用一个开关,并且搜索关键字a,结果记为fri,如果pi仍然在fri,中,则计数n+1,否则不变。最后计算n/4,(0=<n<=4)。
七多关键字搜索商品时关键字重复对于搜索结果总体影响的评价指标
1设置初始搜索词条a,假定为‘衣服’
2经过搜索获得超过100条记录,记为集合c,满足条件,进行下一步
3按一定规则设置后续搜索词条为,b=a+a,如b‘衣服衣服’
4经过搜索获得结果,记前100条为集合d
5计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6有上述步骤可以获得jaccard相似系数
7重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数取平均数,多次试验之后作为评估该网站指标七的结果。
八,多关键字搜索商品时关键字粘连对于搜索结果总体影响的评价指标
1设置初始搜索词条a,假定为‘衣服男’
2经过搜索获得超过100条记录,记为集合c,满足条件,进行下一步
3按一定规则设置后续搜索词条为b,b=a1a2,如‘男衣服’
4经过搜索获得结果,记前100条为集合d
5计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6有上述步骤可以获得jaccard相似系数
7重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数取平均数,多次试验之后作为评估该网站指标八的结果。
九,关键字搜索商品时无用符号对于搜索结果总体影响的评价指标
1设置初始搜索词条a,假定为‘衣服男’
2经过搜索获得超过100条记录,记为集合c,满足条件,进行下一步
3按一定规则设置后续搜索词条为b,b=a1+任意杂质符号,如‘,’,‘?’,‘。’如‘衣服男+’,‘衣服男*’,‘衣服男&’等
4经过搜索获得结果,记前100条为集合d
5计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6有上述步骤可以获得jaccard相似系数
7重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数取平均数,多次试验之后作为评估该网站指标九的结果。如图6和图7,无用符号不能被系统识别并去除,与存在无用符号时,商品发生较大变化。
十,关键字搜索商品时错别字对于搜索结果总体影响的评价指标
1设置初始搜索词条a,假定为‘盱眙龙虾’
2经过搜索获得超过100条记录,记为集合c,满足条件,进行下一步
3按一定规则设置后续搜索词条为b,b为将a中任意一个字用同音或同行(预先定义好的错别字表)错别字替换后的结果如‘于台龙虾’等
4经过搜索获得结果,记前100条为集合d
5计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6有上述步骤可以获得jaccard相似系数
7重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数取平均数,多次试验之后作为评估该网站指标十的结果。
十一,长关键字搜索商品时部分缺失对于搜索结果总体影响的评价指标
1设置初始搜索词条a,假定为‘白雪公主与七矮人’
2经过搜索获得超过100条记录,记为集合c,满足条件,进行下一步
3按一定规则设置后续搜索词条为b,b为将a中任意一个字去除后的结果,如‘白公主与七矮人’等
4经过搜索获得结果,记前100条为集合d
5计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6有上述步骤可以获得jaccard相似系数
7重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数取平均数,多次试验之后作为评估该网站指标十一的结果。
十二,关键字搜索商品时简繁体对于搜索结果总体影响的评价指标
1设置初始搜索词条a,假定为‘自行车’
2经过搜索获得超过100条记录,记为集合c,满足条件,进行下一步
3按一定规则设置后续搜索词条为b,b为将a进行简繁体转换的结果,如‘自行車’等
4经过搜索获得结果,记前100条为集合d
5计算c和d的jaccard相似系数,以商品标题为匹配的对象,标题完全相同的两个产品,被判定为完全一样。jaccard的为c和d的交集/c和d的并集。
6有上述步骤可以获得jaccard相似系数
7重复上述步骤,多次初始化新的关键字a和b,将每次的jaccard相似系数计算结果取平均数,多次试验之后作为评估该网站指标十二的结果。
经过对千余组关键字进行搜索,同时对12个指标进行计算,得出了一系列能初步评价购物网站搜索系统的指标计算结果。各指标详细结果见下表1。
表1指标计算结果表
结果箱型图如图8,由图可看出,该网站12个指标结果,除去不稳定因素,1、指标该网站搜索功能的稳定性较好,在不考虑相关的推荐策略和商业因素的情况下,同样的搜索,关键字位置的变更对于结果的影响在合理范围之内。2该网站搜索功能的完整性较差,对于同样的商品,等价的变更搜索条件,再次搜索时,商品发生缺失的概率较高。同时,对于搜索时的筛选选项的开关不能智能化处理,对于关键字中典型的搜索要素,如地址,价格等也不能智能识别。该网站搜索功能的智能纠错性表现一般,1、关键字重复不能识别;2、无用符号可以大部分识别,部分不能识别;3、错别字判定为无法识别,可能是网站没有设置对应的常用错别字处理库,所以表现较差;4、简繁体表现不好,系统应该是没有针对简繁体或者同义词做识别及处理,判定为系统未在简繁体方面做处理。
综上,本发明通过对购物网站搜索功能的实际使用情况进行调查,得出了综合购物网站搜索功能容易出现质量问题的方面,据此给出了12个用于计算购物网站搜索功能正确性的指标,涵盖了关键字位置、变异、缺失、重复等情况,并给出了购物网站搜索功能在具体指标上应该满足的蜕变关系及相应的计算方法。通过对具体购物网站的实践,证实了购物网站搜索功能在给出的指标上确实存在质量问题。