一种网页信息一致性的识别方法及装置制造方法

文档序号:6500388阅读:206来源:国知局
一种网页信息一致性的识别方法及装置制造方法
【专利摘要】本发明实施例公开了一种网页信息一致性的识别方法及装置,其中的识别方法包括:从数据库中获取第一类网页信息;从网页信息中提取出标题信息和属性信息,并分别进行切词分析得到描述对象的属性;统计每一个属性包含的属性值以及所述描述对象所属类目下的共现信息;从属性值中去除所述共现信息中的属性值,得到每一个属性包含的矛盾属性值;判断被识别网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;如果是,确定被识别网页信息不一致,否则,确定被识别网页信息一致。根据本申请实施例,可以识别网页信息一致性,提高识别效率。
【专利说明】—种网页信息一致性的识别方法及装置
【技术领域】
[0001]本发明涉及计算机应用【技术领域】,特别是涉及一种网页信息一致性的识别方法和 装直。
【背景技术】
[0002]在第三方购物平台上,卖家用户通过平台发布产品网页,买家用户通过平台上的搜索引擎在卖家发布的网页中查找满足特定的搜索条件的网页,搜索引擎将这些符合特定的搜索条件的网页以搜索结果的形式展示给买家用户,该搜索结果即为各个符合特定的搜索条件的产品网页的链接集合,在产品网页的链接上,一般包含产品标题信息和产品图片,当买家浏览各链接上的产品标题信息和产品图片而对某个链接感兴趣时,会进一步决定点击该链接并详细查看该链接对应的产品网页。由于买家用户在浏览搜索的产品网页信息时,对产品标题信息感兴趣才会进一步的点击查看产品的详情。因此,为了获取更多的曝光机会,一些卖家用户在发布网页时,故意发布产品标题信息和产品属性信息不一致的网页信息。例如:当买家对链接中产品标题信息为“韩版女装秋装羊毛外套”的产品感兴趣时,就会点击该链接查看产品网页的详情,当点击进去之后发现该产品属性信息为“欧美、女装、冬装、棉外套”,与产品标题信息不一致,并不是买家想买的产品。另外,当买家用户通过搜索引擎查找满足特定的搜索条件的产品网页时,搜索引擎也会基于网页信息对作为搜索结果的网页进行排序。因此,有些卖家用户为了使其发布的产品网页成为搜索引擎的搜索结果,或者,为了使其发布的产品网页在作为搜索结果时排在前面以获得更多曝光机会,也很有可能在第三方购物平台上发布产品标题信息与产品属性信息不一致的产品网页信息。受到这些产品标题信息和产品属性信息不一致的网页信息的影响,在产品搜索时,一方面,搜索引擎反馈给用户的搜索结果中可能包括产品信息不一致的网页信息;另一方面,搜索引擎还有可能在排序时将包含产品信息不一致的网页信息的网页排在整个搜索结果的前面部分。上述两种情况都将严重影响搜索引擎的搜索质量,同时也降低了用户体验。
[0003]另外,对于其他的网站平台也会存在信息不一致的现象,比如视频网站,一般视频网站中包括:电影、音乐、电视剧和动漫等视频,而视频在网页信息中都有其标题信息和属性信息,例如:对于电影就有标题信息和影片介绍信息,其中影片介绍信息也就是电影的属性信息。视频网站上既有上传电影视频的用户(即“上传用户”),也有搜索、浏览并下载电影视频的用户(即“下载用户”),上传用户为了得到更多的曝光机会,填写的标题信息和属性信息会存在不一致的现象,这种不一致的网页信息同样会影响视频网站搜索引擎的搜索质量,进而就影响下载用户的搜索体验。
[0004]为了提高搜索引擎的搜索质量,现有技术通过计算网页信息中产品标题信息和产品属性信息之间的相关性,根据相关性大小识别网页信息是否前后一致,当相关性数值低于预设的阈值时,识别出产品标题信息与产品属性信息不一致;否则,识别出产品标题信息与产品属性信息一致。由于相关性计算处理的精确度很低,导致识别结果的准确性也不高。基于现有技术中存在的上述技术问题,目前迫切需要提供一种在第三方购物平台中识别网 页信息一致性的方法,以提高识别的准确性。

【发明内容】

[0005]为了解决上述技术问题,本发明实施例中提供的一种网页信息一致性的识别方法及装置,可以识别出网页信息是否一致性,提高识别的工作效率,同时,也提高了搜索引擎的搜索质量。
[0006]本申请实施例公开了如下技术方案:
[0007]一种网页信息一致性的识别方法,包括:
[0008]从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中;
[0009]从所述第一类网页信息中提取出标题信息和属性信息;
[0010]对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性;
[0011]统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息;
[0012]从所述属性值中去除所述共现信息中的属性值,得到描述对象的同一属性下的矛盾属性值;
[0013]判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;
[0014]如果是,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。
[0015]优选的,采用语义分析工具对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性。
[0016]优选的,所述对标题信息和属性信息分别进行切词,得到所述描述对象的属性之后,包括:
[0017]计算所述描述对象的属性中每一个属性的权重值;
[0018]从权重值最大的属性开始,按照权重值从大到小的顺序依次选择任意多个属性作为描述对象的重要属性。
[0019]则,统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息,具体为:
[0020]统计所述描述对象的重要属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息。
[0021]优选的,在识别出网页信息不一致之后,还包括:
[0022]从搜索结果中过滤不一致的网页信息的网页链接,将过滤后的搜索结果反馈给客户端。
[0023]优选的,在识别出网页信息不一致之后,还包括:
[0024]在对搜索结果进行排序时,降低不一致的网页信息的网页链接排名。
[0025]一种网页信息一致性的识别装置,包括:
[0026]获取模块,用于从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中;[0027]提取模块,用于从获取模块获取的第一类网页信息中提取出标题信息和属性信息;
[0028]分析模块,用于对提取模块提取的标题信息和属性信息分布进行切词,得到所述描述对象的属性;
[0029]统计模块,用于统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息;
[0030]剔除模块,用于从所述属性值中去除所述共现信息中的属性值,得到所述描述对象的同一属性下的矛盾属性值;
[0031]判断模块,用于判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;
[0032]确定模块,用于当判断模块的结果为是时,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。
[0033]优选的,所述分析模块包括语义分析工具调用子模块,用于调用语义分析工具对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性。
[0034]优选的,还包括:
[0035]计算模块,用于计算所述描述对象的属性中每一个属性的权重值;
[0036]选择模块,用于按照权重值从大到小的顺序依次选择任意多个属性作为描述对象的重要属性。
[0037]则,统计模块具体为:用于统计所述描述对象的重要属性中的每一个属性包含的属性值以及所述描述对象所属类目的共现信息。
[0038]优选的,还包括:
[0039]过滤模块,用于从搜索结果中过滤不一致的网页信息的网页链接,将过滤后的搜索结果反馈给客户端。
[0040]优选的,还包括:
[0041]排序模块,用于在对搜索结果进行排序时,降低不一致的网页信息的网页链接排名。
[0042]由上述实施例可以看出,从数据库中获取属于第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目下;提取出描述对象的标题信息和属性信息,通过对提取出的标题信息和属性信息分别进行切词分析,得到所述描述对象的属性,统计每一个属性包含的属性值,并剔除所述描述对象所属类目的共现信息中的属性值,得到每一个属性包含的矛盾属性值,当识别网页信息一致性时,仅判断网页信息中描述对象的标题信息和属性信息中的属性值是否为所述描述对象的同一属性下的矛盾属性值,如果是,确定被识别网页信息不一致,否则,确定所述被识别网页信息一致,可见通过分析得到同一类目的描述对象的属性包含的矛盾属性值,可以识别出网页信息的一致性,由于描述对象的属性的矛盾属性值是真实信息,所以识别结果的准确度也很高。
【专利附图】

【附图说明】
[0043]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本申请实施例一揭示的一种网页信息一致性识别方法的方法流程图;
[0045]图2为本申请实施例二揭示的一种网页信息一致性识别方法的方法流程图;
[0046]图3为本申请实施例三揭示的一种网页信息一致性识别装置的装置结构图;
[0047]图4为本申请实施例四揭示的一种网页信息一致性识别装置的装置结构图。
【具体实施方式】
[0048]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例进行详细描述。
[0049]实施例一
[0050]请参阅图1,其为本申请实施例一揭示的一种网页信息一致性识别方法的方法流程图,该方法包括以下步骤:
[0051]步骤101:从数据库中获取第一类网页信息,所述第一类目网页信息与被识别的网页信息的描述对象相同且位于相同类目中;
[0052]网站的网页信息作为一种新型的信息承载体,用于承载某一特定对象的信息,以便网站用户进行了浏览,该特定对象即为网站信息的描述对象。不同网站的网页信息的描述对象也是不同的,比如:针对淘宝、京东、亚马逊、当当等购物网站,其描述对象可以是产品(即,服装、食品、家具、家电、书本等);针对优酷、爱奇艺、土豆等视频网站,其描述对象可以是视频(即,电影、电视、动漫、音乐等形式的视频)。此外,小说网站、招聘网站等其它网站的网页信息也有其针对的描述对象,也就说,任何一种网站的网页信息都有自己的描述对象。下面仅以购物网站的网页信息的描述对象-产品为例进行说明:
[0053]在第三方购物平台会对卖家用户发布的产品进行正确的归类,S卩,将产品归类到所述的产品类目,以方便买家用户通过类目搜索产品,比如:产品类目为:女装,男装,童装,女鞋,男鞋,童鞋。当买家用户想买女装时,就会直接搜索女装,搜索引擎会将属于产品类目为“女装”的产品的网页信息反馈给买家用户。为了更方便买家用户也可以将产品分类更细致,比如:女装大衣,女装连衣裙,女装衬衫,女裤,男装大衣,男装衬衫,男装裤子等。当然,以上的列举仅仅是示例性,还可以包括其他的类目。这里,根据实际需要可以粗粒度地划分产品所属的类目,也可以细粒度地划分产品所属的类目,本发明实施例对类目的归类方式并不限定。
[0054]例如:当产品的分类为:女装外套,女装衬衫,女装裤子、男装外套,男装裤子,从数据库中获取属于产品类目为女装外套的产品的网页信息、属于产品类目为女装衬衫的产品的网页信息、属于产品类目为女装裤子的产品的网页信息、属于产品类目为男装外套的产品的网页信息和属于产品类目为男装裤子的产品的网页信息。
[0055]还需要说明的是,针对不同类型的描述对象,其分类方式和分类结果也各不相同。本发明并不对各描述对象的分类方式和分类结果进行限定。对于本发明的技术方案而言,当描述对象的分类方式确定后,分类结果也就确定了。只要根据确定好的分类结果,保证第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中即可。
[0056]步骤102:从所述第一类网页信息中提取出标题信息和属性信息;[0057]在第三方购物平台的数据库中,会保存各个买家用户在发布产品网页信息,产品网页信息至少包括产品标题信息和产品属性信息。其中,产品标题信息是对产品大概情况的描述与介绍,一般情况下,产品标题信息是包括品牌、名称、材料、工艺、用途等关键词的一个组合。产品属性信息是对产品详细情况的描述与介绍。
[0058]例如:产品标题信息是“2013春装新款女装连衣裙欧美印花修身长袖雪纺连衣裙子”。产品属性信息是“货号:A10793,风格:通勤/0L,组合形式:单件,裙长:短裙(76-90厘米),款式:其他款式,袖长:长袖,女装领型:翻领/POLO领,袖型:常规袖,腰型:松紧腰,衣门襟:其他门襟样式,裙摆样式:其他裙摆样式,图案:花色,流行元素/工艺:拼贴/拼接拉链,品牌:京东一布,面料名称:雪纺,面料主成份含量:71% -80%,材质:其他面料,适合人群年龄段:25-29岁,年份季节:2012冬季,颜色分类:黄图蓝图,尺码:M/L”。再例如:产品标题信息是“2012女秋装新款欧美时尚七分袖民族风连衣裙子”产品属性信息是“货号:S120345,风格:通勤,通勤:复古,组合形式:单件,裙长:短裙(76-90厘米),袖长:七分袖,女装领型:圆领。袖型:常规袖,腰型:中腰,图案:大花,流行元素/工艺:刺绣/绣花口袋扎染,面料名称:其他,面料主成份含量:51% -70%,材质:其它,年份季节:2012秋季,颜色分类:范思哲图腾,尺码:M/L/XL/XXL/3XL/4XL”。
[0059]步骤103:对所述标题信息和属性信息分别进行切词,得到描述对象的属性;
[0060]优选的,采用语义分析工具,对标题信息和属性信息分别进行切词,得到所述描述对象的属性。
[0061]例如:采用TermWeight对产品标题信息进行切词,TermWeight是一种语义分析工具,当然也可以采用现有技术中任意一种语义分析工具进行处理,在本申请中并不做具体限定。下面仅以采用TermWeight工具为例进行描述,假如:产品类目是女装大衣,该类目下的某一个产品的产品标题信息是“2013春秋韩版女装外套秋冬装呢子大衣女修身中长款女式斗篷外套”,采用TermWeight进行切词,得到包括:属性1:年份,属性2:风格,属性3:版型,属性4:面料材质。
[0062]产品属性信息是“板型:斗篷型,风格:韩版,衣长:中长款(65cm〈衣长< 80cm),袖长:长袖,领子:翻领/POLO领,袖型:常规袖,衣门襟:双排扣,图案:纯色,流行元素/工艺:纽扣,面料材质:羊毛,颜色分类:米绿毛呢/灰黑毛呢/黑白毛呢,尺码:S M L XL,年份:2013春秋”
[0063]对产品属性信息进行切词,得到包括产品标题信息中分析出的属性I?4之外,还包括属性5:颜色分类,属性6:衣长,属性7:尺码,属性8:袖长,属性9:流行元素/工艺,属性10:领子。
[0064]按照上述分析方法,分析出产品类目是“女装大衣”的产品的属性。
[0065]步骤104:统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息;
[0066]需要说明的是:共现是指在搜索中相同或者不同的属性特征共同出现。比如:经常搜索诺基亚手机保护套、诺基亚手机、诺基亚手机电池等,系统挖掘分析可知(诺基亚,手机)是一种共现,数据库会将(诺基亚,手机)相关信息保存为共现信息。再比如:搜索“韩版海军衬衫”,“韩版海军裙子”,系统挖掘分析可知(韩版,海军)是一种共现,数据库会将(韩版,海军)相关信息保存为共现信息。[0067]按照上述步骤103切词,分析出产品类目是“女装大衣”的产品的属性。统计出每
一个属性包含的属性值以及相同产品类目的共现信息,如下表所示:
[0068]
【权利要求】
1.一种网页信息一致性的识别方法,其特征在于,包括: 从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中; 从所述第一类网页信息中提取出标题信息和属性信息; 对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性; 统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息; 从所述属性值中去除所述共现信息中的属性值,得到描述对象的同一属性下的矛盾属性值; 判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值; 如果是,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。
2.根据权利要求1所述的方法,其特征在于,采用语义分析工具对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性。
3.根据权利要求1或2所述的方法,其特征在于,所述对标题信息和属性信息分别进行切词,得到所述描述对象的属性之后,包括: 计算所述描述对象的属性中每一个属性的权重值; 从权重值最大的属性开始,按照权重值从大到小的顺序依次选择任意多个属性作为描述对象的重要属性。 贝U,统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息,具体为: 统计所述描述对象的重要属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息。
4.根据权利要求1所述的方法,其特征在于,在识别出网页信息不一致之后,还包括: 从搜索结果中过滤不一致的网页信息的网页链接,将过滤后的搜索结果反馈给客户端。
5.根据权利要求1所述的方法,其特征在于,在识别出网页信息不一致之后,还包括: 在对搜索结果进行排序时,降低不一致的网页信息的网页链接排名。
6.一种网页信息一致性的识别装置,其特征在于,包括: 获取模块,用于从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中; 提取模块,用于从获取模块获取的第一类网页信息中提取出标题信息和属性信息; 分析模块,用于对提取模块提取的标题信息和属性信息分布进行切词,得到所述描述对象的属性; 统计模块,用于统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息; 剔除模块,用于从所述属性值中去除所述共现信息中的属性值,得到所述描述对象的同一属性下的矛盾属性值; 判断模块,用于判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值; 确定模块,用于当判断模块的结果为是时,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。
7.根据权利要求6所述的装置,其特征在于,所述分析模块包括语义分析工具调用子模块,用于调用语义分析工具对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性。
8.根据权利要求6或7所述的装置,其特征在于,还包括: 计算模块,用于计算所述描述对象的属性中每一个属性的权重值; 选择模块,用于按照权重值从大到小的顺序依次选择任意多个属性作为描述对象的重要属性。 贝U,统计模块具体为:用于统计所述描述对象的重要属性中的每一个属性包含的属性值以及所述描述对象所属类目的共现信息。
9.根据权利要求6所述的装置,其特征在于,还包括: 过滤模块,用于从搜索结果中过滤不一致的网页信息的网页链接,将过滤后的搜索结果反馈给客户端。
10.根据权利要求6所述的装置,其特征在于,还包括: 排序模块,用于在对搜索结果进行排序时,降低不一致的网页信息的网页链接排名。
【文档编号】G06F17/30GK104035936SQ201310071267
【公开日】2014年9月10日 申请日期:2013年3月6日 优先权日:2013年3月6日
【发明者】韦袆, 冯景华, 陈明修 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1