对网址进行分析的方法和装置制造方法

文档序号:6540986阅读:95来源:国知局
对网址进行分析的方法和装置制造方法
【专利摘要】本发明提供了一种对网址进行分析的方法和装置,方法包括:抽取查询词的特征,以及查询词所对应的结果页中包含的搜索结果URL的特征;根据查询词的特征和/或搜索结果URL的特征,判断是否建立查询词与搜索结果URL之间的对应关系;如对应关系建立,则在对应关系对应的搜索结果URL符合预定条件时,根据搜索结果URL的特征,确定是否保留对应关系。根据本发明的对网址进行分析的方法和装置,分析出搜索结果URL的网页是否用户所查找的符合预定条件的网页并建立对应关系,以及基于用户搜索直接请求的趋同性,对搜索结果URL所对应的大量查询词的分布进行分析,验证搜索结果URL是否是用户输入查询词的需求并保留或去除对应关系,利用对应关系对搜索URL进行标示,可以对用户推荐某些网页,或提示用户远离某些网页。
【专利说明】对网址进行分析的方法和装置
【技术领域】
[0001]本发明涉及计算机【技术领域】,具体而言,涉及一种对网址进行分析的方法和装置。【背景技术】
[0002]对于目前的搜索引擎来说,其在接收到用户的查询词之后,会向用户返回与查询词对应的多个搜索结果URL,即网址,用户可以选择不同搜索结果URL,从而进入不同搜索结果页面。
[0003]目前的搜索引擎虽然能够获取对应查询词的多个搜索结果URL,但并不能进一步对多个搜索结果URL进行分析:例如,用户搜索某在线商店的名字,搜索引擎返回的多个搜索结果URL中,只有一个对应在线商店的官方网页,而其他搜索结果URL对应的都是非官方网页,甚至存在不安全的网页,由于搜索引擎并不能准确分析和标注出其中的官方网页URL,从而对于搜索用户可能存在一些上网不安全的隐患,也不能将其认证或官方的网页提示给用户。同时,由于海量用户的搜索查询词是统计性趋同的,其搜索直接需求也是趋同的,那么现有技术中搜索引擎也没有对于常见的查询词提供较准确的搜索结果分析和标
/Jn ο

【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的对网址进行分析的方法和装置。
[0005]依据本发明的一个方面,提供了一种对网址进行分析的方法,其包括:抽取查询词的特征,以及所述查询词所对应的结果页中包含的搜索结果URL的特征;根据所述查询词的特征和/或所述搜索结果URL的特征,判断是否建立所述查询词与所述搜索结果URL之间的对应关系;如所述对应关系建立,则在所述对应关系对应的搜索结果URL符合预定条件时,根据所述搜索结果URL的特征,确定是否保留所述对应关系。
[0006]可选地,所述搜索结果URL的特征包括所述搜索结果URL的被点击次数以及所述搜索结果URL所在的所述结果页上所有URL的被点击次数,所述判断是否建立所述查询词与所述搜索结果URL之间的对应关系的步骤进一步包括:根据所述搜索结果URL的被点击次数,以及所述结果页上所有URL的被点击次数之和,计算所述搜索结果URL的被点击次数占比,并根据所述搜索结果URL的被点击次数占比,判断是否建立所属查询词与所属搜索结果URL之间的对应关系。
[0007]可选地,所述搜索结果URL的特征包括所述搜索结果URL对应的多个查询词的点击分布情况,所述确定是否保留所述对应关系的步骤包括:如所述搜索结果URL符合预定条件,则根据所述搜索结果URL对应的多个查询词的点击分布情况,确定是否保留所述对应关系。
[0008]可选地,所述预定条件包括:所述搜索结果URL的网页由特定内容的提供者所发布;和/或所述搜索结果URL的网页记录在预设的网页库中;和/或所述搜索结果URL的网页关键词与预设关键词相匹配。
[0009]可选地,所述搜索结果URL的特征包括所述搜索结果URL对应的网页标题的特征,所述判断是否建立所述查询词与所述搜索结果URL之间的对应关系的步骤包括:根据所述搜索结果URL对应的网页标题的特征,判断是否建立所述对应关系。
[0010]可选地,所述网页标题的特征包括所述查询词与所述网页标题之间的可编辑距离和/或所述网页标题的长度。
[0011]依据本发明的另一方面,还提供了一种对网址进行分析的装置,其包括:特征抽取模块,用于抽取查询词的特征,以及所述查询词所对应的结果页中包含的搜索结果URL的特征;对应关系建立模块,用于根据所述查询词的特征和/或所述搜索结果URL的特征,判断是否建立所述查询词与所述搜索结果URL之间的对应关系;对应关系验证模块,如所述对应关系建立,则在所述对应关系对应的搜索结果URL符合预定条件时,根据所述搜索结果URL的特征,确定那个是否保留所述对应关系。
[0012]可选地,所述搜索结果URL的特征包括所述搜索结果URL的被点击次数以及所述搜索结果URL所在的所述结果页上所有URL的被点击次数,所述对应关系建立模块根据所述搜索结果URL的被点击次数,以及所述结果页上所有URL的被点击次数之和,计算所述搜索结果URL的被点击次数占比,并根据所述搜索结果URL的被点击次数占比,判断是否建立所属查询词与所属搜索结果URL之间的所述对应关系。
[0013]可选地,所述搜索结果URL的特征包括所述搜索结果URL对应的多个查询词的点击分布情况,如所述搜索结果URL符合预定条件,则所述对应关系验证模块根据所述搜索结果URL对应的多个查询词的点击分布情况,确定是否保留所述对应关系。
[0014]可选地,所述预定条件包括:所述搜索结果URL的网页由特定内容的提供者所发布;和/或所述搜索结果URL的网页记录在预设的网页库中;和/或所述搜索结果URL的网页关键词与预设关键词相匹配。
[0015]可选地,所述搜索结果URL的特征包括所述搜索结果URL对应的网页标题的特征,所述对应关系建立模块根据所述搜索结果URL对应的网页标题的特征,判断是否建立所述对应关系。
[0016]可选地,所述网页标题的特征包括所述查询词与所述网页标题之间的可编辑距离和/或所述网页标题的长度。
[0017]根据本发明的对网址进行分析的方法和装置,可以基于查询词的特征和搜索结果URL的特征进行分析,分析出该搜索结果URL的网页是否用户所查找的符合预定条件的网页,并可建立查询词与搜索结果URL之间的对应关系,则根据该对应关系在用户搜索该查询词时,对用户返回该搜索结果URL并推荐给用户,例如可以实现将认证的网页提示给用户,以及将针对在安全性风险的网页给予用户警告,而且,在已知搜索结果URL满足上述预定条件的前提下,可以对已建立的对应关系进行验证,基于用户搜索直接请求的趋同性,对搜索结果URL所对应的大量查询词的分布进行分析,可以判断用户输入查询词是否为查找该符合预定条件的网页,并根据判断结果对对应关系进行保留或去除,从而可以保证按对应关系可以将搜索结果URL准确地推荐给用户。
[0018]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1示出了根据本发明的一个实施例的对网址进行分析的方法的流程图;
[0021]图2示出了根据本发明的一个实施例的对网址进行分析的装置的框图。
【具体实施方式】
[0022]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0023]在以下的实施例中,可用于与查询词建立对应关系的搜索结果URL包括但不限于以下的类型:查询词有关内容的官方网页URL,该内容包括但不限于各类产品以及作品;或者,经过特定机构认证的网页URL,该特定机构包含专业认证机构,也包含返回搜索结果URL的搜索引擎服务提供者;或者,被用户普遍认可的页面URL,被普遍认可的情况包括但不限于在投票或调查中用户的支持度较高;或者,用户浏览或点击频率最高的页面URL ;经检测存在安全性风险的页面URL,包括但不限于页面上具有非法内容,以及页面上携带有恶意程序、病毒或木马。
[0024]如图1所示,本发明的一个实施例提供了一种对网址进行分析的方法,其包括:步骤110,抽取查询词的特征,以及查询词所对应的结果页中包含的搜索结果URL的特征,本实施例的技术方案中,查询词的特征包括但不限于查询词的长度、搜索结果URL的页面浏览量,搜索结果URL的特征包括但不限于所述搜索结果URL的长度、页面类别、页面点击量和页面展现量;步骤120,根据查询词的特征和搜索结果URL的特征,判断是否建立查询词与搜索结果URL之间的对应关系,本实施例的技术方案中,建立了对应关系则表示分析出该搜索结果URL的网页是否是用户所查找的符合预定条件的网页,当用户再次输入查询词时,可以根据已建立的对应关系,将该搜索结果URL推荐给用户,例如:分析出某搜索结果URL的页面为某在线商店官方网页或经过特定机构认证的网页,则建立对应关系;步骤130,如对应关系建立,则在对应关系对应的搜索结果URL符合预定条件时,根据搜索结果URL的特征,确定是否保留对应关系,本实施例的技术方案中,还基于搜索结果URL的特征对已经建立的对应关系进行验证,分析其是否为用户所需网页的URL,例如:在确定搜索结果URL为某在线商店的官方网页或为某特定机构认证的网页之后,再分析用户输入查询词是否为了查找该官方网页或认证网页,通过本实施例的技术方案,通过对应关系的建立和验证,在用户再次输入查询词后,可以根据对应关系将相应的搜索结果URL推荐给用户。
[0025]本发明的另一实施例提出一种对网址进行分析的方法,与上述实施例相比,本实施例的对网址进行分析的方法,搜索结果URL的特征包括搜索结果URL的被点击次数以及搜索结果URL所在的结果页上所有URL的被点击次数,步骤120进一步包括:根据搜索结果URL的被点击次数,以及结果页上所有URL的被点击次数之和,计算搜索结果URL的被点击次数占比,并根据搜索结果URL的被点击次数占比,判断是否建立所属查询词与所属搜索结果URL之间的对应关系,在本实施例的技术方案中,如被点击次数占比较高,说明用户需要的就是该搜索结果URL的符合预定条件的网页,例如:如用户输入的查询词为某新闻热点,如果搜索结果URL的被点击次数占比较高,则说明该搜索结果URL的页面与新闻热点相关,肯定是某新闻站点的页面,以及用户对该新闻站点的信赖度较高,该新闻站点的新闻相比其他站点的新闻更为优质,则该搜索结果URL很可能符合用户查找热点相关的优质新闻的需求。
[0026]本发明的另一实施例提出一种对网址进行分析的方法,与上述实施例相比,本实施例的对网址进行分析的方法,步骤130包括:如搜索结果URL符合预定条件,则根据搜索结果URL对应的多个查询词的点击分布情况,确定是否保留对应关系,在本实施例的技术方案中,前述的点击分布情况是指,在搜索结果URL被用户点击的情况下用户所输入的不同查询词的统计,由于用户输入查询词进行搜索存在着趋同性,所以在被点击的搜索结果URL所对应的大量查询词中,对于占据较大比例的查询词,可判断大多数用户输入该查询词的目的即是为了寻找该搜索结果URL的网页,此时可保留对应关系,反之对于占据较小比例的查询词,用户查询词的目的并非是该搜索结果URL的网页,此时可消除对应关系。
[0027]本发明的另一实施例提出一种对网址进行分析的方法,与上述实施例相比,本实施例的对网址进行分析的方法,预定条件包括:搜索结果URL的网页由特定内容的提供者所发布,例如:某产品的厂商所发布的网页,即一般所说的官方网页,该类网页通常存在着需要推荐给用户的需求,如果依据搜索结果URL的特征分析出用户输入查询词是为了查找该网页,则建立对应关系,以在用户再次输入查询词时,返回该搜索结果URL并进行推荐;和/或搜索结果URL的网页记录在预设的网页库中,即预先在网页库中存储了需要建立对应关系并进行推荐的多条网页的URL记录,如果依据搜索结果URL的特征分析出用户输入查询词是为了查找该网页,则建立对应关系,以在用户再次输入查询词时,返回该搜索结果URL并进行推荐;和/或搜索结果URL的网页关键词与预设关键词相匹配,网页关键词反映了网页的主要特征,通过匹配关键词的方式也可以分析出需要推荐给用户的网页,所以如果依据搜索结果URL的特征分析出用户输入查询词是为了查找该网页,则建立对应关系,以在用户再次输入查询词时,返回该搜索结果URL并进行推荐。
[0028]本发明的另一实施例提出一种对网址进行分析的方法,与上述实施例相比,本实施例的对网址进行分析的方法,搜索结果URL的特征包括搜索结果URL对应的网页标题的特征,步骤120包括:根据搜索结果URL对应的网页标题的特征,判断是否建立对应关系,在本实施例的技术方案中,标题特征能够反映搜索结果URL的网页是否为用户所需的网页,例如,用户输入某产品名称,得到搜索结果URL包括官方网页URL和产品名称翻译网页URL,其中官方网页URL的网页是用户实际上所需求的网页,这两个URL的多个特征相同,但网页标题的特征不同,根据网页标题特征可以对两个URL进行区分,识别出哪个用户所需求的官方网页URL。
[0029]本发明的另一实施例提出一种对网址进行分析的方法,与上述实施例相比,本实施例的对网址进行分析的方法,网页标题的特征包括查询词与网页标题之间的可编辑距离和/或网页标题的长度,在本实施例的技术方案中,不同网页的查询词与标题之间的可编辑距离、网页标题的长度都有较大区分,可有效地用于对不同网页URL进行区分。
[0030]如图2所示,本发明的一个实施例还提供了一种对网址进行分析的装置,其包括:特征抽取模块210,用于抽取查询词的特征,以及查询词所对应的结果页中包含的搜索结果URL的特征,本实施例的技术方案中,查询词的特征包括但不限于查询词的长度、搜索结果URL的页面浏览量,搜索结果URL的特征包括但不限于所述搜索结果URL的长度、页面类别、页面点击量和页面展现量;对应关系建立模块220,用于根据查询词的特征和搜索结果URL的特征,判断是否建立查询词与搜索结果URL之间的对应关系,本实施例的技术方案中,建立了对应关系则表示分析出该搜索结果URL的网页是否是用户所查找的符合预定条件的网页,当用户再次输入查询词时,可以根据已建立的对应关系,将该搜索结果URL推荐给用户,例如:分析出某搜索结果URL的页面为某在线商店官方网页或经过特定机构认证的网页,则建立对应关系;对应关系验证模块230,如对应关系建立,则在对应关系对应的搜索结果URL符合预定条件时,根据搜索结果URL的特征,确定那个是否保留对应关系,本实施例的技术方案中,还基于搜索结果URL的特征对已经建立的对应关系进行验证,分析其是否为用户所需网页的URL,例如:在确定搜索结果URL为某在线商店的官方网页或经过某特定机构认证的网页之后,再分析用户输入查询词是否为了查找该官方网页或认证网页,通过本实施例的技术方案,通过对应关系的建立和验证,在用户再次输入查询词后,可以根据对应关系将相应的搜索结果URL推荐给用户。
[0031]本发明的另一实施例提出一种对网址进行分析的装置,与上述实施例相比,本实施例的对网址进行分析的装置,搜索结果URL的特征包括搜索结果URL的被点击次数以及搜索结果URL所在的结果页上所有URL的被点击次数,对应关系建立模块220根据搜索结果URL的被点击次数,以及结果页上所有URL的被点击次数之和,计算搜索结果URL的被点击次数占比,并根据搜索结果URL的被点击次数占比,判断是否建立所属查询词与所属搜索结果URL之间的对应关系,在本实施例的技术方案中,如被点击次数占比较高,说明用户需要的就是该搜索结果URL的符合预定条件的网页,例如:如用户输入的查询词为某新闻热点,如果搜索结果URL的被点击次数占比较高,则说明该搜索结果URL的页面与新闻热点相关,肯定是某新闻站点的页面,以及用户对该新闻站点的信赖度较高,该新闻站点的新闻相比其他站点的新闻更为优质,则该搜索结果URL很可能符合用户查找热点相关的优质新闻的需求。
[0032]本发明的另一实施例提出一种对网址进行分析的装置,与上述实施例相比,本实施例的对网址进行分析的装置,搜索结果URL的特征包括搜索结果URL对应的多个查询词的点击分布情况,如搜索结果URL符合预定条件,则对应关系验证模块230根据搜索结果URL对应的多个查询词的点击分布情况,确定是否保留对应关系,在本实施例的技术方案中,前述的点击分布情况是指,在搜索结果URL被用户点击的情况下用户所输入的不同查询词的统计,由于用户输入查询词进行搜索存在着趋同性,所以在被点击的搜索结果URL所对应的大量查询词中,对于占据较大比例的查询词,可判断大多数用户输入该查询词的目的即是为了寻找该搜索结果URL的网页,此时可保留对应关系,反之对于占据较小比例的查询词,用户查询词的目的并非是该搜索结果URL的网页,此时可消除对应关系。
[0033]本发明的另一实施例提出一种对网址进行分析的装置,与上述实施例相比,本实施例的对网址进行分析的装置,预定条件包括:搜索结果URL的网页由特定内容的提供者所发布,例如:某产品的厂商所发布的网页,即一般所说的官方网页,该类网页通常存在着需要推荐给用户的需求,如果依据搜索结果URL的特征分析出用户输入查询词是为了查找该网页,则建立对应关系,以在用户再次输入查询词时,返回该搜索结果URL并进行推荐;和/或搜索结果URL的网页记录在预设的网页库中,即预先在网页库中存储了需要建立对应关系并进行推荐的多条网页的URL记录,如果依据搜索结果URL的特征分析出用户输入查询词是为了查找该网页,则建立对应关系,以在用户再次输入查询词时,返回该搜索结果URL并进行推荐;和/或搜索结果URL的网页关键词与预设关键词相匹配,网页关键词反映了网页的主要特征,通过匹配关键词的方式也可以分析出需要推荐给用户的网页,所以如果依据搜索结果URL的特征分析出用户输入查询词是为了查找该网页,则建立对应关系,以在用户再次输入查询词时,返回该搜索结果URL并进行推荐。
[0034]本发明的另一实施例提出一种对网址进行分析的装置,与上述实施例相比,本实施例的对网址进行分析的装置,搜索结果URL的特征包括搜索结果URL对应的网页标题的特征,对应关系建立模块220根据搜索结果URL对应的网页标题的特征,判断是否建立对应关系,在本实施例的技术方案中,标题特征能够反映搜索结果URL的网页是否为用户所需的网页,例如,用户输入某产品名称,得到搜索结果URL包括官方网页URL和产品名称翻译网页URL,其中官方网页URL的网页是用户实际上所需求的网页,这两个URL的多个特征相同,但网页标题的特征不同,根据网页标题特征可以对两个URL进行区分,识别出哪个用户所需求的官方网页URL。
[0035]本发明的另一实施例提出一种对网址进行分析的装置,与上述实施例相比,本实施例的对网址进行分析的装置,网页标题的特征包括查询词与网页标题之间的可编辑距离和/或网页标题的长度,在本实施例的技术方案中,不同网页的查询词与标题之间的可编辑距离、网页标题的长度都有较大区分,可有效地用于对不同网页URL进行区分。
[0036]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0037]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0038]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0039]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0040]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0041 ] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的对网址进行分析的方法和装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0042] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
【权利要求】
1.一种对网址进行分析的方法,其包括: 抽取查询词的特征,以及所述查询词所对应的结果页中包含的搜索结果URL的特征; 根据所述查询词的特征和/或所述搜索结果URL的特征,判断是否建立所述查询词与所述搜索结果URL之间的对应关系; 如所述对应关系建立,则在所述对应关系对应的搜索结果URL符合预定条件时,根据所述搜索结果URL的特征,确定是否保留所述对应关系。
2.根据权利要求1所述的方法,其中,所述搜索结果URL的特征包括所述搜索结果URL的被点击次数以及所述搜索结果URL所在的所述结果页上所有URL的被点击次数,所述判断是否建立所述查询词与所述搜索结果URL之间的对应关系的步骤进一步包括: 根据所述搜索结果URL的被点击次数,以及所述结果页上所有URL的被点击次数之和,计算所述搜索结果URL的被点击次数占比,并根据所述搜索结果URL的被点击次数占比,判断是否建立所属查询词与所属搜索结果URL之间的对应关系。
3.根据权利要求1或2所述的方法,其中,所述搜索结果URL的特征包括所述搜索结果URL对应的多个查询词的点击分布情况,所述确定是否保留所述对应关系的步骤包括: 如所述搜索结果URL符合预定条件,则根据所述搜索结果URL对应的多个查询词的点击分布情况,确定是否保留所述对应关系。
4.根据权利要求1至3中任一项所述的方法,其中,所述预定条件包括: 所述搜索结果URL的网页由特定`内容的提供者所发布;和/或 所述搜索结果URL的网页记录在预设的网页库中;和/或 所述搜索结果URL的网页关键词与预设关键词相匹配。
5.根据权利要求1至4中任一项所述的方法,其中,所述搜索结果URL的特征包括所述搜索结果URL对应的网页标题的特征,所述判断是否建立所述查询词与所述搜索结果URL之间的对应关系的步骤包括: 根据所述搜索结果URL对应的网页标题的特征,判断是否建立所述对应关系。
6.根据权利要求1至5中任一项所述的方法,其中,所述网页标题的特征包括所述查询词与所述网页标题之间的可编辑距离和/或所述网页标题的长度。
7.—种对网址进行分析的装置,其包括: 特征抽取模块,用于抽取查询词的特征,以及所述查询词所对应的结果页中包含的搜索结果URL的特征; 对应关系建立模块,用于根据所述查询词的特征和/或所述搜索结果URL的特征,判断是否建立所述查询词与所述搜索结果URL之间的对应关系; 对应关系验证模块,如所述对应关系建立,则在所述对应关系对应的搜索结果URL符合预定条件时,根据所述搜索结果URL的特征,确定那个是否保留所述对应关系。
8.根据权利要求7所述的装置,其中,所述搜索结果URL的特征包括所述搜索结果URL的被点击次数以及所述搜索结果URL所在的所述结果页上所有URL的被点击次数,所述对应建立验证模块根据所述搜索结果URL的被点击次数,以及所述结果页上所有URL的被点击次数之和,计算所述搜索结果URL的被点击次数占比,并根据所述搜索结果URL的被点击次数占比,判断是否建立所属查询词与所属搜索结果URL之间的所述对应关系。
9.根据权利要求7或8所述的装置,其中,所述搜索结果URL的特征包括所述搜索结果URL对应的多个查询词的点击分布情况,如所述搜索结果URL符合预定条件,则所述对应关系验证模块根据所述搜索结果URL对应的多个查询词的点击分布情况,确定是否保留所述对应关系。
10.根据权利要求7至9中任一项所述的装置,其中,所述预定条件包括: 所述搜索结果URL的网页由特定内容的提供者所发布;和/或 所述搜索结果URL的网页记录在预设的网页库中;和/或 所述搜索结果URL的网 页关键词与预设关键词相匹配。
【文档编号】G06F17/30GK103870573SQ201410101252
【公开日】2014年6月18日 申请日期:2014年3月18日 优先权日:2014年3月18日
【发明者】赵钕森, 常富洋, 秦吉胜 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1