一种网络搜索方法和系统的制作方法

文档序号:6434770阅读:116来源:国知局
专利名称:一种网络搜索方法和系统的制作方法
技术领域
本发明涉及计算机网络数据处理技术领域,尤其涉及一种基于查询词和查询类别的网络搜索技术。
背景技术
随着互联网应用的日益广泛,通过搜索引擎在互联网上搜索如网页、图片和文本等相关信息的需求显得越来越旺盛。因此,对搜索引擎的准确度和相关性的要求也越来越
尚ο在现有技术中已有一些利用权重来影响搜索结果相关性排序的技术,例如中国专利CN101957828A公开了一种通过查询词和语义关联权重来影响相关度排序的方法,通过查询字串和目标字串的语义关联度,能够更准确地对目标字串进行排序,反映出各目标字串与查询字串的匹配程度。中国专利CN101246502A公开了一种针对图片搜索方法,该方法根据用户输入的查询词来确定查询词所属主分类,再对照预设的网站分类库,获取各图片所在网站对于所确定的所属主分类的网站分类权重,以及各图像在所在网页对于该主分类的网页分类权重,基于上述权重来显示搜索结果。然而,在上述现有技术的网络搜索方法中,只接收用户输入的查询词,不接收查询类别,用户无法输入查询类别,仅用查询词进行搜索,因此搜索结果不能针对用户兴趣具有明显区分,也不能反映出用户在搜索过程中所期望的检索结果。此外,如果仅仅在现有技术中增加查询类别进行搜索,则可能会导致搜索结果大幅度减少,因此不能满足用户实际的查询需要。在现有技术中,还没有一种能够将查询词和查询类别有效结合的技术。

发明内容
为了解决上述技术问题,本发明提供了一种使用查询词加权重和查询类别加权重来影响查询结果相关度排序的方法和系统。本发明提供一种网络搜索方法,其特征在于,包括步骤A 针对用户的搜索行为获取用户输入的用户查询词和用户查询类别,计算针对该用户的用户查询词权重和用户查询类别权重;步骤B 获取用户搜索行为得到的一个以上的查询结果文档及所述查询结果文档对应的查询结果文档权重;步骤C 从网页类别关联度映射矩阵中获取从所述查询类别分别到查询结果文档中的每个文档所属的类别之间的各关联度值,其中网页类别关联度映射矩阵中的数值表征各查询类别之间的关联度;步骤D 根据获取的所述关联度值,基于所述查询结果文档权重和查询词权重对所述查询结果文档进行排序,将得到的排序结果返回给该用户。进一步,该方法还包括,预先通过统计多个用户的搜索行为来构建网页类别关联度映射矩阵。进一步,该方法还包括,构建所述网页类别关联度映射矩阵具体为对所述多个用CN 102364467 A
说明书
2/7页
户在搜索行为中的网站类别间的跳转次数进行累加,将获得的累加值作为各类别之间的映射值,将某一类别与其它各个类别的所述映射值,分别与该类别与其它所有类别的所述映射值的总和相除,得到的各比例值分别作为该类别与其它各个类别的关联度值,各类别之间的所述关联度值构成了所述网页类别关联度映射矩阵。进一步,该方法还包括,所述查询结果文档权重为该查询结果文档的TF-IDF值。进一步,该方法还包括,将所述类别关联度值、所述查询结果文档权重、所述查询词权重和所述查询结果文档对应查询类别的权重相乘的结果作为对应的查询结果文档的排序权重,基于每个查询结果文档的所述排序权重对所述查询结果文档进行排序。进一步,该方法还包括,当所述查询词为多个时,将所述查询结果文档所包含的查询词的权重相加,再与所述类别关联度值、所述查询结果文档权重和所述查询结果文档对应查询类别的权重相乘,将相乘的结果作为对应的查询结果文档的排序权重。进一步,该方法还包括,当所述类别和/或所述查询结果文档所属的类别为多个时,在所述网页类别关联度映射矩阵中获取每个所述类别到所述查询结果文档所属的类别的关联度值,将每个关联度值分别与其对应的查询类别的权重相乘后相加,将得到结果再与查询结果文档权重和查询词权重相乘,将得到的结果作为所述查询结果文档的排序权重。本发明还提供一种网络搜索系统,其特征在于,包括以下模块查询获取模块,用于针对用户的搜索行为获取用户输入的用户查询词和用户查询类别,计算针对该用户的用户查询词权重和用户查询类别权重;结果获取模块,用于获取用户搜索行为得到的一个以上的查询结果文档及所述查询结果文档对应的查询结果文档权重;关联度获取模块,与所述查询获取模块和所述结果获取模块相连接,用于从网页类别关联度映射矩阵中获取从所述查询类别分别到查询结果文档中的每个文档所属的类别之间的各关联度值,其中网页类别关联度映射矩阵中的数值表征各查询类别之间的关联度;文档排序模块,与所述查询获取模块、所述结果获取模块和所述关联苏获取模块相连接,用于根据获取的所述关联度值, 基于所述查询结果文档权重和查询词权重对所述查询结果文档进行排序,将得到的排序结果返回给该用户。进一步,该系统还包括映射矩阵模块,用于预先通过统计多个用户的搜索行为来构建体现查询类别关联度的网页类别关联度映射矩阵。进一步,该系统还包括,所述映射矩阵模块构建所述网页类别关联度映射矩阵具体为对所述多个用户在搜索行为中的网站类别间的跳转次数进行累加,将获得的累加值作为各类别之间的映射值,将某一类别与其它各个类别的所述映射值,分别与该类别与其它所有类别的所述映射值的总和相除,得到的各比例值分别作为该类别与其它各个类别的关联度值,各类别之间的所述关联度值构成了所述网页类别关联度映射矩阵。进一步,该系统还包括,所述文档排序模块中,将所述类别关联度值、所述查询结果文档权重、所述查询词权重和所述查询结果文档对应查询类别的权重相乘的结果作为对应的查询结果文档的排序权重,基于每个查询结果文档的所述排序权重对所述查询结果文档进行排序。进一步,该系统还包括,所述文档排序模块中,当查询词为多个时,将所述查询结果文档所包含的查询词的权重相加,再与所述类别关联度值、所述查询结果文档权重和所述查询结果文档对应查询类别的权重相乘,将相乘的结果作为对应的查询结果文档的排序权重。进一步,该系统还包括,所述文档排序模块中,当所述类别和/或所述查询结果文档所属的类别为多个时,在所述网页类别关联度映射矩阵中获取每个所述类别到所述查询结果文档所属的类别的关联度值,将每个关联度值分别与其对应的查询类别的权重相乘后相加,将得到结果再与查询结果文档权重和查询词权重相乘,将得到的结果作为所述查询结果文档的排序权重。与现有技术相比,本发明具有以下优点本发明通过使用查询词加权重和检索类别加权重来影响文档相关度排序,提高搜索引擎搜索相关性,使检索结果更精准,其中利用类别关联度映射矩阵技术来保证检索类别更精准,查询范围更广泛,从而使用户节省反复搜索广告带来的各种时间和能量消耗上的成本。本发明通过查询词权重和查询类别权重以及类别关联度映射矩阵,更准确的反映出查询结果同查询类别和查询词之间的紧密关系和匹配程度,在实际应用中应用方便,效果明显优良。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中图1是根据本发明实施例一的网络搜索方法的流程图;图2是根据本发明实施例一的网页类别映射表实例;图3是根据图2的网页类别映射表所得出的包含各个类别关联度值网页类别关联度映射矩阵实例;图4是根据本发明实施例一的网络搜索系统的流程图。
具体实施例方式以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合, 所形成的技术方案均在本发明的保护范围之内。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例一图1为根据本发明实施例一的网络搜索方法的流程图,下面参照图1详细说明该方法的各步骤。
步骤S110,针对用户的搜索行为获取用户输入的查询词和查询类别,计算针对该用户的查询词权重和查询类别权重。在本实施例的网络搜索方法中,搜索引擎的服务器不仅接收用户输入的查询词, 还接收用户输入的所述查询词期望搜索结果所处的查询类别。也就是说,用户能够在本实施例中输入作为所要搜索对象关键字的查询词,还可输入期望搜索结果所处的查询类别。本实施例中,查询词权重可根据用户的历史网络行为确定,所述历史网络行为可以为用户以往进行搜索的行为,也可以包括用户搜索并看到搜索结果后,对搜索结果进行的点击访问行为。例如,可将该用户以往查询过的查询词作为查询词集合,基于该查询词集合,使得该用户对查询词的查询频率越高、则该查询词的权重越高。再如,也可以将用户以往查询过的查询词中使用次数最多的前几个(通常根据实际情况选取1-20个)常用的查询词作为查询词集合。查询词的权重可以根据该查询词的访问频率加权得到,例如可以将查询权利设置为该查询词的查询频率除以查询频率最高的查询词的查询频率所得的商,访问频率是指某个用户使用该查询词的次数。需要注意的是,本步骤的查询词权重是针对某个特定的用户而言的。其中,查询类别可以为枚举型变量,通过将众多用户输入的查询词进行归类而形成。用户在进行搜索行为时,可指定一个或多个查询类别。换而言之,本网络搜索方法不但接收用户输入的查询词,还接收用户要对该查询词进行搜索时所输入的一个或多个查询类别。同一查询类别权重因用户而异,也就是说,本步骤中的查询类别是针对某个特定用户而言的。本方法中的查询类别权重用于体现特定用户与各查询类别的相关程度,相关程度越高则查询词的权重越大。更具体地,根据该用户的历史网络行为来确定用于体现该相关程度的查询类别的权重。该用户在某一查询类别下面的查询次数或访问次数越多,则说明该用户与该查询类别的相关程度越高。例如,如果某用户对手机、电脑等查询词的查询次数大于服装、裤子的查询次数,则可以确定为对于该用户而言,数码产品类别的权重大于服装类别的权重。步骤S120,基于统计多个用户的搜索行为,构建体现查询类别关联度的网页类别关联度映射矩阵。网页类别关联度映射矩阵的数值表征各查询类别之间的关联度。本实施例中的网页类别映射矩阵是指预先建立好的一个查询矩阵表,其是通过分析大量用户(用户数量可为千万个以上)的访问行为,通过数据挖掘而得到的一个适合大众访问行为的类别关系矩阵,该矩阵体现了类别与类别之间的关联度,作为基本不变的固定数据用于本实施例的后续步骤。具体的,可大范围标记网页的类别,以及一定时间和一定范围内的用户的访问行为建立类别映射矩阵,并保存这个映射矩阵以备查询,该一定范围可以指预定数量的网页类别中所包含的全部网页。需要说明的是,此处网页归类的类别与上述用户输入的查询类别中的类别相一致,或者后者为前者的子集。构建网页类别关联度映射矩阵首先要得到网页类别映射值表,该网页类别映射值表由类别间的类别映射值所构成。获取该类别映射值的方式具体为根据网页所属类型分类及用户访问跳转行为的次数进行累加计算得出。例如用户初始访问了 A类别网站,随即从A类别网站访问B类别网站(即跳转行为),于是出现了 A- > B类别的一个映射,映射值记为1,每当出现一次同样的跳转,则A- > B的映射值加1。通过统计大量用户的访问行为,将每个类别之间的映射值进行累计(包括同类别内的映射,如A- > A),即可得出网页类别映射值表。图2所示的表格为网页类别映射表的一个实例,以网络服务、服装、女装、男装和数码五个类别为例,统计了各个类别之间的映射值,构建该5个网页类别映射值表,其中每个映射值表示的是列类别到行类别的跳转次数。进一步,根据网页类别映射值计算各个类别之间的关联度值,具体的,将某一类别与其它各个类别的映射值,分别与该类别与其它所有类别的映射值的总和相除,得到的比例值即为该类别与其它各个类别的关联度值。通过计算各类别(包括每个类别内)的关联度值,将关联度值所构成的矩阵作为网页类别关联度映射矩阵。以图2中的网络服务类别为例,其与其它所有类别的映射值综合为1^9+100+80+90+1000 = 2569,因此,由网络服务类别自身的关联度值即为1^9/2569 = 0. 505644,其它类别关联度可用同样的方式计算得出。图3为根据图2的网页类别映射表所得出的包含各个类别关联度值的网页类别关联度映射矩阵,其中每个关联度值表示纵向类别到横向类别的关联度。需要说明的是,步骤S120为可选步骤,网页类别关联度映射矩阵可在本方法中构建并更新,也可以是预先一次性构建完成,还可以通过预先人为设置而得到。简而言之,只要使得网页类别关联度映射矩阵的值能够体现各网页类别之间的关联度即可。另外,本领域技术人员均可知晓,网页类别关联度映射矩阵的获取方式不限于以上获取方法,只要是能够体现类别之间关联度的计算方法都可以用于构建网页类别关联度映射矩阵。步骤S130,获取用户搜索行为得到的查询结果文档及查询结果文档对应的查询结果文档权重。搜索引擎通过查询词匹配检索库数据,从而得到作为搜索结果的查询结果文档, 查询结果文档一般为多个(特殊情况下也可能出现0命中或1命中的情况),根据检索库的数据含量不同而不同。本实施例所采用的数据库,收录文档为百万以上,因此得到的查询结果一般都比较多,至少在20个以上。对于多个查询结果文档自身都具有权重值,体现了该文档作为结果的相关度。优选的,可将每个文档的TF-IDF值(词频_逆文档频度,term frequency-inverse document frequency)作为文档权重,TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着其在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文档与用户查询之间相关程度的度量或评级。需要说明的是,步骤SllO至S130并不局限本实施例的顺序,也就是说,这三个步骤可以同时进行,或者以任意顺序先后进行。步骤S140,从网页类别关联度映射矩阵中获取从查询类别分别到查询结果文档中的每个文档所属的类别之间的各关联度值。在本步骤中,在网页类别关联度映射矩阵中,获取从步骤SllO中所获取的用户输入的查询类别到查询结果文档中各文档的所属类别的关联度值,即,在矩阵的纵向类别中选择用户输入的查询类别,在横向类别中选择文档所属类别来定位关联度值。每个查询结果文档都会对应于用户输入的查询类别中的一个或多个,当查询结果文档对应的类别和针CN 102364467 A
说明书
6/7页 对用户获取的查询类别均为1个时,仅获取该查询结果文档对应的查询类别与用户的查询类别之间的关联度值即可。当查询结果文档对应的类别和/或用户的查询类别为大于1个时,获取从每个查询结果文档对应的类别到每个用户的查询类别的关联度值。步骤S150,根据获取的所述关联度值、查询结果文档权重值和查询词权重对查询结果文档进行排序,将排序结果返回给用户。优选的,将获取的关联度值、查询结果文档权重值(优选TF-IDF值)、查询词权重值三者相乘,得到该文档的排序权重值,基于该排序权重值由大到小对查询结果文档进行排序,作为排序结果。其中,当查询词为1个时,所有查询结果文档对应的查询词权重均相同,查询词权重对排序没有影响,因此这种情况下,可以不与查询词权重相乘。当查询词为多个时,不同文档所包含的查询词不同,因而查询词对排序结果会产生影响,因此在这种情况下,将文档所包含的查询词的权重累加后再与关联度值和查询结果文档权重值相乘,根据相乘后的结果对文档进行排序。当获取的关联度值为1个时(即查询结果文档对应的类别和针对用户获取的查询类别均为1个的情况),仅将该关联度值与查询结果文档权重值、查询词权重值和该文档对应的类别权重相乘即可得到该文档的排序权重值。当获取的关联度值为大于1个时(即查询结果文档对应的类别和/或用户的查询类别为大于1个的情况),将每个关联度值分别与其对应的用户查询类别的权重值相乘, 再相加,将得到结果再与查询结果文档权重值和查询词权重值相乘得到该文档的排序权重值。具体可根据图3参见以下实例查询词输入电视0. 8类别输入为数码0. 7网络服务0. 5得到查询文档为世纪佳缘网站,查询类别为网络服务类网络服务类到数码类的关联度值为0. 389257网络服务类到网络服务的关联度值为0.505644该文档的排序权重值=TF-IDF*0.8* (0. 389257*0. 7+0. 505644*0. 5)由此,通过类别关系映射矩阵的引入,对用户搜索行为的查询结果文档进行了更贴近用户实际查询期望的排序,使查询结果的排序更为精确。实施例二图4示出了根据本发明实施例二的网络搜索系统的结构框图,下面根据图4详细说明该系统的组成。该系统包括以下各模块查询获取模块,用于针对用户的搜索行为获取用户输入的用户查询词和用户查询类别,计算针对该用户的用户查询词权重和用户查询类别权重。该模块从搜索引擎服务器中获取用户搜索行为的相关信息,通过分析用户的搜索行为获取用户输入的查询词和查询类别,查询词和查询类别均可以是多个。针对每个查询词和查询类别,计算相应的权重,每个权重均是对于该用户而言的。结果获取模块,用于获取用户搜索行为得到的一个以上的查询结果文档及该查询结果文档对应的查询结果文档权重。该模块从搜索引擎服务器对用户搜索行为所得到的结果进行获取,查询结果一般为多个查询结果文档,每个查询结果文档都有其对应的文档权重,优选的,文档权重为文档的TF-IDF值。在获取查询结果文档的同时,也对查询结果文档权重进行获取。关联度获取模块,与查询获取模块和结果获取模块相连接,用于从网页类别关联度映射矩阵中获取从用户的查询类别到查询结果文档中的每个文档所属的类别之间的关联度值,其中网页类别关联度映射矩阵中的值表征各查询类别之间的关联度。该网页类别关联度映射矩阵可是在本系统中通过其它功能模块构建并更新,也可以是预先一次性构建完成而配置在关联度获取模块中,还可以通过预先人为设置而得到。文档排序模块,分别与查询获取模块、结果获取模块和关联度获取模块链接,用于根据上述模块获取的关联度值,基于查询结果文档权重和查询词权重对查询结果文档进行排序,将得到的排序结果返回给该用户。优选的,在该模块中,将该类别关联度值、该查询结果文档权重、该查询词权重和该查询结果文档对应查询类别的权重相乘的结果作为对应的查询结果文档的排序权重,基于每个查询结果文档的该排序权重对该查询结果文档进行排序。优选的,在该模块中,当查询词为多个时,将该查询结果文档所包含的查询词的权重相加,再与该类别关联度值、该查询结果文档权重和该查询结果文档对应查询类别的权重相乘,将相乘的结果作为对应的查询结果文档的排序权重。优选的,在该模块中,当该类别和/ 或该查询结果文档所属的类别为多个时,在该网页类别关联度映射矩阵中获取每个该类别到该查询结果文档所属的类别的关联度值,将每个关联度值分别与其对应的查询类别的权重相乘后相加,将得到结果再与查询结果文档权重和查询词权重相乘,将得到的结果作为该查询结果文档的排序权重。在本系统中,优选的还包括映射矩阵模块,与关联度获取模块连接,用于预先通过统计多个用户的搜索行为来构建体现查询类别关联度的网页类别关联度映射矩阵。优选的,对多个用户在搜索行为中的网站类别跳转次数进行累加,将获得的累加值作为各类别之间的映射值,将某一类别与其它各个类别的映射值,分别与该类别与其它所有类别的该映射值的总和相除,得到的各比例值分别作为该类别与其它各个类别的关联度值,各类别之间的关联度值构成了网页类别关联度映射矩阵。本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化, 但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
权利要求
1.一种网络搜索方法,其特征在于,包括步骤A 针对用户的搜索行为获取用户输入的用户查询词和用户查询类别,计算针对该用户的用户查询词权重和用户查询类别权重;步骤B 获取用户搜索行为得到的一个以上的查询结果文档及所述查询结果文档对应的查询结果文档权重;步骤C 从网页类别关联度映射矩阵中获取从所述查询类别分别到查询结果文档中的每个文档所属的类别之间的各关联度值,其中网页类别关联度映射矩阵中的数值表征各查询类别之间的关联度;步骤D 根据获取的所述关联度值,基于所述查询结果文档权重和查询词权重对所述查询结果文档进行排序,将得到的排序结果返回给该用户。
2.根据权利要求1所述的方法,其特征在于,预先通过统计多个用户的搜索行为来构建网页类别关联度映射矩阵。
3.根据权利要求2所述的方法,其特征在于,构建所述网页类别关联度映射矩阵具体为对所述多个用户在搜索行为中的网站类别间的跳转次数进行累加,将获得的累加值作为各类别之间的映射值,将某一类别与其它各个类别的所述映射值,分别与该类别与其它所有类别的所述映射值的总和相除,得到的各比例值分别作为该类别与其它各个类别的关联度值,各类别之间的所述关联度值构成了所述网页类别关联度映射矩阵。
4.根据权利要求1至3任一项所述的方法,其特征在于,将所述类别关联度值、所述查询结果文档权重、所述查询词权重和所述查询结果文档对应查询类别的权重相乘的结果作为对应的查询结果文档的排序权重,基于每个查询结果文档的所述排序权重对所述查询结果文档进行排序。
5.根据权利要求4所述的方法,其特征在于,当所述查询词为多个时,将所述查询结果文档所包含的查询词的权重相加,再与所述类别关联度值、所述查询结果文档权重和所述查询结果文档对应查询类别的权重相乘,将相乘的结果作为对应的查询结果文档的排序权重。
6.根据权利要求4所述的方法,其特征在于,当所述类别和/或所述查询结果文档所属的类别为多个时,在所述网页类别关联度映射矩阵中获取每个所述类别到所述查询结果文档所属的类别的关联度值,将每个关联度值分别与其对应的查询类别的权重相乘后相加,将得到结果再与查询结果文档权重和查询词权重相乘,将得到的结果作为所述查询结果文档的排序权重。
7.—种网络搜索系统,其特征在于,包括以下模块查询获取模块,用于针对用户的搜索行为获取用户输入的用户查询词和用户查询类别,计算针对该用户的用户查询词权重和用户查询类别权重;结果获取模块,用于获取用户搜索行为得到的一个以上的查询结果文档及所述查询结果文档对应的查询结果文档权重;关联度获取模块,与所述查询获取模块和所述结果获取模块相连接,用于从网页类别关联度映射矩阵中获取从所述查询类别分别到查询结果文档中的每个文档所属的类别之间的各关联度值,其中网页类别关联度映射矩阵中的数值表征各查询类别之间的关联度;文档排序模块,与所述查询获取模块、所述结果获取模块和所述关联苏获取模块相连接,用于根据获取的所述关联度值,基于所述查询结果文档权重和查询词权重对所述查询结果文档进行排序,将得到的排序结果返回给该用户。
8.根据权利要求7所述的系统,其特征在于,还包括映射矩阵模块,用于预先通过统计多个用户的搜索行为来构建网页类别关联度映射矩阵。
9.根据权利要求8所述的系统,其特征在于,所述映射矩阵模块构建所述网页类别关联度映射矩阵具体为对所述多个用户在搜索行为中的网站类别间的跳转次数进行累加,将获得的累加值作为各类别之间的映射值,将某一类别与其它各个类别的所述映射值,分别与该类别与其它所有类别的所述映射值的总和相除,得到的各比例值分别作为该类别与其它各个类别的关联度值,各类别之间的所述关联度值构成了所述网页类别关联度映射矩阵。
10.根据权利要求7至9任一项所述的方法,其特征在于,所述文档排序模块中,将所述类别关联度值、所述查询结果文档权重、所述查询词权重和所述查询结果文档对应查询类别的权重相乘的结果作为对应的查询结果文档的排序权重,基于每个查询结果文档的所述排序权重对所述查询结果文档进行排序。
11.根据权利要求10所述的方法,其特征在于,所述文档排序模块中,当查询词为多个时,将所述查询结果文档所包含的查询词的权重相加,再与所述类别关联度值、所述查询结果文档权重和所述查询结果文档对应查询类别的权重相乘,将相乘的结果作为对应的查询结果文档的排序权重。
12.根据权利要求10所述的方法,其特征在于,所述文档排序模块中,当所述类别和/或所述查询结果文档所属的类别为多个时,在所述网页类别关联度映射矩阵中获取每个所述类别到所述查询结果文档所属的类别的关联度值,将每个关联度值分别与其对应的查询类别的权重相乘后相加,将得到结果再与查询结果文档权重和查询词权重相乘,将得到的结果作为所述查询结果文档的排序权重。
全文摘要
本发明公开了一种网络搜索方法和系统,所述方法包括以下步骤针对用户的搜索行为获取用户输入的用户查询词和用户查询类别,计算针对该用户的用户查询词权重和用户查询类别权重;获取用户搜索行为得到的一个以上的查询结果文档及所述查询结果文档对应的查询结果文档权重;从网页类别关联度映射矩阵中获取从所述查询类别分别到查询结果文档中的每个文档所属的类别之间的各关联度值;根据获取的所述关联度值,基于所述查询结果文档权重和查询词权重对所述查询结果文档进行排序,将得到的排序结果返回给该用户。本发明可以使检索类别更精准,查询范围更广泛,从而使用户节省反复搜索广告带来的各种时间和能量消耗上的成本。
文档编号G06F17/30GK102364467SQ201110300000
公开日2012年2月29日 申请日期2011年9月29日 优先权日2011年9月29日
发明者李娜, 罗峰, 黄苏支 申请人:北京亿赞普网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1