一种基于用户查看和收录提升检索精准度的方法及系统与流程

文档序号:22759941发布日期:2020-10-31 09:58阅读:173来源:国知局
一种基于用户查看和收录提升检索精准度的方法及系统与流程

本发明涉及信息检索技术领域,特别是涉及一种基于用户查看和收录提升检索精准度的方法及系统。



背景技术:

信息检索(informationretrieval)是人们进行信息查询和获取的主要方式。信息检索技术起源于图书馆书籍管理,对书籍进行分类,然后根据需求到特定的类别里去查找书籍,这就是最简单的信息检索方法。随着互联网的兴起,计算机里的文档成为了信息的主要载体,自然而然地,分类方法在一开始也被应用到了互联网文档(主要是html文档)的检索上,在互联网初期也是非常有用的。但随着互联网内容的爆炸性增长,分类方法也逐渐失效了。由此催生了全文检索方法。更准确地说,是建立索引,用索引来做检索的方法。

目前,在互联网上进行信息检索的方式主要有两种,即基于分类方法的按目录浏览方式和基于全文检索的搜索引擎。按目录浏览的方式,用户根据自己的需求按目录一层一层的查找自己需要的信息,这种方式便于用户查找某一类的聚合信息,但是精确定位能力不足,无法直接定位到用户想找的信息,只能一层一层去查找。基于全文检索的搜索引擎是目前最典型的信息检索方式,用户只需输入需要查找的关键字,搜索引擎就会把检索到的结果按关键字相关度进行排序返回给用户。但是基于全文检索的搜索引擎,搜索结果是按关键字相关度进行排序的,相关度排序算法的优劣往往会影响检索结果的质量。



技术实现要素:

本发明的目的是提供一种基于用户查看和收录提升检索精准度的方法及系统,提升了资源检索精准度。

为实现上述目的,本发明提供了如下方案:

一种基于用户查看和收录提升检索精准度的方法,包括:

识别用户检索请求,获取检索结果;

根据资源命中标签相关度对所述检索结果中的资源进行排序;

记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为;

根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签;

将所述检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;

将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库;

根据所述新索引库进行检索。

可选的,所述根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签,具体包括:

判断用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和是否大于或者等于第一预设阈值,得到第一判断结果;

若所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和大于或者等于第一预设阈值,则清除超过预设时间阈值的行为记录和检索标签相同的行为记录;判断剩余行为记录数量是否大于或者等于第二预设阈值,得到第二判断结果;

若所述第二判断结果为剩余行为记录数量大于或者等于第二预设阈值,则从所述剩余行为记录中,取出与所述第二预设阈值数量相同条数的行为记录并统计其中的用户点击次数和用户收录次数;

根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度。

可选的,若所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和小于第一预设阈值,则执行步骤:将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;

若所述第二判断结果为所述剩余行为记录数量小于第二预设阈值,则执行步骤:将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签。

可选的,所述根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度,具体为:

根据公式调整所述资源命中标签相关度,其中δw为相关度提升值,ws为检索查看权值,ws=0.2,sh为用户点击次数,x为第二阈值,wi为收录权值,wi=0.3,ih为用户收录次数。

可选的,所述预设时间阈值为24小时。

一种基于用户查看和收录提升检索精准度的系统,其特征在于,包括:

检索结果获取模块,用于识别用户检索请求,获取检索结果;

资源排序模块,用于根据资源命中标签相关度对所述检索结果中的资源进行排序;

行为记录模块,用于记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为;

第一资源标签获取模块,用于根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签;

第二资源标签获取模块,用于将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;

索引库建立模块,用于将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库;

检索模块,用于根据所述新索引库进行检索。

可选的,所述第一资源获取模块具体包括:

第一判断单元,用于判断用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和是否大于或者等于第一预设阈值,得到第一判断结果;

第二判断单元,用于当所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和大于或者等于第一预设阈值时,清除超过预设时间阈值的行为记录和检索标签相同的行为记录;第二判断单元还用于判断剩余行为记录数量是否大于或者等于第二预设阈值,得到第二判断结果;

行为次数记录模块,用于当所述第二判断结果为所述剩余行为记录数量大于或者等于第二预设阈值时,从所述剩余行为记录中,取出与所述第二预设阈值数量相同条数的行为记录并统计其中的用户点击次数和用户收录次数;

调整单元,用于根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度。

可选的,所述调整单元包括计算子单元,其所述计算子单元用于根据公式调整所述资源命中标签相关度,其中δw为相关度提升值,ws为检索查看权值,ws=0.2,sh为用户点击次数,x为第二阈值,wi为收录权值,wi=0.3,ih为用户收录次数。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明公开了一种基于用户查看和收录提升检索精准度的方法及系统。所述方法及系统包括,识别用户检索请求,获取检索结果;根据资源命中标签相关度对所述检索结果中的资源进行排序;记录用户日志行为;根据日志行为调整资源命中标签相关度,获得调整后的第一资源标签;将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;将第一资源标签和第二资源标签索引同步到索引库,得到新索引库;根据新索引库进行检索。本发明可根据用户查看、收录信息资源的次数,即根据信息资源的热度来统计优化资源命中标签的相关度,提升了资源检索精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于用户查看和收录提升检索精准度的方法的流程图;

图2为本发明实施例提供的一种基于用户查看和收录提升检索精准度的系统的结构图;

图3为本发明实施例提供的一种基于用户查看和收录提升检索精准度的系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种基于用户查看和收录提升检索精准度的方法及系统,提升了资源检索精准度。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明实施例提供的一种基于用户查看和收录提升检索精准度的方法的流程图,如图1所示,本方法包括以下步骤:

步骤101:识别用户检索请求,获取检索结果。

步骤102:根据资源命中标签相关度对所述检索结果中的资源进行排序。

步骤103:记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为。

步骤104:根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签。

在实施例中,步骤104可具体为:

判断用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和是否大于或者等于第一预设阈值。

若判断结果为否,则执行步骤105。

若判断结果为是,则清除超过预设时间阈值的行为记录和检索标签相同的行为记录。然后判断剩余行为记录数量是否大于或者等于第二预设阈值。

若判断结果为否,则执行步骤105。

若判断结果为是,则从述剩余行为记录中,取出与第二预设阈值数量相同条数的行为记录并统计其中的用户点击次数sh和用户收录次数ih。

根据公式调整所述资源命中标签相关度。其中δw为相关度提升值,ws为检索查看权值,ws=0.2,x为第二阈值,wi为收录权值,wi=0.3。

步骤105:将所述检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签。

在本实施例中,步骤105可具体为:

根据周期内行为日志统计资源标签的四个指标:检索命中次数s、查看次数sh1、收录命中次数i和收录次数ih1。其中,

检索命中次数s为资源出现在检索结果中,且标签命中的次数。

查看次数sh1为资源出现在检索结果中,且标签命中并且资源被查看的次数。

收录命中次数i为资源出现在收录检索结果中,且标签命中的次数。

收录次数ih1为资源出现在收录检测结果中,且标签命中,且资源被收录的次数。

然后根据指标按照一定规则对资源标签的相关度进行提升或者衰减。其中设定规则为:相关度衰减条件sh=0且ih1=0,相关度调整幅度min(-0.02*s-0.02*i)。

步骤106:将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库。

步骤107:根据所述新索引库进行检索。

实施例2

为了提升了资源检索精准度,本发明还提供了一种基于用户查看和收录提升检索精准度的系统结构。图2为本发明实施例提供的一种基于用户查看和收录提升检索精准度的系统的结构图,如图2所示,本结构可包括日志框架、日志库、定时任务模块、标签相关度优化模块、资源库和索引库

其中,日志框架用于记录用户行为日志,行为日志包括用户的查看资源行为和用户的收录资源行为。日志库用户存储用户行为日志。标签相关度优化模块中包括标签相关度强化单元和标签相关度衰减单元。标签相关度强化单元用于强化资源标签相关度,按照相关度强化算法调整资源命中标签相关度。标签相关度衰减单元用于衰减资源相关度,按照相关度衰减算法调整资源标签相关度,并且由定时任务模块触发。定时任务模块用于定时触发标签相关度衰减单元进行衰减计算。资源库用于存储资源信息。索引库用于存储资源标签索引。

实施例3

为了提升了资源检索精准度,本发明还提供了一种基于用户查看和收录提升检索精准度的系统。图3为本发明实施例提供的一种基于用户查看和收录提升检索精准度的系统的系统框图,如图3所示,本系统包括:

检索结果获取模块201,用于识别用户检索请求,获取检索结果。

资源排序模块202,用于根据资源命中标签相关度对所述检索结果中的资源进行排序。

行为记录模块203,用于记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为。

第一资源标签获取模块204,用于根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签。

第二资源标签获取模块205,用于将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签。

索引库建立模块206,用于将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库。

检索模块207,用于根据所述新索引库进行检索。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明公开了一种基于用户查看和收录提升检索精准度的方法及系统。包括,识别用户检索请求,获取检索结果;根据资源命中标签相关度对所述检索结果中的资源进行排序;记录用户日志行为;根据日志行为调整资源命中标签相关度,获得调整后的第一资源标签;将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;将第一资源标签和第二资源标签索引同步到索引库,得到新索引库;根据新索引库进行检索。本发明可根据用户查看、收录信息资源的次数,即根据信息资源的热度来统计优化资源命中标签的相关度,弥补了标签相关度不准确,且不能体现资源热度的不足,提升了资源检索精准度。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1