基于偏好的智能检索方法及系统的制作方法

文档序号:6518158阅读:200来源:国知局
基于偏好的智能检索方法及系统的制作方法
【专利摘要】本发明涉及数据检索领域,公开了一种基于偏好的智能检索方法及系统。所述方法包括步骤:基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。本发明利用主题标引技术确定数据资源的主题分布,使用基于主题的查询扩展和相关反馈等技术构建更能代表用户需求的检索向量,向用户提供更符合其潜在需求的检索结果。
【专利说明】基于偏好的智能检索方法及系统
【技术领域】
[0001]本发明涉及数据检索领域,尤其是涉及一种基于偏好的智能检索方法及系统。
【背景技术】
[0002]随着社会信息化程度的不断提高以及IT设备的高速发展,信息的存储量呈指数上升趋势;而与此同时人们对信息的获取要求越来越高,如何利用检索技术快速找到所需的有用信息越来越困难。传统的搜索引擎基于关键词进行检索,但即便是采用多个关键词进行组合检索,面对海量的网络信息,所获得结果的数量仍然是难以计数的,要从这些结果中找到最需要的信息对用户来说也是项艰巨的工作。因此,当前数据检索最关键的问题就是如何从检索结果中找到用户最需要的信息。
[0003]现有技术中,搜索引擎或数据检索系统会基于部分统计信息对检索结果进行排序,以争取把相关度较高的结果优先提供给用户。类似的统计信息主要有关键词出现频率、匹配度和点击率等,这些信息是对数据本身的确定内容进行统计,虽然处理量较大但内容明确较易实现。此外,还有部分较先进的系统进行了更进一步的优化,比如基于各种文本语义的统计特征将数据分类或对关键词进行扩展等,力求使靠前的检索结果与进行检索的关键词的相关度尽可能地高。但是上述方式主要基于用户单次提交的查询请求中的描述信息(关键词、时间、检索范围等要求的组合)和数据的文本信息,而由于上述两种信息可用内容有限,加上数据本身的信息无法体现用户间的差异,即便采用现有技术的方式进行优化,检索结果也难以全面地体现不同用户的需求差异,这导致现有方式的检索效率、精确度和用户满意度很难达到理想的状态。

【发明内容】

[0004]针对现有技术中存在的上述缺陷,本发明所要解决的技术问题是如何针对不同用户的差异优化检索。
[0005]为解决上述技术问题,一方面,本发明提供了一种基于偏好的智能检索方法,该方法包括步骤:
[0006]SI,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
[0007]S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
[0008]S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
[0009]S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
[0010]优选地,所述步骤SI中,所述建立用户主题偏好模型包括步骤:
[0011]根据所述主题分类建立主题向量空间;
[0012]根据所述用户特征确定用户的预定义主题偏好向量;
[0013]根据所述操作日志确定用户的历史主题偏好向量;[0014]将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型。
[0015]优选地,所述步骤S2中,所述进行扩展查询包括步骤:
[0016]计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布;
[0017]计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布;
[0018]衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中。
[0019]优选地,所述步骤S3中,所述个性化检索排序包括步骤:
[0020]通过计算所述初次检索结果中各结果与所述用户主题偏好模型的向量相似度,评判所述各结果在用户偏好的主题上的得分;
[0021]计算所述各结果的质量评分;
[0022]根据所述向量相似度、所述在用户偏好的主题上的得分及所述质量评分的加权得到所述各结果的终排序得分,按照所述终排序得分对所述初次检索结果中的各结果进行排序。
[0023]优选地,所述步骤S4中,所述二次反馈检索包括步骤:
[0024]利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合;
[0025]利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;
[0026]将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
[0027]另一方面,本发明还同时提供了一种基于偏好的智能检索系统,该系统包括:
[0028]用户主题偏好识别模块,用于基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
[0029]查询扩展模块,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
[0030]检索排序模块,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
[0031]反馈检索模块,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
[0032]优选地,所述用户主题偏好识别模块中进一步包括:
[0033]主题向量空间模块,用于根据所述主题分类建立主题向量空间;
[0034]预定义偏好模块,用于根据所述用户特征确定用户的预定义主题偏好向量;
[0035]历史偏好模块,用于根据所述操作日志确定用户的历史主题偏好向量;
[0036]偏好模型获取模块,用于将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型。
[0037]优选地,所述查询扩展模块进一步包括:
[0038]检索词分布模块,用于计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布;
[0039]主题词分布模块,用于计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布;
[0040]扩展模块,用于衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中。
[0041]优选地,所述检索排序模块进一步包括:
[0042]主题得分模块,用于通过计算所述初次检索结果中各结果与所述用户主题偏好模型的向量相似度,评判所述各结果在用户偏好的主题上的得分;
[0043]质量评分模块,用于计算所述各结果的质量评分;
[0044]排序模块,用于根据所述向量相似度、所述在用户偏好的主题上的得分及所述质量评分的加权得到所述各结果的终排序得分,按照所述终排序得分对所述初次检索结果中的各结果进行排序。
[0045]优选地,所述反馈检索模块进一步包括:
[0046]相关反馈模块,用于利用所述相关反馈确定所述初次检索结果中的相关结果的向
量集合;
[0047]伪相关反馈模块,用于利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;
[0048]反馈模块,用于将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
[0049]本发明提供了一种基于偏好的智能检索方法及系统,利用主题标引技术确定数据资源的主题分布,使用基于主题的查询扩展和相关反馈等技术构建更能代表用户需求的检索向量,再通过结合了用户主题偏好的智能排序模型,向用户提供更符合其潜在需求的检索结果。本发明所实现的算法和系统能够识别用户潜在的、基于专业主题词表进行描述的情报需求,因而具有更好的检索效果。
【专利附图】

【附图说明】
[0050]图1为本发明的一个实施例中基于偏好的智能检索方法的流程示意图;
[0051]图2为本发明的一个优选实施例中基于主题的查询扩展算法流程示意图;
[0052]图3为本发明的一个优选实施例中结合主题的相关反馈算法流程示意图;
[0053]图4位本发明的一个典型应用场景中基于偏好的智能检索系统的模块结构示意图。
【具体实施方式】
[0054]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例为实施本发明的较佳实施方式,所述描述是以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围应当以权利要求所界定者为准,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055]现有技术主要针对被检索数据进行优化,最理想的情况也只是对被检索数据进行了精确分类和扩展,然后再将其与用户单次提交的查询请求中的描述信息进行匹配。这种方式虽然很大程度上提高了检索的精确度,但其并未体现出用户间的差异,只要查询请求相同,检索结果就会相同,这与实际情况中不同的用户有着不同的需求的状况存在着明显的区别。
[0056]在本发明的实施例中,通过观察分析用户在较长一段时间内的检索行为来获取用户的潜在需求,将用户需求与数据分类两者结合,把显性相关反馈与隐性相关反馈技术融入到检索优化中,准确体现出了用户的需求差异并有效提高了数据检索的整体效率和精确度。
[0057]参见图1,在本发明的一个实施例中,基于偏好的智能检索方法包括步骤:
[0058]SI,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
[0059]S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
[0060]S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
[0061]S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
[0062]以下对上述实施例的各种优选方式做进一步的扩展说明,在下文的优选实施例中,为了进一步突出本发明的技术规律和实际效果,将被检索的数据范围限定在技术情报信息中,但本领域相关技术人员应该理解,技术情报信息只是全部数据中的一个具体分类,本发明的技术方案显然可以直接应用于各种数字信息中,下述优选实施例不应视作对本发明的限制。
[0063]用户对数据资源的获取存在潜在的主题需求,以科技文献为例,不同领域的用户对同一关键词的需求有着显著差异,使这种隐性的主题需求表现得更加明显。在本发明的优选实施例中,步骤Si里运用主题词范畴表对用户需求进行映射,发现用户在文献资源分类上的偏好,从而为智能检索提供良好的基础。主题偏好主要从以下两个方面进行考虑:
[0064]一、用户主题偏好的预定义
[0065]不同的用户有着不同的特征,其中有不少可体现出用户的潜在需求,因此,可以根据用户特征(比如用户的地域、职能信息或岗位文献范畴等)预先定义一些用户的主题偏好。具体来说,比如电力行业中高压试验岗位的用户,对电力变压器、断路器、互感器等相关的文献资源有特殊需求,因而可从这些岗位文献中提取出主题词,结合岗位职能描述信息,将其映射到规范的主题范畴上,作为用户的需求偏好预定义。更优选地,步骤Si中用向量空间模型来表示用户的主题偏好:
[0066]首先,分析主题分布情况,建立N维主题向量空间[(IipW1), (k2, W2), *..(kN,wN)];其中,kj为第i个主题,Wi为用户在Ici上的偏好程度,i e 1,2,…,N。
[0067]然后,从用户特征(如岗位职能描述信息、岗位文献等)中提取主题词,统计这些主题词的频率来计算其概率分布;其中,」为主题词SUbi的词频,freqsub total为主题词集合的总词频。
[0068]最后,将八叫经过一定的系统调整后用来表征用户在各个主题词SUbi上的偏好程度,从而得到预定义的用户主题偏好向量1; W1 2, ''',W1 n);其中 ,Wi=O- psub,I=1,2,…,n,表示用户在主题匕上预定义的偏好程度。
[0069]二、从用户操作日志中发现用户主题偏好[0070]用户的检索行为是用户获取信息的整体行为中的一部分;相关的有用户从系统中点击、下载、收藏文献等操作,这些操作都会被记录在系统日志中。因而可以从用户大量的操作日志信息中挖掘出用户的主题偏好,为智能检索提供基础支撑。在上述方法的步骤SI中,还建立完备的操作日志收集机制,利用操作日志确定用户主题偏好。
[0071]具体地,收集并分析日志,获取用户操作文献的集合Dtjp= {(!_,d-,…,d_}。对
^di ^ Dop =,统计用户对Cli的点击、下载、收藏等操作频次,并赋予不同操作权
重,加权后计算得到用户对Cli的访问频率。根据文献的主题标引,可以得到Cli在主题词上的分布,再结合Cli的访问频率,即可得到用户在各个主题词上的访问频率,将其作为用户的主题偏好程度,对应到主题向量空间中,从而得到用户的主题偏好向量-,wn)。
[0072]最后,通过将以上两种主题偏好进行加权,从而确定用户的主题偏好W=a j.Wpre+ a 2.Wop ;其中a ^ a 2是两种向量各自的权重,根据偏重程度进行预设或调整。需要注意的是,根据日志分析得到用户偏好是随着时间变化的,需要根据日志的更新情况进行相应的更新。
[0073]查询请求是用户查询需求的直接反应,其中同样蕴含着潜在的主题需求,这种主题需求在一定程度上反应了用户对所需文献的抽象和概括,更能反映用户的需求。同时主题词可以作为文献资源的标记,反应了文献的内容核心及分类信息,能更好的表达文献的本质。综合这两方面进行考虑,本发明的步骤S2中选择主题词进行查询扩展,从很大程度上提升了检索的功效,其算法流程如图2所示。
[0074]如果用户的检索输入直接就是规范的主题词,可以通过主题范畴表中的上位词、下位词等关联关系,找到相关的主题词进行查询扩展。但很多时候,用户输入的查询请求与潜在主题需求之间没有显性的关联,这时可以通过历史检索文献以及主题标引文献为其建立关联关系。如图2所不,基本思想如下: [0075]记用户检索请求Q对应的文档集合为:Dqray= Wql, dq2,…,dqN}。通过对Dquery中各个文档进行分词,得到一组Term集合,记为Tquea7=Itql, tq2,..., tqN}。对^tqi e Tquery (? = 1,2,...,#),统计概率凡,.=freqt: Zfreqtotal,从而得到 Dquery 对应的集合Tquery 的概
率分布,记为仄―=(P^,°其中,freqt 为 tqi 的词频,freqtotal 为 Tquery 中 Term 的词频总数。
[0076]对于主题向量空间的主题词,通过文献的主题标引也可以得到一组文档集合,记为Dsub_t={dsl,ds2,…,dsN}。类似地,通过文档集合获取词条集合,再通过相应词频的计算,
可以得到Dsubjeet对应的词条集合的概率分布,记为K^ect = (psll, Psh,...,pstN)。
[0077]在获取了这两方面的概率分布后,可以通过计算概率分布的相似性,找到与检索词最相关的主题词,进而用来做主题词的查询扩展。
[0078]在计算检索词和主题词对应的两组文档的概率分布相似性时,优选考虑使用Kullback-Leibler 散度(Kullback-Leibler Divergence 的简称,也叫做相对熵 RelativeEntropy)进行计算。
[0079]这样,通过Dkl(Fsliject丨IFquery)即可计算出Fsu_相对于Ftw的概率分布差异,取差异较对于小的主题词构建查询扩展[0080]
【权利要求】
1.一种基于偏好的智能检索方法,其特征在于,所述方法包括步骤: S1,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型; S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果; S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序; S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤SI中,所述建立用户主题偏好模型包括步骤: 根据所述主题分类建立主题向量空间; 根据所述用户特征确定用户的预定义主题偏好向量; 根据所述操作日志确定用户的历史主题偏好向量; 将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中,所述进行扩展查询包括步骤: 计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布; 计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布; 衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3中,所述个性化检索排序包括步骤: 通过计算所述初次检索结果中各结果与所述用户主题偏好模型的向量相似度,评判所述各结果在用户偏好的主题上的得分; 计算所述各结果的质量评分; 根据所述向量相似度、所述在用户偏好的主题上的得分及所述质量评分的加权得到所述各结果的终排序得分,按照所述终排序得分对所述初次检索结果中的各结果进行排序。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4中,所述二次反馈检索包括步骤: 利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合; 利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合; 将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
6.一种基于偏好的智能检索系统,其特征在于,所述系统包括: 用户主题偏好识别模块,用于基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型; 查询扩展模块,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;检索排序模块,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序; 反馈检索模块,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
7.根据权利要求6所述的系统,其特征在于,所述用户主题偏好识别模块中进一步包括: 主题向量空间模块,用于根据所述主题分类建立主题向量空间; 预定义偏好模块,用于根据所述用户特征确定用户的预定义主题偏好向量; 历史偏好模块,用于根据所述操作日志确定用户的历史主题偏好向量; 偏好模型获取模块,用于将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型。
8.根据权利要求6所述的系统,其特征在于,所述查询扩展模块进一步包括: 检索词分布模块,用于计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布; 主题词分布模块,用于计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布; 扩展模块,用于衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中。
9.根据权利要求6所述的系`统,其特征在于,所述检索排序模块进一步包括: 主题得分模块,用于通过计算所述初次检索结果中各结果与所述用户主题偏好模型的向量相似度,评判所述各结果在用户偏好的主题上的得分; 质量评分模块,用于计算所述各结果的质量评分; 排序模块,用于根据所述向量相似度、所述在用户偏好的主题上的得分及所述质量评分的加权得到所述各结果的终排序得分,按照所述终排序得分对所述初次检索结果中的各结果进行排序。
10.根据权利要求6所述的系统,其特征在于,所述反馈检索模块进一步包括: 相关反馈模块,用于利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合; 伪相关反馈模块,用于利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合; 反馈模块,用于将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
【文档编号】G06F17/30GK103593425SQ201310549069
【公开日】2014年2月19日 申请日期:2013年11月8日 优先权日:2013年11月8日
【发明者】李鹏, 周育忠, 王庆红, 龚婷, 陈传夫, 王平, 冉从敬, 吴江 申请人:南方电网科学研究院有限责任公司, 武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1