一种基于遗传算法的搜索方法及装置的制作方法

文档序号:6338959阅读:403来源:国知局
专利名称:一种基于遗传算法的搜索方法及装置的制作方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于遗传算法的搜索方法及装置。
背景技术
随着技术的不断发展,新的信息检索方法不断涌现。但在目前很多搜索服务中, 没有针对不同用户的个性化的信息搜索服务,不同用户相同查询请求返回的查询结果也相 同,即系统不能识别不同用户个性信息需求上的差别。因此如何在搜索的过程中合理描述 并利用用户的个性化信息,提供个性化搜索成为了信息检索领域中许多学者的研究热点。 在个性化信息服务中,如何表达和提取用户的个性化信息以及如何实现信息的个性化过滤 成为个性化服务研究的关键技术。在目前的个性化服务中,基于本体的个性化信息服务,改 变了以往在判别网页相关性方面所采用的向量空间模型。基于本体的个性化信息服务中,通过将关键词汇映射到语义概念一级,虽然在一 定程度上可以改善计算网页相关性方面的效果,但是语义表达不准确会影响网页相关性的 判断,进而影响个性化搜索的准确性。基于用户行为分析的个性化信息服务或者需要由用 户提供与兴趣相关或无关的示例来建立模型,此方法需要用户在浏览过程中标注页面以得 到示例,干扰了用户的正常浏览;或者由系统自动进行建模,但是自动化效果不佳。因此,设计一种性能良好、保证查全率、有效满足用户的个性化需求的搜索方法及 装置十分必要,是信息检索技术领域目前急待解决的问题之

发明内容
本发明实施例提供了一种基于遗传算法的搜索方法及装置,通过依据用户浏览过 的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型,并依据适应度均 值选择适应度函数值最理想的个体,优化用户兴趣模型,然后将搜索的页面集合进行队列, 并依据相关度进行排序,优先搜索相关度高的网页,以获得相关度较高的网页,既体现了用 户的个性化,又提高了搜索的准确性。本发明实施例提供以下技术方案—种基于遗传算法的搜索方法,包括步骤Si、依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形 成用户兴趣模型。步骤S2、依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型。步骤S3、将搜索的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高 的网页。优选的,上述步骤一中,采用模糊C均值算法,在数据集的聚类数目已知的情况 下,计算最佳的数据划分。优选的,上述步骤一中,依据用户的长期兴趣和短期兴趣进行分析。优选的,上述步骤一中,采用一个三元组(keyi,Wi, f)来表示每一个兴趣节点,其中keyi表兴趣节点的关键词,Wi表示该关键词的权重,f表示该兴趣的新鲜度。优选的,上述步骤二中,进一步包括如下步骤S21、随机产生size个长度为m的二进制串组成种群。S22、种群进行以ρ概率进行交叉、以pc概率进行变异,产生下一代种群个体。S23、计算个体ρ的适应度并判断适应度均值是否不再发生较大变化或当前的代数是否已经达到最大代数,若是则执行S24,否则转S22。S24、选择适应度函数值最理想的个体。优选的,上述步骤三中,进一步包括利用通用搜索引擎获得初始的网页集合,并 放入待搜索的网页队列。优选的,上述步骤三中,进一步包括对待搜索的网页队列,利用向量空间模型计 算查询结果与用户兴趣的相关度,并按照相关度进行排序,优先搜索相关度高的网页。一种基于遗传算法的搜索装置,包括分析聚类模块、优化模块、列队及优先搜索模 块。优选的,上述分析聚类模块,用于依据用户浏览过的页面进行内容分析,根据信息 主题对页面进行聚类,形成用户兴趣模型。优选的,上述优化模块,用于依据适应度均值选择适应度函数值最理想的个体,优 化用户兴趣模型。优选的,上述列队及优先搜索模块,用于将搜索的页面集合进行队列,并依据相关 度进行排序,优先搜索相关度高的网页。优选的,上述优化模块,进一步包含第一生成模块,随机产生size个长度为m的二 进制串组成种群。优选的,上述优化模块,进一步包含第二生成模块,种群进行以ρ概率进行交叉、 以PC概率进行变异,产生下一代种群个体。优选的,上述优化模块,进一步包含计算及判断模块,计算个体P的适应度并判断 适应度均值是否不再发生较大变化或当前的代数是否已经达到最大代数。优选的,上述优化模块,进一步包含输出模块,选择适应度函数值最理想的个体, 最终获得最优的用户兴趣模型。本发明提供的一种基于遗传算法的搜索方法及装置,通过依据用户浏览过的页面 进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型,并依据适应度均值选择 适应度函数值最理想的个体,优化用户兴趣模型,然后将搜索的页面集合进行队列,并依据 相关度进行排序,优先搜索相关度高的网页,以获得相关度较高的网页,既体现了用户的个 性化,又提高了搜索的准确性。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。图1是本发明实施例提供的基于遗传算法的搜索方法流程图2是本发明实施例提供的基于遗传算法的搜索装置示意图;图3是本发明实施例提供的优化模块装置示意图。
具体实施例方式本发明实施例提供一种基于遗传算法的搜索方法及装置,通过依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型,并依据适应度均值 选择适应度函数值最理想的个体,优化用户兴趣模型,然后将搜索的页面集合进行队列,并 依据相关度进行排序,优先搜索相关度高的网页,以获得相关度较高的网页,既体现了用户 的个性化,又提高了搜索的准确性。为使本发明的目的、技术方案及优点更加清楚明白,下 面参照附图并举实施例,对本发明进一步详细说明。本发明实施例提供一种基于遗传算法的搜索方法,如图1所示,具体步骤包括步骤Si、依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形 成用户兴趣模型。具体而言,在本发明实施例中,用户往往有多个不同的兴趣类别,为了区分各种不 同兴趣,本发明实施例采用分类层次结构来表示用户可能具有的兴趣。首先对用户浏览过 的页面进行内容分析,根据信息主题对页面进行聚类,以形成不同用户的兴趣树。采用模糊 C均值(FCM)算法,该算法能够在数据集的聚类数目已知的情况下,计算最佳的数据划分。进一步的,在本发明实施例中,由于用户在不同的时期表现出的兴趣不同,长期兴 趣比较稳定,短期兴趣则能体现用户最近的兴趣,故本发明实施例中将依据用户的长期兴 趣和短期兴趣进行分析。因此,本发明实施例采用一个三元组(keyi,Wi,f)来表示每一个兴 趣节点,其中keyi表兴趣节点的关键词,Wi表示该关键词的权重,f表示该兴趣的新鲜度。步骤S2、依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型。具体而言,在本发明实施例中,采用遗传算法,对用户兴趣模型进行优化。算法描 述如下(1)随机产生size个长度为m的二进制串组成种群。(2)种群进行以ρ概率进行交叉、以pc概率进行变异,产生下一代种群个体。(3)计算个体ρ的适应度并判断适应度均值是否不再发生较大变化或当前的代数 是否已经达到最大代数,若是则执行(4),否则转(2)。(4)选择适应度函数值最理想的个体。最终获得最优的用户兴趣模型。步骤S3、将搜索的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高 的网页。具体而言,在本发明实施例中,利用通用搜索引擎获得初始的网页集合,并放入待 搜索的网页队列。对待搜索的网页队列,利用向量空间模型计算查询结果与用户兴趣的相 关度(similarity),并按照相关度进行排序,优先搜索相关度高的网页。一种基于遗传算法的搜索装置,包括分析聚类模块11、优化模块22、列队及优先 搜索模块33。分析聚类模块,用于依据用户浏览过的页面进行内容分析,根据信息主题对页面 进行聚类,形成用户兴趣模型。具体而言,在本发明实施例中,用户往往有多个不同的兴趣类别,为了区分各种不同兴趣,本发明实施例采用分类层次结构来表示用户可能具有的兴趣。首先对用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,以形成不同用户的兴趣树。采用模糊 C均值(FCM)算法,该算法能够在数据集的聚类数目已知的情况下,寻找最佳的数据划分。进一步的,在本发明实施例中,还包含一节点分析模块,用于对兴趣节点的关键 词、关键词权重、新鲜度三个参数进行分析。具体而言,由于用户在不同的时期表现出的兴 趣不同,长期兴趣比较稳定,短期兴趣则能体现用户最近的兴趣。因此,本发明实施例采用 一个三元组(key” Wi, f)来表示每一个兴趣节点,其中keyi表兴趣节点的关键词,Wi表示 该关键词的权重,f表示该兴趣的新鲜度。优化模块,用于依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣 模型。具体而言,在本发明实施例中,采用遗传算法,对用户兴趣模型进行优化。进一步 的,本发明实施例还包括第一生成模块221 随机产生size个长度为m的二进制串组成种群。第二生成模块222 种群进行以ρ概率进行交叉、以pc概率进行变异,产生下一代 种群个体。计算及判断模块223 计算个体ρ的适应度并判断适应度均值是否不再发生较大 变化或当前的代数是否已经达到最大代数,若是则执行(4),否则转(2)。输出模块224 选择适应度函数值最理想的个体,最终获得最优的用户兴趣模型。列队及优先搜索模块,用于将搜索的页面集合进行队列,并依据相关度进行排序, 优先搜索相关度高的网页。具体而言,在本发明实施例中,进一步的,还包括一列队模块331,用于利用通用搜 索引擎获得初始的网页集合,并放入待搜索的网页队列。进一步的,还包括一优选搜索模块332,用于对待搜索的网页队列,利用向量空间 模型计算查询结果与用户兴趣的相关度(similarity),并按照相关度进行排序,优先搜索 相关度高的网页。用户的个性化信息的表达是是个性化搜索服务中一项关键的技术。在本发明实施 例中,首先根据对用户行为进行分析,采用模糊均值算法对用户的行为进行聚类,自动完成 对用户兴趣模型的初步建立。然后利用遗传算法对已经建立的用户兴趣模型进行优化,得 到最优的用户兴趣模型,从而对用户的兴趣进行较为精确的表达,解决了单纯依靠用户行 为分析建立用户兴趣模型的不准确的问题。本发明实施例的这种基于遗传算法的个性化搜索算法,在对用户行为分析的基础 上建立初步的用户兴趣模型,再利用遗传算法对用户的兴趣模型进行进一步的优化,使得 兴趣模型与用户的个性化信息较为贴切。并在搜索的过程中,依据已经建立的较为精确的 用户兴趣模型对待搜索网页进行相关度计算排序,以获得相关度较高的网页。这种方法既 体现了用户的个性化,又提高了搜索的准确性。本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时,包括方法实施例的步骤之一或其组合。另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如 果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机 可读取存储介质中。综上所述,本文提供了本发明实施例提供一种基于遗传算法的搜索方法及装置, 通过依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣 模型,并依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型,然后将搜索 的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高的网页,以获得相关度较 高的网页,既体现了用户的个性化,又提高了搜索的准确性。以上对本发明所提供的一种基于遗传算法的搜索方法及装置进行了详细介绍,本 文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于 帮助理解本发明的方案;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实 施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限 制。
权利要求
1.一种基于遗传算法的搜索方法,其特征在于,所述搜索方法包括步骤Si、依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用 户兴趣模型;步骤S2、依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型; 步骤S3、将搜索的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高的网页。
2.根据权利要求1所述的搜索方法,其特征在于,在所述步骤一中,采用模糊C均值算 法,在数据集的聚类数目已知的情况下,计算最佳的数据划分。
3.根据权利要求1所述的搜索方法,其特征在于,在所述步骤一中,依据用户的长期兴 趣和短期兴趣进行分析。
4.根据权利要求1所述的搜索方法,其特征在于,在所述步骤一中,采用一个三元组 (key,, Wi, f)来表示每一个兴趣节点,其中keyi表兴趣节点的关键词,Wi表示该关键词的权 重,f表示该兴趣的新鲜度。
5.根据权利要求1所述的搜索方法,其特征在于,在所述步骤二中,进一步包括如下步骤521、随机产生size个长度为m的二进制串组成种群;522、种群进行以ρ概率进行交叉、以pc概率进行变异,产生下一代种群个体;523、计算个体ρ的适应度并判断适应度均值是否不再发生较大变化或当前的代数是 否已经达到最大代数,若是则执行S24,否则转S22 ;524、选择适应度函数值最理想的个体。
6.根据权利要求1所述的搜索方法,其特征在于,在所述步骤三中,进一步包括利用 通用搜索引擎获得初始的网页集合,并放入待搜索的网页队列。
7.根据权利要求1所述的搜索方法,其特征在于,在所述步骤三中,进一步包括对待 搜索的网页队列,利用向量空间模型计算查询结果与用户兴趣的相关度,并按照相关度进 行排序,优先搜索相关度高的网页。
8.一种基于遗传算法的搜索装置,其特征在于,所述搜索装置包括分析聚类模块、优化 模块、列队及优先搜索模块。
9.根据权利要求8所述的搜索装置,其特征在于,所述分析聚类模块,用于依据用户浏 览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型。
10.根据权利要求8所述的搜索装置,其特征在于,优化模块,用于依据适应度均值选 择适应度函数值最理想的个体,优化用户兴趣模型。
11.根据权利要求8所述的搜索装置,其特征在于,列队及优先搜索模块,用于将搜索 的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高的网页。
12.根据权利要求10所述的搜索装置,其特征在于,进一步包含第一生成模块,随机产 生size个长度为m的二进制串组成种群。
13.根据权利要求10所述的搜索装置,其特征在于,进一步包含第二生成模块,种群进 行以P概率进行交叉、以PC概率进行变异,产生下一代种群个体。
14.根据权利要求10所述的搜索装置,其特征在于,进一步包含计算及判断模块,计算 个体P的适应度并判断适应度均值是否不再发生较大变化或当前的代数是否已经达到最大代数。
15.根据权利要求10所述的搜索装置,其特征在于,进一步包含输出模块,选择适应度 函数值最理想的个体,最终获得最优的用户兴趣模型。
全文摘要
本发明提供的一种基于遗传算法的搜索方法及装置,通过依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型,并依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型,然后将搜索的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高的网页,以获得相关度较高的网页,既体现了用户的个性化,又提高了搜索的准确性。
文档编号G06F17/30GK102043846SQ20101059262
公开日2011年5月4日 申请日期2010年12月16日 优先权日2010年12月16日
发明者宁建红, 熊玉梅, 闫俊英 申请人:上海电机学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1