一种基于偏好的多数据源融合的网络搜索系统及控制方法与流程

文档序号:11407348阅读:180来源:国知局
一种基于偏好的多数据源融合的网络搜索系统及控制方法与流程

本发明属于数据处理领域,尤其涉及一种基于偏好的多数据源融合的网络搜索系统及控制方法。



背景技术:

随着计算机和互联网技术的快速发展,人们获取信息的便利性得到了极大的提高。特别是随着互联网以及移动终端的普及,对网络中海量数据的搜索日益成为人们研究的重要课题。为了便于用户可以查询到自己想要的信息,各种网络搜索系统应运而生。用户通过向网络系统输入关键词,就可以找到包含关键词的网页内容。

然而,由于互联网数据量日益庞大,通过网络搜索系统进行搜索,获得的满足条件的搜索结果也非常多,而搜索结果往往没有按照一个合理的顺序进行排序。对于这些搜索结果往往需要进行多次的点击查看操作,才能找到符合自身期望的搜索结果。

另一方面,现有的搜索结果不会没有考虑其他用户对于该信息的评价,无法给用户提供更精准的搜索结果。其次,现有的搜索同样忽视了社交网络的融合,随着社交网络技术的发展,人们之间的交流变得愈发的频繁,而用户通过现有的搜索系统搜索到想要的结果后,不能实现用户之间的即时经验交流。用户通过平台交流搜索结果,可以分享对搜索结果的认识和心得。比如:xxx来到一个陌生的城市游玩,想要寻找一家比较符合自己要求的景点。然后xxx打开手机上的浏览器,搜到的信息多种多样,查找起来比较费时费力。xxx打开点评网站,逐条查看相关景点的用户评价,但是单从点评网站获得的信息不够准确,自己还要对大量信息进行筛选过滤。这样得到结果比较麻烦,而且对信息的可靠性还存在疑虑。xxx在思考之余刷着微博,灵光一现,微博会有一些用户对于相关地方景点的推荐以及评价,也可作为一项参考。xxx想到了咨询相关朋友,但是对这边了解的朋友又不多,提供的信息也有限,在线咨询附近的人,对结果又无法百分百的相信。但是用本搜索系统就可以改善该状况,因为本搜索系统首先会根据用户的偏好建立偏好模型,用户在进行关键字搜索的时候,本搜索系统会调用各个搜索引擎的接口,将各搜索结果首先进行信息筛选,将不符合用户偏好的信息过滤,这样保证获得的信息是最符合用户偏好习惯。其次用户还会调用相关景点点评网站的用户点评数据,增加数据的可靠性。当然本搜索的用户还可以获得社交网络中的数据进行相应的数据校正。而且用户可以进行在线咨询,可以是在线好友,也可以是附近的人,获得推荐信息。然后本系统会对来自几方面的数据源提供的数据信息按照用户偏好模型进行偏好相关性得分的计算,按照得分高低进行排序。最后本系统会按照用户的选择,相关偏好习惯以及终端的适配进行呈现。同时,用户最终的结果选择以及呈现方式选择都会对用户偏好模型有更新的作用。最终,用户不仅会获得与自己期望更接近的数据信息,同时,也会给用户带来非常舒适的用户体验。

与本发明相关的现有技术:

现有技术一:一种搜索与社交相结合的网络搜索方法及其系统;

其技术方案中是:用户通过输入关键字获得初步搜索结果和相关用户信息。然后按照相似度和匹配用户的使用状态对相关用户信息排序,形成匹配用户序列,将匹配用户序列和搜索结果信息整合到一个页面展示给用户。最后根据展示给用户的页面信息,选择匹配用户交互探讨,对搜索结果进行进一步筛选,获得最终搜索结果。

现有技术一的缺点:

1.数据源单一,仅比普通搜索多一个匹配用户序列,对于搜索结果没有改进。

2.词汇相似度计算方法比较模糊化,有一定的使用局限性;其中,地址相近度的定义不是完全准确,存在一种可能:当用户在异地搜索时,该定义方法不准确。

3.该方案只考虑了和相关匹配用户的最终选择,没有考虑用户个人的偏好模型。个人偏好模型对于用户搜索结果的选择更有参考价值。

与本发明相关的现有技术二

现有技术二的技术方案:

一种基于多数据源的信息搜索方法和系统。

该方案将多个数据源划分为主数据源和次数据源,然后根据查询词,从各个主数据源和次数据源中查找目标数据,根据从每个次数据源中查找到目标数据,确定次数据源的数据入口。然后将从各个主数据源中查找到的目标数据以及各个次数据源的数据入口进行混合排序,根据混合排序结果确定搜索结果。

现有技术二的缺点:

1.只考虑了数据源个数的多少,但是数据源的种类是一致的。没有考虑其他种类数据源对搜索结果进行校验。

2.数据搜索过程没有考虑用户偏好,导致搜索出的结果不一定符合用户的偏好。

3.数据源主次的划分不明显,缺乏明确的定义。



技术实现要素:

本发明所要解决的技术问题是针对背景技术的不足提供了一种基于偏好的多数据源融合的网络搜索系统及控制方法。

本发明为解决上述技术问题采用以下技术方案

一种基于偏好的多数据源融合的网络搜索系统,包含关键词输入单元、第一数据源单元、第二数据源单元、第三数据源单元、第一预处理单元、第二预处理单元、第三预处理单元、预整合单元、整合单元、用户偏好模型单元、终端适配单元;

其中,关键词输入单元,用于获取用户输入数据信息;

第一数据源单元,用于对关键词进行搜索;

第二数据源单元,用于对用户关键词在口碑网站评价信息的搜索;

第三数据源单元,用于对社交网络中关键词信息的搜索;

第一预处理单元,用于对属于第一数据源单元的多数据源的搜索结果根据用户偏好模型进行所有搜索结果的信息筛选,将不符合用户偏好的信息过滤;

第二预处理单元,用于在用户偏好模型控制下对属于第二数据源单元的多数据源的搜索结果按照每条结果的得分从高到低排列或者按照每条结果的结果从优到劣的排序;

第三预处理单元,用于用户可以通过社交网络进行信息的获取以及对信息按照完整度进行排序;

预整合单元,用于将第一数据源单元和第二数据源单元预处理的信息进行整合;

整合单元,用于将预整合单元的输出结果和第三预处理单元的输出结果进行再次整合;

用户偏好模型单元,用于建立用户偏好模型,对预整合单元和整合单元信息进行排序校正;

终端适配单元,用于将筛选过的信息按照用户偏好以及终端设备设置显示。

一种多数据源融合的网络搜索系统的控制方法,具体包含如下步骤;

步骤1,获取用户的偏好,建立用户偏好模型;

步骤2,获取用户输入的关键字,根据关键字分别获得第一数据源单元、第一数据源单元、第一数据源单元的搜索结果和相关用户信息,进而获得不同数据源的搜索结果或咨询结果;

步骤3,根据用户的偏好模型对步骤2的输出结果进行预处理;

步骤4,将第一预处理单元和第二预处理单元的输出结果进行信息的预整合;

步骤5,将第三预处理单元的输出结果和步骤4的结果进行再次整合;

步骤6,将步骤5整合过的信息结果根据终端适配单元的性能以及用户的偏好习惯进行显示。

作为本发明一种多数据源融合的网络搜索系统的控制方法的进一步优选方案,在步骤1中,通过显式和隐式结合的方法提取用户兴趣。

作为本发明一种多数据源融合的网络搜索系统的控制方法的进一步优选方案,在步骤2中,用户信息的来源具体包含以下方面:

(1)用户自己定义设置和修改的用户兴趣偏好模型;

(2)在搜索接口中,用户输入的检索关键字;

(3)用户收藏;

(4)用户浏览行为。

作为本发明一种多数据源融合的网络搜索系统的控制方法的进一步优选方案,所述步骤3具体包含如下步骤:

步骤3.1,通过第一预处理单元对第一数据源单元的多数据源的搜索结果根据用户偏好模型进行信息筛选;

步骤3.2,通过第二预处理单元对第二数据源的多数据源的搜索结果按照每条结果的得分从高到低排列;

步骤3.3,用户可以通过社交网络进行信息的获取以及对信息按照完整度进行排序。

作为本发明一种多数据源融合的网络搜索系统的控制方法的进一步优选方案,所述步骤4具体包含如下步骤:

步骤4.1,将第一数据源预处理单元和第二数据源预处理单元预处理后的信息进行整合;

步骤4.2,判断用户对于第二数据源单元预处理后的信息的可接受标准;

步骤4.3,将4.2对各条信息的评价和步骤4.1得出的信息与用户的相关性得分相乘,计算出每条信息新的得分,按照这个最新得分重新排序,得到预整合后的结果;步骤4.4,将步骤3.3所得信息集合按照上述信息与偏好相关性算法计算相关性得分,与步骤4.3所得的数据集合,重新按照信息得分排序。

作为本发明一种多数据源融合的网络搜索系统的控制方法的进一步优选方案,在步骤2中,用户的偏好习惯包含显示字体的大小、亮度、每页显示的搜索结果条数;终端适配单元的性能包含处理器的性能和分辨率。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1、用户偏好模型的建立与更新:用户偏好模型首先是根据用户注册时偏好的设定进行建立,在用户进行用户查询时根据用户的浏览行为对用户的偏好模型进行更新;

2、实现多数据源的融合:本发明主要分为三类数据源,第一数据源为搜索引擎,如百度,谷歌等;第二数据源为点评团购网站或者智慧城市下的数据传感器等,点评团购网站包括:新美大、携程等,本发明主要获取其对所搜结果的评价,而智慧城市下的传感器包括空气质量、交通情况等传感器,本发明主要获取其采集数据,对相关搜索进行校正;第三数据源为社交网络,包括微博、微信、qq等,一方面可以进行在线咨询,寻求推荐,另一方面可以获得别人发布在社交网络上的状态以及文章;通过依据三个数据源各自的特性进行数据融合,可以解决单一数据源搜索结果不精确,而且没有考虑用户个体偏好的问题,从而提供给用户更好的搜索结果与用户体验;

3、通过使用本搜索系统,不仅可以获得符合自己偏好的搜索结果,而且可以获得比其他搜索平台更好的用户体验;首先体现在信息结果的精准性,不需要查看很多条信息就可以获得自己满意的搜索结果,而且,对于搜索结果的准确性有一定的保障;其次,搜索结果的呈现符合用户平时的使用习惯,使其不需要频繁的手动设置;最后,将社交网络结合进来,能够促进用户间的交流,丰富用户的搜索方式。

附图说明

图1是为本发明所提供的多数据源融合系统的整体结构示意图;

图2是本发明所提供的多数据源融合系统的处理结构图;

图3是本发明所提供的多数据源融合系统的终端适配流程图;

图4是本发明所提供的用户偏好建模结构图;

图5是本发明所提供的用户偏好建模流程图;

图6是本发明所提供的用户偏好模型更新流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

本发明首先会根据用户的偏好建立偏好模型,用户在进行关键字搜索的时候,本发明会调用各个搜索引擎的接口,将各搜索结果首先进行信息筛选,将不符合用户偏好的信息过滤,这样保证获得的信息是最符合用户偏好习惯。其次用户还会调用相关关键字点评网站的用户点评数据,增加数据的可靠性。当然本搜索的用户还可以获得社交网络中的数据进行相应的数据校正。而且用户可以进行在线咨询,可以是在线好友,也可以是附近的人,获得推荐信息。或者在微博中进行相关关键词的搜索,会有大量相关信息的搜索结果,对本部分搜索结果按照用户偏好模型进行筛选,选出符合用户偏好的信息。然后对相关信息按照该信息的传播影响排序,主要是点赞和转发数量之和作为衡量指标,可以确保排在前面的信息的可靠性。然后本发明会对来自第一数据源单元和第二数据源单元提供的数据信息按照用户偏好模型进行预处理,按照得分高低进行排序。接着再通过社交网络数据对预处理后的数据进行校验排序。最后本系统会按照用户的选择,相关偏好习惯以及终端的适配进行呈现。同时,用户最终的结果选择以及呈现方式选择都会对用户偏好模型有更新的作用。最终,用户不仅会获得与自己期望更接近的数据信息,同时,也会给用户带来非常舒适的用户体验。

首先提供了一种基于偏好的多数据源融合的网络搜索系统,其系统结构如图1所示,它包含关键词输入单元、数据源单元、预处理单元、预整合单元、整合单元、用户偏好模型单元、终端适配单元。其中,数据源单元通过关键词输入单元获取的关键词进行各数据源的关键词搜索;预处理单元根据第一数据源单元和第二数据源单元所得信息地特性按照用户偏好模型进行预处理;整合单元则是将第三数据源单元预处理后的数据与预整合后的数据按照用户偏好模型进行重新组合排序;终端适配单元则是用户适配终端的处理能力以及根据用户偏好模型给用户呈现友好界面;用户偏好模型单元根据用户的人为设定以及用户行为建立,存在于各数据源处理阶段,对数据处理有着指向性的作用,同时偏好模型会实时根据用户行为进行学习更新。

第一预处理单元,用于对属于第一数据源单元的多数据源的搜索结果首先根据用户偏好模型进行所有搜索结果的信息筛选,将不符合用户偏好的信息过滤;数据源1可以是搜索引擎:如百度,谷歌等。例如:同一关键字在上面几个不同的搜索引擎中进行搜索会获得不同的搜索结果集合;

第二预处理单元,用于在用户偏好模型控制下对属于第二数据源单元的多数据源的搜索结果按照每条结果的得分从高到低排列或者按照每条结果的结果从优到劣的排序。数据源2可以是点评网站,如:美团,大众点评或者携程等,也可以是智慧城市下的传感器数据,如交通情况,空气质量情况等。例如:同一关键词在不同的点评网站上用户评价的得分不同。首先将其评价标准统一化成5分制,比如在满分10分的评价网站获得8分,则该评价得分换算成4分,然后将统一化的各网站对同一关键词的求平均分,按照平均分高低进行排序;再对比用户偏好模型,将不符合用户偏好的信息过滤,留下符合用户要求的信息。又比如:对路线进行搜索,会有多条路线的选择,按照用户偏好模型提供用户优先属性选择进行从最优到最差的排序。如用户希望用时最少,按照时间从少到多排序。

第三预处理单元,用于用户可以通过社交网络进行信息的获取以及对信息按照完整度进行排序。数据源3可以是本平台的用户或者终端定位附近的人以及社交网络,如微信,qq,微博,或者本平台提供的附近的人以及在线注册用户。比如:发布一条求助问题,可能会有多个信息的返回;或者求助不同好友以及附近的人,会有不同的答案。或者在微博中进行相关关键词的搜索,会有大量相关信息的搜索结果,对本部分搜索结果按照用户偏好模型进行筛选,选出符合用户偏好的信息。然后对相关信息按照该信息的传播影响排序,主要是点赞和转发数量之和作为衡量指标,可以确保排在前面的信息的可靠性。

预整合单元,用于将数据源1和数据源2预处理的信息进行整合。首先对数据源1结果文档信息和用户偏好信息进行相关性得分计算,从而真正达到个性化的目的。

整合单元,用于将步骤s33所得信息集合按照上述信息与偏好相关性算法计算相关性得分,与步骤s43所得的数据集合,重新按照信息得分排序。排序过程中,首先确认信息之间是否对应于同一主题,比如同一酒店,同一景点,若存在,则求两得分的平均分;若无,则直接按照分值大小排序。从而得到整合后的结果。

2.2.2.多数据源融合系统的处理结构图:

上述结构图基础上,本发明进一步细化预处理单元、预整合单元、整合单元部分的处理,结构图如图2。具体步骤如下

s1,获取用户的偏好,建立用户偏好模型;获取用户输入的关键字,根据关键字获得初步的搜索结果和相关用户信息;

s2,获取用户输入的关键字,根据关键字获得初步的搜索结果,获得不同数据源的搜索结果或者咨询结果;

s3,根据用户的偏好模型对各数据源的结果进行预处理;

s4,将第一预处理单元和第二数据源单元预处理的结果进行信息的预整合;

s5,将第三数据源单元和s4的结果进行再次整合;

s6,将整合过的信息结果根据终端的性能以及用户的偏好习惯进行显示,用户即可以获得自己想要的信息。

其中较优地,步骤s1中进一步包括如下步骤:

s11,系统通过者隐式和隐式结合的方法提取用户兴趣,进行用户兴趣偏好的挖掘。用户兴趣的挖掘和提取是建立用户偏好模型的第一步,高效并且有效的用户兴趣模型有助于提高整个系统的效率以及准确度。

其中,用户信息的主要来源主要有以下几个方面:

(1)用户自己定义设置和修改用户兴趣偏好模型;

(2)在搜索接口中,用户输入的检索关键字

(3)用户收藏:通常用户将自己感兴趣的文档添加到收藏夹中进行保存,以便下次再进行访问,所以,本发明作如下假设:若用户收藏当前文档则认为该文档存在着用户感兴趣的内容。

(4)用户浏览行为:当用户激活目前文档且系统处于活动状态时,用户在该文档浏览停留的时间越长,表示其对页面的兴趣越大。

s12,本发明利用领域主题词集合和各领域主题词的关键词集合表达用户的兴趣爱好。可用领域主题节点集合用{k1,k2,k3,…,kn}来表示,第i个主题的关键词集合用{ki1,ki2,ki3,…,kin}。从领域主题关键词集合是发现用户兴趣偏好的查找过程。其中,关键词的权重,本发明采用tf-idf算法中的表示方法:

其中,wij为第i主题中第j关键词kij的权重,tf(kij,d)为关键词kij在文档d中出现的次数,n为文档总数,df(kij)为包含关键词的文档数,依次计算每个关键词的权值,可得用户兴趣主题向量,领域主题节点的权重用其附属子节点的权重之和表示;

其中较优地,步骤s3中进一步包括如下步骤:

s31,预处理1所解决的问题是对属于数据源1的多数据源的搜索结果首先根据用户偏好模型进行所有搜索结果的信息筛选,将不符合用户偏好的信息过滤。数据源1可以是搜索引擎:如百度,谷歌等。例如:同一关键字在上面几个不同的搜索引擎中进行搜索会获得不同的搜索结果集合;

s32,第二预处理单元所要解决的问题是在用户偏好模型控制下对属于第二数据源单元的多数据源的搜索结果按照每条结果的得分从高到低排列或者按照每条结果的结果从优到劣的排序。第二数据源单元可以是点评网站,如:美团,大众点评或者携程等,也可以是智慧城市下的传感器数据,如交通情况,空气质量情况等。例如:同一关键词在不同的点评网站上用户评价的得分不同。首先将其评价标准统一化成5分制,比如在满分10分的评价网站获得8分,则该评价得分换算成4分,然后将统一化的各网站对同一关键词的求平均分,按照平均分高低进行排序;再对比用户偏好模型,将不符合用户偏好的信息过滤,留下符合用户要求的信息。又比如:对路线进行搜索,会有多条路线的选择,按照用户偏好模型提供用户优先属性选择进行从最优到最差的排序。如用户希望用时最少,按照时间从少到多排序。

s33,第三预处理单元所要解决的问题是用户可以通过社交网络进行信息的获取以及对信息按照完整度进行排序。数据源3可以是本平台的用户或者终端定位附近的人以及社交网络,如微信,qq,微博,或者本平台提供的附近的人以及在线注册用户。比如:发布一条求助问题,可能会有多个信息的返回;或者求助不同好友以及附近的人,会有不同的答案。或者在微博中进行相关关键词的搜索,会有大量相关信息的搜索结果,对本部分搜索结果按照用户偏好模型进行筛选,选出符合用户偏好的信息。然后对相关信息按照该信息的传播影响排序,主要是点赞和转发数量之和作为衡量指标,可以确保排在前面的信息的可靠性。

s41,将第一数据源单元和第二数据源单元预处理的信息进行整合。首先对数据源1结果文档信息和用户偏好信息进行相关性得分计算,从而真正达到个性化的目的。

其中较优地,其中文档信息和偏好相关性得分算法表达如下:

(1)根据查询关键词,利用预处理之后的搜索结果集s1

(2)置迭代次数i=0;

(3)对集合s1中的第i篇文档,将文档整合成为特征词集合和将用户兴趣偏好模型中的主题词描述为特征词序列,根据特征词集合,建立和领域主题特征空间向量;

(4)根据下列公式,计算文档特征空间向量和用户兴趣特征空间向量的相似度;

其中,dj为每个文档克表示的特征词集合,p表示用户偏好的领域主题集合;

pi是领域主题,kij是第i领域主题第k个关键词,dj是文档j,n是相关搜索文档总数,j是遍历i领域主题内每个关键词;

(5)根据相似度sim(pi,dj)的对主题进行降序排列,将文档归入与该文档相似度最高的领域主题pi;

(6)如果文档i是集合s1中最后一篇文档,转(5);否则,置i=i+1,返回(3);

(7)根据用户对领域主题pi的偏好度即hi的大小进行排序,确定排名在前端的文档属于用户最感兴趣的领域主题,生成新的列表集合s2.。

其中,较优地,文档评分如下:

(1)两个归一化向量之间的余弦值,计算方法为:

(2)用户兴趣偏好模型中的词条权重,这里使用上述的tf-idf算法,计算公式为:

(3)用户兴趣偏好模型中关键词在文档中出现频率、关键词词条在文档中所占比重。因此,对结果文档评分,还需要计算的有:用户兴趣偏好向量与文档向量;兴趣主题词pi在文档中的出现频率;文档中所有关键词词条的长度和文档的长度之比。用户兴趣偏好模型中,主题词pi通过分词处理后得到词条的集合为pi=(ki,k2,...kn),主题词pi在文档dj中出现频率和词条覆盖率用gra(pi,dj),计算公式如下:

gra(pi,dj)=fre(pi,dj)*dl(pi/dj)*∑tf(pi/dj)

其中fre(pi,dj)表示文档dj中,兴趣主题词pi出现的次数除以兴趣主题词pi进行分词处理后得到的总的词条数n,例如,兴趣主题词pi在结果文档dj中出现了m次,则fre(pi,dj)=m/n。

其中tf(pi/dj)表示词pi解析出的词条在文档dj中的频率,本发明定义该频率为词条在结果文档中的出现次数的平方根。

其中dl(pi/dj)表示文档长度因子,计算公式如下:

dl(pi/dj)=1.0/math.aqrt(unm)

其中num表示结果文档中的词条总数。

(4)综合以上因素,对结果文档的评分可表示为:

score(u,dj)=gra(pi,dj)*wij*sim(pi,dj)

所评分数越高,代表结果文档与用户的相关度越大。然后按照相关得分从高到低排列。

s42,需要判断用户对于第二数据源单元预处理后的信息的可接受标准,以酒店评分为例,比如满分为5分,用户可接受的最低标准为4分,则4分的酒店权值为1,分值为4.5的评论对应权值为4.5/4=1.125,分值为3分的酒店对应权值为3/4=0.75,依次计算各酒店的权值。

s43,将s42对各条信息的评价和s41得出的信息与用户的相关性得分相乘,计算出每条信息新的得分,按照这个最新得分重新排序,得到预整合后的结果。

s5,将步骤s33所得信息集合按照上述信息与偏好相关性算法计算相关性得分,与步骤s43所得的数据集合,重新按照信息得分排序。排序过程中,首先确认信息之间是否对应于同一主题,比如同一酒店,同一景点,若存在,则求两得分的平均分;若无,则直接按照分值大小排序。从而得到整合后的结果。

2.2.3多数据源融合系统的终端适配流程图

在上述结构图基础上,本发明所提供的多数据源融合系统的终端适配流程图如图3。用户整合后的信息集合首先判断是用户默认选择,比如想要查询的是附近的酒店,平时酒店品牌是首要考虑的因素,因此建立好的用户偏好模型优先考虑酒店品牌推荐。但是用户此时比较累,想优选选择距离近的酒店,因此用户可以选择距离优先,偏好模型根据用户的选择即时更新。同时,信息得分按照偏好与信息得分重新计算,重新排序。再按照用户偏好进行界面呈现,如用户常用字体大小,没有显示的条数等。

2.2.4用户偏好建模结构图

本发明所提供的多数据源融合系统的偏好模型建模如图4。首先根据用户注册时偏好的选择进行用户偏好兴趣的识别,将用户偏好进行分类,领域主题词集合和各领域主题词的关键词集合表达用户的兴趣爱好。可用领域主题节点集合用{k1,k2,k3,…,kn}来表示,第i个主题的关键词集合用{ki1,ki2,ki3,…,kin}。从领域主题关键词集合是发现用户兴趣偏好的查找过程。景点作为一个领域,其关键词则包括和景点相关的所有属性,如价格、地点、特点等等。将所有的可搜集到的用户偏好信息进行归类,同时按照tf-idf算法进行关键词权重计算。当用户输入搜索词时首先判断是属于哪个领域,然后根据赋予权重的各属性进行相关文档得分的计算,具体建模过程见2.2.5。同时,还可以根据用户查询浏览行为等用户习惯更新用户偏好的数据库,详细过程见2.2.6。

2.2.5用户偏好建模流程图:

具体用户偏好建模方法如图5。用户登录的时候判断是否为新用户,若是新用户则需注册,按照系统设定的规则进行兴趣偏好的设定,后台根据用户的行为自动更新用户兴趣偏好库。如果用户已经注册,输入查询关键字,跟踪用户的浏览行为,如所查看信息的时长以及属性领域等,从行为分析中提取该领域下的属性关键字,将该属性的权值与所设定的阈值进行比较。如果权值大于阈值,更新数据库,反之丢弃。具体更新方法见2.2.6。

2.2.6用户偏好模型更新流程图如图6所示:

用户阅读文档dj,系统统计出文档中出现特征关键词kj,并且按照tf-idf算法计算关键词kj的权重系数wj。如果关键词kj已存在于模型库中,则将kj原权值与新计算出的权值wj相加,得出新的kj权重系数。如果关键词kj不存在于模型库中,则将kj与权值wj都加入到模型库,从而更新了用户的偏好模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1