一种基于社会化标注的个性化搜索方法及系统的制作方法

文档序号:8543752阅读:209来源:国知局
一种基于社会化标注的个性化搜索方法及系统的制作方法
【技术领域】
[0001] 本发明设及一种捜索方法及系统,尤其是一种基于社会化标注的个性化捜索方法 及系统。
【背景技术】
[0002] 近年来,随着Web2.0的普及和推广,越来越多基于此的应用得到推广W满足用户 对互联网日益增加的需求。该其中,包括电子商务网站、博客W及社会化应用,它们使网络 进化成为了社会化网络。在社会化网络中,用户可W通过标注等行为在自己感兴趣的文档 (包括网页及网页上的资源)上留下合适的记号。
[0003] 而社会化标注对于个性化捜索是非常有用的资源。一方面,不同用户从不同角度 提供的标注对同一文档而言是很好的总结;另一方面,社会化标注可W看作理想化的个性 化兴趣数据。该主要是由于;1、社会化标注由用户直接提供,所W该些标注可W被看作用户 对于文档的个人意见,收集该些意见可W得到用户的兴趣或偏好;2、标注信息通常较易于 通过网络得到并且很少包含敏感信息,所W使用标注信息进行个性化捜索并不需要额外的 人力和物力。
[0004] 由于网络资源的急速增长,信息检索的效率和准确性都受到了不小的挑战,并且 由于每一个用户的关注点及兴趣都各不相同,所W如何让每一个用户都能快速准确的找到 感兴趣的捜索结果就成了一个重要的问题。传统的方法不考虑用户本身的兴趣,只考虑查 询与文档之间的关系,虽然能使捜索结果的内容准确度有一个较好的水平,但依然无法让 用户最快速度或许自身能想要的结果。已经有不少研究针对个性化捜索,但各种方法都存 在一定的缺点,无法取得特别好的结果。
[0005] 现有的个性化捜索方法主要分为=种:
[0006] 1、通过调查问卷等形式让用户主动给出其兴趣,并基于用户给出的兴趣对原始结 果进行重新排序。该种方法能取得较好的效果,但由于需要对用户进行调查,所W需要额外 的开销,同时也存在用户不肯配合的情况。此外,由于调查问卷内容设置的有限性,所W很 难涵盖用户兴趣的各个方面,也很难跟进用户兴趣的转移。
[0007] 2、基于用户的查询历史进行兴趣的构建,之后结合兴趣对文档进行打分。此种方 法不需要额外的开销,但由于查询历史里经常会包含用户的隐私,所W使用此种方法可能 会带来潜在的隐私问题。同时,由于用该种方法要求用户曾经有过查询,所W冷启动也是此 种方法需要解决的问题。
[0008] 3、基于用户之间的相似度进行协同过滤,此种方法通过用户查询历史等信息计算 用户之间的相似度,然后基于相似度对不同用户的查询结果进行一定比例的融合,得出个 性化的捜索结果。此种方法同样需要面对冷启动的问题,同时由于其并不是基于用户本身 的兴趣进行捜索,所W在捜索准确度上存在一定的偏差。

【发明内容】

[0009] 本发明的目的是提供一种提高用户信息检索的准确性且克服现有技术中捜索结 果无法根据用户兴趣改变的缺陷的基于社会化标注的个性化捜索方法及系统。
[0010] 本发明解决现有技术问题所采用的技术方案;一种基于社会化标注的个性化捜索 方法,该方法包括W下步骤:
[0011] A、预处理网页内容;对网页逐个进行扫描,采集每个网页中的标识符、网页文档内 容、类别、给过标注的用户及对应用户给出的标签并将它们保存下来;对于同一网页,将标 识符、网页类别、网页文档内容作为一组数据记录,标识符、给网页标注过的用户及对应用 户给出的标签作为另一组数据记录;将所有网页的数据记录分类汇总保存,并对其中的网 页文档内容和标签对照停用词表进行去停用词处理,并对网页文档内容和标签进行词干化 处理,得到提取内容集;
[0012] B、在提取内容集中提取相关向量;所述相关向量包括文档内容向量、文档标签向 量、用户属性向量W及用户类别向量;
[0013] 文档内容向量的提取方法为所有网页文档内容中出现过的词作为向量空间, 对该网页文档内容做tf-i壯统计,得到文档内容向量,向量每一维的权重为tf-i壯值;
[0014] 文档标签向量的提取方法为;W所有网页上的标签作为向量空间,对文档被标注 过的标签进行词频统计,得到文档标签向量,向量每一维的权重为该标签出现的次数;
[0015] 用户属性向量的提取方法为:对每一个标注过该文档的用户,W所有网页上的标 签作为向量空间,对其在该文档上给出的标签进行频率统计,得到用户在该文档上的文档 标签向量,向量每一维的权重为用户给出该标签的次数;对于每一个用户,将该用户对应的 所有在文档上的文档标签向量进行累加,得到该用户的用户属性向量;
[0016] 用户类别向量的提取方法为所有网页类别作为向量空间,对用户标注过的网 页的类别进行频率统计,得到用户类别向量,向量每一维的权重为该用户标注过的该类别 网页的数量;
[0017] C、计算用户相似度;对目标用户和其他任一用户的用户属性向量求夹角余弦值得 到用户属性相似度;对目标用户和其他任一用户的用户类别向量求夹角余弦值得到用户类 别相似度;然后将用户属性相似度乘W用户类别相似度作为目标用户和其他任一用户之间 的相似度,公式如下:
[001引 化rsim(u,,U) =Cos(Cu',Cu)XCos(Pu',Pu)
[0019] 其中,u为目标用户,u'为其他任一用户,Persim(u',u)为两者的相似度,Cu为目 标用户的类别向量,(V为其他用户的类别向量,Pu为目标用户的属性向量,Pul为其他任一 用户的属性向量,Cos(a,b)为a和b的夹角余弦值;
[0020] D、选取相似用户;根据在0-1范围内预设的相似度阔值,选择相似度值超过相似 度阔值的用户为目标用户的相似用户;
[0021] E、计算用户对文档的个性化标签向量;对任一篇文档,将每一个目标用户与相似 用户的相似度乘W对应相似用户在本篇文档上的标签向量并求和,得到目标用户对文档的 个性化标签向量;公式如下:
[0022]
【主权项】
1. 一种基于社会化标注的个性化搜索方法,其特征在于,该方法包括以下步骤: A、 预处理网页内容:对网页逐个进行扫描,采集每个网页中的标识符、网页文档内容、 类别、给过标注的用户及对应用户给出的标签并将它们保存下来;对于同一网页,将标识 符、网页类别、网页文档内容作为一组数据记录,标识符、给网页标注过的用户及对应用户 给出的标签作为另一组数据记录;将所有网页的数据记录分类汇总保存,并对其中的网页 文档内容和标签对照停用词表进行去停用词处理,并对网页文档内容和标签进行词干化处 理,得到提取内容集; B、 在提取内容集中提取相关向量:所述相关向量包括文档内容向量、文档标签向量、用 户属性向量以及用户类别向量; 文档内容向量的提取方法为:以所有网页文档内容中出现过的词作为向量空间,对该 网页文档内容做tf-idf统计,得到文档内容向量,向量每一维的权重为tf-idf值; 文档标签向量的提取方法为:以所有网页上的标签作为向量空间,对文档被标注过的 标签进行词频统计,得到文档标签向量,向量每一维的权重为该标签出现的次数; 用户属性向量的提取方法为:对每一个标注过该文档的用户,以所有网页上的标签作 为向量空间,对其在该文档上给出的标签进行频率统计,得到用户在该文档上的文档标签 向量,向量每一维的权重为用户给出该标签的次数;对于每一个用户,将该用户对应的所有 在文档上的文档标签向量进行累加,得到该用户的用户属性向量; 用户类别向量的提取方法为:以所有网页类别作为向量空间,对用户标注过的网页的 类别进行频率统计,得到用户类别向量,向量每一维的权重为该用户标注过的该类别网页 的数量; C、 计算用户相似度:对目标用户和其他任一用户的用户属性向量求夹角余弦值得到用 户属性相似度;对目标用户和其他任一用户的用户类别向量求夹角余弦值得到用户类别相 似度;然后将用户属性相似度乘以用户类别相似度作为目标用户和其他任一用户之间的相 似度,公式如下: Persim(u',u) = Cos (cu>, cu) X Cos (pu>, pu) 其中,u为目标用户,u'为其他任一用户,PersimOi',u)为两者的相似度,c
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1