一种基于社会化标注的个性化搜索方法及系统的制作方法

文档序号：8543752阅读：209来源：国知局

一种基于社会化标注的个性化搜索方法及系统的制作方法
【技术领域】
[0001] 本发明设及一种捜索方法及系统，尤其是一种基于社会化标注的个性化捜索方法及系统。
【背景技术】
[0002] 近年来，随着Web2.0的普及和推广，越来越多基于此的应用得到推广W满足用户对互联网日益增加的需求。该其中，包括电子商务网站、博客W及社会化应用，它们使网络进化成为了社会化网络。在社会化网络中，用户可W通过标注等行为在自己感兴趣的文档 (包括网页及网页上的资源）上留下合适的记号。
[0003] 而社会化标注对于个性化捜索是非常有用的资源。一方面，不同用户从不同角度提供的标注对同一文档而言是很好的总结；另一方面，社会化标注可W看作理想化的个性化兴趣数据。该主要是由于；1、社会化标注由用户直接提供，所W该些标注可W被看作用户对于文档的个人意见，收集该些意见可W得到用户的兴趣或偏好；2、标注信息通常较易于通过网络得到并且很少包含敏感信息，所W使用标注信息进行个性化捜索并不需要额外的人力和物力。
[0004] 由于网络资源的急速增长，信息检索的效率和准确性都受到了不小的挑战，并且由于每一个用户的关注点及兴趣都各不相同，所W如何让每一个用户都能快速准确的找到感兴趣的捜索结果就成了一个重要的问题。传统的方法不考虑用户本身的兴趣，只考虑查询与文档之间的关系，虽然能使捜索结果的内容准确度有一个较好的水平，但依然无法让用户最快速度或许自身能想要的结果。已经有不少研究针对个性化捜索，但各种方法都存在一定的缺点，无法取得特别好的结果。
[0005] 现有的个性化捜索方法主要分为=种：
[0006] 1、通过调查问卷等形式让用户主动给出其兴趣，并基于用户给出的兴趣对原始结果进行重新排序。该种方法能取得较好的效果，但由于需要对用户进行调查，所W需要额外的开销，同时也存在用户不肯配合的情况。此外，由于调查问卷内容设置的有限性，所W很难涵盖用户兴趣的各个方面，也很难跟进用户兴趣的转移。
[0007] 2、基于用户的查询历史进行兴趣的构建，之后结合兴趣对文档进行打分。此种方法不需要额外的开销，但由于查询历史里经常会包含用户的隐私，所W使用此种方法可能会带来潜在的隐私问题。同时，由于用该种方法要求用户曾经有过查询，所W冷启动也是此种方法需要解决的问题。
[0008] 3、基于用户之间的相似度进行协同过滤，此种方法通过用户查询历史等信息计算用户之间的相似度，然后基于相似度对不同用户的查询结果进行一定比例的融合，得出个性化的捜索结果。此种方法同样需要面对冷启动的问题，同时由于其并不是基于用户本身的兴趣进行捜索，所W在捜索准确度上存在一定的偏差。

【发明内容】

[0009] 本发明的目的是提供一种提高用户信息检索的准确性且克服现有技术中捜索结果无法根据用户兴趣改变的缺陷的基于社会化标注的个性化捜索方法及系统。
[0010] 本发明解决现有技术问题所采用的技术方案；一种基于社会化标注的个性化捜索方法，该方法包括W下步骤：
[0011] A、预处理网页内容；对网页逐个进行扫描，采集每个网页中的标识符、网页文档内容、类别、给过标注的用户及对应用户给出的标签并将它们保存下来；对于同一网页，将标识符、网页类别、网页文档内容作为一组数据记录，标识符、给网页标注过的用户及对应用户给出的标签作为另一组数据记录；将所有网页的数据记录分类汇总保存，并对其中的网页文档内容和标签对照停用词表进行去停用词处理，并对网页文档内容和标签进行词干化处理，得到提取内容集；
[0012] B、在提取内容集中提取相关向量；所述相关向量包括文档内容向量、文档标签向量、用户属性向量W及用户类别向量；
[0013] 文档内容向量的提取方法为所有网页文档内容中出现过的词作为向量空间，对该网页文档内容做tf-i壯统计，得到文档内容向量，向量每一维的权重为tf-i壯值；
[0014] 文档标签向量的提取方法为；W所有网页上的标签作为向量空间，对文档被标注过的标签进行词频统计，得到文档标签向量，向量每一维的权重为该标签出现的次数；
[0015] 用户属性向量的提取方法为：对每一个标注过该文档的用户，W所有网页上的标签作为向量空间，对其在该文档上给出的标签进行频率统计，得到用户在该文档上的文档标签向量，向量每一维的权重为用户给出该标签的次数；对于每一个用户，将该用户对应的所有在文档上的文档标签向量进行累加，得到该用户的用户属性向量；
[0016] 用户类别向量的提取方法为所有网页类别作为向量空间，对用户标注过的网页的类别进行频率统计，得到用户类别向量，向量每一维的权重为该用户标注过的该类别网页的数量；
[0017] C、计算用户相似度；对目标用户和其他任一用户的用户属性向量求夹角余弦值得到用户属性相似度；对目标用户和其他任一用户的用户类别向量求夹角余弦值得到用户类别相似度；然后将用户属性相似度乘W用户类别相似度作为目标用户和其他任一用户之间的相似度，公式如下：
[001引化rsim(u，，U) =Cos(Cu'，Cu)XCos(Pu'，Pu)
[0019] 其中，u为目标用户，u'为其他任一用户，Persim(u'，u)为两者的相似度，Cu为目标用户的类别向量，(V为其他用户的类别向量，Pu为目标用户的属性向量，Pul为其他任一用户的属性向量，Cos(a,b)为a和b的夹角余弦值；
[0020] D、选取相似用户；根据在0-1范围内预设的相似度阔值，选择相似度值超过相似度阔值的用户为目标用户的相似用户；
[0021] E、计算用户对文档的个性化标签向量；对任一篇文档，将每一个目标用户与相似用户的相似度乘W对应相似用户在本篇文档上的标签向量并求和，得到目标用户对文档的个性化标签向量；公式如下：
[0022]
【主权项】
1. 一种基于社会化标注的个性化搜索方法，其特征在于，该方法包括以下步骤： A、预处理网页内容：对网页逐个进行扫描，采集每个网页中的标识符、网页文档内容、类别、给过标注的用户及对应用户给出的标签并将它们保存下来；对于同一网页，将标识符、网页类别、网页文档内容作为一组数据记录，标识符、给网页标注过的用户及对应用户给出的标签作为另一组数据记录；将所有网页的数据记录分类汇总保存，并对其中的网页文档内容和标签对照停用词表进行去停用词处理，并对网页文档内容和标签进行词干化处理，得到提取内容集； B、在提取内容集中提取相关向量：所述相关向量包括文档内容向量、文档标签向量、用户属性向量以及用户类别向量；文档内容向量的提取方法为：以所有网页文档内容中出现过的词作为向量空间，对该网页文档内容做tf-idf统计，得到文档内容向量，向量每一维的权重为tf-idf值；文档标签向量的提取方法为：以所有网页上的标签作为向量空间，对文档被标注过的标签进行词频统计，得到文档标签向量，向量每一维的权重为该标签出现的次数；用户属性向量的提取方法为：对每一个标注过该文档的用户，以所有网页上的标签作为向量空间，对其在该文档上给出的标签进行频率统计，得到用户在该文档上的文档标签向量，向量每一维的权重为用户给出该标签的次数；对于每一个用户，将该用户对应的所有在文档上的文档标签向量进行累加，得到该用户的用户属性向量；用户类别向量的提取方法为：以所有网页类别作为向量空间，对用户标注过的网页的类别进行频率统计，得到用户类别向量，向量每一维的权重为该用户标注过的该类别网页的数量； C、计算用户相似度：对目标用户和其他任一用户的用户属性向量求夹角余弦值得到用户属性相似度；对目标用户和其他任一用户的用户类别向量求夹角余弦值得到用户类别相似度；然后将用户属性相似度乘以用户类别相似度作为目标用户和其他任一用户之间的相似度，公式如下： Persim(u'，u) = Cos (cu>, cu) X Cos (pu>, pu) 其中，u为目标用户，u'为其他任一用户，PersimOi'，u)为两者的相似度，c

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林鸿飞;管毅舟;
技术所有人：大连理工大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。