专利名称:一种社会化的搜索引擎方法和系统的制作方法
技术领域:
本发明涉及互联网信息处理领域中的搜索引擎技术,具体为一种社会化的搜索引擎方法和系统。
背景技术:
搜索引擎作为互联网信息检索的重要工具,极大地节省了用户获取信息的时间和精力。然而,随着网络的普及,存在于网络资源池中的数据呈指数型增长,搜索引擎已经越来越难以满足用户的搜索需求。特别是Web2. O的出现与发展,更多地考虑了人的因素,充分发挥了人的互动性,更促使互联网成为了一个人们可以将自己隐性知识转化流通、可共享显性知识的互动平台。因而,互联网中的信息资源也不再仅仅依靠网站管理人员建立和维护,普通用户成为信息的缔造者和使用者,改变了以往用户信息获取的推送模式,呈现出去中心化的含义。目前,随着社交网站、个人主页、博客、微博、视频和图片分享等网络应用的快速发展,极大地体现了人们对互动性的渴求。特别是微博的兴起,以一条简短的状态信息来反映用户自身最新的状况,改变了长久以来始终以网页作为信息获取基本单元的模式,用户希望通过参与、交流,获取个性化、可信任的信息。然而这种对互动性的诉求是目前搜索引擎通过在搜索框中键入关键字进行匹配所难以满足的。同时,在互联网海量信息面前,以Google、百度为代表的机器搜索依然强调算法,试图用不断提高的机器性能和不断改进的算法技术来提升用户的搜索体验,已渐渐显得力不从心,无论是精准度还是效率都不能满足人的需要。近年来,百度贴吧、搜狗爱问等问答系统的出现虽然在一定程度上满足了人们对互动性的要求,但是由于其答题者常常未经筛选,也未能发挥提问者的主观判断性,往往导致大量垃圾信息的出现。
发明内容
针对以上问题,本发明基于微博平台,提供了一种社会化的搜索引擎方法,来帮助用户获取准确、可信任的信息,从而提高搜索引擎的查全率和查准率。为了达到上述目的,本发明采用了以下技术方案一种社会化的搜索引擎方法,包括以下步骤( I)基于微博,建立专家信息库;(2)获取用户查询请求,根据查询请求在专家信息库中找到与之相关的专家;(3)将用户的查询请求发送给一个或多个专家;(4)用户请求转发后,对此请求进行实时追踪,及时抓取专家返回的结果;(5)对步骤(4)中返回的结果进行处理,并返回给用户。所述的搜索引擎方法,其特征是,所述步骤(I)包括以下步骤(I. I)爬取微博网站上的网页,抽取其中微博用户的基本信息;(I. 2)提取微博用户的微博关键词;
(1.3)计算微博用户的综合影响力。所述的搜索引擎方法,其特征是,步骤(I. I)所述微博用户的基本信息包括微博用户名、微博账号、所在地、联系邮箱、用户标签、用户简介、关注数、粉丝数、微博数。所述的搜索引擎方法,其特征是,步骤(I. 2)中,若用户标签不为空,则将其作为该用户的微博关键词;否则,将从该用户最新发表的M篇微博状态中提取关键词作为该用户的微博关键词,其中M为自定义值。所述的搜索引擎方法,其特征是,步骤(I. 3),即利用公式(I)计算微博用户的综合影响力Wu ^dlNfans+S2CPiNmm+^2Nsutai)(I)
权利要求
1.一种社会化的搜索引擎方法,包括以下步骤 (1)基于微博,建立专家信息库; (2)获取用户查询请求,根据查询请求在专家信息库中找到与之相关的专家; (3)将用户的查询请求发送给一个或多个专家; (4)用户请求转发后,对此请求进行实时追踪,及时抓取专家返回的结果; (5)对步骤(4)中返回的结果进行处理,并返回给用户。
2.如权利要求I所述的搜索引擎方法,其特征是,所述步骤(I)包括以下步骤 (I. I)爬取微博网站上的网页,抽取其中微博用户的基本信息; (I. 2)提取微博用户的微博关键词; (I. 3)计算微博用户的综合影响力。
3.如权利要求2所述的搜索引擎方法,其特征是,步骤(I.I)所述微博用户的基本信息包括微博用户名、微博账号、所在地、联系邮箱、用户标签、用户简介、关注数、粉丝数、微博数。
4.如权利要求3所述的搜索引擎方法,其特征是,步骤(I.2)中,若用户标签不为空,则将其作为该用户的微博关键词;否则,将从该用户最新发表的M篇微博状态中提取关键词作为该用户的微博关键词,其中M为自定义值。
5.如权利要求2所述的搜索引擎方法,其特征是,步骤(I.3),即利用公式(I)计算微博用户的综合影响力 K+S2Cp1^tten+P2^statlls)(I) —W户粉丝数α) 1 —专家库中用户粉丝数最大值Ν =用户关注数(ffl) —专家库中用户关注数最大值Ar —用户微博数,、α —专家库中用户微博数最大值' 其中Wu表示微博用户u的综合影响力,Nfans、Nattra^P Nstatus分别表示微博用户u的粉丝数占有率、关注数占有率和微博数占有率,4、β i为权重因子。
6.如权利要求I至5之一所述的搜索引擎方法,其特征是,步骤(2)包括以下步骤 (2. I)获取用户查询请求; (2. 2)对获取的用户查询请求进行分词、关键词提取,从而得到用户查询关键词; (2. 3)将用户查询关键词与专家信息库中微博用户的微博关键词进行匹配; (2. 4)将匹配成功的微博用户按其综合影响力进行排序后返回给用户。
7.如权利要求I所述的搜索引擎方法,其特征是,步骤(3)包括以下步骤 (3. I)用户自主选择由步骤(2)得到的与查询相关的专家列表,若用户未自主选择,则自动为用户选择排名前η位的专家,η为自定义值; (3. 2)转发,以电子邮件或评论的形式向步骤(3. I)中所选专家转发用户查询请求。
8.如权利要求I所述的搜索引擎方法,其特征是,步骤(4)包括以下步骤(4. I)用户请求转发后,对此请求进行实时追踪; (4. 2)及时抓取专家返回的结果。
9.如权利要求I所述的搜索引擎方法,其特征是,步骤(5)包括以下步骤 (5. I)计算结果得分,利用公式(V)计算步骤(4)返回的各条结果
10.一种社会化的搜索引擎系统,包括信息爬取模块、信息抽取模块、专家数据库、查询请求处理模块,其特征是, 所述信息爬取模块,用于爬取微博网站上的微博用户信息; 所述信息抽取模块,用于把爬取道德微博用户信息进行抽取、组织,然后把组织好的微博用户信息保存到专家数据库中; 所述查询请求处理模块,用于接收用户查询请求;把该查询请求和专家数据库中的专家进行匹配;把匹配到的专家返回给用户,缺省选定η个专家,用户可以自行更改选中的专家;把用户请求发送给选中的专家;跟踪专家反馈,把反馈信息展现给用户。
全文摘要
一种社会化的搜索引擎方法,首先基于微博,抽取微博用户的基本信息,建立专家信息库,然后获取用户查询请求,根据查询请求在专家信息库中找到与之相关的专家,接着依据用户自主选择,将用户的查询请求转发给一个或多个被选专家,进而,在用户请求转发后,对此请求进行实时追踪,及时抓取专家返回的结果,最后对查询结果进行处理,并返回给用户。此方法更多的考虑了人的因素,通过帮助用户找到与查询最为相关的专家,在充分发挥用户主观判断能力下,实现人到人的信息获取模式,从而提高搜索引擎的查全率和查准率。
文档编号G06F17/30GK102930029SQ20121044118
公开日2013年2月13日 申请日期2012年11月7日 优先权日2012年11月7日
发明者王恺, 莫倩, 张树, 张传文, 李阳 申请人:北京网智天元科技有限公司, 北京工商大学