进行信息搜索的方法及服务器的制造方法

文档序号:6485795阅读:301来源:国知局
进行信息搜索的方法及服务器的制造方法
【专利摘要】本发明提供了进行信息搜索的方法及服务器,其中,该方法预先获取用户的所有网络服务页面信息,存储于用户页面数据库;该方法还包括:接收搜索用户包含关键词的搜索请求;根据所述关键词在全量倒排数据库中搜索得到公共网页条目,获取各公共网页条目的页面得分;根据所述关键词在所述用户页面数据库中搜索得到所述搜索用户的所有好友的好友网页条目,获取相应好友网页条目的页面得分;按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给所述搜索用户。本发明方案能够将好友网页条目显示在搜索结果中,使搜索结果更遵循用户的查询需求。
【专利说明】进行信息搜索的方法及服务器
【技术领域】
[0001]本发明涉及信息处理技术,尤其涉及进行信息搜索的方法及服务器。
【背景技术】
[0002]现有的信息搜索方法包括:
[0003]用户终端接收用户输入的关键词,向网络侧服务器发送包含关键词的搜索请求;服务器根据关键词在全量倒排数据库中搜索得到网页条目,计算各网页条目的页面得分,由页面得分对搜索出的众多网页条目进行降序排序,将排序后的网页条目反馈给用户终端。而后,用户终端将排序后的网页条目展示给用户,每个网页条目对应一个网页,用户点击某网页条目,便可展示对应的网页。
[0004]计算页面得分的方法包括:计算网页条目的页面原始得分和页面因素因子,用页面原始得分乘以页面因素因子,将得到的乘积作为相应页面条目的页面得分。
[0005]页面原始得分主要体现的是关键词在页面的重要程度,目前计算页面原始得分的方式有多种,这里以倒排文档频率(IDF, Inverse Document Frequency)计算方法进行说明。例如关键词为“发明”,“发明”在某页面的出现频率,即该页面的原始得分,关键词在页面的出现频率可采用IDF公式计算得到。
[0006]用于计算页面得到的页面因素因子包括至少一个,例如包括引用值,引用值为某页面被其他页面引用的几率。参见图1,为现有技术中页面之间引用(链接)关系的实例,其中,页面A被页面B和页面C引用,页面D被页面A引用,则页面A、页面B、页面C和页面D的引用值大小排序为:
[0007]页面A>页面D>页面B=页面C。
[0008]这里,以关键词“发明”为例,图2示出了搜索后用户终端展示的部分网页条目,包括:关于“中国发明网”的网页条目,关于“《我爱发明》官网”的网页条目,关于“发明搜搜百科”的网页条目,关于“发明专利I发明创造-瞧这网发明专利频道”的网页条目,关于“北京发明协会”的网页条目;图中的省略号为各网页条目的概述。
[0009]目前的搜索引擎工具中提供了采用用户标识登陆搜索平台的功能,用户可采用登录状态进行信息搜索。实际应用中,提供搜索引擎业务的运营商可能还提供了其他业务,这些业务都有让用户发表内容的页面;一个用户可能通过同一用户标识使用了除搜索引擎业务外的其他业务,并在这些业务中发表了内容,向服务器上传了网页数据;而每个用户有多个好友,用户在进行信息搜索时,常希望根据输入的关键词搜索好友在其他业务中上传的网页数据,但是,现有的信息搜索方案无法提供好友网页条目,不能满足需求。
[0010]例如,腾讯运营商提供的业务包括SOSO搜索引擎业务、QQ空间业务、腾讯微博业务、腾讯说说业务等;同一用户可能通过同一用户标识使用了除SOSO搜索引擎业务外的其他业务,还在其他业务中向服务器上传了网页数据,如在QQ空间业务中向QQ空间服务器上传了关于个人日志的网页数据,再如在腾讯微博业务中向腾讯微博服务器上传了关于微博信息的网页数据,所述用户标识具体如QQ账号;当用户A采用腾讯的soso搜索引擎工具(搜索网址为WWW, sos0.com)进行搜索时输入关键词“发明”时,如果soso搜索引擎工具能够同时提供用户A的好友在其他业务中上传的关于“发明”的好友网页条目,将更加遵循用户的查询需求;但目前还没有这样的技术。

【发明内容】

[0011]本发明提供了一种进行信息搜索的方法,该方法能够将好友网页条目显示在搜索结果中,使搜索结果更遵循用户的查询需求。
[0012]本发明提供了一种进行信息搜索的服务器,该服务器能够将好友网页条目显示在搜索结果中,使搜索结果更遵循用户的查询需求。
[0013]一种进行信息搜索的方法,该方法包括:获取用户的所有网络服务页面信息,存储于用户页面数据库;
[0014]接收搜索用户包含关键词的搜索请求;
[0015]根据所述关键词在全量倒排数据库中搜索得到公共网页条目,获取各公共网页条目的页面得分;
[0016]根据所述关键词在所述用户页面数据库中搜索得到所述搜索用户的所有好友的好友网页条目,获取相应好友网页条目的页面得分;
[0017]按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给所述搜索用户。
[0018]一种进行信息搜索的服务器,该服务器包括用户页面数据库生成模块、搜索请求接收模块、第一搜索计算模块、第二搜索计算模块和排序反馈模块;
[0019]所述用户页面数据库生成模块,用于获取用户的所有网络服务页面信息,存储于用户页面数据库;
[0020]所述搜索请求接收模块,用于接收搜索用户的包含关键词的搜索请求,发送给所述第一搜索计算模块所述第二搜索计算模块;
[0021]所述第一搜索计算模块,用于根据所述关键词在全量倒排数据库中搜索得到公共网页条目,获取各公共网页条目的页面得分;将公共网页条目和页面得分发送给所述排序反馈模块;
[0022]所述第二搜索计算模块,用于根据所述关键词在所述用户页面数据库中搜索得到所述搜索用户的所有好友的好友网页条目;获取好友网页条目的页面得分;将好友网页条目和页面得分发送给所述排序反馈模块;
[0023]所述排序反馈模块,用于按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给所述搜索用户。
[0024]从上述方案可以看出,本发明预先获取用户的所有网络服务页面信息,存储于用户页面数据库,存储于用户页面数据库;在需要进行信息搜索时,根据搜索请求包含的关键词在全量倒排数据库中搜索得到公共网页条目,计算得到各公共网页条目的页面得分;并根据关键词在用户页面数据库中搜索得到搜索用户的所有好友的好友网页条目,计算得到各好友网页条目的页面得分;而后,按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给用户终端。这样,实现了将好友网页条目显示在搜索结果中,使搜索结果更遵循用户的查询需求。【专利附图】

【附图说明】
[0025]图1为现有技术页面之间引用关系的实例;
[0026]图2为现有技术用户终端展示给用户的网页条目实例;
[0027]图3为本发明进行信息搜索的方法示意性流程图;
[0028]图4为由关键词“深圳调干”搜索出的搜索结果条目;
[0029]图5为本发明进行信息搜索的服务器结构示意图。
【具体实施方式】
[0030]为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
[0031]本发明预先获取所有用户的所有网络服务页面信息,存储于用户页面数据库,优选地所述网络服务是同一个网络服务提供商提供的;而后,在需要时,根据关键词在用户页面数据库中搜索得到搜索用户的所有好友的好友网页条目,再将好友网页条目与从全量倒排数据库中搜索得到的公共网页条目进行统一排序,将排序后的网页条目反馈给用户终端;从而,实现了将好友网页条目显示在搜索结果中。参见图3,为本发明进行信息搜索的方法示意性流程图,该方法预先获取同一运营商提供的各业务下所有用户产生的页面数据,存储于用户页面数据库中。
[0032]提供搜索引擎业务的运营商还可能提供了其他业务,这些业务都有让用户发表内容的页面;一个用户可以通过同一用户标识使用除搜索引擎业务外的其他业务,还在这些业务中发表了内容,向相应业务的服务器上传网页数据。
[0033]例如,腾讯运营商提供的业务包括soso搜索引擎业务、QQ空间业务、腾讯微博业务、腾讯说说业务等;同一用户可能通过同一用户标识使用了除SOSO搜索引擎业务外的其他业务,并在其他业务中发表了内容,向服务器上传了网页数据,如关于好友住址信息的网页数据、关于好友通讯录信息的网页数据,再如在QQ空间业务中向QQ空间服务器上传的关于个人日志的网页数据,还如在腾讯微博业务中向腾讯微博服务器上传的关于微博信息的网页数据。
[0034]本发明中,预先从其他业务的相应业务服务器中获取用户产生的页面数据,对应用户标识将页面数据存储在用户页面数据库中。本发明针对处于登陆态用户的信息搜索,图3的流程包括以下步骤:
[0035]步骤301,接收搜索用户包含关键词的搜索请求。
[0036]用户终端接收用户输入的关键词,向网络侧服务器发送包含关键词的搜索请求。
[0037]步骤302,根据关键词在全量倒排数据库中搜索得到公共网页条目,获取各公共网页条目的页面得分。
[0038]本发明将从全量倒排数据库中搜索出的网页条目称为公共网页条目。
[0039]计算页面得分的方法包括:计算网页条目的页面原始得分和页面因素因子,用页面原始得分乘以页面因素因子,将得到的乘积作为相应页面条目的页面得分。
[0040]页面原始得分主要体现的是关键词在页面的重要程度,目前计算页面原始得分的方式有多种,这里以IDF计算方法进行说明。例如关键词为“发明”,“发明”在某页面的出现频率,即该页面的原始得分,关键词在页面的出现频率可采用IDF公式计算得到。用于计算页面得到的页面因素因子包括至少一个,例如包括引用值。
[0041]步骤303,根据关键词在用户页面数据库中搜索得到搜索用户的所有好友的好友网页条目。
[0042]提供搜索引擎的服务器中包含好友数据库,好友数据库中存储了用户好友关系,根据用户名可以在好友数据库中查询出其所有好友标号。本步骤具体包括:
[0043]从好友数据库中获取搜索用户的所有好友标识;
[0044]从用户页面数据库中查询出所述所有好友标识对应的好友网页条目;
[0045]根据关键词,从查询出的好友网页条目中搜索出需要的好友网页条目。
[0046]步骤304,获取相应好友网页条目的页面得分。
[0047]根据好友因数和页面原始得分确定所述好友网页条目的页面得分,具体地,可用用好友因数乘以页面原始得分,得到相应好友网页条目的页面得分。
[0048]所述好友因数为设定值;或者,
[0049]为设定值与用户亲密度的乘积,所述用户亲密度为搜索用户与相应好友网页条目所属好友之间进行信息传输的频繁程度。用户亲密度可以是1-N之间的一个常数,N为自然数;用户亲密度可以由两个好友之间通讯的信息量确定,用户亲密度的计算可采用已有技术,这里不过多赘述。
[0050]步骤302和步骤303可无序执行。
[0051]步骤305,按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给搜索用户。
[0052]步骤304处记载的设定值可根据需要选取,例如为Lg(IOO),即2 ;为了使好友网页条目排序靠前,可以增大设定值,以加大好友网页条目的页面得分,进行优先显示。
[0053]本步骤可具体包括:
[0054]按照页面得分对搜索得到的公共网页条目进行降序排序,取排序后的前P个公共网页条目;
[0055]按照页面得分对搜索得到的好友网页条目进行降序排序,取排序后的前Q个好友网页条目;
[0056]对选取的P个公共网页条目和Q个好友网页条目,按照页面得分进行降序排序;P、Q取自然数,如P取1000,Q取100。
[0057]选取的Q个好友网页条目中,与P个公共网页条目可能有相同的网页条目,需要删除其中一个,只保留一个;相应地,选取的P个公共网页条目和Q个好友网页条目之后,该方法包括:删除前P个公共网页条目和前Q个好友网页条目中重复的网页条目,对剩余的公共网页条目和好友网页条目按照页面得分进行降序排序。
[0058]图4为采用本发明方案搜索得到的关于关键词“深圳调干”的网页条目,图中示出了搜索得到的部分网页条目,包括来自用户页面数据库的好友网页条目:QQ好友谢林在QQ微博和QQ空间中发表的包含“深圳调干”的网页条目,QQ好友飞翔在QQ空间中发表的包含“深圳调干”的网页条目;还包括来自全量倒排数据库的公共网页条目:天涯社区上发表的关于“深圳调干”的网页条目。
[0059]本发明预先建立用户页面数据库,用于存储同一运营商提供的各业务下用户产生的页面数据;而后,在需要时,根据关键词在用户页面数据库中搜索得到搜索用户的所有好友的好友网页条目,获取相应好友网页条目的页面得分,再将好友网页条目与从全量倒排数据库中搜索得到的公共网页条目进行统一排序,将排序后的网页条目反馈给用户终端。从而,实现了将好友网页条目显示在搜索结果中,使搜索结果更遵循用户的查询需求。
[0060]并且,可以在需要时增大好友因数,以加大好友网页条目的页面得分,使好友网页条目排序靠前,进行对好友网页条目优先显示。
[0061]参见图5,为本发明进行信息搜索的服务器结构示意图,该服务器包括用户页面数据库生成模块、搜索请求接收模块、第一搜索计算模块、第二搜索计算模块和排序反馈模块;
[0062]所述用户页面数据库生成模块,用于获取用户的所有网络服务页面信息,存储于用户页面数据库;
[0063]所述搜索请求接收模块,用于接收搜索用户的包含关键词的搜索请求,发送给所述第一搜索计算模块所述第二搜索计算模块;
[0064]所述第一搜索计算模块,用于根据所述关键词在全量倒排数据库中搜索得到公共网页条目,获取各公共网页条目的页面得分;将公共网页条目和页面得分发送给所述排序反馈模块;
[0065]所述第二搜索计算模块,用于根据所述关键词在所述用户页面数据库中搜索得到所述搜索用户的所有好友的好友网页条目;获取好友网页条目的页面得分;将好友网页条目和页面得分发送给所述排序反馈模块;
[0066]所述排序反馈模块,用于按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给所述搜索用户。
[0067]可选地,所述第二搜索计算模块包括第二搜索子模块,用于从好友数据库中获取所述搜索用户的所有好友标识;从所述用户页面数据库中查询出所述所有好友标识对应的好友网页条目;根据所述关键词,从查询出的好友网页条目中搜索出需要的好友网页条目。
[0068]可选地,所述第二搜索计算模块包括第二计算子模块,用于根据好友因数和页面原始得分确定所述好友网页条目的页面得分;所述好友因数为设定值,或者,为设定值与用户亲密度的乘积,所述用户亲密度为所述搜索用户与相应好友网页条目所属好友之间进行信息传输的频繁程度。
[0069]可选地,所述第一搜索计算模块包括第一计算子模块,用于计算公共网页条目的页面原始得分和页面因素因子,用页面原始得分乘以页面因素因子,将得到的乘积作为相应公共页面条目的页面得分。
[0070]可选地,所述排序反馈模块包括排序子模块,用于按照页面得分对搜索得到的公共网页条目进行降序排序,取排序后的前P个公共网页条目;按照页面得分对搜索得到的好友网页条目进行降序排序,取排序后的前Q个好友网页条目;删除前P个公共网页条目和前Q个好友网页条目中重复的网页条目,对剩余的公共网页条目和好友网页条目按照页面得分进行降序排序,P、Q为自然数。
[0071]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种进行信息搜索的方法,包括:获取用户的所有网络服务页面信息,存储于用户页面数据库; 接收搜索用户包含关键词的搜索请求; 根据所述关键词在全量倒排数据库中搜索得到公共网页条目,获取各公共网页条目的页面得分; 根据所述关键词在所述用户页面数据库中搜索得到所述搜索用户的所有好友的好友网页条目,获取相应好友网页条目的页面得分; 按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给所述搜索用户。
2.如权利要求1所述的方法,其特征在于,所述网络服务是同一个网络服务提供商提供的。
3.如权利要求1所述的方法,其特征在于,所述根据所述关键词在所述用户页面数据库中搜索得到所述搜索用户的所有好友的好友网页条目包括: 从好友数据库中获取所述搜索用户的所有好友标识; 从所述用户页面数据库中查询出所述所有好友标识对应的好友网页条目; 根据所述关键词,从查询出的好友网页条目中搜索出需要的好友网页条目。
4.如权利要求1所述的 方法,其特征在于,根据好友因数和页面原始得分确定所述好友网页条目的页面得分; 所述好友因数为设定值,或者, 为设定值与用户亲密度的乘积,所述用户亲密度为所述搜索用户与相应好友网页条目所属好友之间进行信息传输的频繁程度。
5.如权利要求1所述的方法,其特征在于,所述获取各公共网页条目的页面得分包括: 计算公共网页条目的页面原始得分和页面因素因子,用页面原始得分乘以页面因素因子,将得到的乘积作为相应公共页面条目的页面得分。
6.如权利要求1所述的方法,其特征在于,所述按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序包括: 按照页面得分对搜索得到的公共网页条目进行降序排序,取排序后的前P个公共网页条目; 按照页面得分对搜索得到的好友网页条目进行降序排序,取排序后的前Q个好友网页条目; 删除前P个公共网页条目和前Q个好友网页条目中重复的网页条目,对剩余的公共网页条目和好友网页条目按照页面得分进行降序排序,P、Q为自然数。
7.一种进行信息搜索的服务器,其特征在于,该服务器包括用户页面数据库生成模块、搜索请求接收模块、第一搜索计算模块、第二搜索计算模块和排序反馈模块; 所述用户页面数据库生成模块,用于获取用户的所有网络服务页面信息,存储于用户页面数据库; 所述搜索请求接收模块,用于接收搜索用户的包含关键词的搜索请求,发送给所述第一搜索计算模块所述第二搜索计算模块; 所述第一搜索计算模块,用于根据所述关键词在全量倒排数据库中搜索得到公共网页条目,获取各公共网页条目的页面得分;将公共网页条目和页面得分发送给所述排序反馈模块; 所述第二搜索计算模块,用于根据所述关键词在所述用户页面数据库中搜索得到所述搜索用户的所有好友的好友网页条目;获取好友网页条目的页面得分;将好友网页条目和页面得分发送给所述排序反馈模块; 所述排序反馈模块,用于按照页面得分对搜索得到的公共网页条目和好友网页条目进行降序排序,将排序后的网页条目反馈给所述搜索用户。
8.如权利要求7所述的服务器,其特征在于,所述第二搜索计算模块包括第二搜索子模块,用于从好友数据库中获取所述搜索用户的所有好友标识;从所述用户页面数据库中查询出所述所有好友标识对应的好友网页条目;根据所述关键词,从查询出的好友网页条目中搜索出需要的好友网页条目。
9.如权利要求7所述的服务器,其特征在于,所述第二搜索计算模块包括第二计算子模块,用于根据好友因数和页面原始得分确定所述好友网页条目的页面得分;所述好友因数为设定值,或者,为设定值与用户亲密度的乘积,所述用户亲密度为所述搜索用户与相应好友网页条目 所属好友之间进行信息传输的频繁程度。
10.如权利要求7、8或9所述的服务器,其特征在于,所述第一搜索计算模块包括第一计算子模块,用于计算公共网页条目的页面原始得分和页面因素因子,用页面原始得分乘以页面因素因子,将得到的乘积作为相应公共页面条目的页面得分。
11.如权利要求10所述的服务器,其特征在于,所述排序反馈模块包括排序子模块,用于按照页面得分对搜索得到的公共网页条目进行降序排序,取排序后的前P个公共网页条目;按照页面得分对搜索得到的好友网页条目进行降序排序,取排序后的前Q个好友网页条目;删除前P个公共网页条目和前Q个好友网页条目中重复的网页条目,对剩余的公共网页条目和好友网页条目按照页面得分进行降序排序,P、Q为自然数。
【文档编号】G06F17/30GK103455523SQ201210182886
【公开日】2013年12月18日 申请日期:2012年6月5日 优先权日:2012年6月5日
【发明者】谢朴锐 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1