移动搜索方法及装置的制作方法

文档序号:6578211阅读:212来源:国知局
专利名称:移动搜索方法及装置的制作方法
技术领域
本发明涉及移动通信技术,具体涉及一种移动搜索方法及装置。
背景技术
目前,作为搜索引擎和移动通信这两个当前信息产业的两大热门领域的结合_移动搜索,已经成为移动增值业务新的亮点和增长点。移动搜索框架是一个基于元搜索的开 放的平台,它整合许多专业/垂直搜索引擎的能力,为用户提供一个综合的搜索能力。用户使用移动搜索时,通常输入搜索关键字后直接进行搜索而没有选择搜索的类 型域(domain)。因此,如何正确理解用户的搜索意图,为用户提供个性化的精确的搜索结 果,现有技术中还没有很好的解决方案。

发明内容
本发明实施例提供一种移动搜索方法及装置,能够为用户提供个性化的准确的搜
索结果。本发明实施例提供一种移动搜索方法,包括接收搜索请求,所述搜索请求中包含一个或多个查询关键字;计算各搜索类型域的评分值,所述评分值为以下任意一项的评分值或多项的综合 评分值所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所述搜索类型域的 大众搜索率、搜索类型域的个性化用户兴趣评分值;根据各搜索类型域的评分值选择其中一个或几个搜索类型域搜索所述查询关键字。本发明实施例提供一种移动搜索装置,包括接收单元,用于接收搜索请求,所述搜索请求中包含一个或多个查询关键字;计算单元,用于计算各搜索类型域的评分值,所述评分值为以下任意一项的评分 值或多项的综合评分值所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所 述搜索类型域的大众搜索率、搜索类型域的个性化用户兴趣评分值;选择单元,根据各搜索类型域的评分值选择其中一个或几个搜索类型域;搜索单元,用于利用所述选择单元选择的搜索类型域搜索所述查询关键字。本发明实施例提供的移动搜索方法及装置,通过分析用户的大众兴趣与用户的个 性化兴趣,确定用户的个性化查询分类,从而为用户提供个性化的精确的搜索结果。


图1是本发明实施例移动搜索方法的流程图;图2是本发明实施例移动搜索方法的一种实现流程图;图3是本发明实施例移动搜索方法的另一种实现流程图;图4是本发明实施例移动搜索方法的另一种实现流程图5是本发明实施例移动搜索方法的另一种实现流程图;图6是本发明实施例移动搜索装置的结构示意图;图7是本发明实施例移动搜索装置的一种具体结构示意图;图8是本发明实施例移动搜索装置的另一种具体结构示意图;图9是本发明实施例移动搜索装置的另一种具体结构示意图;图10是图9所示装置中兴趣模型提取子单元的一种结构示意图;图11是图9所示装置中兴趣模型提取子单元的另一种结构示意图;图12是本发明实施例移动搜索装置的另一种具体结构示意图。
具体实施例方式为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施 方式对本发明实施例作进一步的详细说明。本发明实施例移动搜索方法及装置,针对用户的搜索请求,通过分析用户对应的 大众兴趣与用户的个性化兴趣,确定用户的个性化查询分类,具体地,计算各搜索类型域的 评分值,所述评分值为以下任意一项的评分值或多项的综合评分值所述搜索请求与所述 搜索类型域的相似度、所述搜索请求对应所述搜索类型域的大众搜索率、搜索类型域的个 性化用户兴趣评分值;所述大众搜索率为大众搜索次数,或者大众搜索结果点击次数 ’然 后,根据各搜索类型域的评分值选择其中一个或几个搜索类型域搜索所述查询关键字,从 而为用户提供个性化的精确的搜索结果。如图1所示,是本发明实施例移动搜索方法的流程图。步骤101,接收搜索请求,所述搜索请求中包含一个或多个查询关键字。步骤102,计算各搜索类型域的评分值,所述评分值为以下任意一项的评分值或多 项的综合评分值所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所述搜索 类型域的大众搜索率、搜索类型域的个性化用户兴趣评分值;所述大众搜索率为大众搜 索次数,或者大众搜索结果点击次数。步骤103,根据各搜索类型域的评分值选择其中一个或几个搜索类型域搜索所述
查询关键字。在本发明实施例中,在确定用户的个性化查询分类时,可以有多种实现方式,比 如,可以是根据所述搜索请求与所述搜索类型域的相似度,选择相似度高的一个或几个搜 索类型域进行搜索;也可以是根据所述搜索请求对应所述搜索类型域的大众搜索率,选择 大众搜索率高的一个或几个搜索类型域进行搜索;还可以根据搜索类型域的个性化用户兴 趣评分值,选择个性化用户兴趣评分值高的一个或几个搜索类型域进行搜索。当然,还可以 是综合考虑上述几项,计算出每个搜索类型域的综合评分值,选择综合评分值高的一个或 几个搜索类型域进行搜索。下面对此分别举例详细说明。参照图2,是本发明实施例移动搜索方法的一种实现流程图。在该实施例中,根据所述搜索请求与所述搜索类型域的相似度,选择搜索类型域进行搜索,以便为用户提供个性化的准确的搜索结果。步骤201,接收搜索请求,所述搜索请求中包含一个或多个查询关键字。步骤202,根据所述查询关键字计算所述搜索请求与各搜索类型域的相似度。
可以为所述搜索请求中的查询关键字设置相应的权重,由所述查询关键字的权重 生成查询向量Query (ql,q2,. . . qn’ );其中,ql,q2,. . . qn’为对应各查询关键字的权重; 具体地,可以将所有关键字设置相同的权重,比如权重=1 ;也可以为不同的关键字设置不 同的权重,比如,为排在最前面的关键字设置最大权重,比如权重=1,为排在中间的关键字 设置中间大小的权重,比如0. 5 <权重< 1,为排在最后的关键字设置最小权重,比如权重 =0. 5。由所述搜索类型域的各词的权重生成对应该搜索类型域的域向量 ,比如给每个搜 索类型域的所有主题词和相关词设置一定的权重,由这些主题词和相关词的权重组成对应 该搜索类型域的域向量Domain(tl,t2,…,tn),其中,tl,t2,…,tn为该搜索类型域中 各词的权重。通过计算所述查询向量和域向量得到所述所述搜索请求与搜索类型域的相似度。可以按以下公式计算向量Domian (tl,t2,. . ·,tn)与向量 Query (ql,q2,. . ·,qn,) 之间的相似度
<formula>formula see original document page 8</formula>
<formula>formula see original document page 8</formula>
其中,tn,ti2,...,tin,分别是向量Domian (tl,t2,. ..,tn)中与权重 ql,q2,...,
qn’对应的查询关键字相同的词对应的权重。假设有m个搜索类型域,对应的域向量分别为Domainl (tl, t2,. . .,tn), Domain2(tl, t2,· · ·,tn),· · ·,Domainm(tl, t2,· · ·,tn),则按公式(1)分别计算向量 Query (ql, q2,. . .,qn,)与上述各域向量的相似度。步骤203,选择相似度高的一个或多个搜索类型域进行搜索。在该实施例中,各搜索类型域中主题词、相关词,以及各词的权重可以有多种方式 来设置。1.人工分配方式对于主题词设置最大的权重,对于强相关词设置中间大小的权重,对于弱相关词 设置最小权重。比如主题词(如餐饮搜索类型域中的“川菜”)设置权重为1,强相关词(如餐饮 搜索类型域中的“辣”)设置权重为0.8,弱相关词(如餐饮搜索类型域中的“香”)设置权 重为0. 5。2.通过学习自动分配方式具体过程如下(1)对于每个搜索类型域,获取对应该搜索类型域的训练文本语料样本;(2)对所述语料样本进行切词,生成该搜索类型域的词库;(3)计算所述词库中各词的权重,每个词的权重=TF*GIDF,其中TF为该词在该搜 索类型域所有语料样本中总词频,GIDF为全局反向文档频率,GIDF = log(1+N/⑶F),其中 N为所有搜索类型域的所有语料样本的总数量,GDF为全局语料样本频率,即为所有搜索类 型域中包含该词的所有语料样本的数量;(4)根据各词的权重确定所述搜索类型域中的主题词和相关词;
假设某搜索类型域的词库中共有η个词,对应的权重为Tl,Τ2, ... , Τη,其中,Tl > Τ2 > . . . > Τη,这样,可以认为Tl对应的词为主题词,其他词为相关词。进一步地,还可以将所述词库中的所有词按照权重划分为不同档次的集合,为每 个档次的集合设置最终评分值,并将每个档次的最终评分值作为该档次内的各词的权重。 比如,共有L档,为第一档设置最高评分值,中间档设置中间大小的评分值,第L档设置最小 评分值。这样,由词类中的词及其最终评分值即可组成对应的搜索类型域的域向量。当然,本发明实施例并不仅限于上述这些设置方式,对于各搜索类型域中主题词、相关词,以及各词的权重还可以采用其他方式来设置,在此不再一一详细说明。本发明实施例移动搜索方法,针对用户的搜索请求,通过计算搜索请求的查询向 量与各搜索类型域的域向量的相似度,选择相似度高的一个或几个搜索类型域进行搜索, 从而可以为用户确定个性化查询分类,为用户提供个性化的精确的搜索结果。参照图3,是本发明实施例移动搜索方法的另一种实现流程图。在该实施例中,根据所述搜索请求对应所述搜索类型域的大众搜索率,选择搜索 类型域进行搜索,以便为用户提供个性化的准确的搜索结果。步骤301,接收搜索请求,所述搜索请求中包含一个或多个查询关键字。步骤302,根据所述查询关键字计算所述搜索请求对应各搜索类型域的大众搜索 率。步骤303,选择大众搜索率高的一个或多个搜索类型域进行搜索。在本发明实施例中,所述大众搜索率具体可以是大众搜索次数,或者大众搜索结 果点击次数等。下面分别详细说明计算所述搜索请求对应各搜索类型域的大众搜索次数和大众 搜索结果点击次数的过程。计算所述搜索请求对应的某个搜索类型域的大众搜索次数的过程如下(1)计算所述搜索请求中每个关键字对应的某个搜索类型域的大众搜索总次数;可以依据历史记录,搜集所有用户关于包含所述搜索请求中某个关键字的搜索请 求选择用某个搜索类型域进行搜索的次数的总和,作为该关键字对应的大众对该搜索类型 域进行搜索的总次数,即对应该搜索类型域的大众搜索总次数;(2)将所述搜索请求中所有关键字对应的该搜索类型域的大众搜索总次数的和, 作为所述搜索请求对应的该搜索类型域的大众搜索总次数。同样,计算所述搜索请求对应的某个搜索类型域的大众搜索结果点击次数的过程 如下(1)计算所述搜索请求中每个关键字对应的某个搜索类型域的大众搜索结果点击 总次数;可以依据历史记录,搜集所有用户关于包含所述搜索请求中某个关键字的搜索请 求选择用某个搜索类型域进行搜索的搜索结果点击次数的总和,作为该关键字对应的大众 对该搜索类型域的搜索结果点击的总次数,即对应该搜索类型域的大众搜索结果点击总次 数;(2)将所述搜索请求中所有关键字对应的该搜索类型域的大众搜索结果点击总次 数的和,作为所述搜索请求对应的该搜索类型域的大众搜索结果点击总次数。
本发明实施例移动搜索方法,针对用户的搜索请求,通过计算所述搜索请求对应 各搜索类型域的大众搜索率,选择大众搜索率高的一个或几个搜索类型域进行搜索,从而 可以为用户确定个性化查询分类,为用户提供个性化的精确的搜索结果。 参照图4,是本发明实施例移动搜索方法的另一种实现流程图。在该实施例中,根据搜索类型域的个性化用户兴趣评分值,选择评分值高的搜索 类型域进行搜索,以便为用户提供个性化的准确的搜索结果。步骤401,接收搜索请求,所述搜索请求中包含一个或多个查询关键字。步骤402,从用户数据中提取用户的兴趣模型。所述用户的兴趣模型为所述用户数据针对多个兴趣维度的评分值组成的向量,比 如IM(I1,12,...,In),其中Ii为用户第i个兴趣维度的评分值。可以从用户个性化数据 (比如静态档案、搜索点击历史数据、呈现业务信息、本地信息等)中提取用户兴趣模型;也 可预先从用户个性化数据中提取出对应的用户兴趣模型并保存,在需要时,直接从这些保 存的用户兴趣模型提取所需的用户兴趣模型。所述用户的兴趣模型可以是静态兴趣模型或动态兴趣模型,当然,也可以是综合 静态兴趣模型和动态兴趣模型生成的兴趣模型。从用户的静态档案中可以提取用户的静态兴趣模型,具体过程可以有以下两种方 式(1)计算用户的静态档案中属于每个兴趣维度的所有词的词频之和,并将其作为 对应每个兴趣维度的评分值,由对应每个兴趣维度的评分值作为向量生成所述用户兴趣模 型;(2)计算用户的静态档案与每个兴趣维度的相似度评分值,并将其作为对应每个 兴趣维度的评分值,由对应每个兴趣维度的评分值作为向量生成所述用户兴趣模型;从用户数据中提取用户的动态兴趣模型,具体过程可以有以下两种方式(1)计算用户的搜索点击历史记录中属于每个兴趣维度的所有词的词频之和,并 将其作为对应每个兴趣维度的评分值,由对应每个兴趣维度的评分值作为向量生成所述用 户的动态兴趣模型;(2)计算搜索点击历史记录与每个兴趣维度的相似度评分值,并将其作为对应每 个兴趣维度的评分值,由对应每个兴趣维度的评分值作为向量生成所述用户的动态兴趣模型。综合静态兴趣模型和动态兴趣模型生成的兴趣模型可以是(1)首先分别对所述静态兴趣模型和所述动态兴趣模型进行归一化处理,然后计 算归一化处理后的一个或多个静态兴趣模型、和一个或多个动态兴趣模型的和,并将该和 作为所述用户的兴趣模型。(2)首先将一个或多个所述静态兴趣模型、和一个或多个所述动态兴趣模型进行 加权相加,然后再将加权相加的和进行归一化处理,并将归一化处理后的结果作为所述用 户的兴趣模型。步骤403,将所述搜索类型域对应所述用户兴趣模型的一个或多个兴趣维度的评 分值之和作为所述搜索类型域的个性化用户兴趣评分值。步骤404,选择评分值高的一个或多个搜索类型域搜索所述查询关键字。
例如,将用户的兴趣用η个维度来表示,如新闻、体育、娱乐、财经、科技、房产、游戏、女性、论坛、天气、商品、家电、音乐、读书、博客、手机、军事、教育、旅游、彩信、彩铃、餐 饮、民航、工业、农业、电脑、地理等。所述用户兴趣模型即为用户对每个维度的兴趣的评分 值所组成的一个向量1(1~1"2"3,......,rn)。在从用户个性化数据中提取用户兴趣模型时,可以从用户的静态档案中提取,也 可以从用户搜索的历史数据中提取。从用户的静态档案中提取用户兴趣模型Wl可以有以下几种方式(I)Wl = (pi, p2,p3,......,pn),其中pi为静态档案中类型属于第i个兴趣维
度的所有词的词频之和。(2)Wl = (pi, p2,p3,......,pn),其中pi为静态档案与第i个兴趣维度的相似
度评分值。其中,计算静态档案与某个兴趣维度的相似度pi的过程如下(a)提取分类器的特征词库,具体为(i)对用户的每个兴趣维度分别收集相应的语料集,生成语料库;(ii)对所述语料库进行切词,形成一系列词条;(iii)判断切词后的词条是否为特征词,具体可以采用卡方统计算法(CHI)<formula>formula see original document page 11</formula>其中,各参数的含义如下t 某一词条;c 某一类别;N 训练文本总数;A 属于c 且包含t的训练文本数;B 不属于c但是包含t的文本数;C 属于c但不包含t的文本数; D 不属于c也不包含t的文本数。如果C、D都是0,那么<formula>formula see original document page 11</formula>;词条t对整个训练集的CHI值可定义为<formula>formula see original document page 11</formula>或 <formula>formula see original document page 11</formula>低于指定阈值的词条可不考虑作为特征词。其中P(C)的计算过程如下设类别为C1,C2,...,Cn,则<formula>formula see original document page 11</formula>其中,N(Ci)是类别Ci所包含的训练文本的数量;或者<formula>formula see original document page 11</formula>其中,M(Ci)是类别Ci的所有训练文本所包含的词条总数,M
是所有训练文本所包含的词条总数。最终得到的特征词条记为tl,t2,. . .,tn。当然,判断切词后的词条是否为特征词时,并不仅限于上述CHI算法,还可以采用 其他算法,比如,<formula>formula see original document page 11</formula>
(b)根据(a)步骤得到的特征词,生成第i个兴趣维度的特征向量Wi = (wil, wi2, ... ,wii,... , win),其中wii为特征词ti在第i个兴趣维度中的权重。<formula>formula see original document page 11</formula>TFi为特征词ti在属于第i个兴趣维度的所有语料中 出现的词频,N为特征词ti在所有兴趣维度的所有语料中文档数量,GDFi (全局文档频率) 为所有兴趣维度的所有语料中包含特征词ti的文档数量。(c)根据(a)步骤得到的特征词,生成用户静态档案的特征向量S= (sl,s2,...,sn),其中si为特征词ti在用户静态档案中的权重。Si =特征词ti在静态档案中出现的词频。(d)计算用户静态档案向量与第i个兴趣维度的特征向量Wi之间的相似度,得到 相似度的评分值Pi,<formula>formula see original document page 12</formula>
<formula>formula see original document page 12</formula>
从用户搜索的历史数据中提取用户兴趣模型W2可以有以下几种方式W2 = dl+d2+d3+......dm,其中di为用户某个点击文档所对应的兴趣模型向量;获取某个点击文档所对应的兴趣模型向量有两种方法(1) di = (tl,t2,t3,......,tn),当用户最新点击了这个文档,tj等于文档中类
型属于第j个兴趣维度的所有词的词频之和。(2)di = (tl, t2, t3,......,tn),其中di为文档与第i个兴趣维度的相似度评
分值。计算di的过程如下(a)提取分类器的特征词库,具体为(i)对用户的每个兴趣维度分别收集相应的语料集,生成语料库;(ii)对所述语料库进行分词,形成一系列词条;(iii)判断切词后的词条,是否特征词,具体可以采用CHI算法<formula>formula see original document page 12</formula>其中,各参数的含义如下t 某一词条;c 某一类别;N 训练文本总数;A 属于c 且包含t的文本数;B 不属于c但是包含t的文本数;C 属于c但不包含t的文本数;D 不 属于c也不包含t的文本数;如果C、D都是0,那么x2(t,c) =0。词条t对整个训练集的CHI值可定义为;^gW =Z(M)或
义^(0二11^/(^),低于指定阈值的词条可不考虑作为特征词。设定类别为C1, C2,…,Cn, P (c)的计算过程如下P(G) = ^P,其中,N(Ci)是类别Ci所包含的训练文本的数量;或者,= ,其中,M(Ci)是类别Ci的所有训练文本所包含的词条总数,M
M
是所有训练文本所包含的词条总数。最终得到的特征词条记为tl,t2,. . .,tn。当然,判断切词后的词条是否为特征词时,并不仅限于上述CHI算法,还可以采用 其他算法,比如,X2(t,c) = IAD-BCU(b)根据(a)步骤得到的特征词,生成第i个兴趣维度的特征向量Wi = (wil, wi2, ... ,wii,... , win),其中wii为特征词ti在第i个兴趣维度中的权重。Wii = TFi*log(l+N/⑶Fi),TFi为特征词ti在属于第i个兴趣维度的所有语料中 出现的词频,N为特征词ti在所有兴趣维度的所有语料中文档数量,GDFi (全局文档频率) 为所有兴趣维度的所有语料中包含特征词ti的文档数量。
(c)根据(a)步骤得到的特征词,生成文档的特征向量V= (vl,v2, ...,vn),其 中vi为特征词ti在文档中的权重,vi =特征词ti在文档中出现的词频。 (d)计算文档的特征向量ν与第i个兴趣维度的特征向量Wi之间的相似度,得到 相似度的评分值di di=Wi*V/|Wi|*|V|
<formula>formula see original document page 13</formula>如果用户对某个点击过的文档进行评价,如果评价为好,di向量乘以一个正的常
数C,表示文档的重要性增加,即di = c*di = (c*ti,C*t2,C*t3,......,c*tn);如果评
价为不好,di向量乘以一个正的常数c的倒数,表示文档的重要性减小,即di = l/c*di = (l/c*ti, l/c*t2, l/c*t3,......, l/c*tn);一段时间后,tj的值自动减少一定的百分比,表示随着时间的推移其重要性减弱, 直到过了较长的时间tj的值减为零为止,这时可以将di从历史记录中删除。分别对Wl和W2作归一化,得到用户兴趣模型W = rl*Wl+r2*W2,其中rl+r2 = 1。本发明实施例移动搜索方法,针对用户的搜索请求,通过计算各搜索类型域的个 性化用户兴趣评分值,选择评分值高的一个或几个搜索类型域进行搜索,从而可以为用户 确定个性化查询分类,为用户提供个性化的精确的搜索结果。在上面各实施例中,在进行搜索类型域选择时,分别以所述搜索请求与所述搜索 类型域的相似度、所述搜索请求对应所述搜索类型域的大众搜索率、以及搜索类型域的个 性化用户兴趣评分值作为搜索类型域选择的依据,确定用户的个性化查询分类,为用户提 供个性化的精确的搜索结果。在本发明实施例中,还可以综合考虑上述任意两项或多项,计算出每个搜索类型 域的综合评分值,选择综合评分值高的一个或几个搜索类型域进行搜索。下面以综合考虑 上述三项作为搜索类型域选择的依据为例,对本发明实施例详细说明。参照图5,是本发明实施例移动搜索方法的另一种实现流程图。步骤501,接收搜索请求,所述搜索请求中包含一个或多个查询关键字。步骤502,分别计算所述搜索请求与各搜索类型域的相似度、所述搜索请求对应各 搜索类型域的大众搜索率、所述搜索类型域的个性化用户兴趣评分值。步骤503,将得到对应所述搜索类型域的各值进行归一化处理,得到各搜索类型域 的综合评分值。比如,计算所述搜索请求与某个搜索类型域的相似度,并将其归一化,得到值 Scorel ;计算所述搜索请求对应该搜索类型域的大众搜索率,并将其归一化,得到值 Score2 ;计算该搜索类型域的个性化用户兴趣评分值,并将其归一化,得到值Sc0re3 ;计算该搜索类型域的综合评分值=rl*scorel+r2*score2+r3*score3,其中,rl, r2, r3 分别为 Scorel,Score2, Score3 的权值,rl+r2+r3+r4 = 1。综合评分值也可以有其他计算方式,如综合评分值=scorel*score2*score3,或者
综合评分值=(scorel+score2+score3)/3,等。步骤504,选择综合评分值高的一个或多个搜索类型域进行搜索。可见,在本发明实施例中,综合考虑了多项因素确定用户的个性化查询分类,计算 出每个搜索类型域的综合评分值,选择综合评分值高的一个或几个搜索类型域进行搜索, 从而为用户提供个性化的精确的搜索结果。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以 通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中, 所述的存储介质,如ROM/RAM、磁碟、光盘等。本发明实施例还提供了一种移动搜索装置,如图6所示,是该装置的结构示意图在该实施例中,所述装置包括接收单元601、计算单元602、选择单元603和搜索 单元604。其中接收单元601,用于接收搜索请求,所述搜索请求中包含一个或多个查询关键字;计算单元602,用于计算各搜索类型域的评分值,所述评分值为以下任意一项的评 分值或多项的综合评分值所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应 所述搜索类型域的大众搜索率、搜索类型域的个性化用户兴趣评分值;计算单元602计算各搜索类型域的综合评分值为根据搜索请求与搜索类型域的 相似度、搜索请求对应搜索类型域的大众搜索率和搜索类型域的个性化用户兴趣评分值中 多项计算乘积评分值、平均评分值或加权评分值。选择单元603,根据各搜索类型域的评分值选择其中一个或几个搜索类型域;搜索单元604,用于利用所述选择单元选择的搜索类型域搜索所述查询关键字。在本发明实施例中,在计算单元602和选择单元603确定用户的个性化查询分类 时,可以有多种实现方式,比如,可以是根据所述搜索请求与所述搜索类型域的相似度,选 择相似度高的一个或几个搜索类型域进行搜索;也可以是根据所述搜索请求对应所述搜索 类型域的大众搜索率,选择大众搜索率高的一个或几个搜索类型域进行搜索;还可以根据 搜索类型域的个性化用户兴趣评分值,选择个性化用户兴趣评分值高的一个或几个搜索类 型域进行搜索。当然,还可以是综合考虑上述几项,计算出每个搜索类型域的综合评分值, 选择综合评分值高的一个或几个搜索类型域进行搜索。因此,所述计算单元602包括以下 任意一个或多个单元相似度计算单元,用于计算所述搜索请求与各搜索类型域的相似度;大众搜索率计算单元,用于计算所述搜索请求对应各搜索类型域的大众搜索率;用户兴趣评分值计算单元,用于计算各搜索类型域的个性化用户兴趣评分值。下面对此分别举例详细说明。如图7所示,是本发明实施例移动搜索装置的一种具体结构示意图。在该实施例中,所述装置包括接收单元701、相似度计算单元702、选择单元703和搜索单元704。其中,所述接收单元701、选择单元703和搜索单元704与图6所示实施 例中各对应单元一致,在此不再详细描述。所述相似度计算单元702包括权重设置子单元721、查询向量生成子单元722、域 向量生成单元723和第一计算子单元724。其中权重设置子单元721,用于为所述查询关 键字设置权重;查询向量生成子单元722,用于由所述查询关键字的权重生成查询向量;域向量生成单元723,用于由所述搜索类型域的各词的权重生成对应该搜索类型域的域向量;第一计算子单元724,用于通过计算所述查询向量和域向量得到所述所述搜索请求与搜索 类型域的相似度。在该实施例中,所述装置还可进一步包括设置单元(未图示)或学习单元705。 其中,所述设置单元,用于通过人工方式确定所述搜索类型域中的主题词和相关词,以及各 词的权重;所述学习单元705,用于通过自动学习方式确定所述搜索类型域中的主题词和 相关词,以及各词的权重。所述学习单元705包括语料样本获取子单元751、词库生成子单元752、权重计算 子单元753和主题词确定子单元754。其中语料样本获取子单元751,用于对于每个搜索 类型域,获取对应该搜索类型域的训练文本语料样本;词库生成子单元752,用于对所述语 料样本进行切词,生成该搜索类型域的词库;权重计算子单元753,用于计算所述词库中各词的权重;主题词确定子单元754, 用于根据各词的权重确定所述搜索类型域中的主题词和相关词。在本发明实施例中,所述学习单元705还可进一步包括档次划分子单元755和评 分值设置子单元756。其中,档次划分子单元755,用于将所述词库中的所有词按照权重划 分为不同档次的集合;评分值设置子单元756,用于为每个档次的集合设置最终评分值,并 将每个档次的最终评分值作为该档次内的各词的权重。本发明实施例移动搜索装置,针对用户的搜索请求,通过计算搜索请求与各搜索 类型域的相似度,选择相似度高的一个或几个搜索类型域进行搜索,从而可以为用户确定 个性化查询分类,为用户提供个性化的精确的搜索结果。具体过程可参照前面图2所示实 施例中的描述,在此不再赘述。如图8所示,是本发明实施例移动搜索装置的另一种具体结构示意图。在该实施例中,所述装置包括接收单元801、大众搜索率计算单元802、选择单元 803和搜索单元804。其中,所述接收单元801、选择单元803和搜索单元804与图6所示实 施例中各对应单元一致,在此不再详细描述。所述大众搜索率计算单元802包括第二计算子单元821和相加子单元822,其中, 第二计算子单元821,用于计算所述搜索请求中每个查询关键字对应的各搜索类型域的大 众搜索率;相加子单元822,用于将所述搜索请求中所有查询关键字对应的同一个搜索类 型域的大众搜索率的和作为所述搜索请求对应该搜索类型域的大众搜索率。在本发明实施例中,所述大众搜索率具体可以是大众搜索次数。所述第二计算子 单元821计算所述搜索请求中每个关键字对应的某个搜索类型域的大众搜索总次数时,可 以依据历史记录,搜集所有用户关于包含所述搜索请求中某个关键字的搜索请求选择用某 个搜索类型域进行搜索的次数的总和,作为该关键字对应的大众对该搜索类型域进行搜索 的总次数,即对应该搜索类型域的大众搜索总次数;然后所述相加子单元822将所述搜索 请求中所有关键字对应的该搜索类型域的大众搜索总次数的和,作为所述搜索请求对应的 该搜索类型域的大众搜索总次数。在本发明实施例中,所述大众搜索率具体还可以是大众搜索结果点击次数。所述 第二计算子单元821计算所述搜索请求中每个关键字对应的某个搜索类型域的大众搜索 结果点击总次数时,可以依据历史记录,搜集所有用户关于包含所述搜索请求中某个关键字的搜索请求选择用某个搜索类型域进行搜索的搜索结果点击次数的总和,作为该关键字 对应的大众对该搜索类型域的搜索结果点击的总次数,即对应该搜索类型域的大众搜索结 果点击总次数;然后所述相加子单元822将所述搜索请求中所有关键字对应的该搜索类型 域的大众搜索结果点击总次数的和,作为所述搜索请求对应的该搜索类型域的大众搜索结 果点击总次数。本发明实施例移动搜索装置,针对用户的搜索请求,通过计算所述搜索请求对应 各搜索类型域的大众搜索率,选择大众搜索率高的一个或几个搜索类型域进行搜索,从而 可以为用户确定个性化查询分类,为用户提供个性化的精确的搜索结果。具体过程可参照 前面图3所示实施例中的描述,在此不再赘述。如图9所示,是本发明实施例移动搜索装置的另一种具体结构示意图。在该实施例中,所述装置包括接收单元901、用户兴趣评分值计算单元902、选择 单元903和搜索单元904。其中,所述接收单元901、选择单元903和搜索单元904与图6 所示实施例中各对应单元一致,在此不再详细描述。所述用户兴趣评分值计算单元902包括兴趣模型提取子单元921和第三计算子 单元922,其中,兴趣模型提取子单元921,用于从用户数据中提取用户的兴趣模型,所述用 户的兴趣模型为所述用户数据针对多个兴趣维度的评分值组成的向量;第三计算子单元 922,用于将所述搜索类型域对应所述用户兴趣模型的一个或多个兴趣维度的评分值之和 作为所述搜索类型域的个性化用户兴趣评分值。 在该实施例中,所述用户的兴趣模型为静态兴趣模型或动态兴趣模型,还可以是 综合所述静态兴趣模型或动态兴趣模型而生成的兴趣模型。为此,所述兴趣模型提取子单 元921可以有多种结构方式。所述兴趣模型提取子单元921可以只包括第一提取子单元(图中未示),用于计算 用户的静态档案中属于每个兴趣维度的所有词的词频之和,并将其作为对应每个兴趣维度 的评分值,由对应每个兴趣维度的评分值作为向量生成所述用户兴趣模型;所述兴趣模型提取子单元921还可以只包括第二提取子单元(图中未示),用于计 算用户搜索的历史记录历史记录中被点击的文档中属于每个兴趣维度的所有词的词频之 和,并将其作为对应每个兴趣维度的评分值,由对应每个兴趣维度的评分值作为向量生成 所述用户的动态兴趣模型。如图10所示,所述兴趣模型提取子单元921还可以包括所述第一提取子单元1001 和所述第二提取子单元1002,以及第一处理子单元1003和第一加权子单元1004。其中,第 一处理子单元1003,用于分别对所述静态兴趣模型和所述动态兴趣模型进行归一化处理; 第一加权子单元1004,用于计算归一化处理后的静态兴趣模型和动态兴趣模型的和,并将 该和作为所述用户的兴趣模型。如图11所示,所述兴趣模型提取子单元921还可以包括所述第一提取子单元1101和所述第二提取子单元1102,以及第二加权子单元1103和第二处理子单元1104。其中,第 二加权子单元1103,用于将所述静态兴趣模型和所述动态兴趣模型进行加权相加;第二处 理子单元1104,用于将所述第二加权子单元输出的结果进行归一化处理,并将归一化处理 后的结果作为所述用户的兴趣模型。本发明实施例移动搜索装置,针对用户的搜索请求,通过计算各搜索类型域的个性化用户兴趣评分值,选择评分值高的一个或几个搜索类型域进行搜索,从而可以为用户确定个性化查询分类,为用户提供个性化的精确的搜索结果。具体过程可参照前面本发明 实施例移动搜索方法中的描述。在上面各实施例的移动搜索装置中,在进行搜索类型域选择时,分别以所述搜索 请求与所述搜索类型域的相似度、所述搜索请求对应所述搜索类型域的大众搜索率、以及 搜索类型域的个性化用户兴趣评分值作为搜索类型域选择的依据,确定用户的个性化查询 分类,为用户提供个性化的精确的搜索结果。在本发明实施例中,还可以综合考虑上述任意两项或多项,计算出每个搜索类型 域的综合评分值,选择综合评分值高的一个或几个搜索类型域进行搜索。下面以综合考虑 上述三项作为搜索类型域选择的依据为例,对本发明实施例详细说明。参照图12,是本发明实施例移动搜索装置的另一种结构图。在该实施例中,所述装置包括接收单元1201、计算单元1202、选择单元1203和 搜索单元1204。其中,接收单元1201,用于接收搜索请求,所述搜索请求中包含一个或多 个查询关键字;计算单元1202,用于计算各搜索类型域的评分值,所述评分值为以下任意 一项的评分值或多项的综合评分值所述搜索请求与所述搜索类型域的相似度、所述搜索 请求对应所述搜索类型域的大众搜索率、搜索类型域的个性化用户兴趣评分值;选择单元 1203,根据各搜索类型域的评分值选择其中一个或几个搜索类型域;搜索单元1204,用于 利用所述选择单元选择的搜索类型域搜索所述查询关键字。在该实施例中,所述计算单元1202包括相似度计算单元1221,大众搜索率计算 单元1222,用户兴趣评分值计算单元1223、归一化处理单元1224和综合处理单元1225。其 中,相似度计算单元1221,用于计算所述搜索请求与各搜索类型域的相似度;大众搜索率 计算单元1222,用于计算所述搜索请求对应各搜索类型域的大众搜索率;用户兴趣评分值 计算单元1223,用于计算各搜索类型域的个性化用户兴趣评分值;归一化处理单元1224, 用于分别对所述相似度计算单元、所述大众搜索率计算单元和所述用户兴趣评分值计算单 元计算得到的值进行归一化处理;综合处理单元1225,用于对归一化处理单元1224得到的 任意两个或多个归一化后的值进行综合计算,例如乘积、平均或加权相加等,得到各搜索 类型域的评分值。可见,本发明实施例的移动搜索装置,综合考虑了多项因素确定用户的个性化查 询分类,计算出每个搜索类型域的综合评分值,选择综合评分值高的一个或几个搜索类型 域进行搜索,从而可以为用户提供个性化的精确的搜索结果。以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式
对本发明进行 了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所 述,本说明书内容不应理解为对本发明的限制。
权利要求
一种移动搜索方法,其特征在于,包括接收搜索请求,所述搜索请求中包含一个或多个查询关键字;计算各搜索类型域的评分值,所述评分值为以下任意一项的评分值或多项的综合评分值所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所述搜索类型域的大众搜索率、搜索类型域的个性化用户兴趣评分值;根据各搜索类型域的评分值选择其中一个或几个搜索类型域搜索所述查询关键字。
2.根据权利要求1所述的方法,其特征在于,所述计算各搜索类型域的综合评分值为 根据所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所述搜索类型域的大众 搜索率和搜索类型域的个性化用户兴趣评分值中多项计算乘积评分值、平均评分值或加权 评分值。
3.根据权利要求1所述的方法,其特征在于,所述计算所述搜索请求与所述搜索类型 域的相似度包括为所述查询关键字设置权重; 由所述查询关键字的权重生成查询向量;由所述搜索类型域的各词的权重生成对应该搜索类型域的域向量; 通过计算所述查询向量和域向量得到所述所述搜索请求与搜索类型域的相似度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括通过人工方式确定所述搜索类型域中的主题词和相关词,以及各词的权重;或者 通过自动学习方式确定所述搜索类型域中的主题词和相关词,以及各词的权重。
5.根据权利要求4所述的方法,其特征在于,所述通过自动学习方式确定所述搜索类 型域中的主题词和相关词,以及各词的权重包括对于每个搜索类型域,获取对应该搜索类型域的训练文本语料样本; 对所述语料样本进行切词,生成该搜索类型域的词库; 计算所述词库中各词的权重;根据各词的权重确定所述搜索类型域中的主题词和相关词。
6.根据权利要求5所述的方法,其特征在于,所述通过自动学习方式确定所述搜索类 型域中的主题词和相关词,以及各词的权重还包括将所述词库中的所有词按照权重划分为不同档次的集合;为每个档次的集合设置最终评分值,并将每个档次的最终评分值作为该档次内的各词 的权重。
7.根据权利要求3所述的方法,其特征在于,所述为所述查询关键字设置权重包括 为全部查询关键字设置相同的权重;或者为排在最前的关键字设置最大权重,为排在中间的关键字设置中间大小的权重,为排 在最后的关键字设置最小权重。
8.根据权利要求1所述的方法,其特征在于,所述计算所述搜索请求对应所述搜索类 型域的大众搜索率包括计算所述搜索请求中每个查询关键字对应的各搜索类型域的大众搜索率; 将所述搜索请求中所有查询关键字对应的同一个搜索类型域的大众搜索率的和作为 所述搜索请求对应该搜索类型域的大众搜索率。
9.根据权利要求8所述的方法,其特征在于,所述大众搜索率为大众搜索次数,或者 大众搜索结果点击次数。
10.根据权利要求1所述的方法,其特征在于,所述计算所述搜索类型域的个性化用户 兴趣评分值包括从用户数据中提取用户的兴趣模型,所述用户的兴趣模型为所述用户数据针对多个兴 趣维度的评分值组成的向量;将所述搜索类型域对应所述用户兴趣模型的一个或多个兴趣维度的评分值之和作为 所述搜索类型域的个性化用户兴趣评分值。
11.根据权利要求10所述的方法,其特征在于,所述用户的兴趣模型为静态兴趣模型 或动态兴趣模型;从用户数据中提取用户的静态兴趣模型包括计算用户的静态档案中属于每个兴趣维度的所有词的词频之和,并将其作为对应每个 兴趣维度的评分值;或者,计算用户的静态档案与每个兴趣维度的相似度评分值,并将其作 为对应每个兴趣维度的评分值;由对应每个兴趣维度的评分值作为向量生成所述用户兴趣模型; 从用户数据中提取用户的动态兴趣模型包括计算用户的搜索点击历史记录中属于每个兴趣维度的所有词的词频之和,并将其作为 对应每个兴趣维度的评分值;或者,计算搜索点击历史记录与每个兴趣维度的相似度评分 值,并将其作为对应每个兴趣维度的评分值;由对应每个兴趣维度的评分值作为向量生成所述用户的动态兴趣模型。
12.根据权利要求11所述的方法,其特征在于,所述从用户数据中提取用户的兴趣模 型还包括分别对所述静态兴趣模型和所述动态兴趣模型进行归一化处理; 计算归一化处理后的一个或多个静态兴趣模型、和一个或多个动态兴趣模型的和,并 将该和作为所述用户的兴趣模型。
13.根据权利要求11所述的方法,其特征在于,所述从用户数据中提取用户的兴趣模 型还包括将一个或多个所述静态兴趣模型、和一个或多个所述动态兴趣模型进行加权相加; 将加权相加的和进行归一化处理,并将归一化处理后的结果作为所述用户的兴趣模型。
14.根据权利要求1所述的方法,其特征在于,所述计算各搜索类型域的加权评分值包括计算所述搜索请求与所述搜索类型域的相似度,并将其归一化处理; 计算所述搜索请求对应所述搜索类型域的大众搜索率,并将其归一化处理; 计算所述搜索类型域的个性化用户兴趣评分值,并将其归一化处理; 将上述任意两个或多个归一化处理后的值进行加权相加,得到所述搜索类型域的加权 评分值。
15.一种移动搜索装置,其特征在于,包括接收单元,用于接收搜索请求,所述搜索请求中包含一个或多个查询关键字;计算单元,用于计算各搜索类型域的评分值,所述评分值为以下任意一项的评分值或 多项的综合评分值所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所述搜 索类型域的大众搜索率、搜索类型域的个性化用户兴趣评分值;选择单元,根据各搜索类型域的评分值选择其中一个或几个搜索类型域; 搜索单元,用于利用所述选择单元选择的搜索类型域搜索所述查询关键字。
16.根据权利要求15所述的装置,其特征在于,所述计算单元计算各搜索类型域的综 合评分值为根据所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所述搜索类 型域的大众搜索率和搜索类型域的个性化用户兴趣评分值中多项计算乘积评分值、平均评 分值或加权评分值。
17.根据权利要求15所述的装置,其特征在于,所述计算单元包括以下任意一个或多 个单元相似度计算单元,用于计算所述搜索请求与各搜索类型域的相似度; 大众搜索率计算单元,用于计算所述搜索请求对应各搜索类型域的大众搜索率; 用户兴趣评分值计算单元,用于计算各搜索类型域的个性化用户兴趣评分值。
18.根据权利要求17所述的装置,其特征在于,所述相似度计算单元包括 权重设置子单元,用于为所述查询关键字设置权重;查询向量生成子单元,用于由所述查询关键字的权重生成查询向量; 域向量生成单元,用于由所述搜索类型域的各词的权重生成对应该搜索类型域的域向量;第一计算子单元,用于通过计算所述查询向量和域向量得到所述所述搜索请求与搜索 类型域的相似度。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括设置单元,用于通过人工方式确定所述搜索类型域中的主题词和相关词,以及各词的 权重;或者学习单元,用于通过自动学习方式确定所述搜索类型域中的主题词和相关词,以及各 词的权重。
20.根据权利要求19所述的装置,其特征在于,所述学习单元包括语料样本获取子单元,用于对于每个搜索类型域,获取对应该搜索类型域的训练文本 语料样本;词库生成子单元,用于对所述语料样本进行切词,生成该搜索类型域的词库; 权重计算子单元,用于计算所述词库中各词的权重;主题词确定子单元,用于根据各词的权重确定所述搜索类型域中的主题词和相关词。
21.根据权利要求20所述的装置,其特征在于,所述学习单元还包括档次划分子单元,用于将所述词库中的所有词按照权重划分为不同档次的集合; 评分值设置子单元,用于为每个档次的集合设置最终评分值,并将每个档次的最终评 分值作为该档次内的各词的权重。
22.根据权利要求17所述的装置,其特征在于,所述大众搜索率计算单元包括第二计算子单元,用于计算所述搜索请求中每个查询关键字对应的各搜索类型域的大 众搜索率;相加子单元,用于将所述搜索请求中所有查询关键字对应的同一个搜索类型域的大众 搜索率的和作为所述搜索请求对应该搜索类型域的大众搜索率。
23.根据权利要求17所述的装置,其特征在于,所述用户兴趣评分值计算单元包括 兴趣模型提取子单元,用于从用户数据中提取用户的兴趣模型,所述用户的兴趣模型为所述用户数据针对多个兴趣维度的评分值组成的向量;第三计算子单元,用于将所述搜索类型域对应所述用户兴趣模型的一个或多个兴趣维 度的评分值之和作为所述搜索类型域的个性化用户兴趣评分值。
24.根据权利要求23所述的装置,其特征在于,所述用户的兴趣模型为静态兴趣模型 或动态兴趣模型;所述兴趣模型提取子单元包括第一提取子单元,用于计算用户的静态档案中属于每个兴趣维度的所有词的词频之 和,并将其作为对应每个兴趣维度的评分值,或者计算用户的静态档案与每个兴趣维度的 相似度评分值,并将其作为对应每个兴趣维度的评分值,由对应每个兴趣维度的评分值作 为向量生成所述用户兴趣模型;或者第二提取子单元,用于计算用户的搜索点击历史记录中属于每个兴趣维度的所有词的 词频之和,并将其作为对应每个兴趣维度的评分值,或者计算搜索点击历史记录与每个兴 趣维度的相似度评分值,并将其作为对应每个兴趣维度的评分值,由对应每个兴趣维度的 评分值作为向量生成所述用户的动态兴趣模型。
25.根据权利要求23所述的装置,其特征在于,所述兴趣模型提取子单元还包括 第一处理子单元,用于分别对所述静态兴趣模型和所述动态兴趣模型进行归一化处理;第一加权子单元,用于计算归一化处理后的一个或多个静态兴趣模型、和一个或多个 动态兴趣模型的和,并将该和作为所述用户的兴趣模型。
26.根据权利要求23所述的装置,其特征在于,所述兴趣模型提取子单元还包括 第二加权子单元,用于将一个或多个所述静态兴趣模型、和一个或多个所述动态兴趣模型进行加权相加;第二处理子单元,用于将所述第二加权子单元输出的结果进行归一化处理,并将归一 化处理后的结果作为所述用户的兴趣模型。
27.根据权利要求23所述的装置,其特征在于,所述计算单元还包括归一化处理单元,用于分别对所述相似度计算单元、所述大众搜索率计算单元和所述 用户兴趣评分值计算单元计算得到的值进行归一化处理;加权处理单元,用于对所述归一化处理单元得到的任意两个或多个归一化后的值进行 加权相加,得到各搜索类型域的评分值。
全文摘要
本发明公开了一种移动搜索方法及装置,所述方法包括接收搜索请求,所述搜索请求中包含一个或多个查询关键字;计算各搜索类型域的评分值,所述评分值为以下任意一项的评分值或多项的综合评分值所述搜索请求与所述搜索类型域的相似度、所述搜索请求对应所述搜索类型域的大众搜索率、搜索类型域的个性化用户兴趣评分值;所述大众搜索率为大众搜索次数,或者大众搜索结果点击次数;根据各搜索类型域的评分值选择其中一个或几个搜索类型域搜索所述查询关键字。利用本发明,可以为用户提供个性化的准确的搜索结果。
文档编号G06F17/30GK101820592SQ200910140119
公开日2010年9月1日 申请日期2009年7月1日 优先权日2009年7月1日
发明者胡汉强 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1