一种用于获取相关关键词信息的方法、装置和计算机设备的制作方法

文档序号:6338049阅读:328来源:国知局
专利名称:一种用于获取相关关键词信息的方法、装置和计算机设备的制作方法
技术领域
本发明涉及计算机网络技术,尤其涉及一种用于获取相关关键词信息的方法、装 置和计算机设备。
背景技术
在现代互联网技术中,如何根据来自用户的搜索信息来提供符合用户需求的搜索 结果,无疑十分重要。现有技术中所采用的一种技术方案为通过获得与来自用户的搜索信 息相关的相关关键词,并根据该等相关关键词来触发其对应的搜索结果。因此,如何获取与 搜索信息相关的相关关键词,十分重要。现有技术中判断文本信息相关度的方案多用于判断大段文本内容的相似度,而来 自用户的搜索信息多为短文本信息,判断大段文本内容相似度的方案并不适用于判断短文 本信息的相似度。并且,现有技术中相似度的判断方式也多仅从语义上进行分析判断,往往 不能准确反映用户的意愿。

发明内容
本发明的目的是提供一种用于获取相关关键词信息的方法、装置和计算机设备。根据本发明的一个方面,提供一种计算机实现的用于获取与短文本信息相关的相 关关键词信息的方法,其中,该方法包括以下步骤a获取待处理的所述短文本信息及其对应的第一多维度特征信息;b获取一个或多个关键词信息及其对应的第二多维度特征信息;c根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个 关键词信息之间的相关度信息;d基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述 短文本信息相关的相关关键词信息。根据本发明的另一个方面,还提供了一种用于获取与短文本信息相关的相关关键 词信息的短文本处理装置,其中,该短文本处理装置包括第一获取装置、用于获取待处理的所述短文本信息及其对应的第一多维度特征信 息;第二获取装置、用于获取一个或多个关键词信息及其对应的第二多维度特征信 息;相关度确定装置、用于根据所述第一及第二多维度特征信息,获得所述短文本信 息与所述一个或多个关键词信息之间的相关度信息;关键词确定装置、用于基于预定规则,根据所述相关度信息及所述一个或多个关 键词信息,获得与所述短文本信息相关的相关关键词信息。根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括上 述短文本处理装置。
与现有技术相比,本发明具有以下优点1)本发明采用多种特征信息,综合判断 短文本信息与关键词信息之间的相关度,从而避免了采用单一特征信息而造成的误判,提 高了短文本信息与关键词信息之间的匹配准确性;幻本发明采用多种相关度处理方式,分 别通过多种特征信息的多个相关度结果来综合判断,进一步减少了误判的可能性,提高了 短文本信息与关键词信息之间的匹配准确性;3)本发明结合语义分析及用户意图,综合判 断短文本信息与关键词信息之间的相关度,从而去除虽语义相关,但并不符合用户意图的 关键词,进而避免将该等不符合用户意图的关键词所触发的搜索结果展现给用户。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显图1为本发明一个方面的用于获取与短文本信息相关的相关关键词信息的方法 流程图;图2为本发明一个优选实施例的用于获取与短文本信息相关的相关关键词信息 的方法流程图;图3为本发明另一优选实施例的用于获取与短文本信息相关的相关关键词信息 的方法流程图;图4为本发明一个方面的用于获取与短文本信息相关的相关关键词信息的短文 本处理装置结构示意图;图5为本发明一个优选实施例获取与短文本信息相关的相关关键词信息的短文 本处理装置结构示意图;图6为本发明另一优选实施例获取与短文本信息相关的相关关键词信息的短文 本处理装置结构示意图;附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为本发明一个方面的用于获取与短文本信息相关的相关关键词信息的方法 流程图。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制芯片来完成, 为简明起见,以下将所述操作系统或处理控制芯片统称为短文本处理装置。其中,该计算机 设备包括但不限于1)用户设备;2)网络设备。其中,所述用户设备包括但不限于个人电 脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成 的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其 中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,短文本处理装置获取待处理的短文本信息及其对应的第一多维度 特征信息。其中,所述短文本信息包括但不限于1)来自用户的输入序列;2)计算机设备当前需要处理的信息等。
该短文本信息对应的第一多维度特征信息包括但不限于以下至少两种特征信 息1)切词特征信息,其包含对该短文本信息进行切词后所得的特征信息;2)文本扩展特征信息,其包含对该短文本信息进行短文本扩展后所得的扩展特征 fn息;3) n-gram特征信息,其包含该短文本信息n-gram片段的特征信息;4)PLSA(Probabilistic latent semantic analysis)特征信息,其包含该短文本 信息的潜在语义主元(topic)信息,优选地,该特征信息以数字来表征该潜在语义主元;5)ESA(Explicit Semantic Analysis)特征信息,其包含该短文本信息的具有明 确语义概念的主元信息,优选地,该特征信息以数字来表征该具有明确语义概念的主元;6)PCA(Principal component analysis)特征信息,其包含该短文本信息的潜在 广告主元信息,优选地,该特征信息以数字来表征该广告主元。该短文本处理装置获取该待处理短文本信息的方法包括但不限于1)实时获取 用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需 要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行处理的短文本 fn息ο该短文本处理装置获取该待处理短文本信息对应的第一多维度特征信息的方式 包括但不限于1)当获得所述短文本信息后,对该短文本信息进行实时分析,来获得所述 第一多维度特征信息;幻获取预存储在所述计算机设备或其他设备中的与该待处理短文 本信息对应的第一多维度特征信息。接着,在步骤S2中,短文本处理装置获取一个或多个关键词信息及其对应的第二 多维度特征信息。其中,该第二多维度特征信息包括但不限于至少两种特征信息,该特征信 息已在前述说明第一多维度特征信息时予以详述,并以引用的方式包含于此,不再赘述。具体地,该短文本处理装置获取所述一个或多个关键词信息及其对应的第二多维 度特征信息的方式包括但不限于1)根据该待处理短文本信息的第一多维度特征信息,在特征倒排索引库中进行查 询,以获得该一个或多个关键词信息及其对应的第二多维度特征信息,其中,所述特征倒排 索引库为能够根据特征信息来获取关键词信息的索引库;例如,一个特征倒排索引库的实施例如表1所示表 1
索引词索引词特征类别关键词诺基亚切词特征诺基亚手机、...诺基亚文本扩展特征信息5310、音乐手机、...手机_维修n-gram特征诺基亚手机维修、三星手机维修、...
权利要求
1.一种计算机实现的用于获取与短文本信息相关的相关关键词信息的方法,其中,该 方法包括以下步骤a获取待处理的所述短文本信息及其对应的第一多维度特征信息; b获取一个或多个关键词信息及其对应的第二多维度特征信息; c根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个关键 词信息之间的相关度信息;d基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文 本信息相关的相关关键词信息。
2.根据权利要求1所述的方法,其中,所述步骤c包括以下步骤-基于一种或多种相关度处理方式,根据所述第一及第二多维度特征信息,获得所述短 文本信息与所述关键词信息之间的所有基本相关度值; -根据所述基本相关度值,获得所述相关度信息;其中,所述基本相关度值表示所述第一及第二多维度特征信息所包含的任一种多种特 征信息在基于一种相关度处理方式下所得的相关度值。
3.根据权利要求1或2所述的方法,其中,所述相关度信息包括以下至少一项 -所述短文本信息与所述关键词信息对应的总相关度值;-所述短文本信息与所述关键词信息对应的基本相关度值;-通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值; -通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值。
4.根据权利要求2或3所述的方法,其中,所述相关度处理方式包括以下至少一种 -欧式距离处理;-余弦相关度处理; -BM25相关度处理; -同义词匹配处理。
5.根据权利要求2至4中任一项所述的方法,其中,所述预定规则包括基于以下至少一 项因素来确定所述相关关键词信息-基于所述相关度信息的排序结果; -基于所述基本相关度值是否大于其对应的最小预定阈值; -基于所述总相关度值是否大于预定相关阈值。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤b包括以下步骤bl根据所述第一多维度特征所包含的各特征信息,在特征倒排索引库中进行查询,以 获得与所述各特征信息相匹配的特征信息;b2获取所述相匹配的特征信息对应的关键词信息; b3获取所述关键词信息对应的第二多维度特征信息。
7.根据权利要求6所述的方法,其中,该方法还包括以下步骤 -获取待处理的关键词信息;-提取所述待处理关键词信息的多维度特征信息;-根据所述关键词信息及其对应的多维度特征信息,建立或更新所述特征倒排索引库。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括以下步骤 -根据所述短文本信息,获取必要信息;-若所述关键词信息中未包含所述必要信息,则判断该关键词信息与所述短文本信息 不相关。
9.根据权利要求1至8中任一项所述的方法,其中,所述第一及第二多维度特征信息均 包括以下至少两种特征信息-切词特征信息; -文本扩展特征信息; -n-gram特征信息; -PLSA特征信息; -ESA特征信息; -PCA特征信息。
10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括以下步骤-根据所述短文本信息及其对应的相关关键词信息,来建立或更新相关关键词库。
11.根据权利要求10所述的方法,其中,该方法还包括以下步骤-根据所述待处理的短文本信息,在所述相关关键词库中进行查询匹配,以获得与该待 处理的短文本信息相关的相关关键词信息。
12.一种用于获取与短文本信息相关的相关关键词信息的短文本处理装置,其中,该短 文本处理装置包括第一获取装置、用于获取待处理的所述短文本信息及其对应的第一多维度特征信息; 第二获取装置、用于获取一个或多个关键词信息及其对应的第二多维度特征信息; 相关度确定装置、用于根据所述第一及第二多维度特征信息,获得所述短文本信息与 所述一个或多个关键词信息之间的相关度信息;关键词确定装置、用于基于预定规则,根据所述相关度信息及所述一个或多个关键词 信息,获得与所述短文本信息相关的相关关键词信息。
13.根据权利要求12所述的短文本处理装置,其中,所述相关度确定装置包括第一子确定装置、用于基于一种或多种相关度处理方式,根据所述第一及第二多维度 特征信息,获得所述短文本信息与所述关键词信息之间的所有基本相关度值; 第二子确定装置、用于根据所述基本相关度值,获得所述相关度信息; 其中,所述基本相关度值表示所述第一及第二多维度特征信息所包含的任一种多种特 征信息在基于一种相关度处理方式下所得的相关度值。
14.根据权利要求12或13所述的短文本处理装置,其中,所述相关度信息包括以下至 少一项-所述短文本信息与所述关键词信息对应的总相关度值; -所述短文本信息与所述关键词信息对应的基本相关度值;-通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值; -通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值。
15.根据权利要求13或14所述的短文本处理装置,其中,所述相关度处理方式包括以下至少一种-欧式距离处理; -余弦相关度处理; -BM25相关度处理; -同义词匹配处理。
16.根据权利要求13至15中任一项所述的短文本处理装置,其中,所述预定规则包括 基于以下至少一项因素来确定所述相关关键词信息-基于所述相关度信息的排序结果; -基于所述基本相关度值是否大于其对应的最小预定阈值; -基于所述总相关度值是否大于预定相关阈值。
17.根据权利要求12至16中任一项所述的短文本处理装置,其中,所述第二获取装置 包括第一查询装置、用于根据所述第一多维度特征所包含的各特征信息,在特征倒排索引 库中进行查询,以获得与所述各特征信息相匹配的特征信息;第一子获取装置、用于获取所述相匹配的特征信息对应的关键词信息; 第二子获取装置、用于获取所述关键词信息对应的第二多维度特征信息。
18.根据权利要求17所述的短文本处理装置,其中,该短文本处理装置还包括 第三获取装置、用于获取待处理的关键词信息;提取装置、用于提取所述待处理关键词信息的多维度特征信息; 第一更新装置、用于根据所述关键词信息及其对应的多维度特征信息,建立或更新所 述特征倒排索引库。
19.根据权利要求12至18中任一项所述的短文本处理装置,其中,该短文本处理装置 还包括第四获取装置、用于根据所述短文本信息,获取必要信息;判断装置、用于当所述关键词信息中未包含所述必要信息,则判断该关键词信息与所 述短文本信息不相关。
20.根据权利要求12至19中任一项所述的短文本处理装置,其中,所述第一及第二多 维度特征信息均包括以下至少两种特征信息-切词特征信息; -文本扩展特征信息; -n-gram特征信息; -PLSA特征信息; -ESA特征信息; -PCA特征信息。
21.根据权利要求12至20中任一项所述的短文本处理装置,其中,该短文本处理装置 还包括第二更新装置、用于根据所述短文本信息及其对应的相关关键词信息,来建立或更新 相关关键词库。
22.根据权利要求21所述的短文本处理装置,其中,该短文本处理装置还包括第二查询装置、用于根据所述待处理的短文本信息,在所述相关关键词库中进行查询 匹配,以获得与该待处理的短文本信息相关的相关关键词信息。
23. 一种计算机设备,其中,该计算机设备包括权利要求12至22中至少一项所述的短 文本处理装置。
全文摘要
一种计算机实现的用于获取与短文本信息相关的相关关键词信息的方法、装置及计算机设备,其通过获取待处理的所述短文本信息及其对应的第一多维度特征信息;及获取一个或多个关键词信息及其对应的第二多维度特征信息;并根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息;并基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。与现有技术相比,本发明通过综合多种特征信息及多种相似度处理方式,并结合合语义分析及用户意图,来获取相关关键词,从而减少了误判的可能性,提高了短文本信息与关键词信息之间的匹配准确性。
文档编号G06F17/30GK102063469SQ20101057953
公开日2011年5月18日 申请日期2010年12月3日 优先权日2010年12月3日
发明者万伟, 田 浩 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1