一种同类信息的搜索方法及装置的制造方法

文档序号:9249239阅读:1094来源:国知局
一种同类信息的搜索方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理技术领域,具体涉及一种同类信息的搜索方法及装置。
【背景技术】
[0002] 运营商在阅读类产品运营过程中,将用户经常浏览的资讯打包推送给用户,例如, 用户经常会浏览王力宏相关的资讯,那么可W将王力宏相关的资讯打包推送给用户,既契 合了用户兴趣又提升了产品个性化推送。进一步地,若用户较喜欢浏览王力宏的资讯,那么 可能也喜欢其他娱乐明星的相关资讯,因此,也可W将同类信息的资讯推送给用户,在一定 程度上拓展用户的兴趣。
[0003] 其中,在进行同类信息的资讯推送前,由人工在搜索引擎工具上输入已知的用户 经常浏览的信息,搜索得到其相关的信息,然后从相关的信息中选出比较流行的同类信息, 再将该同类信息有关的资讯推送给用户,同类信息选取过程主要依靠人工操作,相对代价 太高,难W维持。

【发明内容】

[0004] 针对上述缺陷,本发明实施例提供了一种同类信息的搜索方法及装置,用于自动 化搜索同类信息,速度快、准确性高。
[0005] 本发明实施例一方面提供了一种同类信息的搜索方法,可包括:
[0006] 接收用户输入的信息搜索种子;
[0007] 根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库包括多个信息 表,所述信息表包括特征信息W及多个搜索信息,所述多个搜索信息属于同类信息;
[000引根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出 排序结果。
[0009] 本发明实施例另一方面提供了一种同类信息的搜索装置,可包括:
[0010] 接收单元,用于接收用户输入的信息搜索种子;
[0011] 查找单元,用于根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库 包括多个信息表,所述信息表包括特征信息W及多个搜索信息,所述多个搜索信息属于同 类信息;
[0012] 输出单元,用于根据所述目标信息表的特征信息,对所述目标信息表的搜索信息 进行排序并输出排序结果。
[0013] 从W上技术方案可W看出,本发明实施例提供的同类信息的搜索方法具有W下优 点:首先,根据用户输入的信息搜索种子,该信息搜索种子可W是一个或者多个,若是输入 多个信息搜索种子,那么该多个信息搜索种子属于同类信息,然后根据信息搜索种子,在信 息库中查找目标信息表,然后根据目标信息表的特征信息,对搜索信息进行排序,最后输出 排序结果,实现自动化搜索,搜索速度快,准确性高。
【附图说明】
[0014] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据该些附图获得其他 的附图。
[0015] 图1为本发明实施例提供的同类信息的搜索方法的流程示意图;
[0016]图2a为本发明另一实施例提供的同类信息的搜索方法的流程示意图;
[0017] 图化为本发明实施例提供的排序结果的示意图;
[0018]图3为本发明实施例提供的同类信息的搜索装置的结构示意图。
【具体实施方式】
[0019] 本发明实施例提供了一种同类信息的搜索方法,用于搜索同类信息,搜索速度快、 准确性高,本发明实施例还提供了一种同类信息的搜索方法对应的装置。
[0020] 下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。
[0021] 本发明实施例可W用于运营商进行阅读类业务推送,也可W用于用户兴趣搜索 等,在此不作限定。同类信息的搜索装置具体可W是一个搜索引擎,在同类信息的搜索装置 的显示界面上设置有搜索输入栏,用于用户输入信息搜索种子进行同类信息搜索。该同类 信息为相同领域中具有相同属性的信息,可W是人名、机构名、产品名等,例如,在娱乐领域 中的明星名字,像王力宏、蔡依林、张惠妹等,在娱乐领域中具有明星名字该一相同属性。
[0022] 在同类信息的搜索装置中还分配有信息库,用于存储信息表,该信息表中包括特 征信息和多个搜索信息。其中,在信息库中每一个信息表W索引值存储,即每一个信息表对 应一个索引值,信息表中的搜索信息与该索引值属于同类信息。
[0023] 优选地,上述特征信息可W包括权重信息和综合值,其中,权重信息可W包括同类 信息权重、百科信息、标题比例和主题分布率中的至少一种,而综合值通过权重信息得到。
[0024] 举例来说,若权重信息中只包括同类信息权重,那么综合值也就是该同类信息权 重;若权重信息中包括同类信息权重和百科信息,那么综合值等于同类信息权重与百科信 息的乘积。可W理解,若权重信息中只有一种信息,那么该种信息也作为综合值,若权重信 息中包括2种W上信息,那么综合值是2种W上信息的乘积。
[0025] 其中,由于资讯在不断更新变化,为了保证搜索信息和特征信息是最新数据,在预 设周期内,需要对搜索信息和特征信息进行更新,可W将预设周期设为一个星期、半个月或 1个月。
[0026] 具体地,搜索信息的更新主要是通过word2vec(wordtovector)工具分别对上 述所有信息表的索引值进行处理,得到与信息表相同数量的处理结果,即一个索引值对应 一个处理结果,每一个处理结果包括相关信息和相关度,该相关信息包括第一搜索信息和/ 或第二搜索信息,该第一搜索信息与索引值属于同类信息,该第二搜索信息与索引值属于 非同类信息,上述相关度表示相关信息与索引值的相关性。将处理结果中的第二搜索信息 删除后或者直接使用处理结果中的第一搜索信息更新相应的搜索信息表中的搜索信息。
[0027] 在特征信息的权重信息包括有同类信息权重时,在更新搜索信息后,利用上述处 理结果中的相关度更新该权重信息中的同类信息权重,即相关度作为上述同类信息权重, 同时,也要结合权重信息中其它信息是否被更新,然后更新综合值。
[0028] 可W理解的是,若上述任意两个或多个处理结果中具有重复的第一搜索信息,那 么对该重复的第一搜索信息的所有相关度求和得到新的相关度,并用新的相关表替换处理 结果中原来的相关度。
[0029] 举例来说,有3个信息表,分别W王力宏、蔡依林和张惠妹作为索引值,那么在预 设周期内,分别利用word2vec工具对王力宏、蔡依林和张惠妹H个索引值进行处理,分别 得到第一处理结果、第二处理结果和第H处理结果,其中,第一处理结果和第二处理结果 中均包括庚澄庆该一搜索信息,且其相关度分别为0. 760032和0. 823202,先对0. 760032 与0. 823202求和,其和为1. 583234,之后将第一处理结果中庚澄庆对应的相关度修改为 1. 583234,同样地,将第二处理结果中庚澄庆对应的相关度修改为1. 583234。然后用修改后 的处理结果中的第一搜索信息和相关度更新信息表。
[0030] 其中,word2vec工具是google公司开源的一种词向量的搜索方法,其具体工作过 程为现有技术,在此不进行详细介绍。如下表1是word2vec工具对王力宏进行搜索处理后 输出的结果:
[0031]表1
[0032]
刘若英~|〇. 757014
[0033] 若上述权重信息包括百科信息,那么在更新信息表中的搜索信息后,将获取百科 信息更新特征信息中的权重信息的百
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1