一种文本信息的匹配、业务对象的推送方法和装置的制造方法

文档序号:9432554阅读:477来源:国知局
一种文本信息的匹配、业务对象的推送方法和装置的制造方法
【技术领域】
[0001] 本申请涉及网络通讯的技术领域,特别是涉及一种文本信息的匹配方法、一种业 务对象的推送方法、一种文本信息的匹装置和一种业务对象的推送装置。
【背景技术】
[0002] 随着网络的迅速发展,网络信息急剧增加。用户为了在海量的网络信息中寻找所 需的网络信息,通常使用搜索引擎进行搜索。
[0003] 搜索引擎指自动从因特网搜集信息,经过一定整理W后,提供给用户进行查询的 系统。网络信息浩滿万千,而且毫无秩序,所有的网络信息像汪洋上的一个个小岛,网页链 接是送些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图, 供用户随时查阅。
[0004] 在诸如相关查询等功能上,搜索引擎通常执行特定的查询词改写策略,对用户输 入的查询词Q进行改写,将查询词扩展到与查询意图相同或相近的相近词Q'(即扩展词)。 通常,Q'是必须绑定有业务对象的扩展词,否则无法达到解决业务对象曝光量少的目的。因 此,搜索引擎往往是先通过各种改写策略,将Q改写为Q',然后将Q'中的无效扩展词(即未 绑定有业务对象的扩展词)剔除掉,保留有效扩展词(即绑定有业务对象的扩展词)集合。
[0005] 对用户输入的查询词Q进行改写,W将其扩展到查询意图相同或相近的相近词Q' 的扩展技术主要有W下几种:
[0006] 1、针对两个查询词是否有一个相同的关键词(token)相匹配,判断查询词之间的 内容相似性(ContentBased),继而将Q改写成Q'。
[0007] 2、针对两个查询词是否有相同的中必词或者产品词,判断查询词之间的语义相似 性(SyntaxBased),继而将Q改写成Q'。
[0008] 3、针对两个查询词是否出现在同一个用户点击流中,判断查询词之间的用户行为 关联度(SessionBased),继而将Q改写成Q'。
[0009] 4、针对两个查询词下用户点击的相同文档的数量判断查询词之间的文档聚合程 度值ocumentBased),继而将Q改写成Q'。
[0010] 但是,上述四种扩展技术无谓地增加了 <Q,Q'〉扩展对中,无效扩展词的计算量, 大量浪费系统资源。
[0011] 此外,上述四种扩展技术由于内部运算机制存在差异,因此扩展出的Q和Q'相关 性尺度不一,因此无法对<Q,Q'〉扩展对进行评价。
[0012] 因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何提出一种文 本信息的匹配,减少匹配计算量,减少系统资源的浪费,统一评价尺度。

【发明内容】

[0013] 本申请实施例所要解决的技术问题是提供一种文本信息的匹配方法和一种业务 对象的推送方法,用W减少匹配计算量,减少系统资源的浪费,统一评价尺度。
[0014] 相应的,本申请实施例还提供了一种文本信息的匹配装置和一种业务对象的推送 装置,用W保证上述方法的实现及应用。
[0015] 为了解决上述问题,本申请实施例公开了一种文本信息的匹配方法,包括:
[0016] 获取待匹配的第一文本信息集合和第二文本信息集合;所述第一文本信息集合包 括有限数量的第一文本信息,所述第二文本信息集合包括有限数量的第二文本信息;W及
[0017] 按照预置的规则查询出与所述有限数量的第一文本信息中的每一者相匹配的所 述有限数量的第二文本信息中的一者或者多者。
[0018] 优选地,所述第一文本信息和所述第二文本信息具有对应的类目;
[0019] 所述按照预置的规则查询出与所述有限数量的第一文本信息中的每一者相匹配 的所述有限数量的第二文本信息中的一者或者多者的步骤包括:
[0020] 按照预置的组合规则将所述第一文本信息和所述第二文本信息组成扩展文本信 息组合;
[0021] 从所述扩展文本信息组合中提取特征文本信息组合,所述特征文本信息组合为类 目匹配的第一文本信息和第二文本信息所组成的扩展文本信息组合;
[0022] 计算所述特征文本信息组合所包含的第二文本信息的特征值;W及
[0023] 将特征值顺序排序在前的一个或多个第二文本信息及对应的第一文本信息,设置 为相互映射的第一文本信息和第二文本信息。
[0024] 优选地,所述按照预置的组合规则将所述第一文本信息和所述第二文本信息组成 扩展文本信息组合的步骤包括:
[0025] 对所述第一文本信息进行分词处理,获得文本分词;
[0026] 对所述第二文本信息建立倒排索引;
[0027] 在所述倒排索引中查找与所述文本分词匹配的第二文本信息;W及
[0028] 将所述文本分词所属的第一文本信息,与所述匹配的第二文本信息组成扩展文本 fg息组合。
[0029] 优选地,所述按照预置的组合规则将所述第一文本信息和所述第二文本信息组成 扩展文本信息组合的步骤还包括:
[0030] 对所述文本分词匹配的第二文本信息进行去重处理;
[0031] 所述将所述文本分词所属的第一文本信息,与所述匹配的第二文本信息组成扩展 文本信息组合的步骤包括:
[0032] 将所述文本分词所属的第一文本信息,与所述去重处理之后的第二文本信息组成 扩展文本信息组合。
[0033] 优选地,所述第一文本信息对应的类目包括第一子类目和第一父类目,所述第二 文本信息对应的类目包括第二子类目和第二父类目;
[0034] 所述从所述扩展文本信息组合中提取特征文本信息组合的步骤包括:
[0035] 获取所述扩展文本信息中包含的第一文本信息对应的,置信度顺序排序在前的一 个或多个第一子类目;
[0036] 查找所述一个或多个第一子类目所属的,置信度顺序排序在前的一个或多个第一 父类目;
[0037] 获取所述扩展文本信息中包含的第二文本信息对应的,置信度顺序排序在前的一 个或多个第二子类目;
[0038] 查找所述一个或多个第二子类目所属的,置信度顺序排序在前的一个或多个第二 父类目拟及
[0039] 提取所述第一子类目与所述第二子类目,和/或,所述第一子类目与所述第二父 类目,和/或,所述第一父类目与所述第二子类目匹配的扩展文本信息组合,作为特征文本 fg息组合。
[0040] 优选地,所述第二文本信息对应有业务对象;
[0041] 通过W下公式计算所述特征文本信息组合所包含的第二文本信息的特征值:
[0042] RPM1 = ASN*CPC
[0043] 其中,RPM1为特征值,ASN为所述业务对象对应的用户深度,CPC为所述业务对象 对应的权重。
[0044] 优选地,所述有限数量的第一文本信息包括在一定时间范围内获得的查询词,所 述有限数量的第二文本信息包括在一定时间内获得的竞价词。
[0045] 本申请实施例还公开了一种业务对象的推送方法,包括:
[0046] 接收客户端侧提交的第一文本信息;
[0047] 确定所述第一文本信息映射的第二文本信息;所述第二文本信息对应有业务对 象;W及
[0048] 将所述业务对象推送至客户端侧;
[0049] 其中,所述第一文本信息与所述第二文本信息通过W下方式确定映射关系:
[0050] 获取待匹配的第一文本信息集合和第二文本信息集合;所述第一文本信息集合包 括有限数量的第一文本信息,所述第二文本信息集合包括有限数量的第二文本信息;W及
[0051] 按照预置的规则查询出与所述有限数量的第一文本信息中的每一者相匹配的所 述有限数量的第二文本信息中的一者或者多者。
[0052] 优选地,所述确定所述第一文本信息映射的第二文本信息的步骤包括:
[0053] 在线计算所述第一文本信息映射的第二文本信息。
[0054] 优选地,所述确定所述第一文本信息映射的第二文本信息的步骤包括:
[0055]在预置的映射关系字典中查找所述第一文本信息映射的第二文本信息;其中,所 述映射关系字典为离线计算所述第一文本信息映射的第二文本信息所生成的字典。
[0056] 本申请实施例还公开了一种文本信息的匹配装置,包括:
[0057] 文本信息获取单元,用于获取待匹配的第一文本信息集合和第二文本信息集合; 所述第一文本信息集合包括有限数量的第一文本信息,所述第二文本信息集合包括有限数 量的第二文本信息;
[0058] 文本信息匹配单元,用于按照预置的规则查询出与所述有限数量的第一文本信息 中的每一者相匹配的所述有限数量的第二文本信息中的一者或者多者。
[0059] 优选地,所述第一文本信息和所述第二文本信息具有对应的类目;
[0060] 所述文本信息匹配单元包括:
[0061] 扩展文本信息组合组成模块,用于按照预置的组合规则将所述第一文本信息和所 述第二文本信息组成扩展文本信息组合;
[0062] 特征文本信息组合提取模块,用于从所述扩展文本信息组合中提取特征文本信息 组合,所述特征文本信息组合为类目匹配的第一文本信息和第二文本信息所组成的扩展文 本信息组合;
[0063]特征值计算模块,用于计算所述特征文本信息组合所包含的第二文本信息的特征 值;
[0064]映射关系设置模块,用于将特征值顺序排序在前的一个或多个第二文本信息及对 应的第一文本信息,设置为相互映射的第一文本信息和第二文本信息。
[0065] 优选地,所述扩展文本信息组合组成模块包括:
[0066] 分词子模块,用于对所述第一文本信息进行分词处理,获得文本分词;
[0067] 索引子模块,用于对所述第二文本信息建立倒排索引;
[0068] 第一查找子模块,用于在所述倒排索引中查找与所述文本分词匹配的第二文本信 息;
[0069] 组成子模块,用于将所述文本分词所属的第一文本信息,与所述匹配的第二文本 信息组成扩展文本信息组合。
[0070] 优选地,所述扩展文本信息组合组成模块还包括:
[0071] 去重子模块,对所述文本分词匹配的第二文本信息进行去重处理;
[0072] 所述组成子模块包括:
[0073] 去重组合子模块,用于将所述文本分词所属的第一文本信息,与所述去重处理之 后的第二文本信息组成扩展文本信息组合。
[0074] 优选地,所述第一文本信息对应的类目包括第一子类目和第一父类目,所述第二 文本信息对应的类目包括第二子类目和第二父类目;
[00巧]所述特征文本信息组合提取模块包括:
[0076] 第一获取子模块,用于获取所述扩展文本信息中包含的第一文本信息对应的,置 信度顺序排序在前的一个或多个第一子类目;
[0077] 第二查找子模块,用于查找所述一个或多个第一子类目所属的,置信度顺序排序 在前的一个或多个第一父类目;
[0078] 第二获取子模块,用于获取所述扩展文本信息中包含的第二文本信息对应的,置 信度顺序排序在前的一个或多个第二子
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1