一种业务对象的分类、搜索、推送方法和系统的制作方法

文档序号:8319214阅读:487来源:国知局
一种业务对象的分类、搜索、推送方法和系统的制作方法
【技术领域】
[0001] 本申请实施例涉及数据搜索的技术领域,特别是涉及一种业务对象的分类方法、 一种业务对象的分类系统、一种业务对象的搜索方法、一种业务对象的搜索系统、一种业务 对象的推送方法和一种业务对象的推送系统。
【背景技术】
[0002] 近年来,随着互联网的高速发展,网上的信息量急剧增加,各大网站越来越面向更 精细化的服务。其中,垂直化运营是一个重要的发展方向。垂直化运营的主要表现为专场, 比如礼品专场、旅游用品专场等等。
[0003] 垂直化运营通常需要大量的人工成本和运营成本,一部分原因是提取垂直化的数 据,对数据分类需要大量的运营成本。比如在礼品专场中,从大量的业务对象(例如商品信 息)中提取适合送礼的业务对象进行分类,都需要人工进行。
[0004] 对业务对象的分类,尤其是情感、风格类的标注和分类,运营成本很高。主要原因 是这些业务对象的分类是语义层次上的,所以业务对象的分类准确要求对业务对象有语义 上的理解。例如,"适合送爸爸的礼品"这样的类别,很难通过语法匹配或规则匹配等传统方 法准确划分,往往需要靠人工来甄别、分类。特别的,由于在互联网发布的业务对象的类型 和数量都在高速增长中,人工对业务对象分类的方式在时间和人力成本上越来越高,以至 于无法承受。
[0005] 如果采用传统的基于机器学习的业务对象分类,一般需要定义一个初始训练集。 获得这个训练集,特别是在数据量大的情况下,人工成本很高。再者,此类业务对象的分类 方法,对每个业务对象,通常只能划分到一个类别。对一个业务对象属于多个交叉类别的情 况,便无能为力了,实用性很差。另外,此类业务对象的分类方法,业务对象的信息维度使用 比较单一,无法综合体现业务对象的性质,业务对象分类准确率低。
[0006] 因此,目前需要本领域技术人员迫切解决的一个技术问题就是:在垂直化运营中, 如何在将不同的业务对象划分为同一类业务对象,能够支持特定种类、特色的专场的业务 对象分类,提高业务对象分类的准确率,减少运营成本。
[0007] 申请内容
[0008] 本申请实施例所要解决的技术问题是提供一种业务对象的分类方法、一种业务对 象的搜索方法、一种业务对象的推送方法,用以提高业务对象分类的准确率,减少运营成 本。
[0009] 相应的,本申请实施例还提供了一种业务对象的分类系统、一种业务对象的搜索 系统、一种业务对象的推送系统,用以保证上述方法的实现及应用。
[0010] 为了解决上述问题,本申请公开了一种业务对象的分类方法,包括:
[0011] 获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业务对象属 性;
[0012] 分别获取所述第一目标业务对象的用户行为偏好度;
[0013] 分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征种子业务 对象的内容相似性;所述特征种子业务对象具有一个或多个分类信息;
[0014] 分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征种子业务 对象的行为相关性;
[0015] 分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与所述特征 种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子业务对象;
[0016] 将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对象标记中。
[0017] 优选地,所述特征种子业务对象通过以下方式获得:
[0018] 获取所有待分类的第二目标业务对象;所述第二目标业务对象携带有业务对象属 性;
[0019] 分别获取所述第二目标业务对象的用户行为偏好度;
[0020] 分别采用所述业务对象属性计算所述第二目标业务对象与预置的原始种子业务 对象的内容相似性;所述原始种子业务对象具有一个或多个分类信息;
[0021] 分别提取与所述第二目标业务对象内容相似性最高的前M个原始种子业务对象;
[0022] 将所述前M个原始种子业务对象的分类信息添加到所述第二目标业务对象中;
[0023] 分别采用所述用户行为偏好度计算当前第二目标业务对象与其他第二目标业务 对象的行为相关性;
[0024] 分别提取与当前第二目标业务对象行为相关性最高的前N个其他第二目标业务 对象;
[0025] 分别将所述前N个其他第二目标业务对象的分类信息添加到当前第二目标业务 对象中;
[0026] 将分别添加完分类信息的第二目标业务对象设置为特征种子业务对象。
[0027] 优选地,所述原始种子业务对象通过以下方式获得:
[0028] 从网络上抓取候选业务对象,所述候选业务对象包括一个或多个分类信息;
[0029] 对所述候选业务对象添加预设分类信息生成原始种子业务对象。
[0030] 优选地,所述分别采用所述内容相似性和行为相关性计算所述第一目标业务对象 与所述特征种子业务对象的相似度,获得相似度高于预设阈值的K个特征种子业务对象的 步骤包括:
[0031] 提取与所述第一目标业务对象内容相似性最高的前A个特征种子业务对象形成 第一候选种子集合;
[0032] 提取与所述第一目标业务对象行为相关性最高的前B个特征种子业务对象形成 第二候选种子集合;
[0033] 采用所述内容相似性和行为相关性计算所述第一目标业务对象与所述第一候选 种子集合和第二候选种子集合中的特征种子业务对象的相似度,获得相似度高于第一阈值 的K个特征种子业务对象。
[0034] 优选地,所述采用所述内容相似性和行为相关性计算所述第一目标业务对象与所 述第一候选种子集合和第二候选种子集合中的特征种子业务对象的相似度,获得相似度高 于第一阈值的K个种子商品的步骤包括:
[0035] 对所述第一候选种子集合和第二候选种子集合中的特征种子业务对象的内容相 似性和行为相关性分别配置对应的权重;
[0036] 分别针对所述第一目标业务对象采用所述权重计算所述内容相似性和行为相关 性的加权之和;
[0037] 提取高于预设阈值的和所对应的K个特征种子业务对象。
[0038] 优选地,在对所述第一目标业务对象标记所述K个特征种子业务对象的分类信息 的步骤之后,还包括:
[0039] 分别计算当前第一目标业务对象和其他第一目标业务对象的行为相关性;
[0040] 分别提取与当前第一目标业务对象行为相关性最高的前L个其他第一目标业务 对象;
[0041] 分别将所述前L个其他第一目标业务对象的分类信息添加当前第一目标业务对 象中。
[0042] 优选地,在对所述第一目标业务对象标记所述K个特征种子业务对象的分类信息 的步骤之后,还包括:
[0043] 对所述第一业务对象进行过滤处理。
[0044] 优选地,还包括:
[0045] 对所述第一业务对象进行倒排索引处理。
[0046] 优选地,所述业务对象属性包括第一目标业务对象的标题和/或类目,所述特征 种子业务对象携带有标题和/或类目;
[0047] 所述分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征种子 业务对象的内容相似性的步骤包括:
[0048] 分别对所述第一目标业务对象的标题,以及,特征种子业务对象的标题进行分 词;
[0049] 对所述分词采用LDA主题模型进行匹配;
[0050] 采用匹配后的分词,所述第一目标业务对象的类目,和/或,所述特征种子业务对 象的类目,计算所述第一目标业务对象与预置的特征种子业务对象的内容相似性。
[0051] 优选地,所述采用匹配后的分词,所述第一目标业务对象的类目,和/或,所述特 征种子业务对象的类目,计算所述第一目标业务对象与预置的特征种子业务对象的内容相 似性的计算公式为:
[0052]
【主权项】
1. 一种业务对象的分类方法,其特征在于,包括: 获取所有待分类的第一目标业务对象;所述第一目标业务对象携带有业务对象属性; 分别获取所述第一目标业务对象的用户行为偏好度; 分别采用所述业务对象属性计算所述第一目标业务对象与预置的特征种子业务对象 的内容相似性;所述特征种子业务对象具有一个或多个分类信息; 分别采用所述用户行为偏好度计算所述第一目标业务对象与所述特征种子业务对象 的行为相关性; 分别采用所述内容相似性和行为相关性计算所述第一目标业务对象与所述特征种子 业务对象的相似度,获得相似度高于预设阈值的K个特征种子业务对象; 将所述K个特征种子业务对象的分类信息添加到所述第一目标业务对象标记中。
2. 根据权利要求1所述的方法,其特征在于,所述特征种子业务对象通过以下方式获 得: 获取所有待分类的第二目标业务对象;所述第二目标业务对象携带有业务对象属性; 分别获取所述
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1