用于预测数据对象的类目的方法和装置的制造方法

文档序号:8299031阅读:284来源:国知局
用于预测数据对象的类目的方法和装置的制造方法
【技术领域】
[0001] 本申请涉及数据处理领域,更具体地涉及一种用于预测数据对象的类目的方法和 装直。
【背景技术】
[0002] 随着网上数据交互的不断发展,对于一些网站服务器而言,在获得了数据对象的 基本信息比如标题、属性描述等之后,往往需要将数据对象挂到后台类目上,以便后续作为 搜索中数据对象类目导航、各种维度数据统计、产品库建设等的依据。因此,需要对数据对 象的类目进行预测,以确定所述数据对象的关联类目。
[0003] 在一种现有技术的类目预测方案中,是基于类目点击词典进行的,其中类目点击 词典是根据用户的历史查询词以及该历史查询词对应的类目点击情况统计各词的类目点 击分布。更具体而言,当需要对某个数据对象的类目进行预测时,首先对该数据对象的标 题进行分词处理以得到至少一个词,然后根据上述类目点击词典统计每个词的类目点击分 布,并选取在所有词中出现最多的类目作为该数据对象的预测类目。
[0004] 然而,由于用户的类目点击比较稀疏,无法覆盖海量的数据;部分查询词的输入还 伴随着恶意用户刷查询词的现象(某些用户利用某些查询词反复查询以提高与自身关联的 信息的点击率),导致词的类目点击的数据不是很准确,严重影响用这些数据预测得到的类 目的准确率。另外,在预测类目的时候可能会由于标题中某些词的重复出现而导致预测到 一个不准确的类目。
[0005] 因此,需求一种改进的类目预测技术,来克服现有技术中的上述问题,以提高对数 据对象的类目预测的准确率。

【发明内容】

[0006] 本申请的目的在于提供一种用于预测数据对象的类目的技术,其能够对数据对象 的类目进行更准确的预测,以确定数据对象的关联类目。
[0007] 具体而言,根据本申请实施例的一个方面,提供一种用于预测数据对象的类目的 方法,其特征在于,包括:从待预测数据对象中提取至少一个对象特征;根据对象特征,从 预先基于数据库内已有数据对象及对应的数据对象类目所构建的特征树中,获取特征集 合,特征集合包含对象特征中存在联系的对象特征对以及对象特征中与其它对象特征不存 在联系的单个对象特征;根据特征集合,从预先基于数据库内已有数据对象及对应的数据 对象类目以及特征树所统计的特征-类目概率分布中,获取与特征集合中的各对象特征对 或对象特征分别对应的各类目概率分布;以及根据各类目概率分布,确定待预测数据对象 的预测类目集合。
[0008] 根据本申请实施例的另一个方面,提供一种用于预测数据对象的类目的装置,其 特征在于,包括:特征提取模块,用于从待预测数据对象中提取至少一个对象特征;第一获 取模块,用于根据对象特征,从预先基于数据库内已有数据对象及对应的数据对象类目所 构建的特征树中,获取特征集合,特征集合包含对象特征中存在联系的对象特征对以及对 象特征中与其它对象特征不存在联系的单个对象特征;第二获取模块,用于根据特征集合, 从预先基于数据库内已有数据对象及对应的数据对象类目以及特征树所统计的特征-类 目概率分布中,获取与特征集合中的各对象特征对或对象特征分别对应的各类目概率分 布;以及类目确定模块,用于根据各类目概率分布,确定待预测数据对象的预测类目集合。
[0009] 与现有技术相比,本申请的方案基于数据库(例如网站数据库)内已有数据对象及 其对应类目来构建树增强朴素贝叶斯网络模型(特征树)并基于该模型来进行类目预测,使 得覆盖全网站数据库的相关数据,提高了类目预测的准确率。此外,本申请的方案中使用分 词后的所有不重复的词作为特征来构建树增强朴素贝叶斯网络模型,所以保证了数据对象 类目预测中不会因为某些重复的词产生偏差,提高了类目预测的准确率。另外,本申请的方 案在应用树增强朴素贝叶斯网络的时候降低了节点间连接的条件,并允许每个节点与更多 的其它节点进行连接,极大地丰富了整个树增强朴素贝叶斯网络,进一步提高了类目预测 的准确率。
【附图说明】
[0010] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0011] 图1是根据本申请一个实施例的用于预测数据对象的类目的方法的流程图;
[0012] 图2是根据本申请一个实施例的用于构建特征树的方法的流程图;
[0013] 图3是根据本申请更具体实施例的用于构建特征树的方法的流程图;
[0014] 图4是根据本申请一个实施例的用于统计特征-类目概率分布的方法的流程图; 以及
[0015] 图5是根据本申请一个实施例的用于预测数据对象的类目的装置的结构框图。
【具体实施方式】
[0016] 本申请的主要思想就在于,通过将数据库(例如网站数据库)内已有数据对象及其 对应类目的信息作为原始训练数据,构建树增强朴素贝叶斯网络,来进行待预测数据对象 的类目预测,以确定待预测数据对象的关联类目。具体而言,通过基于数据库内已有数据对 象及其对应类目的信息来构建特征树,以及基于数据库内已有数据对象及其对应类目的信 息和特征树来统计特征-类目概率分布,从而将这样得到的特征树和特征-类目概率分布 作为后续对待预测数据对象进行类目预测的依据。
[0017] 另外,本申请的思想还在于,在树增强朴素贝叶斯网络的建立过程中,进一步优化 树增强朴素贝叶斯网络节点间的连接可能性,提高每个节点的最大可连接数。从而防止在 进行类目预测的过程中由于树增强朴素贝叶斯网络的稀疏而使得部分特征无法与其它特 征连接,导致预测结果会因为特征组合数量较少而无法覆盖更多的相关类目或产生偏置。 具体而言,本申请打破传统树增强朴素贝叶斯网络一般只允许一个节点至多与其他两个节 点进行连接的思想,而使得一个节点可以与更多的其它节点进行连接,例如可以达到与100 个其它节点进行连接,从而使得整个树增强朴素贝叶斯网络更加密集,覆盖更全面的特征, 进而提高数据对象类目的预测准确率。
[0018] 为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及 相应的附图对本申请技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一 部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019] 本申请的类目预测方案可以应用于进行类目预测的各种应用场景,即,适用于针 对各种数据对象的类目预测。例如,可以适用于各种网站服务器对其业务对象或服务对象 等的类目(分类)进行预测。在一个典型应用场景中,本申请的方案可以应用于电子商务网 站服务器对各种商品的类目预测,以确定和商品关联的类目。应指出的是,本申请对应用场 景并不作任何限制,而是可以适用于现有或未来开发的其它任意适合的类目预测场景。
[0020] 参照图1,图1示出了根据本申请一个实施例的用于预测数据对象的类目的方法 100的流程图。
[0021] 如图1所示,在步骤S110处,从待预测数据对象中提取至少一个对象特征。
[0022] 具体而言,可以从待预测数据对象的诸如标题、摘要、详情、属性等信息中提取出 至少一个对象特征。在一个典型的实施例中,可以从待预测数据对象的标题中提取至少一 个对象特征。为便于描述起见,以下都以从待预测数据对象的标题中提取对象特征为例来 描述本申请的实施例。但本领域技术人员应理解到,在本申请的其它实施例中,还可以从待 预测数据对象的摘要、详情、属性等信息中提取对象特征。
[0023] 在本申请的一个实施例中,可以通过自然语言处理技术,对待预测数据对象的标 题进行分词处理,来从中提取出至少一个对象特征。在本申请的其它实施例中,还可以进一 步对提取出的对象特征进行词性标注处理。在一个优选实施例中,可以为标注出的产品词 标上预定标签,以助于提高整个类目预测的准确率。
[0024] 更具体而言,可以通过词权重(TermWeight)技术,来实现将待预测数据对象的标 题分成若干个词,将该若干个词作为对象特征,并为产品词标上标签。例如,一条商品的标 题为"供应白色雪纺连衣裙",则提取出的对象特征可以为"供应"、"白色"、"雪纺"、"连衣裙 CP",其中CP为本例中对产品词的预定标签,即CP标识出本实施例中的"连衣裙"为产品。
[0025] 根据本申请的一个优选实施例,可以在步骤S110处提取出若干个对象特征之后, 例如通过查看根据经验或根据需要预先设置的过滤词表,对这些对象特征进行过滤处理, 以便滤除掉那些对于预测基本没有意义的对象特征,诸如那些在大部分标题中都会经常出 现的词。由此可以减少类目预测中不必要的计算量,降低类目预测中的计算复杂度,提高类 目预测效率。
[0026] 例如,在上述示例中,可以滤除掉大部分标题中经常出现的"供应"这一特征。
[0027] 在步骤S120处,根据对象特征,从预先基于数据库内已有数据对象的标题及对应 的数据对象类目所构建的特征树中,获取特征集合,所述特征集合包含对象特征中存在联 系的对象特征对以及对象特征中与其它对象特征不存在联系的单个对象特征。
[0028] 具体而言,在本申请的实施例中,特征树是基于数据库内已有数据对象的信息(t匕 如标题和对应类目)所构建的树增强朴素贝叶斯网络,其以从已有数据对象的信息中提取 的特征为节点,包含各种节点之间的拓扑关系的有向网络结构。
[0029] 在提取出待预测数据对象的对象特征之后,可以根据预先构建的特征树来查找若 干个对象特征中存在联系的对象特征对以及与其它对象特征之间不存在联系的单个对象 特征。
[0030]在本文中,"存在联系的对象特征对"是指,在特征树中如果节点A指向节点B,则 认为节点A和节点B是存在联系的对象特征对。"与其它对象特征之间不存在联系的单个 对象特征"是指,在特征树中如果节点C没有指向任何其它节点,则认为节点C是与其它对 象特征之间不存在联系的单个对象特征。
[0031]在上述示例中,例如,从预先构建的特征树中查找到,在特征"供应"、"白色"、"雪 纺"、"连衣裙CP"两两之间,仅特征节点"连衣裙CP"指向"雪纺",而其它特征两两之间都 不存在联系(不存在指向关系),则与该待预测数据对象对应的特征集合
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1