一种基于分类决策树的内容发布智能分类方法

文档序号:8339669阅读:359来源:国知局
一种基于分类决策树的内容发布智能分类方法
【技术领域】
[0001] 本发明属于内容管理系统(Content Management System)和数据挖掘(Data Mining)领域,具体涉及一种基于分类决策树的内容发布智能分类方法,应用于并革新内 容发布流程的智能分类机制,基于现有内容信息生成的分类决策树配置信息,以实现自动 对用户新发布的内容进行智能分类,从而在保证效率的前提下改善用户进行内容发布的体 验。
【背景技术】
[0002] 随着互联网的广泛普及尤其是社交化网络的快速发展,网络信息不仅在量上呈爆 炸性的增长,而且内容的类型亦更加的丰富。对于一个企业、组织、或者一个广义上的社交 分享平台而言,内容管理有了新的挑战,比如内容的存储、分类,检索等等。而本发明关注内 容管理的发布流程的改善。在传统的多类型内容管理系统中,针对不同类型内容,比如文 章、链接、视频、文档等,它们各自的内容发布流程时往往是被显性进行区分,即每一种类型 都各有其特殊的发布流程,以人人网(http ://www. renren. com)为例,日志、链接分享、状 态等内容的发布途径是不同的。同时,随着智能终端的快速发展,一个应用的访问形式不仅 仅只有传统的web形式,还有移动app形式。因此,一个体验良好而且统一的内容发布流程 成为了内容管理系统中内容发布部分发展的趋势。
[0003] 在传统的内容发布流程中,不同类型的内容发布基于不同的发布途径或过程。这 些不同的发布途径,带来了许多的不便:1)从前端体验的角度看,用户需手动选择内容类 型,同时页面需要为所有类型的内容发布提供入口链接;类型越多,所需要的屏幕空间越 大,这点在移动智能终端上影响尤其大。2)从工程实践的角度看,为不同类型的内容提供特 殊化的发布流程,架构的扩展性差,每增加一类内容,便要增加相应的代码,同时不同类型 的内容发布流程的业务逻辑基本相似,容易造成代码冗余。
[0004] 分类是一种数据分析形式,也是数据挖掘中一项非常重要的任务(可参考李彦 华.决策树分类器的研宄、实现及在数据挖掘中的应用[D].上海交通大学,2001.以及黄泽 宇.决策树分类器算法的研宄[D].北京交通大学,2006.)。它可用于在数据中抽取出决策 支持所用的知识,即能在数据中抽取出描述重要数据集合或预测未来数据趋势的模型。在 数据挖掘中,分类的应用非常广泛。例如销售部门可以在收集的客户资料上建立一个分类 模型,来判断客户是潜在客户还是忠实客户。而在本场景下,可以基于现有的内容类型的信 息,建立分类模型,来判断新发布内容的类型。
[0005] 一般地,分类是依据某种分类模型,在具有类别信息的数据集合中学习出一个分 类函数,即分类器。分类器能够基于特征值集合所描述的待分类实例指派一个最适合的类 另IJ,从而能够应用于数据分类和预测。
[0006] 从机器学习方法中监督学习和非监督学习两类方法看,分类器的学习策略还分为 急切式学习策略和懒惰式学习策略。前者在分类器训练过程中就建立能将待分类实例映射 到具体类别的有清晰假设的分类器,然后随着训练改善分类器;而后者在训练过程中没有 建立清晰的假设,分类过程即是利用训练集合将给定实例与其类别匹配起来的过程。一般 来说,急切式学习策略在效率上大大优于懒惰式学习策略,然而后者在分类精确度上优于 急切式学习策略。
[0007] 结合机器学习和数据挖掘的理论体系,具体构建分类器的算法亦有许多,如朴 素贝叶斯方法、决策树(请参考 Quinlan JR. Induction of decision trees. Machine Learning[J],l :81106,1986,81~106)、神经网络、K-最邻近以及支持向量机等。其中,决 策树分类是应用最多的分类方法之一,尤其对由"特征-值"对表达的实例和对目标函数要 求具有离散的输出值的场景有着极好的效果,同时对噪声数据有着良好的健壮性,因此非 常适合应用于对内容管理系统中内容分类这个场景。
[0008] 综上所述,在一个富类型的内容管理系统中,传统的内容发布流程存在不良好的 体验,如遇到不同类型需拥有其特殊化的内容发布流程,造成不良好的前端用户体验以及 发布子系统扩展性差等不足。

【发明内容】

[0009] 本发明的目的在于解决上述现有技术中存在的难题,提供一种基于分类决策树的 内容发布智能分类方法,基于内容管理系统现有内容信息,运用数据挖掘的分类技术,制定 一种针对内容发布的内容智能分类机制,以改善传统内容发布流程。
[0010] 本发明是通过以下技术方案实现的:
[0011] 一种基于分类决策树的内容发布智能分类方法,其应用的系统通用架构包括:内 容数据采集模块、分类策略模块、分类决策树训练模块;所述方法结合机器学习的监督学习 方法,将内容管理系统中已有的内容信息作为训练数据集合,并利用此训练数据集合基于 决策树学习算法生成分类器;所有发布内容都基于相同的发布途径,发布后由所述分类器 根据发布内容的特征值判断该发布内容的类型,从而完成整个发布过程。
[0012] 所述方法利用所述内容数据采集模块分析新发布内容的特征值信息;利用分类策 略模块加载分类决策树配置信息,以及在其运行过程中根据提供的特征值信息返回类型信 息;利用分类决策树训练模炔基于所述训练数据集合进行离线处理,输出分类决策树配置 信息,形成所述分类器;
[0013] 所述特征值信息包括:文本长度、是否包含链接、是否包含文档附件、是否包含视 频链接和是否包含图片;
[0014] 发布内容的类型包括:文档、话题、文章、分享链接和视频。
[0015] 所述方法包括分类决策树训练步骤,具体如下:
[0016] (Al)对内容管理系统中已有的内容信息进行预处理,提取所需的特征值信息和类 型信息,取1成作为验证数据,9成作为训练数据;
[0017] (A2)基于决策树学习算法和算法参数,生成分类决策树配置信息;
[0018] (A3)基于所述验证数据,对步骤(A2)生成的决策树配置信息进行测试,输出测试 结果;
[0019] (A4)输出分类器。
[0020] 所述方法进一步包括内容发布步骤,具体如下:
[0021] (BI)基于统一的页面进行内容发布提交;
[0022] (B2)提取特征值:根据用户提供的内容信息提取特征值信息;
[0023] (B3)分类器根据步骤(B2)得到的特征值信息判断新发布内容的类型;
[0024] (B4)将步骤(B3)判断出的类别的信息存于内容信息数据中,然后存于数据库中。
[0025] 与现有技术相比,本发明的有益效果是:
[0026] (1)从用户层面看,本发明改善了内容发布的用户体验。发布后内容的类别由系统 判断,而非用户选择,发布流程更加智能化。
[0027] (2)从系统视觉和交互设计层面看,利用本发明讲多种类型的内容发布流程统一 后,极大地释放了原来多种类型的内容发布内容对前端页面空间的低效占用,给予前端用 户界面在视觉上和交互上更多的优化空间。
[0028] (3)从系统实现的层面看,本发明引进了智能业务,同时策略信息与具体的逻辑实 现相分离,策略的变化能更加地灵活,而代码结构更加稳定,不再需要跟随内容类型的增加 或分类策略的改变而重写。将策略作为单独的面从系统抽离出来,使得内容发布子系统有 了更好的可扩展性。
【附图说明】
[0029] 图1是传统的多类型的内容发布过程示意图。
[0030] 图2是本发明的统一的内容发布过程示意图。
[0031] 图3是本发明的系统通用架构模型。
[0032] 图4是本发明的分类决策树训练的总体框架图。
[0033]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1