一种文本分类模型的确定方法

文档序号:9810632阅读:433来源:国知局
一种文本分类模型的确定方法
【技术领域】
[0001] 本发明涉及电子组织归类领域,尤其涉及一种文本分类模型的确定方法。
【背景技术】
[0002] 文本分类是指计算机将一篇文本归于预先给定的某一类或某几类的过程。在现有 技术中,文本分类通常采用基于统计的自动分类方法,所述的方法包括:S110:获取大规模 的样本数据,并对样本数据进行预处理;S120:在预处理后的样本数据中提取特征词;S130: 采用分类算法、提取的特征词和样本数据训练分类模型;S140:将待分类文本输入文本分类 器中,通过文本分类器调用训练分类模型,判断待分类文本的类别。
[0003] 现有技术中,分类模型的质量依赖于获取的大规模样本数据。如果样本数据在时 间维度上分布不均匀,会导致文本分类的性能下降。例如,如果样本数据仅集中在一个时间 段的范围内,会导致训练出的分类模型产生过拟合现象,不能反映真实环境的情况,从而影 响文本分类的性能。

【发明内容】

[0004] 有鉴于此,本发明实施例提供一种文本分类模型的确定方法,以解决样本数据在 时间维度上分布不均匀时导致的文本分类性能下降的问题。
[0005] 本发明实施例提供了一种文本分类模型的确定方法,包括:
[0006] 获取包含多个文本的样本数据,并对所述样本数据进行预处理;
[0007] 对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词 的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对 应词在时间维度上的分布的综合信息;
[0008] 根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词;
[0009] 根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本 类别的分类模型。
[0010] 本发明实施例提供的一种文本分类模型的确定方法,通过样本数据中各个词的时 间密度分数提取样本数据中的特征词,通过提取的特征词、样本数据以及分类算法确定分 类模型,能够解决样本数据在时间维度上分布不均匀导致的文本分类性能下降的问题,提 高分类模型的性能。
【附图说明】
[0011]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显:
[0012] 图1是本发明实施例一提供的一种文本分类模型的确定方法流程图;
[0013] 图2是本发明实施例二提供的一种文本分类模型的确定方法流程图;
[0014] 图3是本发明实施例三提供的一种文本分类模型的确定装置结构图。
【具体实施方式】
[0015] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0016] 实施例一
[0017] 图1是本发明实施例一提供的一种文本分类模型的确定方法流程图,本发明实施 例的技术方案可由文本分类模型的确定装置来执行,该装置可以采用硬件和/或软件的方 式来实现,所述的装置可设于计算机、智能终端等设备的内部。如图1所示,所述的方法包 括:
[0018] S101:获取包含多个文本的样本数据,并对所述样本数据进行预处理。
[0019] 在本实施例中,所述样本数据中的文本为已经进行类别划分的文本。获取包含多 个文本的样本数据的方式有多种,可以从互联网上采集,也可以从数据库中进行读取。
[0020] 在本实施例中,在所述样本数据进行预处理包括:对样本数据进行去噪音、编码转 换、分词等。
[0021] S102:对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中 各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分 布与对应词在时间维度上的分布的综合信息。
[0022] 在本实施例中,对样本数据中各个词进行时间密度的分数计算优选包括:获取样 本数据中的各个文本在时间维度的分布数据;获取样本数据中的各个词在时间维度的分布 数据;根据样本数据中的各个文本在时间维度的分布数据和样本数据中的各个词在时间维 度的分布数据,获取样本数据中各个词的时间密度分数。
[0023] 示例性的,所述获取样本数据中文本在时间维度的分布数据优选包括:
[0024] 将样本数据的生成时间进行等间隔划分,并统计每个时间间隔内文本的数量;采 用如下的公式进行分别计算样本数据中的各个文本在时间维度的分布数据:
[0025] 其中,f为所述样本数据中的文本;DF(f)为文本f在时间维度的分布数据。当计算 样本数据中目标文本在时间维度的分布数据时,将目标文本作为f文本代入到计算DF(f)的 公式中。f可以为样本数据中的任意文本。样本数据的生成时间为:样本数据中一个最早文 本发布时间至另一个最晚文本发布时间之间的时间。例如,样本数据中最早的一个文本发 布的时间为9:00,最晚的另一个文本发布的时间为9:59,那么,其他文本的发布时间均在9: 00到9:59之间。样本数据的生成时间为9:00-9:59之间的时间。
[0026] 另外,DF(f)能够评估文本f是否在时间维度上均匀分布的,如,将生成时间9:00-9:59之间的时间每隔10分钟划分为一个时间间隔,共有6个时间间隔,如果样本数据中文本 的数量为6000个,若文本f所在的时间间隔内文本的数量均为1000个,DF(f)值为1/6,则表 示文本f在时间维度上是均匀分布的。
[0027] 在本实施例中,所述获取样本数据中的各个词在时间维度的分布数据优选包括: 将样本数据的生成时间进行等间隔划分,统计各个词在每个时间间隔内出现的次数;采用 如下的公式分别计算样本数据中的各个词在时间维度的分布数据:
[0028]其中,w为样本数据中的词,Dw(w)为样本数据中的词w在时间维度的分布数据。同 理,DW(w)可以评估词w在时间维度上是否是均匀分布的。
[0029]示例性的,根据样本数据中的各个文本在时间维度的分布数据和样本数据中的各 个词在时间维度的分布数据,获取样本数据中各个词的时间密度分数包括:
[0030] 采用样本数据中各个文本在时间维度的分布数据和样本数据中的各个词在时间 维度的分布数据,通过如下的公式获取样本数据中各个词的时间密度分数:
[0031] d(w) =α Σ fDF(f) · 5(w,f) + (l-a)Dff(w)
[0032] 其中,f为样本数据中的文本,DF(f)为样本数据中文本f在时间维度的分布数据; Dw(w)为样本数据中词w在时间维度的分布数据;d( w)为样本数据中词w的时间密度分数;当 文本f在包含词w时,5(w,f) = 1,否则5(w,f) =〇;a为权重系数。
[0033] S103:根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特 征词。
[0034] 在本实施例中,根据所述样本数据中各个词的时间密度的分数,提取所述样本数 据中的特征词优选包括:根据所述样本数据中各个词的时间密度分数与各个词的相关参 数,提取所述样本数据中的特征词。其中,可以将样本数据中各个词的时间密度的分数以及 相关参数按照预设的关系进行组合,根据组合后得到的数据,提取所述样本数据中的特征 词。各个词的相关参数为已知的参数或容易获得的参数,例如,各个词的相关参数可以为各 个词的权重值,也可以为各个词的其他形式的参数。
[0035] S104:根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类 文本类别的分类模型。
[0036] 示例性的,根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待 分类文本类别的分类模型优选包括:根据所述样本数据中的文本是否出现提取的特征词, 生成所述样本数据的文本向量;采用分类算法对所述样本数据的文本向量进行训练,获取 用于判断待分类文本类别的分类模型。
[0037] 举例说明,如果提取的特征词为1000个,特征词有[中国,人民,北京,人口,网络, 安全,股市…],在样本数据中的一个文本中,如果出现了北京、网络、安全三个特征词,其他 特征词没有出现,则该文本生成特征向量的过程中,如果出现的特征词用1表示,未出现的 特征词用〇表示。所以该文本生成的特征向量为[0,0,1,0,1,1,0…],由特征向量可以看出, 该文本中仅仅出现北京、网络和安全三个特征词。由此类推,其他的文本均可以采用相同的 方法生成对应的特征向量。如果样
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1