一种文本分类模型的确定方法

文档序号：9810632阅读：433来源：国知局

一种文本分类模型的确定方法
【技术领域】
[0001] 本发明涉及电子组织归类领域，尤其涉及一种文本分类模型的确定方法。
【背景技术】
[0002] 文本分类是指计算机将一篇文本归于预先给定的某一类或某几类的过程。在现有技术中，文本分类通常采用基于统计的自动分类方法，所述的方法包括:S110:获取大规模的样本数据，并对样本数据进行预处理;S120:在预处理后的样本数据中提取特征词;S130: 采用分类算法、提取的特征词和样本数据训练分类模型;S140:将待分类文本输入文本分类器中，通过文本分类器调用训练分类模型，判断待分类文本的类别。
[0003] 现有技术中，分类模型的质量依赖于获取的大规模样本数据。如果样本数据在时间维度上分布不均匀，会导致文本分类的性能下降。例如，如果样本数据仅集中在一个时间段的范围内，会导致训练出的分类模型产生过拟合现象，不能反映真实环境的情况，从而影响文本分类的性能。

【发明内容】

[0004] 有鉴于此，本发明实施例提供一种文本分类模型的确定方法，以解决样本数据在时间维度上分布不均匀时导致的文本分类性能下降的问题。
[0005] 本发明实施例提供了一种文本分类模型的确定方法，包括：
[0006] 获取包含多个文本的样本数据，并对所述样本数据进行预处理；
[0007] 对所述样本数据中各个词进行时间密度的分数计算，得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息；
[0008] 根据所述样本数据中各个词的时间密度的分数，提取所述样本数据中的特征词；
[0009] 根据预设的分类算法、提取的特征词及所述样本数据，确定用于判断待分类文本类别的分类模型。
[0010] 本发明实施例提供的一种文本分类模型的确定方法，通过样本数据中各个词的时间密度分数提取样本数据中的特征词，通过提取的特征词、样本数据以及分类算法确定分类模型，能够解决样本数据在时间维度上分布不均匀导致的文本分类性能下降的问题，提高分类模型的性能。
【附图说明】
[0011]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0012] 图1是本发明实施例一提供的一种文本分类模型的确定方法流程图；
[0013] 图2是本发明实施例二提供的一种文本分类模型的确定方法流程图；
[0014] 图3是本发明实施例三提供的一种文本分类模型的确定装置结构图。
【具体实施方式】
[0015] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0016] 实施例一
[0017] 图1是本发明实施例一提供的一种文本分类模型的确定方法流程图，本发明实施例的技术方案可由文本分类模型的确定装置来执行，该装置可以采用硬件和/或软件的方式来实现，所述的装置可设于计算机、智能终端等设备的内部。如图1所示，所述的方法包括：
[0018] S101:获取包含多个文本的样本数据，并对所述样本数据进行预处理。
[0019] 在本实施例中，所述样本数据中的文本为已经进行类别划分的文本。获取包含多个文本的样本数据的方式有多种，可以从互联网上采集，也可以从数据库中进行读取。
[0020] 在本实施例中，在所述样本数据进行预处理包括:对样本数据进行去噪音、编码转换、分词等。
[0021] S102:对所述样本数据中各个词进行时间密度的分数计算，得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息。
[0022] 在本实施例中，对样本数据中各个词进行时间密度的分数计算优选包括:获取样本数据中的各个文本在时间维度的分布数据;获取样本数据中的各个词在时间维度的分布数据;根据样本数据中的各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据，获取样本数据中各个词的时间密度分数。
[0023] 示例性的，所述获取样本数据中文本在时间维度的分布数据优选包括：
[0024] 将样本数据的生成时间进行等间隔划分，并统计每个时间间隔内文本的数量;采用如下的公式进行分别计算样本数据中的各个文本在时间维度的分布数据：
[0025] 其中，f为所述样本数据中的文本;DF(f)为文本f在时间维度的分布数据。当计算样本数据中目标文本在时间维度的分布数据时，将目标文本作为f文本代入到计算DF(f)的公式中。f可以为样本数据中的任意文本。样本数据的生成时间为:样本数据中一个最早文本发布时间至另一个最晚文本发布时间之间的时间。例如，样本数据中最早的一个文本发布的时间为9:00，最晚的另一个文本发布的时间为9:59，那么，其他文本的发布时间均在9: 00到9:59之间。样本数据的生成时间为9:00-9:59之间的时间。
[0026] 另外，DF(f)能够评估文本f是否在时间维度上均匀分布的，如，将生成时间9:00-9:59之间的时间每隔10分钟划分为一个时间间隔，共有6个时间间隔，如果样本数据中文本的数量为6000个，若文本f所在的时间间隔内文本的数量均为1000个，DF(f)值为1/6,则表示文本f在时间维度上是均匀分布的。
[0027] 在本实施例中，所述获取样本数据中的各个词在时间维度的分布数据优选包括：将样本数据的生成时间进行等间隔划分，统计各个词在每个时间间隔内出现的次数;采用如下的公式分别计算样本数据中的各个词在时间维度的分布数据：
[0028]其中，w为样本数据中的词，Dw(w)为样本数据中的词w在时间维度的分布数据。同理，DW(w)可以评估词w在时间维度上是否是均匀分布的。
[0029]示例性的，根据样本数据中的各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据，获取样本数据中各个词的时间密度分数包括：
[0030] 采用样本数据中各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据，通过如下的公式获取样本数据中各个词的时间密度分数：
[0031] d(w) =α Σ fDF(f) · 5(w,f) + (l-a)Dff(w)
[0032] 其中，f为样本数据中的文本，DF(f)为样本数据中文本f在时间维度的分布数据； Dw(w)为样本数据中词w在时间维度的分布数据;d( w)为样本数据中词w的时间密度分数;当文本f在包含词w时，5(w，f) = 1，否则5(w，f) =〇;a为权重系数。
[0033] S103:根据所述样本数据中各个词的时间密度的分数，提取所述样本数据中的特征词。
[0034] 在本实施例中，根据所述样本数据中各个词的时间密度的分数，提取所述样本数据中的特征词优选包括:根据所述样本数据中各个词的时间密度分数与各个词的相关参数，提取所述样本数据中的特征词。其中，可以将样本数据中各个词的时间密度的分数以及相关参数按照预设的关系进行组合，根据组合后得到的数据，提取所述样本数据中的特征词。各个词的相关参数为已知的参数或容易获得的参数，例如，各个词的相关参数可以为各个词的权重值，也可以为各个词的其他形式的参数。
[0035] S104:根据预设的分类算法、提取的特征词及所述样本数据，确定用于判断待分类文本类别的分类模型。
[0036] 示例性的，根据预设的分类算法、提取的特征词及所述样本数据，确定用于判断待分类文本类别的分类模型优选包括:根据所述样本数据中的文本是否出现提取的特征词，生成所述样本数据的文本向量;采用分类算法对所述样本数据的文本向量进行训练，获取用于判断待分类文本类别的分类模型。
[0037] 举例说明，如果提取的特征词为1000个，特征词有[中国，人民，北京，人口，网络，安全，股市…]，在样本数据中的一个文本中，如果出现了北京、网络、安全三个特征词，其他特征词没有出现，则该文本生成特征向量的过程中，如果出现的特征词用1表示，未出现的特征词用〇表示。所以该文本生成的特征向量为[0,0，1，0，1，1，0…]，由特征向量可以看出，该文本中仅仅出现北京、网络和安全三个特征词。由此类推，其他的文本均可以采用相同的方法生成对应的特征向量。如果样

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘鹏;
技术所有人：北京锐安科技有限公司;
我是此专利的发明人

上一篇：一种大数据平台的网络信息分析处理方法
上一篇：一种基于ObjectStore的LogStructure存储系统及其数据写入方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。