一种多维度文本信息分类标注模型及方法

文档序号:33188317发布日期:2023-02-04 07:25阅读:28来源:国知局

1.本发明涉及一种信息分类领域,具体地说,特别涉及一种多维度文本信息分类标注模型及方法。


背景技术:

2.信息分类是指遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将所有信息,按一定的结构体系,分门别类加以集合,从而使得每个信息在相应的分类体系中都有一个对应位置。分类信息弥补了传统分的不足。分类信息不仅信息量大,而且信息随时在线,永不丢失。现有在对信息进行提取时,部分信息由于各种原因无法直接通过检索进行提取,而通过人工筛选进行提取由于量大,不仅费力且效率低下,由于操作人员不同,从而在对信息的类别进行分类筛选时,都具有不同的认知,导致分类的准确率较低。
3.因此本领域技术人员致力于提供一种能够有效解决上述技术问题的多维度文本信息分类标注模型及方法。


技术实现要素:

4.有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种能够有效解决上述技术问题的多维度文本信息分类标注模型及方法。
5.为实现上述目的,本发明提供了一种多维度文本信息分类标注模型及方法,获取待分类的文本信息;
6.对待分类的文本信息进行过滤获得关键词分类信息集;
7.通过预设规则对所述关键词分类信息集进行关键词分类;
8.对完成分类的关键词进行多个信息特征提取;
9.利用提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类。
10.作为优选,所述获取待分类文本信息之前,需要建立关键词库;通过关键词库对待分类的文本信息进行过滤获得关键词分类信息集。
11.作为优选,通过关键词库对待分类的文本信息进行过滤,获得关键词分类信息集的具体方式为,建立过滤库,通过过滤库对待分类的文本信息进行过滤。
12.作为优选,所述预设规则为多个,根据至少一个预设规则对所述关键词分类信息进行检测,得到检测结果,通过检测结果判断是否有与所述预设规则相匹配的关键词信息,若有,将该关键词信息归于该检测的预设规则并进行特征提取。
13.作为优选,若关键词分类信息经过多个预设规则检测都不符合关键词信息的匹配,则通过记录文本模板对该关键词信息进行记录。
14.作为优选,所述预设规则对所述关键词分类信息集进行关键词分类的具体方式为:检测出关键词分类信息集中所有非汉字信息,将检测出来的非汉字信息进行删除,同时按照待分类的文本信息顺序进行关键词的分类后,得到至少一组关键词分类信息。
15.作为优选,通过获取模块获取待分类的文本信息,并对所述获取待分类的文本信息进行过滤处理,进行过滤获得关键词分类信息集;
16.通过特征提取单元对完成分类的关键词进行多个信息特征提取;
17.通过分类单元将提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类,得到分类结果。
18.作为优选,通过存储器,用于保存计算机程序,同时通过记录模块用于对关键词信息的记录;通过处理单元用于执行文本信息方法;通过比对单元用于判断是否有与所述预设规则相匹配的关键词信息。
19.作为优选,对完成分类的关键词进行多个信息特征提取和进行分类之间还包括,将提取的信息特征进行要素抽取处理,通过要素抽取处理得到分类要素,通过所述分类要素与预设的样本信息进行匹配对待分类的文本信息进行分类。
20.本发明的有益效果是:通过本发明的方法,能够有效的对信息进行分类提取,提高分类效率和分类准确率。
具体实施方式
21.下面结合实施例对本发明作进一步说明:
22.实施例1
23.一种多维度文本信息分类标注模型及方法,
24.获取待分类的文本信息;
25.对待分类的文本信息进行过滤获得关键词分类信息集;
26.通过预设规则对所述关键词分类信息集进行关键词分类;
27.对完成分类的关键词进行多个信息特征提取;
28.利用提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类。
29.实施例2
30.一种多维度文本信息分类标注模型及方法,
31.所述获取待分类文本信息之前,需要建立关键词库;通过关键词库对待分类的文本信息进行过滤获得关键词分类信息集。
32.获取待分类的文本信息;
33.对待分类的文本信息进行过滤获得关键词分类信息集;
34.本实施例中,通过关键词库对待分类的文本信息进行过滤,获得关键词分类信息集的具体方式为,建立过滤库,通过过滤库对待分类的文本信息进行过滤。
35.通过预设规则对所述关键词分类信息集进行关键词分类;
36.本实施例中,所述预设规则为多个,根据至少一个预设规则对所述关键词分类信息进行检测,得到检测结果,通过检测结果判断是否有与所述预设规则相匹配的关键词信息,若有,将该关键词信息归于该检测的预设规则并进行特征提取。
37.对完成分类的关键词进行多个信息特征提取;
38.利用提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类。
39.实施例3
40.一种多维度文本信息分类标注模型及方法,
41.所述获取待分类文本信息之前,需要建立关键词库;通过关键词库对待分类的文本信息进行过滤获得关键词分类信息集。
42.获取待分类的文本信息;
43.对待分类的文本信息进行过滤获得关键词分类信息集;
44.本实施例中,通过关键词库对待分类的文本信息进行过滤,获得关键词分类信息集的具体方式为,建立过滤库,通过过滤库对待分类的文本信息进行过滤。
45.通过预设规则对所述关键词分类信息集进行关键词分类;其中,所述预设规则对所述关键词分类信息集进行关键词分类的具体方式为:检测出关键词分类信息集中所有非汉字信息,将检测出来的非汉字信息进行删除,同时按照待分类的文本信息顺序进行关键词的分类后,得到至少一组关键词分类信息。
46.本实施例中,所述预设规则为多个,根据至少一个预设规则对所述关键词分类信息进行检测,得到检测结果,通过检测结果判断是否有与所述预设规则相匹配的关键词信息,若有,将该关键词信息归于该检测的预设规则并进行特征提取。
47.若关键词分类信息经过多个预设规则检测都不符合关键词信息的匹配,则通过记录文本模板对该关键词信息进行记录。
48.对完成分类的关键词进行多个信息特征提取;
49.利用提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类。
50.本实施例中,通过获取模块获取待分类的文本信息,并对所述获取待分类的文本信息进行过滤处理,进行过滤获得关键词分类信息集;
51.通过特征提取单元对完成分类的关键词进行多个信息特征提取;
52.通过分类单元将提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类,得到分类结果。
53.实施例4
54.一种多维度文本信息分类标注模型及方法,
55.所述获取待分类文本信息之前,需要建立关键词库;通过关键词库对待分类的文本信息进行过滤获得关键词分类信息集。
56.获取待分类的文本信息;
57.对待分类的文本信息进行过滤获得关键词分类信息集;
58.本实施例中,通过关键词库对待分类的文本信息进行过滤,获得关键词分类信息集的具体方式为,建立过滤库,通过过滤库对待分类的文本信息进行过滤。
59.通过预设规则对所述关键词分类信息集进行关键词分类;其中,所述预设规则对所述关键词分类信息集进行关键词分类的具体方式为:检测出关键词分类信息集中所有非汉字信息,将检测出来的非汉字信息进行删除,同时按照待分类的文本信息顺序进行关键词的分类后,得到至少一组关键词分类信息。
60.本实施例中,所述预设规则为多个,根据至少一个预设规则对所述关键词分类信息进行检测,得到检测结果,通过检测结果判断是否有与所述预设规则相匹配的关键词信
息,若有,将该关键词信息归于该检测的预设规则并进行特征提取。
61.若关键词分类信息经过多个预设规则检测都不符合关键词信息的匹配,则通过记录文本模板对该关键词信息进行记录。
62.本实施例中,通过存储器,用于保存计算机程序,同时通过记录模块用于对关键词信息的记录;通过处理单元用于执行文本信息方法;通过比对单元用于判断是否有与所述预设规则相匹配的关键词信息。
63.对完成分类的关键词进行多个信息特征提取;其中,对完成分类的关键词进行多个信息特征提取和进行分类之间还包括,将提取的信息特征进行要素抽取处理,通过要素抽取处理得到分类要素,通过所述分类要素与预设的样本信息进行匹配对待分类的文本信息进行分类。
64.利用提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类。
65.本实施例中,通过获取模块获取待分类的文本信息,并对所述获取待分类的文本信息进行过滤处理,进行过滤获得关键词分类信息集;
66.通过特征提取单元对完成分类的关键词进行多个信息特征提取;
67.通过分类单元将提取的多个信息特征与预设的样本信息进行匹配对待分类的文本信息进行分类,得到分类结果。
68.本发明中,实施例4为最优实施例。
69.以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1