一种信息录入动态处理方法、装置及电子设备与流程

文档序号:31677990发布日期:2022-09-28 03:46阅读:88来源:国知局
一种信息录入动态处理方法、装置及电子设备与流程

1.本技术涉及文章分类的领域,尤其是涉及一种信息录入动态处理方法、装置及电子设备。


背景技术:

2.随着互联网的发展,越来越多的文章被发布在网络上,为了便于用户有目的性的阅读,需要为文章进行分类。
3.目前,常用的文章分类方法大多是人工手动选择分类,或通过脚本设置类型分类,通过脚本设置类型分类时,当出现之前从为出现的文章类型进行分类时需要重新修改脚本,导致工作量较大,或出现分类不准确的情况。


技术实现要素:

4.为了提高分类效率的同时提高分类的准确性,便于阅读人员能根据文章分类精准的找到自己需要的资料,本技术提供了一种信息录入动态处理方法、装置及电子设备。
5.第一方面,本技术提供一种信息录入动态处理方法,采用如下的技术方案:一种信息录入动态处理方法,该方法包括:该方法应用于对网络安全类文章进行分类,该方法包括:获取用户录入文章的文章信息,并对所述文章的标题和内容进行标记;基于预设的建立规则建立关键词提取模型;根据关键词提取模型和文章内的标记对所述文章信息内包含的分类关键词进行提取,所述分类关键词包括标题关键词和内容关键词;基于预设的评分规则,根据所述分类关键词对所述文章进行分类评分;根据所述分类评分和预设的评分阈值确定文章所述类型;基于预设的分布确定规则,确定所述内容关键词在文章的内容部分的分布;根据所述内容关键词在文章的内容部分的分布,对所述文章的内容进行进一步分类,确定最终分类结果。
6.通过采用上述技术方案,获取用户录入的文章的文章信息,并对文章信息的标题和内容进行标记,通过基于预设的建立规则建立的关键词提取模型提取和文章内容的标记提取文章信息包含的分类关键词,基于预设的评分规则,根据分类关键词对文章进行分类评分,根据分类评分和预设的评分阈值确定文章所属类型,之后根据预设的分布规则,确定内容关键词在文章的内容内的分布,根据内容关键词在文章的内容内的分布,对文章的内容进行进一步的分类,确定最终分类结果,采用上述方式,在确定文章整体类型后,在对文章的内容进行详细的分类,使得阅读者在查找内容时可根据分类结果,精确查找到自己所需要的内容,相较于人工分类和脚本分类,提高分类效率的同时提高分类的准确性便于阅读人员能根据文章分类精准的找到自己需要的资料。
7.可选的,所述获取用户录入文章的文章信息,并对所述文章的标题和内容进行标
记的方法,具体包括:用户录入文章时,将所述文章的标题部分和内容部分分别进行录入;将接收到的标题部分和内容部分打上不同的标签;获取内容部分的每一段落,并对所述段落按顺序进行标号。
8.可选的,所述基于预设的建立规则建立关键词提取模型的方法,具体包括:获取分类关键词、每一分类关键词对应的文章的类型以及文章内的标记;建立分类关键词、文章类型以及文章内的标记的对应关系;根据分类关键词、每一分类关键词对应的文章的类型以及分类关键词、文章类型以及文章内的标记的对应关系训练得到关键词提取模型。
9.可选的,所述基于预设的评分规则,根据所述分类关键词对所述文章进行分类评分的方法具体包括:分别获取标题关键词和内容关键词对应的权重以及每一内容关键词的数量;分类评分=a
×
a+a
×c×
b/b;其中a为标题权重,a为总分,b为对应特定类型的文章的内容关键词的数量,c为内容关键词权重,b特定类型的文章的内容关键词的总数量。
10.可选的,所述根据所述分类评分和预设的评分阈值确定文章所述类型的方法,具体包括:将所述分类评分与所述评分阈值进行比较;确定所述分类评分大于所述评分阈值的分类评分对应的文章的类型,为待确定文章的类型。
11.可选的,所述基于预设的分布确定规则,确定所述内容关键词在文章的内容内的分布的方法,具体包括:所述内容关键词在文章的内容内的分布包括内容关键词所在段落以及每一段落中内容关键词的数量;根据内容部分的段落标号以及文章包含的内容关键词,确定同类型文章对应的内容关键词所在段落以及每一段落中同类型文章对应的内容关键词的数量。
12.可选的,所述根据所述关键词在文章的内容部分的分布,对所述文章的内容进行进一步分类,确定最终分类结果的方法,具体包括:对比每一段落中出现的每一类型的文章的内容关键词的数量,并按从大到小的顺序进行排序;确定数量最多的内容关键词对应的文章类型为该段落的类型;确定每一段落的类型并进行标记,确定最终分类结果。
13.第二方面,本技术提供一种信息录入动态处理装置,采用如下的技术方案:一种信息录入动态处理装置,包括:获取模块,用于获取用户录入文章的文章信息,并对所述文章的标题和内容进行标记;模型建立模块,用于基于预设的建立规则建立关键词提取模型;关键词提取模块,用于根据关键词提取模型和文章内的标记对所述文章信息内包含的分类关键词进行提取;分类评分模块,用于基于预设的评分规则,根据所述分类关键词对所述文章进行
分类评分;第一分类模块,用于根据所述分类评分和预设的评分阈值确定文章所述类型;分布确定模块,用于基于预设的分布确定规则,确定所述内容关键词在文章的内容内的分布;第二分类模块,用于根据所述关键词在文章的内容部分的分布,对所述文章的内容进行进一步分类,确定最终分类结果。
14.第三方面,本技术提供一种电子设,采用如下的技术方案:一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行的信息录入动态处理方法的计算机程序。
15.第四方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:一种计算机可读存储介质,存储有能够被处理器加载并执行的信息录入动态处理方法的计算机程序。
16.综上所述,本技术包括以下有益技术效果:通过获取用户录入的文章的文章信息,并对文章信息的标题和内容进行标记,通过基于预设的建立规则建立的关键词提取模型提取和文章内容的标记提取文章信息包含的分类关键词,基于预设的评分规则,根据分类关键词对文章进行分类评分,根据分类评分和预设的评分阈值确定文章所属类型,之后根据预设的分布规则,确定内容关键词在文章的内容内的分布,根据内容关键词在文章的内容内的分布,对文章的内容进行进一步的分类,确定最终分类结果,采用上述方式,在确定文章整体类型后,在对文章的内容进行详细的分类,使得阅读者在查找内容时可根据分类结果,精确查找到自己所需要的内容,相较于人工分类和脚本分类,提高分类效率的同时提高分类的准确性便于阅读人员能根据文章分类精准的找到自己需要的资料。
附图说明
17.图1是本技术提供的信息录入动态处理方法的流程图。
18.图2是本技术提供的信息录入动态处理装置的整体结构示意图。
19.图3是本技术提供的电子设备的结构示意图。
20.附图标记说明:200、信息录入动态处理装置;201、获取模块;202、模型建立模块;203、关键词提取模块;204、分类评分模块;205、第一分类模块;206、分布确定模块;207、第二分类模块;301、cpu;302、rom;303、ram;304、i/o接口;305、输入部分;306、输出部分;307、存储部分;308、通信部分;309、驱动器;310、可拆卸介质。
具体实施方式
21.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本技术保护的范围。
22.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另
外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
23.本技术使用的所有术语(包括技术术语或者科学术语)与本技术所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
24.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
25.本实施例提供一种信息录入动态处理方法,该方法应用于对网络安全类文章进行分类,参照图1,信息录入动态处理方法包括:s101:获取用户录入文章的文章信息,并对文章的标题和内容进行标记。
26.具体的,文章信息包括文章标题以及文章内容,用户在撰写完文章后,在对文章进行上传的过程中,将文章标题以及文章内容分别进行上传,获取到文章标题后,对文章标题对应的字段打上标签并存储,同理,获取到文章内容信息后,首先将文章内容整体打上标签,之后对文章内容进行识别,确定文章内容的每一段落,并按照识别的顺序依次对文章内容的段落按顺序进行标号,在撰写文章时,每一段落开头均会首行缩进两个字符,因此在进行段落确定时,通过识别文章内容的格式即可确定文章段落。
27.s102:基于预设的建立规则建立关键词提取模型。
28.s103:根据关键词提取模型和文章内的标记对文章信息内包含的分类关键词进行提取。
29.具体的,在步骤s102和步骤s103中,关键词提取模型用于提取用户上传的文章的文章信息的分类关键字,分类关键词包括标题关键词和内容关键词,建立关键词提取模型时,首先基于网络安全类文章关键词大数据,获取分类关键词以及每一分类关键词对应的文章类型,获取到分类关键词以及每一分类关键词对应的文章类型,建立分类关键词、文章类型以及文章内的标记的对应关系,根据分类关键词、每一分类关键词对应的文章的类型以及分类关键词、文章类型以及文章内的标记的对应关系训练得到关键词提取模型。
30.例如:在对利用关键词提取模型对文章信息的关键词进行提取时,输入文章标题,关键词提取模型会查找文章标题对应的关键词与用户上传文章的标题进行比对,最终确定用户上传的文章的文章标题对应的标题关键词,之后再将文章内容对应的关键词与用户上传的文章的文章内容进行比对,确定用户上传的文章的文章内容对应的内容关键词,确定标题关键词和内容关键词后,关键词提取模型还可确定提取到的标题关键词和内容关键词对应的文章类型。
31.s104:基于预设的评分规则,根据分类关键词对文章进行分类评分。
32.具体的,获取到用户上传文章的标题关键词和内容关键词后,分别获取标题关键词和内容关键词对应的权重以及每一内容关键词的数量,根据公式:分类评分=a
×
a+a
×c×
b/b,计算得出多个分类评分;其中a为标题权重,a为总分,b为对应特定类型的文章的内容关键词的数量,c为内容关键词权重,b特定类型的文章的内容关键词的总数量。标题关键词和内容关键词对应的权重均有工作人员根据经验自行设定,本实施例中,由于文章的主体大多为网络安全类文章,大多数情况下标题可以大概反应文章的类型,因此标题关键词对应的权重为70%,内容关键词对应的权重为30%。
33.例如:在标题中包含类型1对应的标题关键词和类型2对应的标题关键词,在文章内容中同样包括类型1对应的内容关键词和类型2对应的内容关键词,因此分别根据上述公式计算类型1的分类评分和类型2的分类评分。
34.s105:根据分类评分和预设的评分阈值确定文章所属类型。
35.具体的,工作人员根据实际情况设置评分阈值,将实际计算出的分类评分分别与评分阈值进行对比,若只有其中一个类型的文章对应的分类评分大于评分阈值,则将文章归为该类型的文章;若存在多个类型对应的文章的分类评分均大于评分阈值,此时输出提示信息,由工作人员人工对这些文章进行分类,由于网络安全类文章中,标题出现对应多个不同文章类型的标题关键词的情况很少,因此基本不会出现多个多个类型对应的文章的分类评分均大于评分阈值的情况,仅仅有很小的概率会出现因此不会对工作人员的工作量产生较为明显的影响。
36.s106:基于预设的分布确定规则,确定内容关键词在文章的内容部分的分布。
37.具体的,内容关键词在文章的内容部分的分布包括内容关键词所在段落以及段落内内容关键词的数量,初步确定文章类型后,根据内容部分的段落标号以及文章包含的内容关键词,对文章的段落进行主义识别,确定同类型文章对应的内容关键词所在段落以及每一段落中同类型文章对应的内容关键词的数量。
38.s107:根据内容关键词在文章的内容部分的分布,对文章的内容进行进一步分类,确定最终分类结果。
39.具体的,确定一个段落中对应的同类型文章的内容关键的数量后,将该段落的包含的每一类型的文章对应的内容关键词的数量进行对比,确定数量最多的内容关键词对应的文章类型为该段的类型,采用上述方式对文章段落进行逐一分类,确定分类后对文章的每一段落进行标记,确定最终分类结果。采用上述方式。
40.由于在写文章时即便文章的主体为一个类型,文章内容也难免会设置到其他类型的内容,将文章整体进行初步分类后,对文章内容进行进一步分类,使得在用户摘根据分类查找需要的文章时,能更加精准、全面的找到自己需要的信息,提高用户体验。
41.本实施例提供一种信息录入动态处理装置,参照图2,信息录入动态处理装置200包括:获取模块201,用于获取用户录入文章的文章信息,并对文章的标题和内容进行标记;模型建立模块202,用于基于预设的建立规则建立关键词提取模型;关键词提取模块203,用于根据关键词提取模型和文章内的标记对文章信息内包含的分类关键词进行提取;分类评分模块204,用于基于预设的评分规则,根据分类关键词对文章进行分类评分;第一分类模块205,用于根据分类评分和预设的评分阈值确定文章所属类型;分布确定模块206,用于基于预设的分布确定规则,确定内容关键词在文章的内容内的分布;第二分类模块207,用于根据内容关键词在文章的内容部分的分布,对文章的内容进行进一步分类,确定最终分类结果。
42.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
43.本技术实施例还公开一种电子设备,参照图3,电子设备包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分307加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram303中,还存储有系统操作所需的各种程序和数据。cpu301、rom302以及ram303通过总线彼此相连。输入/输出i/o接口304也连接至总线。
44.以下部件连接至i/o接口304:包括键盘、鼠标等的输入部分305;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分306;包括硬盘等的存储部分307;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分308。通信部分308经由诸如因特网的网络执行通信处理。驱动器309也根据需要连接至i/o接口304。可拆卸介质310,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器309上,以便于从其上读出的计算机程序根据需要被安装入存储部分307。
45.特别地,根据本公开的实施例,上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分308从网络上被下载和安装,和/或从可拆卸介质310被安装。在该计算机程序被中央处理单元(cpu)301执行时,执行本技术的装置中限定的上述功能。
46.以上均为本技术的较佳实施例,并非依此限制本技术的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1