本发明涉及文本分类,尤其是一种文本预标注方法、系统、装置及存储介质。
背景技术:
1、随着信息技术的高速发展,信息也呈爆炸式增长。如何从对大规模的无标注语料数据中进行数据预标注是当前文本分类领域关注重点。
2、现有的文本标注方法主要采用人工标注方法或者基于统计模型标注方法加上人工审核的方法。人工标注通过增加人手和加强项目管理来提升效率是十分有限的,不能有效解决效率低、成本高的问题;而统计模型需要大量的数据进行训练,缺乏冷启动的能力,所述冷启动能力是在少量语料数据的情况下开展工作的能力,在早期没有多少训练数据的情况下识别效果不可靠,难以起到太大作用。同时,自然语言处理nlp的需求往往高度领域化、定制化,很难有现有的模型可以直接拿来做预标注,在现阶段,文本预标注由于主观性强,且对标注人员的专业素质要求高,普遍存在工作量大、效率低且成本高等问题。
技术实现思路
1、为了解决上述问题,本发明提供一种文本预标注方法、系统、装置及存储介质,实现了对语料进行信息预标注,同时可以通过规则的提炼和修改以及对应脚本的编写,来不断更新和完善规则文件,形成良好的循环迭代过程,最终生成一个稳定的预标注规则模型,后续可以利用该模型自动预标注新的语料信息。
2、为了实现上述发明目的,本发明提供一种文本预标注方法,所述方法包括步骤:
3、s1、获取语料并进行数据分析,提炼规则并产生规则文件和词表文件;
4、s2、针对所述规则文件和词表文件,编写脚本并产生脚本文件;
5、s3、根据所述脚本文件和样例语料,生成该样例语料对应的预标注数据文件;
6、s4、对所述的预标注数据文件进行审核和校正,获得预标注错误信息;
7、s5、根据所述预标注数据文件对所述规则文件和词表文件进行更新,形成新的规则文件和词表文件;
8、每次获得新的规则文件和词表文件,都将新的规则文件和词表文件代入并执行s2-s5步骤,直到新出现的预标注错误都是长尾问题,最终获得预标注规则模型;
9、根据预标注规则模型对文本进行预标注。
10、作为本发明的进一步改进,所述获取语料并进行数据分析,提炼规则并产生规则文件和词表文件包括:对所述的语料依次进行分句、分词,生成以词序列表示的数据集;对所述数据集进行分析,提取信息特征,该信息特征包括所述数据集中的关键词、关键词组、关键句式、词性序列、依存关系、词表语义标签和词组间或短语间的距离;根据所述信息特征产生规则文件和词表文件。
11、作为本发明的进一步改进,所述方法还包括:所述规则文件包括模块声明规则和普通规则;所述模块声明规则,用来定义规则模块的种类和模块之间的执行顺序;所述普通规则,包括条件语句和结果语句,用来定义对满足条件语句的语料执行结果语句的操作。
12、作为本发明的进一步改进,所述方法还包括:所述词表文件包括若干实体名称,其用于对所述语料进行分词优化处理。
13、作为本发明的进一步改进,所述方法还包括:所述编写脚本文件使用的脚本语言包括python、per l和javascr i pt中的至少一种。
14、作为本发明的进一步改进,所述方法还包括:在开发测试环境下,执行所述脚本文件并调用规则解释器,对输入的样例语料进行自动预标注,生成该样例语料对应的预标注数据文件。
15、作为本发明的进一步改进,所述方法还包括:对所述预标注数据文件进行审核和校正,针对其中预标注错误的地方进行修改、没有预标注到的地方进行标注,获得预标注错误信息;所述预标注错误信息保存为文件格式,所述文件格式包括xm l、json和exce l中的至少一种。
16、本发明还提供一种文本预标记系统,所述文本预标记系统包括:文件获取模块,用于获取规则文件和词表文件;算法模块,用于根据所述规则文件和词表文件生成脚本文件;预标注模块,用于根据所述脚本文件和所述样例语料,获得所述样例语料对应的预标注数据文件;人工审核模块,用于审核并记录所述预标注数据文件中的错误信息,生成审核文件;迭代模块,用于持续进行以下操作,直到新出现的预标注错误都是长尾问题,所述操作具体包括:针对所述规则文件和词表文件,编写脚本并产生脚本文件;根据所述脚本文件和样例语料,生成该样例语料对应的预标注数据文件;对所述的预标注数据文件进行审核和校正,获得预标注错误信息;根据所述预标注数据文件对所述规则文件和词表文件进行更新,形成新的规则文件和词表文件。
17、本发明还提供一种文本预标注装置,所述文本预标注装置包括:存储器和至少一个处理器,所述存储器中存储指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本预标注装置执行时实现如上任意一项所述的文本预标注方法。
18、本发明还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项所述的文本预标注方法。
19、与现有技术相比,本发明具有以下有益效果:当用户拿到少量语料时,可以提取规则、编写脚本实现文本的自动化预标注,再对其审核校正、更新规则和脚本,不断循环迭代获得预标注规则模型,再根据该模型对文本实现自动预标注,这不仅能够实现自动预标注的效果,又能在语料较少的情况下提高预标注的效率和准确性,同时也降低了成本。
1.一种文本预标注方法,其特征在于,
2.根据权利要求1所述的文本预标注方法,其特征在于,
3.根据权利要求1所述的文本预标注方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的文本预标注方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的文本预标注方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的文本预标注方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的文本预标注方法,其特征在于,所述方法还包括:
8.一种文本预标注系统,其特征在于,所述文本预标注系统包括:
9.一种文本预标注装置,其特征在于,所述文本预标注装置包括:存储器和至少一个处理器,所述存储器中存储指令;
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时候实现权利要求1-7任意一项所述的文本预标注方法。