本技术涉及数据处理领域,特别涉及一种文本数据清洗方法、系统、装置及存储介质。
背景技术:
1、人工智能的发展取得了巨大突破,其中的关键之一是高质量数据的不断发展。特别是对于大型语言模型来说,更高质量、更丰富的训练数据集至关重要。在模型相对固定的前提下,提升数据的质量和数量可以有效地提升整个模型的训练效果。针对ai(artificialintelligence,人工智能)语言大模型来说,它们需要使用高质量、大规模、以及多样性的数据集进行训练。在中文大语言模型的预训练数据集中,主要来源于互联网抓取数据、网络百科全书、以及书籍等。在数据集中,尤其是书籍的使用,主要是为了训练模型的故事讲述能力和反应能力,这主要包括了小说和非小说两大类。然而,尽管国内数据资源十分丰富,但是由于数据挖掘不足,优质中文数据集仍然稀缺。主要的瓶颈在于形形色色的中文文本语料质量参差不齐,以及原始文本数据中包含大量噪声、错误、无用数据和其他类型的垃圾信息,这些都会影响文本分析的准确性。而且,人工收集文本数据集需要巨大的人力资金投入,在数据挖掘和数据治理上的力度和投入也存在不足的情况。
2、因此,如何解决数据集中的低质量文本、噪声信息等问题,以及如何通过更加有效的方式进行数据收集和挖掘,是当前亟需解决的关键问题。
技术实现思路
1、本技术的目的是提供一种文本数据清洗方法、系统、装置及存储介质,通过轮询各篇文章中的各行文本数据,一旦发现低质量文本,可以执行清洗操作,包括删除、替换和合并等操作,可以过滤掉无用数据和其他类型的垃圾信息,从而提高数据的准确性和质量,从而消除噪声或错误信息,提高文本数据的质量。
2、第一方面,本技术提供了一种文本数据清洗方法,包括:
3、获取文本数据,所述文本数据包括若干篇文章,每篇所述文章包括若干行文本数据;
4、轮询各所述文章中的各行文本数据;
5、确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
6、若存在,则对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作,所述清洗操作包括删除操作、替换操作和合并操作中的任意一种。
7、在一种实施例中,对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作之后,还包括:
8、将清洗后的文本数据输入至语言训练模型中进行训练学习。
9、在一种实施例中,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
10、判断当前轮询的所述目标行文本数据是否满足删除条件;
11、若满足所述删除条件,则删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据。
12、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
13、在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行;
14、若存在空行,则判定满足所述删除条件;
15、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
16、删除所述空行。
17、在一种实施例中,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
18、判断当前轮询的所述目标行文本数据是否只包括若干个换行符;
19、若只包括若干个所述换行符,则判定满足所述删除条件;
20、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
21、删除所述目标行文本数据。
22、在一种实施例中,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
23、判断所述目标行文本数据的结尾是否包括不止一个换行符;
24、若包括不止一个所述换行符,则判定满足所述删除条件;
25、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
26、删除若干个所述换行符以使所述目标行文本数据的结尾只有一个所述换行符。
27、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
28、判断当前轮询的所述目标行文本数据中预设字符的个数是否超过第一预设个数,所述预设字符为非中文且非数字的字符;
29、若超过所述第一预设个数,则判定满足所述删除条件;
30、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
31、删除预设字符的个数超过第一预设个数的目标行文本数据。
32、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
33、判断当前轮询的所述目标行文本数据中是否存在满足空格删除条件的空格,其中所述空格删除条件为:所述空格前的字符为非英文字符且所述空格后的字符为非英文字符、或相邻两个英文字符之间存在超过一个以上的空格;
34、若存在,则判定满足所述删除条件;
35、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
36、将满足所述空格删除条件的空格删除。
37、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
38、判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
39、若包括所述敏感词汇,则判定满足所述删除条件;
40、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
41、删除包括所述敏感词汇的目标行文本数据。
42、在一种实施例中,判断当前轮询的所述目标行文本数据中是否包括敏感词汇,包括:
43、判断当前轮询的所述目标行文本数据中是否包括预设敏感词汇数据库中的任意字符串、或者通过预设敏感词汇判定模型判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
44、若包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇,则判定满足所述删除条件;
45、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
46、删除包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇的目标行文本数据。
47、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
48、判断当前轮询的所述目标行文本数据是否为非中文文本数据;
49、若所述目标行文本数据为所述非中文文本数据,则判断所述目标行文本数据是否为连续多行非中文文本数据中的一行;
50、若所述目标行文本数据不是连续多行非中文文本数据中的一行,则判定满足所述删除条件;
51、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
52、对为所述非中文文本数据且不是连续多行非中文文本数据中的一行的目标行文本数据进行删除。
53、在一种实施例中,获取文本数据之后,还包括:
54、统计每篇所述文章中各行文本数据的重复次数;
55、判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
56、判断是否存在重复次数超过第一预设次数的行文本数据;
57、若存在,则判定满足所述删除条件;
58、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
59、删除所述重复次数超过所述第一预设次数的行文本数据。
60、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
61、判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符;
62、若包括用于表征解释说明的字符,则判定满足所述删除条件;
63、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
64、删除包括用于表征解释说明的字符的目标行文本数据。
65、在一种实施例中,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
66、判断当前轮询的所述目标行文本数据中是否包括用于表征脚注信息的字符;
67、若包括用于表征所述脚注信息的字符,则判定满足所述删除条件;
68、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
69、删除包括用于表征所述脚注信息的字符的目标行文本数据。
70、在一种实施例中,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
71、判断当前轮询的所述目标行文本数据中是否包括大括号或中括号或小括号的字符;
72、若包括大括号或中括号或小括号的字符,则判定满足所述删除条件;
73、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
74、删除所述大括号或所述中括号或所述小括号中的文本数据。
75、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
76、判断当前轮询的所述目标行文本数据中是否包括用于表征网址链接的字符;
77、若包括用于表征所述网址链接的字符,则判定满足所述删除条件;
78、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
79、删除所述用于表征网址链接的字符。
80、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
81、判断当前轮询的所述目标行文本数据中是否包括特殊字符,所述特殊字符为除中文、英文、数字、预设标点、数学符号和希腊字母之外的其它字符;
82、若包括所述特殊字符,则判定满足所述删除条件;
83、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
84、删除所述特殊字符。
85、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
86、判断当前轮询的所述目标行文本数据中是否存在用于表征角标的角标字符,所述角标字符的特征为在终止标点后、包括括号且括号中为数字信息;
87、若存在所述角标字符,则判定满足所述删除条件;
88、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
89、删除所述角标字符及所述角标字符之后的文本数据。
90、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
91、判断当前轮询的所述目标行文本数据中是否存在用于表征页脚的页脚字符,所述页脚字符的特征为包括预设页码字符或只包括一个页码数字且所述页码数字的上一行文本数据和下一行文本数据均为中文文本数据;
92、若存在所述页脚字符,则判定满足所述删除条件;
93、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
94、删除存在所述页脚字符的目标行文本数据。
95、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
96、判断当前轮询的所述目标行文本数据中是否存在用于表征章节题目的章节性字符,所述章节性字符为预设章节性字符库中的任意一种或预设章节格式的字符;
97、若存在所述章节性字符,则判定满足所述删除条件;
98、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
99、删除存在所述章节性字符的目标行文本数据。
100、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
101、判断当前轮询的所述目标行文本数据中是否存在用于表征图片或表格或图片的题目或表格的题目的图表字符,其中所述图片的题目或所述表格的题目的字符特征为:图或表为起始字符、所述起始字符后为字母或数字、所在行文本数据的最后没有标点;
102、若存在所述图表字符,则判定满足所述删除条件;
103、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
104、删除存在所述图表字符的目标行文本数据。
105、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
106、判断当前轮询的所述目标行文本数据中是否存在用于表征参考文献的文献字符;
107、若存在所述文献字符,则判定满足所述删除条件;
108、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
109、删除存在所述文献字符的目标行文本数据。
110、在一种实施例中,判断当前轮询的所述目标行文本数据中是否存在用于表征参考文献的文献字符之后,还包括:
111、若存在所述文献字符,则判断当前轮询的所述目标行文本数据是否为自身对应的文章的总行数的预设比例之后的行文本数据;
112、若是,则判定满足所述删除条件;
113、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
114、删除所述目标行文本数据及其之后的所有文本数据。
115、在一种实施例中,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
116、判断当前轮询的所述目标行文本数据中是否存在满足替换条件的字符;
117、若存在,则使用预设替换字符替换满足所述替换条件的字符。
118、在一种实施例中,判断当前轮询的所述目标行文本数据中是否存在满足替换条件的字符,包括:
119、判断当前轮询的所述目标行文本数据中是否存在繁体字;
120、若存在,则判定满足所述替换条件;
121、使用预设替换字符替换满足所述替换条件的字符,包括:
122、使用与所述繁体字对应的简体字替换所述繁体字。
123、在一种实施例中,还包括:
124、在删除所有行文本数据中满足所述预设条件的字符或行文本数据之后,依次轮询所述文章中的各行文本数据;
125、确定当前轮询的所述目标行文本数据是否满足合并条件;
126、若满足所述合并条件,则将所述目标行文本数据与所述目标行文本数据的下一行本文数据合并。
127、在一种实施例中,确定当前轮询的所述目标行文本数据是否满足合并条件,包括:
128、确定当前轮询的所述目标行文本数据的结尾是否存在终止标点;
129、若不存在所述终止标点,则判定所述目标行文本数据满足所述合并条件。
130、在一种实施例中,还包括:
131、在完成对整篇文章的合并后,依次轮询所述文章中的各个段落;
132、判断当前轮询的目标段落是否满足预设段落删除条件;
133、若满足所述预设段落删除条件,则删除所述目标段落。
134、在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
135、计算所述目标段落中的中文字符与所有字符的比值;
136、判断所述比值是否小于预设比值;
137、若小于所述预设比值,则判定所述目标段落满足所述预设段落删除条件。
138、在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
139、统计所述目标段落中标点符号的个数;
140、判断所述标点符号的个数是否小于第一临界值;
141、若小于所述第一临界值,则判定所述目标段落满足所述预设段落删除条件。
142、在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
143、对所述目标段落中的所有字符进行分词处理,并统计分词处理之后的词语个数;
144、判断所述词语个数与所述目标段落的所有字符的比值是否大于第二临界值;
145、若大于,则判定所述目标段落满足所述预设段落删除条件。
146、在一种实施例中,还包括:
147、在完成对整篇文章的合并后,对同一类型的标点符号统一替换为与所述类型对应的标准标点符号。
148、第二方面,本技术还提供了一种文本数据清洗系统,包括:
149、获取单元,用于获取文本数据,所述文本数据包括若干篇文章,每篇所述文章包括若干行文本数据;
150、行轮询单元,用于轮询各所述文章中的各行文本数据;
151、确定单元,用于确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
152、清洗单元,用于在当前轮询的目标行文本数据中存在满足预设清洗条件的文本数据时,对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作,所述清洗操作包括删除操作、替换操作和合并操作中的任意一种。
153、第三方面,本技术还提供了一种文本数据清洗装置,包括:
154、存储器,用于存储计算机程序;
155、处理器,用于在执行计算机程序时,实现上述所述的文本数据清洗方法的步骤。
156、第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的文本数据清洗方法的步骤。
157、本技术提供了一种文本数据清洗方法、系统、装置及存储介质,涉及数据处理领域,用于解决ai训练模型的数据质量差的问题。获取包括若干篇文章的文本数据,每篇文章包括若干行文本数据;轮询各文章中的各行文本数据;确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;若存在,则对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作,清洗操作包括删除操作、替换操作和合并操作中的任意一种。本技术中通过轮询各篇文章中的各行文本数据,一旦发现低质量文本,可以执行清洗操作,包括删除、替换和合并等操作,可以过滤掉无用数据和其他类型的垃圾信息,从而提高数据的准确性和质量,从而消除噪声或错误信息,提高文本数据的质量。