本发明涉及发电信息,更确切地说,它涉及一种面向发电设备多模态数据的文本交互式提取方法。
背景技术:
1、随着现代化进程的推进,各式各样的电厂的规模随之提高,并且其中的电力设备也越发复杂多样、规模庞大,随之带来的问题就是故障数量显著增多。现阶段大多数维修师傅在维修设备时先将自己排查到的故障问题通过笔记、手写、图片等的方式记录随后通过自己记录的故障信息逐个解决机器故障问题。在生产过程中设备的故障现象十分常见,倘若像以前的形式那样,以人为排查的方式去检测故障处理直至问题解决,不仅会消耗大量的时间,也会消耗大量的精力,低效且耗能。
技术实现思路
1、本发明的目的是克服现有技术中的不足,提出了一种面向发电设备多模态数据的文本交互式提取方法。
2、第一方面,提供了一种面向发电设备多模态数据的文本交互式提取方法,包括:
3、步骤1、收集包含电力设备相关故障信息的图片或pdf文件;
4、步骤2、使用ocr识别技术,将步骤1中的图片信息转换为文本信息;
5、步骤3、对所述文本信息进行编辑修改,并采用n-gram模型对所述文本信息进行处理;
6、步骤4、运用tf-idf算法,利用处理好的文本信息构建知识图谱。
7、作为优选,步骤2包括:
8、步骤2.1、图像预处理:针对收集到的图片或者pdf文件进行二值化、图像增强、噪声处理和图像滤波,得到更为清晰的黑白图片;
9、步骤2.2、特征提取及字符识别:提取所述黑白图片中的文字特征,并利用所述文字特征将图像信息还原成文本信息;
10、步骤2.3、后处理:根据特定的语言上下文的关系,对所述文本信息进行校正;
11、步骤2.4、字符翻译:将所述文本信息中的特殊字符、符号或非中文字符转换为标准的中文字符。
12、作为优选,步骤2.2中,所述文字特征包括:文字的位移、笔画的粗细、断笔、粘连和旋转。
13、作为优选,步骤3包括:
14、步骤3.1、对于ocr识别技术识别出的文本信息,若存在格式出错的问题,则手动对所述文本信息进行编辑;
15、步骤3.2、将文本信息里面的内容按照字节进行大小为n的滑动窗口操作,形成长度为n的字节片段序列,通过n-gram模型学习上下文之间不同的字词搭配,对待处理文本进行预处理并统计文本中字词前后搭配;
16、步骤3.3、n-gram模型用于评估语句是否合理,若存在一个由m个词组成的序列或句子,计算该序列出现的概率p(w1,w2,...,wm),根据链式规则,可得p(w1,w2,...,wm)=p(w1)*p(w2|w1)...*p(wm|w1,...,wm-1),其中wm表示由m个词组成的序列中的最后一个词,m表示序列存在m个词或句子。
17、作为优选,步骤3还包括:
18、步骤3.4、利用马尔科夫链假设,缩减步骤3.3中公式的长度,表示为p(w1,w2,...,wm)=p(wi|wi-n+1,...,wi-1);其中,i表示当前词语的下标,n表示n-gram模型中n,即上下文所包含的词数;训练n-gram模型,统计语料库中各词语出现的数量,利用贝叶斯定理,计算条件概率值,表示为:
19、
20、作为优选,步骤4包括:
21、步骤4.1、计算关键词在文本中出现的频率tfij=nij/nj,其中nij表示单词i在文本j中的个数,nj表示文本j的总单词数;
22、步骤4.2、计算词条的逆向文件频率其中|d|表示语料库中的总文档数,|{j:ti∈dj}|表示包含当前词条的文档数量,其中ti表示词条,dj表示文档,j表示某一类型文档的数量;
23、步骤4.3、计算tf-idf=tf*idf,用tf-idf过滤掉常见的词语,保留重要的词语;
24、步骤4.4、将关键词进行知识图谱构建。
25、第二方面,提供了一种面向发电设备多模态数据的文本交互式提取装置,用于执行第一方面任一所述的面向发电设备多模态数据的文本交互式提取方法,包括:
26、收集模块,用于收集包含电力设备相关故障信息的图片或pdf文件;
27、转换模块,用于使用ocr识别技术,将步骤1中的图片信息转换为文本信息;
28、处理模块,用于对所述文本信息进行编辑修改,并采用n-gram模型对所述文本信息进行处理;
29、构建模块,用于运用tf-idf算法,利用处理好的文本信息构建知识图谱。
30、第三方面,提供了一种计算机存储介质,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行第一方面任一所述的面向发电设备多模态数据的文本交互式提取方法。
31、本发明的有益效果是:本发明将设备故障信息从图片文件提取为文本文件,并结合知识图谱相关知识,提供给技术人员进行故障检测分析的方法,使得修理效率大大提升。
1.一种面向发电设备多模态数据的文本交互式提取方法,其特征在于,包括:
2.根据权利要求1所述的面向发电设备多模态数据的文本交互式提取方法,其特征在于,步骤2包括:
3.根据权利要求2所述的面向发电设备多模态数据的文本交互式提取方法,其特征在于,步骤2.2中,所述文字特征包括:文字的位移、笔画的粗细、断笔、粘连和旋转。
4.根据权利要求3所述的面向发电设备多模态数据的文本交互式提取方法,其特征在于,步骤3包括:
5.根据权利要求4所述的面向发电设备多模态数据的文本交互式提取方法,其特征在于,步骤3还包括:
6.根据权利要求5所述的面向发电设备多模态数据的文本交互式提取方法,其特征在于,步骤4包括:
7.一种面向发电设备多模态数据的文本交互式提取装置,其特征在于,用于执行权利要求1至6任一所述的面向发电设备多模态数据的文本交互式提取方法,包括:
8.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行权利要求1至8任一所述的面向发电设备多模态数据的文本交互式提取方法。