基于TF-IDF文本特征的电力语音文本预处理方法与流程

文档序号：37341774发布日期：2024-03-18 18:12阅读：15来源：国知局

本发明涉及文本预处理，尤其涉及基于tf-idf文本特征的电力语音文本预处理方法。
背景技术：
：：1、随着互联网的普及，大量依赖互联网的产业和技术也迎来了云计算和物联网等领域的快速发展时期。因此，互联网上的数据呈指数级增长，这大量的数据主要由文本、音频、视频、图片等组成，其中文本数据占很大比例，与此同时，随着手机的快速普及，微博等多元化社交平台如微信相继涌现。数据的快速增长，一方面为人们访问信息带来了便利，但另一方面，人们需要花费大量的时间成本来从大量的信息中获得他们需要的部分。因此，如何有效地获取和组织信息已成为一个紧迫的问题。2、结合下述文献：3、[1]文献研究所硕士论文，利用文本分类技术在文本挖掘中的知识发现综述。国际计算机应用杂志，2015年，111(6)：12～15；4、[2]慕克吉i，等人。一种改进的短文分类的信息检索方法。《国际信息工程与电子商务杂志》，2017,9(4)：31～37；5、[3]jiang m，等人。基于深度信息网络和softmax回归的文本分类。神经计算与应用程序，2018,29(1)：61 70；6、[4]wang d，等人。基于自动索引[c]//农业计算机与计算技术的自然语言检索方法国际会议。施普林格国际出版社，2016：346～356；7、[5]卡xx。基于bp人工神经网络和遗传算法的信息滤波模型的研究，[c]//国际自然计算会议。ieee，2010：1788～1791；8、[6]wang y，基于组合加权模型的改进文本分类方法的研究。并发性与计算：实践与经验，2019年；9、[7]维迪亚。关于文本文档分类中的朴素贝叶斯机器学习方法的综述。国际计算机科学与信息安全杂志，2010,7(2)；10、[8]zhang 2，等人。使用基于卷积-gru的深度神经网络[c]//eswc 2018：745 760在推特上检测仇恨言论；11、[9]qing-sheng 2，等。自然邻居在文本中的应用“分类”。现代计算机出版社，2017年，(11)：42～46；12、[10]大场a等。用于自然语言文档/基因组聚类分析的数学模型。施普林格，柏林，海德堡，2010：23，42；13、[11]debra等人。在检索的背景下评估自动索引或分类的框架。信息科学与技术协会杂志，2016,67(1)：3～16；14、[12]salton g，杨cs。关于自动索引中的术语值的规范。文献期刊，1973年，29(4)：351～372；15、[13]hayes pj，温斯坦sp。解释/tis：一个基于内容的新闻故事数据库索引系统[c]//第二次人工智能创新应用会议论文集。1990:49～64；16、[14]技术有限公司的电子邮件分类与联合培训[j]。cascon诉讼集，2001：301～312；17、[15]，机器学习，机器学习。麦格劳-希尔出版社，2003年；18、[16]feng g，等人。使用朴素贝叶斯方法对特征子集进行文本分类。模式识别字母，2015,65(nov。1):109115.19、[17]邓打破，等人。一种基于统计分布和集理论的基于文本的分类方法。北京理工学院学报，2006(07)：589～592+597；20、[18]kim sb，等人。朴素贝叶斯文本分类的一些有效技术。ieee《知识与数据工程学报》，2006,18(11)：1457～1466；21、[19][19]b等。knn与基于tf-idf的文本框架分类[c]//爱思唯尔有限公司，2014：1356～1364；22、[20]walingwang，基于卷积神经网络[1]的基于文本的分类算法。佳木斯大学学报(自然科学版)，2018,036(003)：354～357；23、[21]yunchu li，基于文本的分类的基于支持的向量组合器[j]。中国新技术与新产品，2019(01)：23～24；24、[22]liu j，等人。极端多标签文本分类的深度学习[c]/国际信息检索的研发会议。acm，2017：115～124；25、[23]zhong s h，等。图像分类的双线性深度学习[c]//第19届国际多媒体会议论文集，2011：343～352；26、[24]kuniaki等人。利用深度学习的视听语音识别。应用智能公司，2015,42(4)：722～737；27、[25]bengio等人。一种神经概率语言模型。[j].机器泄漏研究杂志，2003,3：1137～1155；28、[26]科洛伯特r，韦斯顿j。自然语言处理的统一架构：多任务学习[c]//机器学习。第25届国际会议的会议记录(icml 2008)，2008：160～167；29、[27]mikolov t，等人。向量空间中word表示的有效估计[c]//国际学习表示会议论文集，2013：1～12；30、[28]薛春香，张玉芳基于文本的功率数据域分类研究[j]。图书馆与情报工作，2013,057(014)：134～139；31、[29]wu jun，等人。中文语料库的自动分类。《中国信息学报》，1995年，9(4)：25～32；32、[30]zou tao，等人。一种中文文献自分类系统的设计与实现。《中国信息学报》，1999年，第13(3)页：27，33页；33、[31]李晓莉，等人。概念推网及其在基于文本的分类中的应用。计算机研究与开发，2000(09)：9 15；34、[32]fanyan等。文本协调分类器的性能研究。计算机研究与开发，2000年，37(9)：1026 1031；35、[33]yan cong，zhou zq，屠y，等。基于区块链[]的电力数据保存应用程序的研究。浙江电力公司，2019年，38(7)：63-69；36、[34]高俊洪，徐晓强，李玲，等。一个用于评估电力市场交易操作的大数据的多算法模型[j]电子测量技术，2020,43(23)：172177；37、.[35]sun qian,majianwei,liqiang，等，智能城市电力数据挖掘的多场景应用.《电力系统与自动化学报》,2018年，第30(8)页：119125页；38、[36]min cui，基于文本识别技术的电子设备监控数据处理公司，[d].保定：华北电力大学，2019年；39、[37]黄亮，王嘉丽，赵利津，等。一种面向文本非结构化数据的传输和变电站系统的故障诊断方法[j]《电力科学与技术杂志》，2017,32(3)：153161；40、[38]杨丹，朱狮岭，边正宇。改进的基于k均值的算法在文本挖掘中的应用。计算机技术与发展，2019年，29(4)：68-71；41、[39]，王文娟，李宏建。基于文本挖掘的电力运行和维护服务程序的智能辅助管理。计算机应用与软件版，2021年，38(3)：1-6；42、[40]shao关羽，王慧芳、吴向红等。一种基于依赖句法分析的电力设备缺陷文本信息的准确识别方法。43、因此，本技术人提出了基于tf-idf文本特征的电力语音文本预处理方法。技术实现思路1、鉴于现有技术中存在的上述问题，本发明的主要目的在于提供基于tf-idf文本特征的电力语音文本预处理方法。2、本发明的技术方案是这样的：基于tf-idf文本特征的电力语音文本预处理方法，包括以下步骤：3、s1、通过零域和频域的卷积实现对文本的特征提取，零域类型的卷积为图像的像素点上的直接卷积，频域的卷积为图像的傅里叶变换，然后进行卷积；4、s2、通过对所提出的标记lda模型采用传统的tf-idf进行实验，并对lda主题模型进行文本特征提取性能比较，验证上一节提出的算法的有效性，通过实现得到试验结果并进行分析；5、s3、将多次的实验所得出的结论进行汇总，并对得出的结论进行验证，采取某一个或者多个的平均值进行使用。6、作为一种优选的实施方式，所述步骤s1可细化为以下步骤：7、s11、首先通过信号采样定理将输入信号分解成脉冲函数，然后得到系统中各脉冲函数的脉冲响应，在这些脉冲响应的总和得到输入信号，然后得到系统的零状态的响应；8、s12、通过迭代实现卷积的步骤，直到达到期望的层数，得到了图卷积神经网络的局部输出的函数和目标输出的函数；9、s13、基于挖掘出的数据来捕获互联网上的文本数据，数据功率语音文本预处理后，将杂乱的非结构化文本转换为结构化数据，结合监督学习和无监督学习方法进行文本特征值相似度计算和提取，确定所示的最优文本特征提取；10、s14、以电力操作的原始文本作为输入，然后进行数据预处理操作等基于tf-idf算法，进一步实现了文本数据特征的提取，通过深度分类模型实现了功率操作文本的分类和识别。11、作为一种优选的实施方式，所述步骤s11中零域卷积的函数为：12、f1(t)*g1(t)＝f1(e)*g1(t-e)de＝13、f(iw)＝f1(t)e-iwtdt。14、作为一种优选的实施方式，所述步骤s14中基于tf-idf算法实现文本特征提取方法包括以下步骤：15、s141、增强语音文本预处理；假设具有相同m训练文档的三个集合为d，＝d，d2，d.)，d、＝(d、d2、d)、d、＝(d、dd)、d、＝(d、d、d)、d、d、d，权力语音文本预处理工作，d、d、d，分割、重复数据分割为单句等，强大的语音文本预处理工作；16、s142、将tf-idf算法输入到lageled-lda模型算法模型中，得到主题标签的特征矩阵，然后构造幂语音文本中的图向量；17、s143、根据所描述的电力识别方法构造图网络结构，输入图卷积型神经网络模型，经过迭代训练后得到文本特征矩阵，并处理图识别和分类；18、s144、将主题标签特征矩阵v和文本特征矩阵v进行拼接，得到多源融合特征系数，然后进行局部输出和目标输出，将多源融合特征输入到软最大分类器中，得到分类结果，最终得到电力语音文本识别结果。19、作为一种优选的实施方式，所述tf-idf对于在特定文本数据中出现频率较高的单词，该单词在总功率语音文本样本中的其他文本数据中出现的频率较低，由此可以认为该词对幂次语音文本样本具有较强的区分能力，可以作为文本数据的分类标签，因此，tf-idf算法使用词频和逆文档频率的乘积作为权值，其具体计算方法如下：20、a、词频(tf)的计算：21、统计特定词语在文档中出现的次数，计算词频的公式为：tf＝特定词语在文档中出现的次数/文档中的总词语数；22、b、逆文档频率(idf)的计算：23、统计语料库中特定词语出现的文档数，计算逆文档频率的公式为：idf＝log(语料库中的文档总数/(包含词语的文档数+1))；24、c、tf-idf权值的计算：25、将词频(tf)和逆文档频率(idf)相乘，得到特定词语的tf-idf权值；26、d、通过对所提出的标记-lda模型的实验采用传统的tf-idf，lda主题模型进行文本特征提取性能比较，验证上一节提出的算法的有效性，实验过程以确保周期的有效性。27、作为一种优选的实施方式，所述步骤s2可细化为以下步骤：28、s21、第一试验；29、s211、提取关键词，提取lda电源设置主题数据匹配，其中数据类别为6个设置的数量主题k为6，吉布斯样本的迭代次数为600次，对于lda主题模型－词识别结果示例，其中，topic_2、topic_3、topic_4、topic_5、topic_6是lda识别的主题型号；30、s212、通过对tf-idf权重的前100个关键词和前100个功率集主题数据相似度的lda权重的模拟哈希分析；31、s213、基于lageled-lda模型的文本特征提取精度高于传统的lda主题模型和tf-idf特征提取，通过传统的融合算法lda主题模型和tf-idf，tf-idf作为lda类别的附加标签，可以有效地确定特征主题，所以上一节提出的文本特征提取方法更有效和stable.1.82％和3.92％，传统lda主题提取权力设置主题数据主要依赖于全概率无监督模型；32、s22、第二试验；33、s221、基于文本的分类中的卷积神经网络，并通过改变训练集组的比例、窗口大小和单词来检验基于文本的图卷积神经网络分类模型的准确性嵌入维数、召回比例和f1值证明了其可靠性的算法，应用图卷积神经网络模型实验中挖掘的基于文本的分类数据，模型text-gcn中的卷积层设置为2，学习率设置为0.03，辍学率设置为0.5，损失函数规范参数为0；34、s222、在text-gcn实验中，单词的维度嵌入到输入层通过改变训练集的比例，窗口大小，和单词嵌入模型是模型中最重要的超参数之一，如果维度不是正确的选择，它会产生过拟合现象，本实验以50为基数，以50为单位，每次50进行；35、s223、当训练集成组的比例为75％时，基于文本的分类准确率最高，进一步说明了基于文本的图卷积神经网络分类模型在有限的类别标记文档条件下实现了较高的分类精度，而基于文本的图向量可以更好地捕获文本类别信息；36、s23、第三试验；37、s231、根据第一试验和第二试验得到的最优实验结果对应的参数进行参数选择，将textgcn文本分类模型与同一数据集中的其他分类模型相结合进行分类实验；38、s232、标记lda和textgcn相结合的文本分类模型的准确率为76.4％，高于textgcn分类模型和标记lda与softmax分类模型；39、s233、构建具有文本特征的图结构可以准确捕捉词、词、文档之间的关系进行文本分类；40、s234、字节点作为桥梁，不仅可以收集文本的类别信息，还可以将文本类别信息传递到词节点的相邻节点，使文本信息传播到整个图网络结构；41、s235、主题类别标签和文字、文字、文档信息的文本特征与文字特征与文字、文字、文档的信息拼接在一起，并将多源特征融合矩阵的文本特征拼接的文档信息与tf-idf文本特征矩阵的主题类别标签进行了补充。42、作为一种优选的实施方式，传统的lda与softmax相结合，对基于文本的分类模型的准确率最低为66.1％，而基于文本的word-2vec分类模型结合tf-idf在6个模型中准确率为81.5％，通过对功率数据的文本数据集的实验，实验结果表明了基于图的主题模型文本分类的准确性程度卷积神经网络为76.4％，召回率为75.2％，f1值为75.8％，比图卷积神经网络的基于文本的准确度高3％的分类方法，比召回率高3.4％，比f1值高3.2％，labeled-lda模型文本特征提取方法基于文本的分类准确率提高了3.5％，召回率提高了1％,f1值增加了2.3％。43、作为一种优选的实施方式，所述步骤s2中试验核心算法为：44、从sklearn.feature_extraction.text导入45、sklearn.feature_extraction.text46、#定义文本数据47、文档＝48、“这是第一份文件。”；49、“这是第二份文件。”；50、“这是第三份文件。”；51、这是第三份文件。第三个文件包含了一些重复的单词。',52、“第四份文件和第三份非常相似。”53、#初始化tfidf矢量化器54、矢量器＝tfidf矢量器()55、#将文本数据转换为tfidf特征向量56、tfidf_matrix＝vectorizer.fit_transform(文档)57、#输出每个单词的idf值58、打印(“每个单词的idf值：”)59、打印(vectorizer.idf_)60、#输出tfidf特征向量的形状61、打印(“tfidf特征向量的形状：”)62、打印(tfidf_matrix.shape)63、#输出tfidf特征向量64、打印(‘tfidf特征向量：’)65、打印(tfidf_matrix.to阵列())。66、作为一种优选的实施方式，所述步骤s3可细化为：67、s31、将多次的试验所得出的结论进行汇总，并对得出的结论进行验证，采取某一个或者多个的平均值进行使用；68、s32、将多次的试验所得出的结论进行汇总，并对得出的结论进行验证，采取某一个或者多个的平均值进行使用；69、s33、为了验证已汇总的结论的准确性和可靠性，可以选择一部分实验数据进行验证实验，通过重复这些试验并比较结果，可以验证之前得出的结论是否可靠；70、s34、如果试验结果没有明显的偏离或异常情况，可以计算平均值或加权平均值作为最终的结论，可以根据每次试验的重要性或可靠性，给予不同的权重，然后计算加权平均值；71、s35、基于汇总的结论和验证实验的结果，可以将得出的结论应用于实际问题或进一步的研究，确保使用时考虑试验的限制和假设，并在需要时进行修正或优化。72、与现有技术相比，本发明的优点和积极效果在于，73、本发明中，通过对电力数据文本数据集的实验，验证了电力语音文本数据的识别和分类结果，实验结果表明，当训练集组的比例为75％时，基于文本的分类准确率最高，进一步说明了基于文本的图卷积神经网络分类模型在有限的类别标记文档条件下实现了高精度的分类，并且基于文本的图向量可以更好地捕获文本类别信息，tf-graph基于文本的主题模型的分类的准确率为76.4％，召回率为75.2％，f1值为75.8％，高3％基于文本的分类方法，比召回率高3.4％的召回率，高3.2％基于lageled-lda模型的文本特征提取方法，高于基于ladeled-lda模型的文本特征提取方法类型分类，准确率提高3.5％，召回率提高1％，f1值提高2.3％，此外，本文采用的方法可以对电力设备中产生的复杂文本数据信息进行识别和分类，可以看出数据的总体趋势与数据的峰谷值吻合较好，较传统装置极大地提高了作业质量与使用效率。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵鑫,黄昌达,张梅,武江波,易多典
技术所有人：国网新疆电力有限公司营销服务中心
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。