一种基于知识图谱的输电工作票智能检索方法及系统与流程

文档序号:37343422发布日期:2024-03-18 18:15阅读:21来源:国知局
一种基于知识图谱的输电工作票智能检索方法及系统与流程

本发明涉及大数据,尤其涉及一种基于知识图谱的输电工作票智能检索方法及系统。


背景技术:

1、随着电力工业的发展,输电的电压等级越来越高,各级电网的接线也越来越复杂。传统的手工开票不仅开票速度慢,并且容易出现错误,已经不能够满足现代工作的需求。与计算机技术相结合的工作票系统和传统的手工开票相比,具有开票时间短,开票规范,保证安全等优点,是电力工业中实现自动化信息化的重要途径。

2、如何处理输电工作票,并实现快速检索是目前面临的问题。


技术实现思路

1、为了克服现有技术的上述缺陷,本发明的实施例提供一种基于知识图谱的输电工作票智能检索方法,通过构建一个涵盖输电工作票相关信息的知识图谱,提高检索的准确性和效率,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案,一种基于知识图谱的输电工作票智能检索方法,具体包括以下步骤:

3、101、通过构建一个涵盖输电工作票相关信息的知识图谱,建立实体及其属性关系;

4、102、对输电工作票文本进行实体识别和抽取,与知识图谱中的实体相对应;

5、103、将用户输入的查询语句进行解析,识别关键词、实体及其属性;

6、104、利用知识图谱中实体之间的关系和属性信息,找到与查询条件匹配的输电工作票相关知识点;

7、105、根据查询的结果,生成符合要求的输电工作票列表,按照排序策略对结果进行排序;

8、106、将排序后的查询结果按照列表格式呈现工作票的基本信息,展示给用户。

9、在一个优选地实施方式中,步骤101中,利用编程技术从数据源中获取输电工作票相关信息,将输电工作票数据转换为rdf模型,分析输电工作票数据,遍历输电工作票数据建立实体、关系和属性三元组,构建一个涵盖输电工作票相关信息的知识图谱,具体包括以下内容:

10、s1、将输电工作票数据转换为rdf模型,分析输电工作票数据,确定需要转换的实体,包括设备、工作任务、人员、工作票、审核人员、变电站,以及输电线路实体,对应相关属性,包括工作票编号、工作内容、执行人员姓名,为每个实体和属性赋予唯一的uri标识符;

11、s2、通过遍历输电工作票数据,建立三元组,将每个实体和属性转换为rdf模型中的主语、谓词和宾语组成的三元组,主语是对应实体的uri,谓词是对应属性的uri,宾语是关联实体的uri;

12、s3、根据实体、关系和属性的信息构建电力知识图谱,以节点和边的形式组织起来,形成一个有向图结构,通过在知识图谱中的实体和关系建立索引,快速根据条件检索到相关的节点和边,具体步骤如下:

13、步骤1、实体索引:选择多个属性作为索引键,通过将这些属性的值与实体节点进行映射,快速定位相关的实体节点;

14、步骤2、关系索引:选择多个属性作为索引键,通过将这些属性的值与关系边进行映射,快速定位相关的关系边。

15、在一个优选地实施方式中,步骤102中,对输电工作票文本进行实体识别和抽取,识别出文本中的实体,包括设备名称、工作任务、工作人员,并将其与知识图谱中的实体相对应,具体包括以下内容:

16、s1、实体识别:将输入的文本以及对应的分词标签,标注好的中文分词数据集作为训练数据,从训练数据中提取特征,包括字向量、词性、上下文信息用于训练模型,进行实体识别,具体包括以下步骤:

17、步骤1、数据准备:将输入的文本以及对应的分词标签,标签表示每个词语的边界位置,b表示词语起始位置,i表示词语中间位置,o表示词语外,得到一份标注好的中文分词数据集作为训练数据;

18、步骤2、特征提取:从训练数据中提取特征,包括字向量、词性、上下文信息用于训练模型,使用词嵌入技术将词转化为向量表示,随机取出两个词向量x和y,x的词向量表示为(x1,x2,....xn),y的词向量表示为(y1,y2,...,yn),对于词向量x和y,通过计算两个向量之间的直线距离,表示词向量之间的相似度,具体计算公式如下:

19、

20、

21、其中,p表示点(x1,x2,....xn)与点(y1,y2,...,yn)之间的欧氏距离;|x|为点(x1,x2,....xn)到原点的欧氏距离,欧氏距离的计算结果越接近于0,表示两个向量越相似;

22、s2、实体关系抽取:选择感知机机器学习算法,构建模型并进行训练,训练过程中,将输入的特征作为模型的输入,输出预测的边界标签,预测实体间的关系,具体包括以下步骤:

23、步骤1、感知机接收输入向量x,并将其与权重向量w进行线性加权求和,通过激活函数进行判断输出结果,线性加权求和公式具体如下:

24、s=w1×x1+w2×x2+...+wn×xn

25、其中,s表示求和的结果,w1,w2,...,wn表示权重,x1,x2,...,xn表示对应的数值。

26、阶跃函数是一种常用的激活函数,将输入值映射到两个离散的输出值之一,阶跃函数定义如下:

27、

28、阶跃函数在输入达到一个临界点时产生突变,从0突变为1、从1突变为0。

29、步骤2、初始化权重向量w和偏置b,对于每个样本(x,y),计算预测输出值,具体公式如下:

30、y_hat=sign(w·x+b)

31、w=w+η×y×x

32、b=b+η×y

33、其中,x表示输入特征向量,y表示标签(1或-1),η表示学习率;预测正确y_hat=y,继续下一个样本,预测错误y_hat≠y,更新权重向量和偏置,继续对当前样本进行迭代更新直到预测正确;

34、s3、从文本中抽取得到的实体和关系进行结构化表示,存储在关系数据库中,关系数据库是一种以关系模型为基础的数据库管理系统,使用表格组织和存储数据,其中每个表格包含行和列。

35、在一个优选地实施方式中,步骤103中,将用户输入的查询语句进行解析,识别关键词、实体及其属性,采用反向传播算法更新模型参数,准确预测查询的意图,具体包括以下内容:

36、s1、数据预处理:对文本进行预处理,去除多余的空格、标点符号、特殊字符,得到文本数据集;

37、s2、语法分析:将查询语句分割成一个个的词语,为每个词语标注其所属的词性,包括动词、名词、形容词,采用反向传播算法更新模型参数,准确预测查询的意图,具体包括以下步骤:

38、步骤1、前向传播:将文本数据输入到cnn模型中,逐层计算并保存每一层的输出结果,并计算出最终的预测结果,具体计算公式如下:

39、

40、其中,表示最终的预测结果,argmax函数表示使得f(x)取得最大值的x的取值,f(x)表示cnn模型的输出;

41、步骤2、计算损失函数:将预测结果与真实标签进行比较,计算损失函数的值,具体计算公式如下:

42、

43、其中,mse表示均方误差,∑表示对所有样本进行求和,(yi-hθ(xi))2表示真实值与预测值之间的差的平方;

44、步骤3、反向传播:从最后一层开始,使用链式法则将梯度从输出层向前传递到每一层,并根据参数的权重和激活函数的导数,计算每一层的梯度,设置从输入层到输出层由l个层组成,第l层的输入为a[l-1],输出为a[l],输出层的输出a[l]的函数为loss=f(a[l]),具体计算公式如下:

45、

46、其中,是第l层的激活函数对输入的导数,是第l+1层梯度传递过来的梯度;

47、步骤4、参数更新:根据计算得到的梯度,更新模型的参数,通过乘以一个学习率来控制参数更新的幅度,避免快速更新;

48、步骤5、重复训练:重复执行步骤1到4,使用不同的训练样本进行多次迭代,直到达到设定的训练轮数。

49、在一个优选地实施方式中,步骤104中,根据解析得到的查询条件,在知识图谱中进行查询,利用知识图谱中实体之间的关系和属性信息,找到与查询条件匹配的输电工作票相关知识点,具体包括以下内容:

50、s1、实体关系扩展:根据输电工作票的相关性,对找到的实体进行关系扩展,查找与输电工作票相关的实体,逐步扩展与输电工作票相关的实体之间的关系,提取更丰富的关联知识点,具体包括以下步骤:

51、步骤1、分析实体之间的关系类型:通过对知识图谱中实体之间关系的统计,分析已找到的实体与输电工作票之间的关系类型,具体包括:

52、申请者/填写者:输电工作票的申请者/填写者,负责提出申请、填写工作票的相关信息;

53、审批者/审核者:输电工作票的审批者/审核者,对输电工作票的内容进行审批、审核,并决定是否批准该工作票;

54、执行者/操作者:实际执行输电工作的人员,根据工作票中的指示进行工作,并确保按照规定程序完成任务;

55、步骤2、搜索和发现新的关联实体:基于已知的关系类型,搜索与找到的实体有关联的其他实体;

56、步骤3、扩展关系路径:根据搜索到的新实体,将其与已知的实体进行关联,形成新的关系路径;

57、步骤4、筛选和验证关系:根据领域知识对扩展后的关系进行筛选和验证,排除无关的关系,确保扩展后的关系具有合理性和准确性;

58、s2、属性过滤:根据查询条件中的属性限制,筛选符合条件的实体和关系,向知识图谱发送查询请求,获取包含相关实体和其属性的数据,从查询结果中提取出与属性条件对应的属性值,通过trie树算法,对提取的属性值进行匹配,判断是否符合属性条件,根据属性匹配的结果,筛选出符合条件的实体,保留匹配成功的实体,去除不符合属性条件的实体,具体包括以下步骤:

59、步骤1、将每个字符串拆分为一个个字符,按照顺序构建成树的节点,从根节点开始,每个节点表示一个字符,从根节点到叶子节点的路径为一个完整的字符串。

60、步骤2、节点结构:每个节点包含一个字符、指向子节点的指针数组以及一个标记表示该节点为一个字符串的结束;

61、步骤3、插入操作:从根节点开始,按照字符串的字符顺序逐级插入节点,直至字符串的最后一个字符,字符对应的子节点已存在,继续向下插入,不存在创建新的节点;

62、步骤4、查找操作:从根节点开始,按照目标字符串的字符顺序逐级匹配节点,所有字符成功匹配,并且最后一个字符所在的节点标记字符串的结束,表示查询成功;

63、步骤5、前缀匹配:查找具有指定前缀的所有字符串,从根节点开始匹配前缀,直到前缀字符串的最后一个字符。

64、在一个优选地实施方式中,步骤105中,根据查询的结果,生成符合要求的输电工作票列表,按照要求对查询结果进行过滤,筛选符合条件的工作票数据,对结果进行排序,具体包括以下内容:

65、s1、获取查询结果:从数据库中获取查询到的输电工作票数据,确保数据包含所需的字段,包括工作票号、工作内容、负责人数据信息;

66、s2、过滤数据:根据要求对查询结果进行过滤,只选择符合条件的工作票数据,根据日期范围、工作内容关键词、负责人条件进行筛选,具体包括:

67、日期范围:将工作票的日期与指定的起始日期和结束日期进行比较,只选择在该范围内的工作票数据;

68、工作内容关键词:搜索工作内容中包含特定关键词的工作票数据进行筛选;

69、负责人:根据负责人的姓名,选择特定负责人的工作票数据;

70、s3、排序数据:对过滤后的工作票数据进行排序,按工作票号、日期字段进行升序排列。

71、在一个优选地实施方式中,步骤106中,通过api接口发送请求,获取排序后的查询结果,解析api返回的响应数据,提取需要展示的信息,将排序后的查询结果按照列表格式呈现工作票的基本信息,展示给用户,具体包括以下内容:

72、s1、发送api请求并获取结果:发送api请求,根据api的文档和要求构建请求参数,确保将请求发送到正确的url,并指定正确的http方法;

73、s2、解析api返回的响应数据:根据api返回的数据格式进行解析,将响应数据转换为列表;

74、s3、展示查询结果给用户:将排序后的查询结果按照列表格式呈现工作票的基本信息,展示给用户,具体包括以下步骤:

75、步骤1、确定列表的表头:确定列表中每一列的标题,在最终的列表中显示;

76、步骤2、构建列表的数据行:遍历排序后的查询结果,逐行获取每个工作票的相关信息,将数据按照表头的顺序组织成一行;

77、步骤3、输出列表:将构建好的数据行依次输出,使用表格形式在控制台展示工作票列表。

78、一种基于知识图谱的输电工作票智能检索系统,包括:

79、知识图谱构建模块,用于通过构建一个涵盖输电工作票相关信息的知识图谱,建立实体及其属性关系;

80、实体识别和抽取模块,用于对输电工作票文本进行实体识别和抽取,与知识图谱中的实体相对应;

81、查询解析模块,用于将用户输入的查询语句进行解析,识别关键词、实体及其属性;

82、知识图谱查询模块,用于利用知识图谱中实体之间的关系和属性信息,找到与查询条件匹配的输电工作票相关知识点;

83、结果生成与排序模块,用于根据查询的结果,生成符合要求的输电工作票列表,按照排序策略对结果进行排序;

84、可视化展示模块,用于将排序后的查询结果按照列表格式呈现工作票的基本信息,展示给用户。

85、本发明在工作中,通过从数据源中获取输电工作票相关信息,遍历输电工作票数据建立实体、关系和属性三元组,构建一个涵盖输电工作票相关信息的知识图谱,对输电工作票文本进行实体识别和抽取,并将其与知识图谱中的实体相对应,将用户输入的查询语句进行解析,采用反向传播算法更新模型参数,准确预测查询的意图,利用知识图谱中实体之间的关系和属性信息,找到与查询条件匹配的输电工作票相关知识点,根据查询的结果,生成符合要求的输电工作票列表,将排序后的查询结果按照列表格式呈现工作票的基本信息,展示给用户,实现对大量输电工作票数据的快速检索,提高检索效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1