一种基于知识图谱的文本纠错方法与流程

文档序号:30900195发布日期:2022-07-26 23:20阅读:378来源:国知局
一种基于知识图谱的文本纠错方法与流程

1.本发明涉及语音识别的技术领域,尤其涉及一种基于知识图谱的文本纠错方法。


背景技术:

2.目前电网调度系统验证下/回令过程中调度人员通话内容是否正确主要是通过经验判断以及和操作票对比等方式,现有的方式对人员的要求较高,不熟悉电网业务的人很难上手,且凭调度人员经验判断容易出错且效率不高。


技术实现要素:

3.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
4.鉴于上述现有存在的问题,提出了本发明。
5.因此,本发明提供了一种基于知识图谱的文本纠错方法,能够解决现有技术难以正确判断调度人员通话内容的问题。
6.为解决上述技术问题,本发明提供如下技术方案:包括根据变电站信息以及设备开关信息构建知识图谱;采集值班调度员的通话信息,通过asr自动语音识别技术将所述通话信息转换为调度文本;通过正则化提取调度文本中的调度指令,而后通过所述知识图谱提取调度指令中包含的变电站信息和设备开关信息;通过所述通话信息查询机构信息,并根据机构信息查询该机构的变电站信息和设备开关信息;将所述调度指令中包含的变电站信息、设备开关信息与所述机构的变电站信息、设备开关信息进行比对,若内容一致,则通话信息正确;否则将调度指令中包含的变电站信息、设备开关信息的关键词转化为拼音,并将机构的变电站信息、设备开关信息的关键词转换为拼音,而后通过相似度匹配算法寻找匹配度最高的信息,即为正确的通话信息,完成文本纠错。
7.作为本发明所述的基于知识图谱的文本纠错方法的一种优选方案,其中:所述知识图谱包括,抽取和整合数据库中的组织机构、人员、电话号码信息,获得所述通话信息;对操作票指令数据进行语义分析,获得所述变电站信息以及设备开关信息;对所述变电站信息以及设备开关信息进行词义消歧、同义词转换处理,而后将处理完的信息存入所述知识图谱。
8.作为本发明所述的基于知识图谱的文本纠错方法的一种优选方案,其中:所述词义消歧处理包括,将变电站信息和设备开关信息中待消歧的实体进行标记,而后利用包含待消歧实体e的上下文词条构建e的文本语义特征v;通过计算相似度衡量e的文本语义特征v的距离,根据所述距离确定目标实体,完成词义消歧处理。
9.作为本发明所述的基于知识图谱的文本纠错方法的一种优选方案,其中:所述确定目标实体包括,定义变电站信息和设备开关信息中待消歧的候选实体集合e为:
10.e={e1,e2,

,ei,

,en}
11.通过下式计算所述相似度:
12.sim(e,ei)=cos(e,ei)
13.相似度最大的即为所述目标实体;其中,e1,e2,

,ei,

,en为待消歧的候选实体,n为数量。
14.作为本发明所述的基于知识图谱的文本纠错方法的一种优选方案,其中:所述同义词转换处理包括,计算名词的相似度;根据所述相似度进行升序排列,获得同义词候选列表;设定相似度阈值,若两个名词的相似度差值符合所述相似度阈值,则进行替换。
15.作为本发明所述的基于知识图谱的文本纠错方法的一种优选方案,其中:所述计算名词的相似度包括,
[0016][0017]
其中,x和y为任意两个名词,x为查询词,y为替换词,xi为第i个查询词,yi为第i个替换词,n为名词的数量。
[0018]
作为本发明所述的基于知识图谱的文本纠错方法的一种优选方案,其中:所述正则化包括,采用lasso回归进行提取:
[0019][0020]
其中,w为调度文本的权值向量,α||w||1为l1正则化项,n为样本数量。
[0021]
作为本发明所述的基于知识图谱的文本纠错方法的一种优选方案,其中:所述相似度匹配算法包括,
[0022][0023]
其中,d为单字的相似度匹配值,p为音码的相似度,s为形码的相似度。
[0024]
本发明的有益效果:本发明结合了语音识别、知识图谱、自然语言处理等技术,实现了调度用语纠错,进而协助了规范调度用语。
附图说明
[0025]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0026]
图1为本发明第一个实施例所述的基于知识图谱的文本纠错方法的知识图谱可视化示意图;
具体实施方式
[0027]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对
本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0028]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0029]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0030]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0031]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0032]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0033]
实施例1
[0034]
参照图1,为本发明的第一个实施例,该实施例提供了一种基于知识图谱的文本纠错方法,包括:
[0035]
s1:根据变电站信息以及设备开关信息构建知识图谱。
[0036]
(1)抽取和整合dccs数据库中的组织机构、人员、电话号码信息,获得通话信息;
[0037]
(2)对操作票指令数据进行语义分析,获得变电站信息以及设备开关信息;
[0038]
(3)对变电站信息以及设备开关信息进行词义消歧、同义词转换处理,而后将处理完的信息存入知识图谱,如图1所示。
[0039]
具体的,词义消歧处理的步骤如下:
[0040]

将变电站信息和设备开关信息中待消歧的实体进行标记,而后利用包含待消歧实体e的上下文词条构建e的文本语义特征v;
[0041]

通过计算相似度衡量e的文本语义特征v的距离,根据距离确定目标实体,完成词义消歧处理。
[0042]
定义变电站信息和设备开关信息中待消歧的候选实体集合e为:
[0043]
e={e1,e2,

,ei,

,en}
[0044]
通过下式计算相似度:
[0045]
sim(e,ei)=cos(e,ei)
[0046]
相似度最大的即为目标实体;
[0047]
其中,e1,e2,

,ei,

,en为待消歧的候选实体,n为数量。
[0048]
具体的,同义词转换处理的步骤如下:
[0049]

计算名词的相似度;
[0050][0051]
其中,x和y为任意两个名词,x为查询词,y为替换词,xi为第i个查询词,yi为第i个替换词,n为名词的数量。
[0052]

根据相似度进行升序排列,获得同义词候选列表;
[0053]

设定相似度阈值,若两个名词的相似度差值符合相似度阈值,则进行替换。
[0054]
本实施例将相似度阈值设为0.1。
[0055]
s2:采集值班调度员的通话信息,通过asr自动语音识别技术将通话信息转换为调度文本。
[0056]
自动语音识别(automatic speech recognition简称“asr“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。
[0057]
s3:通过正则化提取调度文本中的调度指令,而后通过知识图谱提取调度指令中包含的变电站信息和设备开关信息。
[0058]
采用lasso回归进行提取:
[0059][0060]
其中,w为调度文本的权值向量,α||w||1为l1正则化项,n为样本数量;l1正则化是指权值向量w中各个元素的绝对值之和。
[0061]
s4:通过通话信息查询机构信息,并根据机构信息查询该机构的变电站信息和设备开关信息。
[0062]
s5:将调度指令中包含的变电站信息、设备开关信息与机构的变电站信息、设备开关信息进行比对。
[0063]
(1)若内容一致,则通话信息正确;
[0064]
(2)否则将调度指令中包含的变电站信息、设备开关信息的关键词转化为拼音,并将机构的变电站信息、设备开关信息的关键词转换为拼音,而后通过相似度匹配算法寻找匹配度最高的信息,即为正确的通话信息,完成文本纠错。
[0065]
其中,相似度匹配算法如下:
[0066][0067]
其中,d为单字的相似度匹配度,p为音码的相似度,s为形码的相似度。
[0068]
实施例2
[0069]
对本方法中采用的技术效果加以验证说明,本实施例选择传统的技术方案和采用
本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
[0070]
传统的技术方案主要是通过经验判断以及和操作票对比等方式进行文本纠错,出错率较高,且效率低。
[0071]
为验证本方法相对传统的技术方案具有较高文本纠错能力,本实施例中将采用传统的技术方案和本方法分别对采集的文本进行纠错对比。
[0072]
测试环境:采用500张操作票作为测试样本,分别利用传统的技术方案的人工操作进行纠错并统计测试结果数据;采用本方法,则通过python平台实现本方法的纠错测试,结果如下表所示。
[0073]
表1:纠错结果。
[0074][0075]
由上表可见,本方法的文本纠错效果要远远优于传统的技术方案。
[0076]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1