一种基于潜在语义分析的申请单智能解析方法

文档序号:9631535阅读:299来源:国知局
一种基于潜在语义分析的申请单智能解析方法
【技术领域】
[0001] 本发明涉及一种申请单输入方法,特别是一种基于潜在语义分析的申请单智能解 析方法。
【背景技术】
[0002] 当前配电网中的申请单在进行输入时,基本都是采用手工输入的方式,输入时 随意性较大,而在一些智能应用中,必须对申请单进行智能解析,让计算机准确的理解申 请单中的操作目的和内容。目前,配电网中申请单文字的智能解析大多采用向量空间模 型的精确词匹配方法,即精确匹配用户输入的词与向量空间中存在的词。由于一词多义 (polysemy)和一义多词(synonymy)的存在,使得该模型无法提供给用户语义层面的检索。

【发明内容】

[0003] 本发明的目的在于克服现有技术的不足之处,而提供一种改变传统的精确匹配模 式,能提高解析的成功率,为更高层的应用打下技术基础的一种基于潜在语义分析的申请 单智能解析方法。
[0004] -种基于潜在语义分析的申请单智能解析方法,(1)建立申请单内容的基础模型: 从历史数据中采集申请单的样本,通过对样本进行人工分析,生成申请单内容的词语特征 集合和语义模型集合;(2)、创建矩阵,奇异值分解:在计算机中自动生成词语特征集合和 语义模型集合的关系矩阵,其中每一行表示词语在语句模型中出现的次数,每一列表示语 句模型中有哪些词语:然后对该矩阵进行奇异值分解,左矩阵X中的每一行表示词语的特 性,右矩阵Y中的每一列表不语句模型的特性,中间的奇异值矩阵表不左奇异向量的一行 与右奇异向量的一列的重要程度,数值越大越重要,X中的行与Y中的列表示词语与语句模 型的潜在相关性,数值越接近表示越相关;(3)对给定的申请单内容先用分词算法进行分 词并提取词语特征,用词语特征到矩阵模型中根据相关性获取最优的语句模型,然后用语 句模型对申请单内容进行精确的语义识别。
[0005] 综上所述的,本发明相比现有技术如下优点: 目前针对配电网申请单的语义解析基本都采用精确词句的匹配方式进行解析,解析的 成功率较低,而本发明采用潜在语义分析方法后,一方面滤除了申请单中不相关的词,降低 了分析空间的大小,在滤除的过程中与电力系统本身没有关系,纯粹是对自然语言的分析。 在被缩小的分析空间的基础上进行配电网专业词库的最大化模糊匹配,从而形成了申请单 的智能解析。它摆脱了传统的精确匹配的模式,提高解析的成功率,为更高层的应用打下了 技术基础
【附图说明】 图1是本发明的语义模型集合图。
【具体实施方式】
[0006] 下面结合实施例对本发明进行更详细的描述。
[0007] 实施例1
[0008] -种基于潜在语义分析的申请单智能解析方法,(1)建立申请单内容的基础模型: 从历史数据中采集申请单的样本,通过对样本进行人工分析,生成申请单内容的词语特征 集合和语义模型集合;(2)、创建矩阵,奇异值分解:在计算机中自动生成词语特征集合和 语义模型集合的关系矩阵,其中每一行表示词语在语句模型中出现的次数,每一列表示语 句模型中有哪些词语:然后对该矩阵进行奇异值分解,左矩阵X中的每一行表示词语的特 性,右矩阵Y中的每一列表不语句模型的特性,中间的奇异值矩阵表不左奇异向量的一行 与右奇异向量的一列的重要程度,数值越大越重要,X中的行与Y中的列表示词语与语句模 型的潜在相关性,数值越接近表示越相关;(3)对给定的申请单内容先用分词算法进行分 词并提取词语特征,用词语特征到矩阵模型中根据相关性获取最优的语句模型,然后用语 句模型对申请单内容进行精确的语义识别。
[0009] 应用步骤如下:
[0010] 鲁从GPMS的历史数据中获取申请单的历史数据,形成申请单中的安全措施的描 述样本
[0011]鲁人工对申请单的安全措施样本进行分析,进行人工的断句分析,将其中的词进 行特征抽象,形成词语特征集合,将词语集合与实际的语句进行匹配,形成相应的语句模型
[0012] 鲁在计算机中自动生成词语特征集合和语义模型集合的关系矩阵U,其中每一行 表示词语在语句模型中出现的次数,每一列表示语句模型中的词语:
[0013]
[0014] ?对关系矩阵U进行奇异值分解,可得出ΧΣΥ,其中X和Y互为正交矩阵,Σ为 对角矩阵,左矩阵X中的每一行表示词语的特性,右矩阵Y中的每一列表示语句模型的特 性,中间的对角矩阵表示左奇异向量的一行与右奇异向量的一列的重要程度,数值越大越 重要,X中的行与Y中的列表示词语与语句模型的潜在相关性,数值越接近表示越相关。
[0015] ?用词语特征到矩阵模型中根据相关性获取最优的语句模型,然后用语句模型对 申请单内容进行精确的语义识别。
[0016] 以下举例说明:
[0017] 1.建立申请单内容的基础模型
[0018] 从历史数据中采集申请单内容的样本:
[0019] 10kV向圣淘沙31#站侧611开关转检修
[0020] 10kV向4#变侧612线路由运行转检修
[0021] 2#变由运行转冷备用
[0022] 10kVI段母线PT转检修
[0023] lOkVII段母线转检修
[0024] 10kV母联600开关转冷备用
[0025] 10kV向上雁村5. 131. 67侧602线路转检修
[0026] 10kV向浦上变673侧602线路转检修
[0027] 断开向聚龙路6#环网604侧用户内部10kV电源进线开关及刀闸
[0028] 通过对样本进行人工分析,生成申请单内容的词语特征集合和语义模型集合。
[0029] 词语特征集合:
[0030]
[0031] 语义模型集合见附图1 :
[0032]
[0033] 2.创建矩阵,奇异值分解
[0034] 在计算机中自动生成词语特征集合和语义模型集合的关系矩阵,其中每一行表示 词语在语句模型中出现的次数,每一列表示语句模型中有哪些词语:
[0035]
[0037] 然后对该矩阵进行奇异值分解,左矩阵X中的每一行表示词语的特性,右矩阵Y中 的每一列表不语句模型的特性,中间的奇异值矩阵表不左奇异向量的一行与右奇异向量的 一列的重要程度,数值越大越重要,X中的行与Y中的列表示词语与语句模型的潜在相关 性,数值越接近表示越相关。
[0038]
[0039] 3.精确解析
[0040] 对给定的申请单内容先用分词算法进行分词并提取词语特征,用词语特征到矩阵 模型中根据相关性获取最优的语句模型,然后用语句模型对申请单内容进行精确的语义识 别。
[0041] 本发明的只要形成相应的插件,直接应用到主系统中,即可完成申请单的智能解 析功能。
[0042] 本实施例未述部分与现有技术相同。
【主权项】
1. 一种基于潜在语义分析的申请单智能解析方法,其特征在于,具体方法为:(1)建立 申请单内容的基础模型:从历史数据中采集申请单的样本,通过对样本进行人工分析,生成 申请单内容的词语特征集合和语义模型集合;(2)、创建矩阵,奇异值分解:在计算机中自 动生成词语特征集合和语义模型集合的关系矩阵,其中每一行表示词语在语句模型中出现 的次数,每一列表示语句模型中有哪些词语:然后对该矩阵进行奇异值分解,左矩阵X中的 每一行表示词语的特性,右矩阵Y中的每一列表示语句模型的特性,中间的奇异值矩阵表 示左奇异向量的一行与右奇异向量的一列的重要程度,数值越大越重要,X中的行与Y中的 列表示词语与语句模型的潜在相关性,数值越接近表示越相关;(3)对给定的申请单内容 先用分词算法进行分词并提取词语特征,用词语特征到矩阵模型中根据相关性获取最优的 语句模型,然后用语句模型对申请单内容进行精确的语义识别。
【专利摘要】本发明公开了一种基于潜在语义分析的申请单智能解析方法,本发明采用潜在语义分析方法,一方面滤除了申请单中不相关的词,降低了分析空间的大小,在滤除的过程中与电力系统本身没有关系,纯粹是对自然语言的分析。在被缩小的分析空间的基础上进行配电网专业词库的最大化模糊匹配,从而形成了申请单的智能解析。它摆脱了传统的精确匹配的模式,提高解析的成功率,为更高层的应用打下了技术基础。
【IPC分类】G06F17/27
【公开号】CN105389306
【申请号】CN201510730573
【发明人】夏圣峰, 詹仁俊, 陈宇星, 葛清, 田学刚
【申请人】国网福建省电力有限公司, 国家电网公司, 国网福建省电力有限公司福州供电公司, 济南真正科技有限公司
【公开日】2016年3月9日
【申请日】2015年11月2日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1