基于文本分析的停电原因识别系统的制作方法

文档序号:10569918阅读:316来源:国知局
基于文本分析的停电原因识别系统的制作方法
【专利摘要】本发明涉及模式识别领域,公开了基于文本分析的停电原因识别系统,其包括数据库和处理器,数据库中记录有由客服人员在提供客户服务时针对频繁停电投诉而记录产生的停电数据,处理器内设有文本分拆与过滤专家系统模块、根因识别专家系统模块和HDSP识别模块。本发明帮助客户从杂乱无章的工单中锁定停电原因,明确责任归属,加强客服中心管理和为提升用户满意度创造条件,有利于企业及时处理停电事件,所用模型和系统均为自动实现,其评价标准客观、集成性能好,大大降低了工作人员的工作量,解决了工作人员因主观原因导致结果体系不一致的问题。
【专利说明】
基于文本分析的停电原因识别系统
技术领域
[0001] 本发明涉及模式识别领域,尤其涉及了基于文本分析的停电原因识别系统。 技术背景
[0002] 目前在大数据的1.8万亿GB容量中,非结构化数据占到了八九成左右,并且预计到 2020年将以44倍的发展速度增长。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信 息,已成为大数据领域的重要挑战。在非结构化数据中,文本数据占据了重要地位。对于拥 有大量文本数据的企业,如何有效利用这部分数据资源决定着企业将来的发展。在电力行 业客服中心的数据中,如何对投诉工单中的频繁停电数据进行处理,从而找出相应的停电 原因,这对改善电力行业的内部管理和提高客户满意度起到了至关重要的作用。
[0003] 现有的专利文献包括:专利申请号为201210281754. X的中国专利申请"一种智能 开关柜故障诊断系统及方法",专利申请号为201110281938.1的中国专利申请"一种主观文 本和客观文本分类方法及装置"。
[0004] 专利申请号为201210281754.X的中国专利申请存在以下不足:该文提出了一种智 能开关柜故障诊断系统及方法,该系统采用的是机器学习算法维护专家系统规则库的方 法,但此方法并没有考虑到专家系统规则库建立的不完备性,其识别性能准确性取决于规 则库里的规则是否具有代表性。该方法并未对没有被该系统识别出来的故障进行判断输 出,只考虑输出现有系统中能够被规则库匹配的故障。该方法只通过完善规则库来提高系 统的性能,因此系统的性能很大程度上取决于规则库的完备性。
[0005] 专利申请号为201110281938.1的中国专利申请存在以下不足:该文提出了一种主 观文本和客观文本的分类方法及装置,该系统采用机器学习算法进行分类识别,但此方法 只能识别出单个标签,无法对一个文本识别出多个标签。故此方法只适用于输出单一标签 的情况。
[0006] 然而在大数据处理方式还未全面普及的当下,电力行业客服中心的分析人员采用 的是人工从频繁停电的文本数据中提取停电原因,然后再对处理得到的结果进行数据分 析。这种方法在数据量小的时候有一定的可行性。但由于全部是人工得到的,故其结果质量 可能会因为长时间的枯燥工作而有一定的损失。由于当今的数据量越来越大,这种人工操 作的形式存在耗时长、劳动力投入量大、结果质量会因工作时长而发生较大变动等问题。在 对停电原因进行责任划分时,也会因为处理人员的不同看法导致结果无法统一。
[0007] 从每条工单找出其中的停电原因,这一过程的本质就是分类。目前可以用来对文 本数据进行分类的主流技术有基于机器学习分类的文本分类技术以及基于专家系统的文 本分类技术。然而由于每条频繁停电的文本数据中包含多条停电原因。这对于传统的机器 学习分类算法是一个巨大挑战,因为传统的机器学习分类算法只能识别单个停电原因。而 专家系统存在专家规则提取不易且在规则比较多时其搜索效率十分低下等问题,因此传统 的专家规则系统也无法完全用来解决多条停电原因的识别问题。

【发明内容】

[0008] 本发明针对现有技术中分析效率低下的缺点,提供了基于文本分析的停电原因识 别系统。
[0009] 为了解决上述技术问题,本发明通过下述技术方案得以解决:
[0010] 基于文本分析的停电原因识别系统,包括数据库和处理器,数据库中记录有由客 服人员在提供客户服务时针对停电投诉而记录产生的停电数据,处理器内设有文本分拆与 过滤专家系统模块、根因识别专家系统模块和HDSP识别模块;
[0011] 文本分拆与过滤专家系统模块对停电数据进行文本分拆与过滤并使分拆与过滤 后的每条停电数据有且仅有一个停电原因,文本分拆与过滤专家系统模块包括文本分拆单 元和过滤专家系统单元,文本分拆单元将停电数据依次通过逗号、拆分和分号进行逐层拆 分,过滤专家系统单元将分拆后的停电数据进行过滤并去除与停电原因无关的数据;
[0012] 根因识别专家系统模块从分拆过滤后的停电数据提取共性规则,并通过共性规则 对停电数据进行分析并得出识别文本;
[0013] HDSP识别模块将文本分拆与过滤专家系统模块和根因识别专家系统模块进行分 析而未被识别的停电数据进行二次分析得并到识别文本。
[0014] 作为优选,根因识别专家系统模块还包括规则获取单元、规则库单元和事实库单 元;
[0015] 规则获取单元对经过分拆和过滤的停电数据提取共性规则,将共性规则的性能参 数与预先设置在规则库单元内的第一阈值进行比较,当共性规则的性能参数识别的准确率 高于第一阈值的准确率时,再将该共性规则的性能参数与事实库单元内的第二阈值进行准 确率比较,若该共性规则的性能参数的准确率高于第二阈值的准确率,反之,则继续优化该 共性规则;
[0016] 规则库单元内包含有用于不同停电原因识别的匹配词,将该共性规则与匹配词进 行匹配并得出该停电数据对应的识别文本;
[0017] 事实库包括行业背景知识、初始的文本数据、后期标签化数据以及在根因识别专 家系统模块运行过程中产生的识别性能数据。
[0018] 作为优选,根因识别专家系统模块还包括推理机、人机交互单元和解释单元;推理 机用于规则库单元内的规则推理的逻辑性关系推理,人机交互单元包括人机交互界面,工 程师通过人机交互界面进行规则库单元和事实库单元的数据完善并进行新的规则获取,解 释单元将停电原因的识别结果呈现在人机交换界面上直接展现给使用者。
[0019] 作为优选,HDSP识别模块对未识别的停电数据进行抽取并生成训练文本,通过对 训练文本的分析得出性能参数,运用性能参数生成识别文本并对剩余的未识别的停电数据 进行停电原因的识别。
[0020] 作为优选,通过训练文本得0和p(0),0为主题向量即表示每列每个主题在文档出 现的概率,p(0)为主题向量0的Dirichlet分布,再得出两个控制参数a和0,a为p(0)分布的 参数,用于生成一个主题9向量;0为各个主题对应的单词概率分布矩阵P(w|z),通过控制参 数a和0就确定了主题模型,模型生成识别文本的算法如下:(1)选定一个主题向量0,确定每 个主题被选择的概率;(2)从主题分布向量0中选择一个主题z,按主题z的词概率分布生成 一个词,该词即为识别文本。
[0021]作为优选,HDSP识别模块对未识别的停电数据进行抽取并生成测试文本,通过人 为对测试文本进行停电原因识别,判断训练文本得出的控制参数a和0是否合理并进行调 整。
[0022]本发明由于采用了以上技术方案,具有显著的技术效果:本专利在考虑现有的机 器学习分类算法无法对一个文本内容识别出多个停电原因的情况下,先对文本数据进行文 本分拆与过滤专家系统的处理,然后综合利用根因识别专家系统和HDSP识别模型对文本内 容进行根因识别,实现了对一个文本内容进行多个停电原因识别的功能。文本分拆与过滤 专家系统使得根因识别专家系统的识别范围更小,更有利于规则的建立,大大提高了根因 识别专家系统的识别性能;经过分拆过滤后的结果满足一个文本内容只含有一个停电原 因,从而使得机器学习分类算法可以有效的使用。考虑到专家系统在规则建立过程中需要 一个反复迭代的过程,故只通过根因识别专家系统对文本内容进行根因识别,可能会使部 分文本数据未被识别出相应的停电原因。基于上述原因,故进一步使用HDSP识别模型对这 部分未被识别的文本数据进行二次识别,这大大减少了文本数据未被识别的数量,也进一 步改善了根因识别专家系统在识别功能上面的不足。本专利可以帮助客户从杂乱无章的工 单中锁定停电原因,明确责任归属,为改善服务质量、加强客服中心管理和提升用户满意度 创造条件;有利于企业及时处理停电事件,为企业树立良好的企业形象。所用模型和系统均 为自动实现,其评价标准客观、集成性能好,大大降低了工作人员的工作量,解决了工作人 员因主观原因导致结果体系不一致的问题。
【附图说明】
[0023]图1是本发明的原理图。
[0024]图2是图1的文本分拆与过滤专家系统模块的原理图。
[0025]图3是图2的规则获取单元的规则生成过程原理示意图。
[0026]图4是主题|旲型不意图。
[0027]图5是HDSP识别模块中的模型训练流程图。
【具体实施方式】
[0028] 下面结合附图与实施例对本发明作进一步详细描述。
[0029] 实施例1
[0030] 基于文本分析的停电原因识别系统,包括数据库和处理器,数据库中记录有由客 服人员在提供客服服务时针对停电投诉而记录产生的停电数据,处理器内设有文本分拆与 过滤专家系统模块、根因识别专家系统模块和HDSP识别模块;
[0031] 文本分拆与过滤专家系统模块对停电数据进行文本分拆与过滤并使分拆与过滤 后的每条停电数据有且仅有一个停电原因,文本分拆与过滤专家系统模块包括文本分拆单 元和过滤专家系统单元,文本分拆单元将停电数据依次通过逗号、拆分和分号进行逐层拆 分,过滤专家系统单元将分拆后的停电数据进行过滤并去除与停电原因无关的数据;
[0032] 根因识别专家系统模块将分拆过滤后的停电数据提取共性规则,并通过共性规则 对停电数据进行分析并得出识别文本;
[0033] HDSP识别模块将通过文本分拆与过滤专家系统模块和根因识别专家系统模块进 行分析而未被识别的停电数据进行二次分析得并到识别文本。
[0034] 文本分拆的分拆规则为先用逗号拆分,再对拆分的结果用句号拆分,最后再用分 号拆分。文本过滤的目的就是过滤掉上述分拆后的无关成分,主要规则如下:1、长度小于6 的过滤掉;2、只包含年、月、日等时间描述的过滤掉;3、该句中如果有词在黑名单中的过滤 掉;4、该句中如果有词出现在白名单中的不能过滤。
[0035] 如图2所示,根因识别专家系统主要是根据基于规则的专家系统进行建立的,以规 则库和事实库为核心,通过与用户、领域专家和工程师的人机交互,在规则获取阶段进行规 贝1J的不断创建-测试-完善-测试-完善-???_更新的迭代过程,通过推理机明确规则库内规则 推理的逻辑关系,并通过解释模块将专家系统识别过程中输出的结果进行对应的匹配规则 的相关说明,以便用户进行规则匹配结果的人工判断。
[0036] 根因识别专家系统模块还包括规则获取单元、规则库单元和事实库单元,如图3; [0037]规则获取单元对经过分拆和过滤的停电数据提取共性规则,将共性规则的性能参 数与预先设置在规则库单元内的第一阈值进行比较,当共性规则的性能参数识别的准确率 高于第一阈值的准确率时,再将该共性规则的性能参数与事实库单元内的第二阈值进行准 确率比较,若该共性规则的性能参数的准确率高于第二阈值的准确率,则将该共性规则更 新到规则库中,反之,则继续优化该共性规则,直到该规则满足更新条件。
[0038] 规则库单元内包含有用于不同停电原因识别的匹配词,将该共性规则与匹配词进 行匹配并得出该停电数据对应的识别文本;
[0039] 事实库内包括行业背景知识、初始的文本数据、后期标签化数据以及在根因识别 专家系统模块运行过程中产生的识别性能数据。
[0040] 行业背景知识包括:
[0041] 1、近年来一般电网事故类型分析
[0042] 1.1、按原因分类:从发生电网事故的原因来看,引发一般电网事故的主要因素有: 继电保护、恶劣天气、外力破坏、误操作、质量不良、人员责任及其他原因。
[0043] 1.2、按责任分类:一般电网事故按责任分类可分为:自然灾害、制造质量、外力破 坏、运行人员、施工设计、人员责任和其他。据统计,自然灾害(雷击、雾闪、覆冰舞动等)、人 员责任(运行人员和其他人员责任)、外力破坏和制造质量依次是一般电网事故的主要责任 原因。
[0044] 1.3、按技术分类:一般电网事故按技术分类则可分为:继电保护、雷击、接地短路、 恶性误操作、误碰误动、设备故障和其他。其中,接地短路(外力破坏、对地放电)、继电保护 (保护误动、保护拒动、二次回路故障等)和雷击是构成一般电网事故的主要技术原因。
[0045] 1.4、按设备分类:一般电网事故按设备分类一般可分为:输电线路、继电保护、其 他电器、开关、刀闸、组合电器等。实践表明,输电线路、继电保护依次是造成电网事故的主 要设备原因。
[0046] 例如,初始的一条文本数据:
[0047] 2015年2月6日,经阳新县供电公司白沙供电所外线班班长胡卫华核实,该客户反 映的时间段内共计停电次数为3次,导致停电原因具体如下:1、白16青水线麻园支线胜星大 路台区迀移,停送电时间:2015-01-1308: 20-16: 25; 2、白16梁公铺线麻园支线胜星大路2# 台区新增配变搭火,停送电时间:2015-01-2708:20-18:05;3、涉及故障工单: 2015020542186467,停电原因为:台区低总空开跳闸,停送电时间:2015年2月5日20:07-21: 08,但导致停电的原因已采取抢修恢复方式解决,已向客户(15272057988)回复停电原因, 客户表示理解。后期标签化数据:上述例子对应的标签为计划停电、计划停电、故障停电。识 别性能数据包括:上述例子模型识别的标签为计划停电、计划停电、故障停电。此时该文本 识别的标签完全正确。
[0048] 规则库内包含了大量符合要求的规则,其格式内容主要包含以下两块:
[0049] 1)各匹配词间的连接符号的确定:
[0050] 规则匹配的过程,即将规则知识库内的匹配词与相应文本内容进行匹配。显然匹 配的过程会存在相应的包含、不包含、同时包含、只包含一个等情况,故在匹配的过程中需 要表明匹配词与文本内容的对应关系。因此在确定匹配词间的连接符号时,基于上述匹配 过程中可能会出现的各种情况,建立了如表1所示的连接符号。
[0051 ] 表1匹配词间连接符号说明
[0053]注释:各连接符号后面只能连接一个匹配词,若要将多个匹配词连接,采用连接符 号A词+空格+连接符号B词的组合进行规则的建立。
[0054] 2)类别间互斥性符号的确定:
[0055]由于在建立规则的过程中,我们是将规则按类别来进行划分建立的,所以会存在 两个类别的规则本身就存在一定的互斥性的情况。因此对于一个文本内容来说(若A、B两类 互斥),如表2所示,如果被判断为A类,则不可能被判断为B类,于是我们将这种情况的规则 符号确定。
[0056] 表2互斥性符号说明
[0058]根因识别专家系统模块还包括推理机、人机交互单元和解释单元;推理机用于规 则库单元内的规则推理的逻辑性关系推理,人机交互单元包括人机交互界面,工程师通过 人机交互界面进行规则库单元和事实库单元的数据完善并进行新的规则获取,解释单元将 停电原因的识别结果呈现在人机交换界面上直接展现给使用者。
[0059] HDSP主要是基于LDA算法的主题模型,并在此基础上进一步融合了有监督分类学 习算法,从而使得该算法在提取主题时还能同时进行标签的自主学习。传统判断两个文档 是否相似,最简单的办法就是统计两个文档共同包含的词的数量,如:TF-IDF。但这种方法 并未考虑到文字所包含的语义成分,从而会误判语义相似但共同包含的词的数量很少的两 个文档。故在判断文档相似性时还需考虑文档本身的语义成分,而针对于语义挖掘主要是 采用主题模型。在主题模型中,主题可以是一个概念、一个方面,同时也可以是包含一系列 相关的词的集合,是这些词的条件概率。总的来说,主题就是包含了许多与该主题强相关性 (文档包含概率高)的词。
[0060] HDSP识别模炔基于LDA算法对未识别的停电数据进行抽取并分成训练文本和测试 文本,通过对训练文本的训练得出性能参数,再通过测试文本进行测试并得出识别准确率 较高的性能参数,运用性能参数生成识别文本并对剩余的未识别的停电数据进行停电原因 的识别。
[0061] 通过训练算法训练得出两个控制参数a和0,(a为P(0)分布的参数,用于生成一个 主题9向量;0为各个主题对应的单词概率分布矩阵P(w|z)),通过控制参数a和0就确定了主 题模型并生成识别文本,模型生成识别文本的算法如下:
[0062] Choose parameter0~P(9);
[0063] Foreach of the N words wn:
[0064] Choose a topic zn~p(z|9);
[0065] Choose a word wn~p(w | z);
[0066] 其中:
[0067] 0:主题向量,每列表示每个主题在文档出现的概率
[0068] p(9):9的Dirichlet分布 [0069] N:要生成的文档的单词的个数 [0070] wn:生成的第n个单词w
[0071] zn:选择的主题
[0072] 口(2|0):给定0时主题2的概率分布
[0073] p(w | z):给定主题z时单词w的分布
[0074] 主题模型主要要解决的问题为如何生成主题。针对此问题,主题模型用生成模型 来连接文档和主题。生成模型,即假定每篇文章的每个词都是通过"以一定概率选择某个主 题,并进一步在这个主题中以一定概率选择某个词语"的过程得到的。故对于一篇文档,它 所包含的每个词语出现的概率为:
[0075] P(词语I文档):!>(词语I主题)x PC主题|文档) 芏题
[0076]这个概率公式可以用矩阵表示:
[0078] 公式一:
[0079] 其中"文档-词语"矩阵表示每个文档中每个词的词频,即出现的概率;"主题-词 语"矩阵表示每个主题中每个词出现的概率;"文档-主题"矩阵表示每个文档中每个主题出 现的概率。给定一系列文档,通过对文档进行分词,计算各个文档中每个词的词频就可以得 到左边的"文档-词语"矩阵。根据公式一中的名称举例说明:词语是由一系列词语组成的集 合,该集合包含大雨、暴雨、喜鹊、筑巢、家电、漏电等一系列出现在文档内的词语,这里的词 语为文本分词处理后获得;文档即频繁停电数据内容,如大风大雨天气导致停电、用户家用 电器漏电导致停电等文本内容;主题是频繁停电原因,有自然灾害、人为外力、用户设备故 障、鸟害等,这些都是频繁停电原因下的各个主题;主题向量:就是由上述提到的各个主题 组成的集合。
[0080] 这种方法首先选定一个主题向量0,这里以频繁停电原因为例,其对应的主题类型 为自然灾害、计划停电、鸟害、人为外力等,这些主题类型凑成一个集合,这个集合就是主题 向量,主题向量中的元素就是上述所说的各个主题类型,然后确定每个主题被选择的概率。 然后在生成每个词的时候,从主题分布向量0中选择一个主题z,按主题z的词概率分布生成 一个词。从上图可知联合概率为: 'N
[0081] p{0, z, w | a, p) == p{61 a)Y[P(Zn \0)PiWn n:l
[0082] 将上式结合对应到图上,可以大致按下图理解为如图4所示,主题模型的三个表示 层通过表3表示出来:
[0083] 表3图片参数说明
[0086]通过上面讨论,可以知道主题模型主要是从给定的输入语料中学习训练两个控制 参数a和0,学习出了这两个控制参数就确定了模型,便可以用来生成文档。
[0087] DSP识别模块创建一个基于主题模型改进的模型,主要包含有监督分类和无监督 主题聚类两个方面。以下三个过程是该模型有监督分类的产生过程:
[0088] 1)通过抽样获得一定量的停电数据作为样本数据,对该样本数据进行人工的停电 原因标签标记,并对标记后的数据分为训练和测试两部分;
[0089] 2)使用标记的训练样本数据对HDSP模型进行训练,利用我们训练好的HDSP模型对 测试样本进行停电原因识别,输出模型识别的停电原因结果,如图5所示,训练的方法为:
[0090] 1.对文档内容进行分词处理,计算得到每个词语在文档中出现的概率,结合公式 一,我们得到了 "文档_词语"矩阵。
[0091] 2 ?初始化参数a、0、"文档-主题"矩阵、"主题-词语"矩阵。
[0092] 3.利用0、"文档-主题"矩阵计算文档中"主题-词语"矩阵。
[0093] 4.利用a、"主题-词语"矩阵计算"文档-主题"矩阵。
[0094] 5.利用步骤3的结果"主题-词语"矩阵更新参数扎
[0095] 6.利用步骤4的结果"文档-主题"矩阵更新参数a。
[0096] 7.反复执行上述步骤3-6,直到收敛,则训练结束。
[0097] 3)根据测试结果将训练好的HDSP模型输出的测试文本识别结果与人工标记的测 试样本结果进行比较统计,计算得到HDSP模型识别停电原因的准确率,最初会设定一个识 别准确率的阈值,即为性能标准,通过比较测试结果的准确率与阈值的大小,可以知道当前 模型是否达到性能标准,如果没有达到性能标准,则不断调整模型参数,并重复2)过程,当 测试结果达到性能标准时,即可保存训练后的模型文件。
[0098]此外,HDSP识别模块还可以对主题进行无监督聚类。在聚类的过程中,算法会根据 设定的主题词个数和主题个数来生成每一个实例的聚类标签。同时,该算法支持人为对已 经生成的聚类标签进行干预。人为干预后,算法会自动学习干预的标签知识,重新训练模 型,然后对文本重新进行聚类。随着迭代的进行,算法聚类的精度也会越来越高。
[0099]总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等 变化与修饰,皆应属本发明专利的涵盖范围。
【主权项】
1. 基于文本分析的停电原因识别系统,其特征在于:包括数据库和处理器,数据库中记 录有由客服人员在提供客服服务时针对停电投诉而记录产生的停电数据,处理器内设有文 本分拆与过滤专家系统模块、根因识别专家系统模块和HDSP识别模块; 文本分拆与过滤专家系统模块对停电数据进行文本分拆与过滤并使分拆与过滤后的 每条停电数据有且仅有一个停电原因,文本分拆与过滤专家系统模块包括文本分拆单元和 过滤专家系统单元,文本分拆单元将停电数据依次通过逗号、拆分和分号进行逐层拆分,过 滤专家系统单元将分拆后的停电数据进行过滤并去除与停电原因无关的数据; 根因识别专家系统模块从分拆过滤后的停电数据提取共性规则,并通过共性规则对停 电数据进行分析并得出识别文本; HDSP识别模块将文本分拆与过滤专家系统模块和根因识别专家系统模块进行分析而 未被识别的停电数据进行二次分析得并到识别文本。2. 根据权利要求1所述的基于文本分析的停电原因识别系统,其特征在于:根因识别专 家系统模块还包括规则获取单元、规则库单元和事实库单元; 规则获取单元对经过分拆和过滤的停电数据提取共性规则,将共性规则的性能参数与 预先设置在规则库单元内的第一阈值进行比较,当共性规则的性能参数识别的准确率高于 第一阈值的准确率时,再将该共性规则的性能参数与事实库单元内的第二阈值进行准确率 比较,若该共性规则的性能参数的准确率高于第二阈值的准确率,则将该共性规则更新到 规则库中。 规则库单元内包含有用于不同停电原因识别的匹配词,将该共性规则与匹配词进行匹 配并得出该停电数据对应的识别文本; 事实库包括行业背景知识、初始的文本数据、后期标签化数据以及在根因识别专家系 统模块运行过程中产生的识别性能数据。3. 根据权利要求2所述的基于文本分析的停电原因识别系统,其特征在于:根因识别专 家系统模块还包括推理机、人机交互单元和解释单元;推理机用于规则库单元内的规则推 理的逻辑性关系推理,人机交互单元包括人机交互界面,工程师通过人机交互界面进行规 则库单元和事实库单元的数据完善并进行新的规则获取,解释单元将停电原因的识别结果 呈现在人机交换界面上直接展现给使用者。4. 根据权利要求1所述的基于文本分析的停电原因识别系统,其特征在于: HDSP识别模块对未识别的停电数据进行抽取并生成训练文本,通过对训练文本的分析 得出性能参数,运用性能参数生成识别文本并对剩余的未识别的停电数据进行停电原因的 识别。5. 根据权利要求4所述的基于文本分析的停电原因识别系统,其特征在于:通过训练文 本得Θ和ρ(θ),θ为主题向量即表示每列每个主题在文档出现的概率, ρ(θ)为主题向量Θ的 Dirichlet分布,再得出两个控制参数α和β,α为ρ(θ)分布的参数,用于生成一个主题Θ向量; β为各个主题对应的单词概率分布矩阵P(w|z),通过控制参数α和β就确定了主题模型,模型 生成识别文本的算法如下:(1)选定一个主题向量Θ,确定每个主题被选择的概率;(2)从主 题分布向量Θ中选择一个主题ζ,按主题ζ的词概率分布生成一个词,该词即为识别文本。6. 根据权利要求5所述的基于文本分析的停电原因识别系统,其特征在于:HDSP识别模 块对未识别的停电数据进行抽取并生成测试文本,通过人为对测试文本进行停电原因识 另IJ,判断训练文本得出的控制参数α和β是否合理并进行调整。
【文档编号】G06N5/04GK105930347SQ201610209966
【公开日】2016年9月7日
【申请日】2016年4月5日
【发明人】李虎, 程树华, 牛良涛, 王伟凯, 吴文先, 徐进澎, 嵇望
【申请人】浙江远传信息技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1