一种新型大规模文档主题语义分析方法及系统与流程

文档序号:12665985阅读:301来源:国知局
一种新型大规模文档主题语义分析方法及系统与流程

本发明涉及语义分析技术领域,尤其涉及一种新型大规模文档主题语义分析方法及系统。



背景技术:

大数据时代,文档数量以不曾出现的惊人速度增长,超出人工处理的时间和精力成本。日常生活中积累的大量数据资料:从文本文件到办公文件,以及图片、图像、影像和音频等以文档为主要形式的数据往往得不到充分利用,而这些文档中又存在着大量可以挖掘和学习的信息。对于数据当中潜藏着巨大的信息价值,人们无从下手的原因,一是文档类型和文档来源的多样性,二是文档内容的高纬度和非结构化的特性,关键是文档数据量大。当下,大数据分析尤其是海量非结构化文档主题分析,具有深远意义:从海量无规律数据中自动学习模式和知识,结合可视化技术对数据进行分析和解释,并根据已有经验对存在异常进行检测纠正并实现趋势预测。

现有主题分析方案集中于在传统词袋模型基础上引入语义信息,实现文档间的相似度计算,包括词频共现、语义词典和主题模型。其中,词频共现通过计算语料的统计信息发现文档中以一定频率共现的词语,语义词典通过预先设定一系列词的上下位和所属关系。然而词袋模型由于其数学模型的限制,并不适合于大规模文档的主题语义分析。传统机器学习和自然语言处理方法采用词袋模型处理文本数据,将文档以长向量表示,每个向量的分量代表词语的对应特征值。词袋模型的提出为处理文本数据提供了解决方案,但由于其无法捕获词序、语义和句法等信息,难以从大规模数据中学习更多有用价值。再者,大规模的数据容易造成维度灾难,令词袋模型无法直接应用到大数据分析中。

针对词袋模型语义信息的缺失,现有方案通过引入语义词典进行补偿,包括同义词林、WordNet和HowNet等。然而,此类词典无法覆盖所有可能的语义情况,尤其对在词典中未曾出现过的词汇和特定领域的知识支持度低。LDA主题模型通过计算语料集合的统计信息获取文档、主题和词语的语义关系,然而由于其沿用词袋模型,无法避免在词汇量巨大时所引起的维度灾难,再者,LDA模型训练当中的迭代矩阵运算导致主题训练时间过长。



技术实现要素:

为了解决上述技术问题,本发明的目的是提供一种能适用于大数据分析,且能快速完成主题生成的一种新型大规模文档主题语义分析方法及系统。

本发明所采用的技术方案是:

一种新型大规模文档主题语义分析方法,包括以下步骤:

A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;

B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。

作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述有监督主体生成步骤包括:

A11、根据分类信息,运用特征提取算法对已知文档集合中同一类别的所有文件进行关键词提取,并对提取的关键词整合到各类别对应的特征池当中;

A12、将对应同一类别的特征池中的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;

A13、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;

A14、在同一类别下,对已知文档集合和弱相关特征集合中的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。

作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述无监督主体生成步骤包括:

A21、运用特征提取算法对已知文档集合中所有文件进行关键词提取,并对提取的关键词整合到特征池当中;

A22、对特征池内所有关键词对应的词向量进行聚类分析,得出代表已知文档集合中各语义分类的多个簇,进而得到分类信息;

A23、根据分类信息,将特征池中对应同一类别的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;

A24、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;

A25、在同一类别下,对弱相关特征集合和已知文档集合中未利用过的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。

作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述步骤A12包括:

A121、将对应同一类别的特征池内所有关键词对应的词向量进行二元聚类分析,将关键词拆分成两个意群,并计算两个意群的簇心;

A122、计算各意群中关键词距离对应簇心的欧氏距离;

A123、检测各关键词距离对应簇心的欧氏距离,判断其是否大于预设的距离阈值,若是,则将该关键词移除至不相关特征集合,并将剩余的关键词重新组合为新的特征池,进而返回执行步骤A121;反之,则执行步骤A13。

作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述步骤A13包括:

A131、在对应同一类别的两个意群中,从第一意群任意提取两组η元组X1和X2,从第二意群中任意提取一组η元组Y1;

A132、将η元组X1和X2整合为新的2η元组XX1,将η元组X1和Y1整合为新的2η元组XY1;

A133、分别计算新的2η元组XX1和XY1内两两关键词之间的相似度,并分别计算2η元组XX1和XY1各自的相似度之和,进而计算出两者的差值,得到第一相似度差值;

A134、从第二意群任意提取两组η元组M1和M2,从第一意群中任意提取一组η元组N1;

A135、将η元组M1和M2整合为新的2η元组MM1,将η元组M1和N1整合为新的2η元组MN1;

A136、分别计算新的2η元组MM1和MN1内两两关键词之间的相似度,并分别计算2η元组MM1和MN1各自的相似度之和,进而计算出两者的差值,得到第二相似度差值;

A137、判断第一相似度差值是否大于第二相似度差值,若是,则判定第一意群为强相关特征集合,第二意群为弱相关特征集合;反之,则判定第二意群为强相关特征集合,第一意群为弱相关特征集合。

作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述相似度的具体计算公式为:

其中,w1和w2分别为两个关键词对应的词向量,m表示词向量的维度,sim<w1,w2>表示两个关键词的相似度。

作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述相关度的具体计算公式为:

其中,wx表示关键词对应的词向量,W表示特征集合,这里表示强相关特征集合,w表示特征集合中关键词对应的词向量,这里表示强相关特征集合中关键词对应的词向量,rel[wx,W]表示关键词wx与特征集合W的相关度,m表示词向量的维度。

作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述自适应值的具体计算公式为:

其中,N表示强相关特征集合,di表示已知文档集合或弱相关特征集合中关键词对应的当前文档,|di|表示当前文档的关键词数量,|d′i|是当前文档中和N正相关的关键词数量,γ表示自适应值,w表示已知文档集合或弱相关特征集合中的关键词对应的词向量,n表示强相关特征集合中关键词对应的词向量,m表示词向量的维度。

本发明所采用的另一技术方案是:

一种新型大规模文档主题语义分析系统,包括:

主题集合生成单元,用于检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;

主题分析单元,用于根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。

本发明的有益效果是:

本发明一种新型大规模文档主题语义分析方法及系统通过有监督主体生成步骤和无监督主体生成步骤生成得到主题集合,从而能对给定文档进行相关度计算,得到主题分布情况,本发明能从大规模文档数据当中自动、快速、灵活、有效地完成主题生成,并分析评估任意给定文档在生成主题上的主题分布,适用于快速生成主题的场合。而且本发明没有针对特定场景或领域知识进行优化,原则上支持任意文档集合,具备广义性。

附图说明

下面结合附图对本发明的具体实施方式作进一步说明:

图1是本发明一种新型大规模文档主题语义分析方法的步骤流程图;

图2是本发明一种新型大规模文档主题语义分析方法中有监督主体生成步骤的步骤流程图;

图3是本发明一种新型大规模文档主题语义分析方法中无监督主体生成步骤的步骤流程图;

图4是本发明一种新型大规模文档主题语义分析系统的系统方框图。

具体实施方式

参考图1,本发明一种新型大规模文档主题语义分析方法,包括以下步骤:

A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;

B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。

本发明根据主题分布情况,通过自适应主题选择的方法判断和当前文档最为贴近的若干个主题,实现基于语义的文档自动主题分析。具体而言,本发明能针对不同应用场合提供四种主题选择方法:分隔消除(某些情况下表现稳定)、双算术平均消除(适合较少主题数场合)、双算术平均方差消除(适合精准度优先场合)、双调和平均消除(兼顾主题数和精准度),计算得到的主题分布具有更多潜在用途。

参考图2,进一步作为优选的实施方式,所述有监督主体生成步骤包括:

A11、根据分类信息,运用特征提取算法对已知文档集合中同一类别的所有文件进行关键词提取,并对提取的关键词整合到各类别对应的特征池当中;

A12、将对应同一类别的特征池中的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;

A13、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;

A14、在同一类别下,对已知文档集合和弱相关特征集合中的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。

参考图3,进一步作为优选的实施方式,所述无监督主体生成步骤包括:

A21、运用特征提取算法对已知文档集合中所有文件进行关键词提取,并对提取的关键词整合到特征池当中;

A22、对特征池内所有关键词对应的词向量进行聚类分析,得出代表已知文档集合中各语义分类的多个簇,进而得到分类信息;

A23、根据分类信息,将特征池中对应同一类别的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;

A24、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;

A25、在同一类别下,对弱相关特征集合和已知文档集合中未利用过的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。

其中,特征提取算法的选取可根据实际需要选取,如词频或文档评率等。本发明具体实施例中,特征提取算法采用TextRank算法完成,聚类算法采用K-Means算法完成。

进一步作为优选的实施方式,所述步骤A12包括:

A121、将对应同一类别的特征池内所有关键词对应的词向量进行二元聚类分析,将关键词拆分成两个意群,并计算两个意群的簇心;

A122、计算各意群中关键词距离对应簇心的欧氏距离;

A123、检测各关键词距离对应簇心的欧氏距离,判断其是否大于预设的距离阈值,若是,则将该关键词移除至不相关特征集合,并将剩余的关键词重新组合为新的特征池,进而返回执行步骤A121;反之,则执行步骤A13。

本发明具体实施例中,预设的距离阈值设为1,因此,算法对特征池的所有关键词的对应的词向量进行二元聚类,将关键词拆分成为两个意群,并计算他们的簇心。对于每一个意群,将离簇心欧氏距离大于1的关键词视作不相关特征并予以移除。此后,两个意群将重新组合成为新的特征池并再次进行二元聚类和不相关特征移除的操作,不断迭代直到特征池内元素的个数不再变化为止。最终,原始特征池被划分成三个部分:两个意群和不相关特征集合。

进一步作为优选的实施方式,所述步骤A13包括:

A131、在对应同一类别的两个意群中,从第一意群任意提取两组η元组X1和X2,从第二意群中任意提取一组η元组Y1;

A132、将η元组X1和X2整合为新的2η元组XX1,将η元组X1和Y1整合为新的2η元组XY1;

A133、分别计算新的2η元组XX1和XY1内两两关键词之间的相似度,并分别计算2η元组XX1和XY1各自的相似度之和,进而计算出两者的差值,得到第一相似度差值;

A134、从第二意群任意提取两组η元组M1和M2,从第一意群中任意提取一组η元组N1;

A135、将η元组M1和M2整合为新的2η元组MM1,将η元组M1和N1整合为新的2η元组MN1;

A136、分别计算新的2η元组MM1和MN1内两两关键词之间的相似度,并分别计算2η元组MM1和MN1各自的相似度之和,进而计算出两者的差值,得到第二相似度差值;

A137、判断第一相似度差值是否大于第二相似度差值,若是,则判定第一意群为强相关特征集合,第二意群为弱相关特征集合;反之,则判定第二意群为强相关特征集合,第一意群为弱相关特征集合。

本发明实施例中,事实上,两个意群中哪一个与当前分类中心思想比较贴近通过人工观察很容易得出结果,以汽车类别为例子,若从两个意群中分别去除任意两个三元组X1={方向盘,引擎,气囊},X2={发动机,油门,车轮},Y1={企业,市场,领域},Y2={公司,战略,人士},通过观察可知,X1和X2中均为汽车零件的关键词,而Y1中的元素相对难以理解彼此的关系更无法直接看出其与汽车列别存在的关系。尤其当元组的长度增加时,上述情况会更加明显。

为此,本发明提出粘度计算的概念,即一组特征集合相对于另一组特征集合的内聚度。具体而言,首先从每个特征集合中生成对应的η-组合,η是一个自定义的常整数;强相关特征组的任意元素组合应取得比弱相关特征组更高的内聚度,故轮流假设当前意群为强相关特征;对于假设强相关特征集合,即本实施例中的第一意群,提取两组η元组X1和X2,而对于假设弱相关特征集合,即本实施例中的第二意群,提取一组η元组Y1,并对X1,X2,Y1重新整合为两个新的2η元组,即“正例+正例”(X1∪X2)和“正例+负例”(X1∪Y1),分别计算新2η元组内两两元素间的相似度之和,并计算两个元组两两元素间相似度之和的差值,得出第一相似度差值。计算完毕后,将假设的强弱特征集合角色反转,并重新执行计算,得到第二相似度差值,最终,比较第一相似度差值和第二相似度差值,其中数值较大的值对应的意群即对应实际的强相关特征集合。

进一步作为优选的实施方式,所述相似度的具体计算公式为:

其中,w1和w2分别为两个关键词对应的词向量,m表示词向量的维度,sim<w1,w2>表示两个关键词的相似度。

进一步作为优选的实施方式,所述相关度的具体计算公式为:

其中,wx表示关键词对应的词向量,W表示特征集合,这里表示强相关特征集合,w表示特征集合中关键词对应的词向量,这里表示强相关特征集合中关键词对应的词向量,rel[wx,W]表示关键词wx与特征集合W的相关度,m表示词向量的维度。

进一步作为优选的实施方式,所述自适应值的具体计算公式为:

其中,N表示强相关特征集合,di表示已知文档集合或弱相关特征集合中关键词对应的当前文档,|di|表示当前文档的关键词数量,|d′i|是当前文档中和N正相关的关键词数量,γ表示自适应值,w表示已知文档集合或弱相关特征集合中的关键词对应的词向量,n表示强相关特征集合中关键词对应的词向量,m表示词向量的维度。

参考图4,本发明一种新型大规模文档主题语义分析系统,包括:

主题集合生成单元,用于检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;

主题分析单元,用于根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。

从上述内容可知,本发明一种新型大规模文档主题语义分析方法及系统通过有监督主体生成步骤和无监督主体生成步骤生成得到主题集合,从而能对给定文档进行相关度计算,得到主题分布情况,本发明能从大规模文档数据当中自动、快速、灵活、有效地完成主题生成,并分析评估任意给定文档在生成主题上的主题分布,适用于快速生成主题的场合。而且本发明没有针对特定场景或领域知识进行优化,原则上支持任意文档集合,具备广义性。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1