基于统计学的文本特征词汇提取方法与流程

文档序号：11063477阅读：2283来源：国知局

本发明涉及语义网络技术领域，具体涉及一种基于统计学的文本特征词汇提取方法。

背景技术：

文本特征指的是最能代表文本主旨的词汇集合，文本特征不仅可以很好的概括文本主要内容和主旨，而且可以降低文本处理的复杂程度。前常用的文本特征提取方法，包括词频-反文档频率方法、信息增益等方法。词频-反文档频率方法的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况，所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征，而无法用于提取多个类别的文本特征。上述两种文本特征提取方法没有文本集合或没有事先分好类别，仅仅给出一个文本，那么将无法提取这个文本的特征，这两种方法的优点在于计算速度快，但是计算结果的精度不高。另外上述两种方法会引起高维稀疏的问题以及不知特征词汇集合对文本的重要程度和贡献度。而且,上述算法没有很好地解决文本数据中存在的自然语言问题同义词和多义词。这些问题干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。为了满足上述需求，本发明提供基于统计学的文本特征词汇提取方法。

技术实现要素：

针对于特征向量高维稀疏问题、未考虑特征词汇集合对文本的重要程度和贡献度的问题、存在同义词与多义词问题，本发明提供了一种基于统计学的文本特征词汇提取方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：利用中文分词技术对文本进行分词处理；

步骤2：根据停用表对文本词汇进行去停用词处理，得到文本特征词汇集合T＝(c₁，c₂，…，c_i，…，c_z)；

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值(α₁，α₂，…，α_r)；

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值β₁、β₂、β₃、β₄；

步骤5：综合上述步骤，利用目标权重函数mw(c_i)对文本词汇集合T进行进一步降维处理得到词汇集合T′＝(c₁，c₂，…，c_i，…，c_z′)；

步骤6：根据语义相似度条件，合并相似度高的词汇，此时文本的特征词汇向量为

本发明有益效果是：

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、此方法克服了信息增益方法只适合用来提取一个类别的文本特征的缺点。

4、为后续的文本相似度与文本聚类技术提供良好的理论基础。

5、此方法结果更符合经验值。

6、此方法解决了文本特征词汇高维稀疏的问题。

7、此方法解决了同义词与多义词的问题。

5、此算法具有更大的利用价值。

6、此方法计算了特征词汇中不同词汇对文本思想的贡献度。

附图说明

图1基于统计学的文本特征词汇提取方法的结构流程图

图2 为n元语法分词算法图解

图3中文文本预处理过程流程图

具体实施方式

为了解决特征向量高维稀疏问题、未考虑特征词汇集合对文本的重要程度和贡献度的问题、存在同义词与多义词问题，结合图1-图3对本发明进行了详细说明，其具体实施步骤如下：

步骤1：利用中文分词技术对文本进行分词处理，其具体分词技术过程如下：

步骤1.1：根据《分词词典》找到待分词句子中与词典中匹配的词，把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图2所示。

步骤1.3：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(Ci)₂lnp(Ci)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.4：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m<n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式w(C₁，C₂)，w(C₂，C₃)，…，分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤2：根据停用表对文本词汇进行去停用词处理，得到文本特征词汇集合T＝(c₁，c₂，…，c_i，…，c_z)，其具体描述如下：

停用词是指在文本中出现频率高，但对于文本标识却没有太大作用的单词。去停用词的过程就是将特征项与停用词表中的词进行比较，如果匹配就将该特征项删除，文本特征词汇集合T＝(c₁，c₂，…，c_i，…，c_z)

综合分词和删除停用词技术,中文文本预处理过程流程图如图3。

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值(α₁，α₂，…，α_r)，其具体描述如下：

各个词在文本中的分布是不同的，而不同位置的词对于表示文本内容的能力也是不同的。这个可以根据统计调查得出一系列的位置权重值(α₁，α₂，…，α_r)。

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值β₁、β₂、β₃、β₄，其具体描述如下：

现代汉语语法中，一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色。词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β₁、β₂、β₃和β₄，且β₁＞β₂＞β₃＞β₄。

步骤5：综合上述步骤，利用目标权重函数mw(c_i)对文本词汇集合T进行进一步降维处理得到词汇集合T′＝(c₁，c₂，…，c_i，…，c_z′)；需先求解词汇集合T′中的词汇在文本库中的期望E(c_i)与方差S(c_i)，其具体计算过程如下：

步骤5.1)词汇在文本库中的期望E(c_i)

上式n为文本库中文本数量，P_j(c_i)为特征词集中词汇c_i在第j文本中的概率值。

上式n_j(c_i)为特征词集中词汇c_i在第j文本中出现的次数，N_j为第j文本中特征词汇的总个数。

步骤5.2)词汇在文本库中的方差S(c_i)

上式为特征词集中词汇c_i在文本库中平均概率。

步骤5.3)构造目标权重函数mw(c_i)

α_m为上述位置权重值，m∈(1，2，…，r)，β_k为上述词性权重，k∈(1，2，3，4)；词汇期望越小，同时方差越大，则词汇区分文本的能力就越强，即mw(c_i)越大词汇区分文本的能力就越强。

步骤5.4)设定阈值条件f，特征词汇集合T降维到词汇集合

T′＝(c₁，c₂，…，c_i，…，c_z′)，z′＜z

条件为mw(c_i)≥f，i∈(1，2，…，z′)

f可以由实验迭代测试出来。

步骤6：根据语义相似度条件，合并相似度高的词汇，此时文本的特征词汇向量为需先求解两本体概念间的相似度，其具体计算过程如下：

步骤6.1)利用基于《知网》概念的方法，特征词汇集合T′中的词汇映射到概念，求解两两词汇对应的两本体概念(g₁，g₂)间语义相似度即为词汇相似度。

构造两本体概念(g₁，g₂)语义相似度sim₁(g₁，g₂)

当两个概念共同直接子节点个数越多，则概念(g₁，g₂)相似度越大，反之，越小。

从概念(g₁，g₂)的直接子节点中找出共有的子节点个数N。

为了解决子节点多继承问题，有下式：

α为最长路径L₁的权重系数，β为(g₁，g₂)共有的子节点个数N的权重系数，α+β＝1。权重系数可以根据实验结果迭代得到。d₁为两本体概念的语义信息距离，d₂为从子集中找出概念经共同父节点的最长路径。

上式d₁＝[I(g₁)+I(g₂)]-I(ICN)

I(g₁)、I(g₂)分别为概念g₁、g₂在本体树中的信息量，I(ICN)为概念g₁、g₂在本体树中的共有信息量。

步骤6.2)设定阈值g，合并相似度高的词汇，重新分配其权重。

条件：sim₁(g₁，g₂)≥g

合并后的词汇为权重更大的那个，此时词汇的权重mw(c_i)′为两词汇权重的平均值，如下所式：

迭代计算两两词汇间的相似度，直到没有满足上述条件的词汇为止。

综上即得，文本特征词汇向量

基于统计学的文本特征词汇提取方法，其伪代码计算过程如下：

输入：一个文本

输出：提取文本特征词汇向量。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金平艳;
技术所有人：四川用联信息技术有限公司;
我是此专利的发明人

上一篇：基于词典的多维度情感分析方法与制造工艺
上一篇：基于基尼指数求解文本相似度的方法与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。