一种基于二元和三元共词潜在语义信息的文献表示方法与流程

文档序号:12665895阅读:878来源:国知局

本发明属于文献信息处理方法技术领域,具体涉及一种基于二元和三元共词潜在语义信息的文献表示方法。



背景技术:

文本数据挖掘是数据挖掘的一个主要方向,通过对出现在文本数据中的高频关键词进行词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些关键词按照出现频次由高到低的排列还不能表现出这些高频关键词之间的联系,因此可以采用共现分析的技术来进一步挖掘这些关键词之间的联系。关键词的共现分析是根据关键词在同一篇论文中共同出现的次数来表示关键词之间的联系。一般认为,如果两个关键词频繁在同一篇论文中同时出现,往往表明这两个关键词之间具有比较密切的联系,这就是共现分析的理论基础。

目前,对共现分析的研究大都考虑的两两词之间的共现关系,三词共现或者更多词的共现已可以进一步挖掘和利用。根据共现理论,多词共现更能凸现主题相似性,因此理论上讲,利用多词共现的信息能提高文本语义信息的挖掘。在国内冷伏海老师首次研究了三元共词,并定义了稳定度和影响力两个指标对三元共词进行量化。与之相近的概念是三重共现,首次由庞弘燊和方曙提出,指三个以上(含三个)相同类型或不同类型特征项共同出现的现象。本研究沿用“元”的概念,将两词、三词共现称为二元、三元共词或二元、三元共现,通过对关键词二元和三元共词信息的提取进而实现文献向量的表示。



技术实现要素:

本发明的目的是提供一种基于二元和三元共词潜在语义信息的文献表示方法。

本发明为实现上述目的而采取的技术方案为:

一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:

第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;

第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;

第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:

dl=(al1 al2 al3 … alm)T∈Rm,l=1,2,…,n

其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m

第四步:三元共现层矩阵表示

其中:表示第j个关键词与所有关键词对(ti,tk)(i,k=1,2,…,m)的三元共现矩阵,称为三元共现的第j层,为“篇-词”矩阵A的第j列,为对角矩阵,其对角元依次为的分量;

第五步:计算关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;

第六步:三元共现频次的计算:

由于ci∪j∪k=ci+cj+ck-cij-cjk-cik+cijk所以三元共现频次为

cijk=ci∪j∪k-(ci+cj+ck)+(cij+cjk+cik)

其中ci∪jk为至少包含(ti,tj,tk)三词之一的文献篇数,可由“篇-词”矩阵A=(alj)n×m得到;cij、cjk和cik为关键词两两共现的频次,ci,cj和ck分别为第i,j,k个关键词各自的频次,可由关键词之间的共词矩阵C=ATA得到;

第七步:共现强度计算:

(1)二元共现强度计算:

其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;

(2)三元共现强度计算:

bijk为第i,j,k个关键词的三元共现强度;

第八步:二元、三元加权CLSVSM的构建

其中,

Il1={j|alj=1}为所有alj=1的j的指标集。

本发明采用上述技术方案,通过对二元、三元共现信息的加权实现文献向量的表示,通过二元、三元共现信息的提取深度挖掘文献间的语义信息,提高文献聚类的精度。

本发明的主要优点如下:

1.该发明研究了一种三元共现信息的矩阵表示方法——三元共现层矩阵。研究三元共现,首要解决的是三元共现信息的表示问题,然而表示二维关系的矩阵不利于表示所有的三元共现关系。因此我们的研究给出了三元共现的层矩阵表示,即其中任何一词与任意两词的三元共现矩阵表示,具体表示方式见发明内容的第四步。

2.该发明引入了一种三元共现频次的计算方法。该计算方法从概率论中得到启发,根据二元共现频次和关键词各自的频次求得三元共现频次。该计算方法将有效提高算法的运算速度,降低计算的复杂度。三元共现频次的计算方法详见研究内容的第六步。

3.该发明基于二元和三元共现强度构成了二元和三元加权共现潜在语义信息的文献表示方法。在文献表示模型中,三元共现信息相比二元共现信息有更重要的潜在语义信息,也对文献主题聚类有更好的作用。因此,将两两共现信息和三元共现信息加权利用,且给三元共现信息更大的权重,提高了文献主题聚类的精度,具体表示方式见研究内容的第八步。

具体实施方式

实施例1

一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:

第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系:

数据来源于CNKI,根据其分类,分别从信息科学下的“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科各选300篇文献作为分析的文献,除去没有关键词的文献4篇,最终获得的文献总数为896篇,其中“出版”299篇、“图书情报与数字图书馆”298篇、“档案及博物馆”299篇,并获取不同的关键词2509个,即:文献数n=896,关键词数m=2509,表1为截取的前20篇文献及其对应的全部关键词,表1中LM为文献类别,ID为文献编号,k1-k10为文献相应关键词。

表1:文献与相应关键词列表(部分)

第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,表2为我们实验结果中的前20个关键词及相应的词频:

表2:关键词频次统计(部分)

第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:

dl=(al1,al2,...,al,2509)T∈R2509,l=1,2,…,896

其中:dl是896篇文献中第l篇文献在欧式空间R2509中的表示向量,因为有2509个关键词,所以欧式空间为R2509,alj(j=1,2,…,2509)为第j个关键词在第l篇文献中的权重,l为文献序号,T表示转置运算,当第j个关键词是文献dl的关键词时a lj等于1,否则为0,文献集的“篇-词”矩阵为A=(alj)896×2509,表3为矩阵A在实验中的前20行和前15列在Excel中的数据呈现,该实验中矩阵A的维数为896×2509,表3中第1行记录了2509个关键词;第1列记录了类别信息;第2列记录了文献的ID;第1行第1列位置的897指使用该Excel表格897行,

表3:基于VSM的“篇-词”矩阵A(部分)

第四步:三元共现层矩阵表示:

三元共现层矩阵的表示形式为其中:表示第j个关键词与所有关键词对(ti,tk)(i,k=1,2,…,2509)的三元共现矩阵,称为三元共现的第j层,为“篇-词”矩阵A的第j列,为对角矩阵,其对角元依次为的分量;

第五步:关键词之间的共现矩阵计算:

关键词之间的共现矩阵C=ATA=(cij)2509×2509,表4为矩阵C在实验中的部分结果呈现,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次,即对角线上的值。部分实验结果见表4,表中第1行和第1列为关键词。

表4:关键词共现矩阵C(部分)

第六步:三元共现频次计算:

根据公式cijk=ci∪j∪k-(ci+cj+ck)+(cij+cjk+cik),i,j,k=1,2,……,2509,通过“篇-词”矩阵A和关键词之间的共现矩阵C来获得关键词各自频次、二元共现频次,从而来计算三元共现频次,表5为部分关键词的共现频次表,表中前三列为关键词,第四列为三元共现频次,五至七列为关键词两两共现频次,八至十列为关键词各自频次,第十一列为至少包含其中一个关键词的文献篇数,

表5:共现频次表(部分)

第七步:共现强度计算:

(1)二元共现强度计算

其中,c11,c22,…,c2509×2509分别为第1个,第2个,……,第2509个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1,下表为截取的实验中二元共现强度矩阵B的部分实验结果,表中第1行和第1列为关键词,

表6:共现强度矩阵B(部分)

根据三元共现频次计算三元共现强度,

bijk为i,j,k三个关键词之间的共现强度,cijk为i,j,k三个关键词的三元共现频次,cij、cjk和cik为关键词两两共现的频次,表7为截取的实验中三元共现强度的部分实验结果,表中前三列为关键词,第四列为3个关键词的共现次数,第五列为对应关键词的三元共现强度,

表7:三元共现强度(部分)

第八步:构建二元和三元加权共现潜在语义向量空间模型(CLSVSM)二元和三元加权CLSVSM模型为:

其中:

表8给出了二元和三元加权CLSVSM模型得到的新的“篇-词”矩阵在实验中的结果,这里我们只截取了前20行和前15列,表中第1列记录了文献类别信息,第2列记录了文献的ID,第1行记录了2509个关键词:

表8:二元和三元加权CLSVSM得到新的“篇-词”矩阵(部分)

第九步:文献聚类

实验中将二元和三元加权共现潜在语义向量空间模型与二元CLSVSM进行比较。实验采用D-I2方案进行K-means聚类,每一种模型都进行了50次实验。表9给出了两种实验结果的比较。

表9:二元和三元加权CLSVSM与CLSVSM的实验比较

上表中的↓表示实验结果越小越好;相反,↑则表示实验结果越大越好。实验结果显示,二元和三元加权CLSVSM结果优于二元CLSVSM模型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1