一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法

文档序号:10724920阅读:242来源:国知局
一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法
【专利摘要】本发明提出了一种基于上下文的抽象样本信息检索系统。该系统中抽象样本特征化表示方法利用Word2vector提取词义特征,获得抽象词的词向量;而后,对抽象词的词向量进行“最优适应度划分”的聚类,并根据聚类结果将抽象词替代表示为聚类质心;最后,根据质心及其所代表的抽象词的词频,构成词向量聚类质心频率模型(ST?IDF),用于特征化表示抽象样本。本发明降低了聚类及适应度计算的执行次数,提高了抽象样本相似性分析的性能,提升了样本分类准确率。
【专利说明】
一种基于上下文的抽象样本信息检索系统及其抽象样本特征 化表示方法
技术领域
[0001] 本发明涉及数据链报文、半结构化文本或普通文本的信息检索领域,特别涉及基 于词向量(Word2vector)的样本相似性分析及分类。
【背景技术】
[0002] 抽象词是指信息检索样本中无法被语言直接解读的特殊词语,即,无已知语言规 贝1J(词义、语法、语序)可直接地识别其实际语义。大量的抽象词不同程度地存在于信息检索 的样本中,例如军用数据链报文(Link-16、Link-22)、用于数据交换的半结构化文本(XML) 或普通文本。同时,存在大量的数据链报文、半结构化文本或普通文本完全采用抽象词记录 信息。针对该情况,我们将信息检索任务中此类报文或文本称为抽象样本。
[0003] 目前,针对信息检索任务中的抽象样本,在无法直接识别其抽象词语义的情况下, 多采用基于词语统计的样本特征化表示方法。现行的基于词语统计的特征化表示方法无法 有效地提取其词语语义(词义)特征,例如TF_IDF(TermFrequency-Inverse Document Frequency)模型与B0W(Bag of words)模型。
[0004] Word2vector是一种依据上下文关系的词语语义(词义)特征提取方法,最先由 Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时,针对 在不同文档中的每个词语,W 〇rd2vect〇r可依据其上下文关系有效地提取其语义(即词义特 征),并以词向量的形式给出。必须注意的是,Word2vector的词义特征提取机制使得不同文 档中相同的词所对应的词向量并不相同。所以,导致难以根据W 〇rd2vect〇r的词向量形成信 息检索样本的特征化表示,特别是难以形成VSM(向量空间模型)形式的样本特征化表示。
[0005] 目前,抽象样本征化表示需要采用Word2vector作为基于上下文的词义特征提取 方法,并使自身适用于现行的基于样本特征向量的信息检索算法。但是,尚未出现受明确认 可的方法能够根据Word2vector词义特征提取形成VSM形式的抽象样本特征化表示。
[0006] 因此急需提出一种基于上下文的抽象样本信息检索系统及相应的抽象样本特征 化表示方法,解决上述问题。

【发明内容】

[0007] 在信息检索应用领域中,本发明提供了一种基于上下文的抽象样本信息检索系 统,并详阐述了其特征化表示方法。本发明的目的在于,克服现有技术中难以根据 Word2vector的词向量形成样本的特征化表示的情况,解决抽象样本特征化表示中词义特 征提取的问题。
[0008] -种基于上下文的抽象样本信息检索系统,包括分词功能模块、词义特征提取模 块、抽象词特征替代表示模块、ST-IDF模块和分类模块,所述抽象样本信息检索系统的抽 象样本特征化表示方法包括以下步骤:
[0009] 步骤1、利用分词功能模块对样本进行抽象词的分词:当样本是数据链报文时,可 根据数据链报文的格式与字长划分每个抽象词;当样本是文本时,可根据空格及特定分词 规则划分每个抽象词。
[0010] 步骤2、利用词义特征提取模块提取抽象词的词语语义特征:针对由步骤1得到的 抽象词,采用W〇rd2 vect〇r方法,基于抽象词的上下文关系提取其词义特征,并以词向量形 式表不。
[0011] 步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示:首先,采用最 优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即 实现对抽象词词向量的"最优适应度划分"的聚类。其中,词向量聚类划分的质心称为S(表 示为词向量空间中的向量),S的数量k即是聚类划分个数,所有样本中抽象词的数量为N,已 知的样本分类数量为C,f(k)为体现聚类效果适应度的函数,
[0013] α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的 均值,令正整数ke[N,NXC];当f(k)=max(f(k))时,令最优聚类效果适应度下的聚类划分 数量K = k,质心S的数量最终确定为K。然后,根据最终的聚类结果将抽象词替代表示为其词 向量所属聚类划分的质心S,或称为用质心S代表其聚类划分内的抽象词,即将抽象词的特 征近似认同为所属聚类划分的质心。
[0014]步骤4、利用ST-IDF模块输出抽象样本特征化表示:首先,统计每个抽象词在一个 样本中出现的频率,根据步骤3给出的替代表示关系,将质心S所代表的抽象词在该样本中 的出现频率计为质心S的频率;并统计词向量聚类质心的逆向文件频率;而后,参照TF-IDF 模型构成词向量聚类质心频率模型--ST-IDF,ST-IDF模型属于VSM形式,用于特征化表示 一个抽象样本。
[0015] 步骤5、相似度计算,实现抽象样本的相似性分析:根据步骤4所提供的特征化表 示,计算两个抽象样本间的相似度,并据此进行信息检索领域中样本分类算法的执行。
[0016] 步骤6、利用分类模块对特征化表示后的抽象样本进行类别判定:根据相似度,采 用NWKNN算法对抽象样本进行类别判定。
[0017] 本发明的有益效果如下:
[0018] 本发明提出了一种基于上下文的信息检索系统及其抽象样本特征化表示方法,它 包括两个方面的改进:(1)提出了最优聚类效果适应度划分算法,并根据在最优聚类效果适 应度下的词向量聚类,进行了抽象词特征替代表示;(2)提出了用于抽象样本特征化表示的 词向量聚类质心频率模型--ST-IDF。
[0019] 本发明首先利用W〇rd2VeCt〇r提取词义特征,获得样本中所有抽象词的词向量;而 后,提出了最优聚类效果适应度划分算法,并根据最优聚类效果适应度对抽象词的词向量 进行K-means聚类,并根据聚类结果将抽象词替代表示为其词向量所属聚类划分的质心(记 为S);最后,将质心所代表的抽象词在样本中的出现频率计为质心S的频率,并构成词向量 聚类质心频率模型--ST-IDF,用于特征化表示抽象样本。与传统的基于词语统计的样本 特征化表示方法相比,ST-IDF模型包含抽象词的词义特征,且属于VSM(向量空间模型)形 式,可适用于现行的基于特征向量的信息检索算法(如分类、回归、聚类)。
[0020] 从实证的角度,采用信息检索领域经典样本分类算法NWKNN,在公用数据集 Reuter-21758、Wikipedia XML之上,将ST-IDF模型与TF-IDF模型进行对比实验,实验结果 客观地展示了本发明所述方法的明显优势,提高了抽象样本相似度计算的准确性,提升了 抽象样本分类准确度,并有效拓展了信息检索领域中向量空间模型的构建方法。
【附图说明】
[0021] 图1为本发明所述抽象样本信息检索系统的数据与模块图。
[0022] 图2为本发明所述信息检索方法的流程图。
[0023] 图3为Word2vector方法基本原理示意图。
[0024] 图4为聚类效果适应度函数图。
[0025] 图5为词向量空间中根据聚类的替代表示关系示意图。
【具体实施方式】
[0026] 下面将结合附图和实施例对本发明做进一步的说明。
[0027]如图1所示,其中内容为本发明一种基于上下文的抽象样本信息检索系统,包括分 词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块。
[0028] 所述抽象样本信息检索系统的抽象样本特征化表示方法包括以下步骤:
[0029] 步骤1:利用分词功能模块对样本进行抽象词的分词。当样本完全采用抽象词记录 信息时,无法根据字典或词库进行样本中抽象词的分词。所以,本步骤仅将抽象词视为 ASCII字符的字符串。当样本是数据链报文时,根据数据链报文的格式与字长划分每个抽象 词;当样本是文本时,根据空格及特定分词规则划分每个抽象词。将抽象词的分词记为 wordi, t,词语wordi, t表示第i个样本中的第t种抽象词的分词,有i = {1,2,…,| D | },| D |为数 据集中〇的样本数4={1,2,"_,11},11为抽象词种类数,所有样本中抽象词¥(^(1^的数量为 N〇
[0030] 步骤2:利用词义特征提取模块,提取抽象词的词语语义特征。针对由步骤1得到的 抽象词,采用W〇rd2 vect〇r方法,基于抽象词的上下文关系提取其词义特征,并以词向量形 式表示。本步骤运用Word2vec工具,可获得抽象词的词向量。
[0031 ] Word2vec是Word2vector方法的模型实现,可基于词语的上下文关系,快速有效地 训练并生成词向量。它包含了两种训练模型,CB0W与Skip_gram。作为用于训练生成词向量 的软件工具,W〇rd2ve C中训练模型的基础是神经网络语言模型NNLM,其基本原理如图2所 不。
[0032] 根据由步骤1得到的抽象词,NNLM可计算某一个上下文的下一个词语为wordi, t的 概率,即p(wordi,t = t | context),词向量是其训练的副产物。NNLM根据数据集D生成一个对 应的词汇表VJ中的每一个词语都对应着一个标记worcU.t。为了确定神经网络的参数,需要 通过数据集来构建训练样本并作为神经网络的输入。NNLM词语上下文样本的构建过程为: 对于D中的任意一个词wordi, t,获取其上下文context (wordi, t)(例如前η-I个词),从而得到 一个元组(context(wordi,t),wordi,t)。以该元组作为神经网络的输入进行训练。NNLM的输 入层和传统的神经网络模型有所不同,输入的每一个节点单元不再是一个标量值,而是一 个向量,向量的每一个值为变量,训练过程中要对其进行更新,这个向量就是词向量。由图2 可知,对于每一个词wordi, t,NNLM都将其映射成一个向量wi, t,即为词向量。
[0033]运用Word2VeC工具获得的词向量Wl,t具体表示第i个样本中的第t种抽象词分词的 词义特征,有i = {1,2,…,| D |},| D |为样本数,所有样本中抽象词的词向量wi, t的数量为N。 [0034]步骤3:利用抽象词特征替代表示模块,用词向量聚类质心代表其聚类划分内的抽 象词。首先,采用最优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即实现对抽象词词向量的"最优适应度划分"的聚类。词向量的K-means聚 类中,采用两词向量夹角的余弦值计算二者间的距离。
[0035] 根据步骤2所得,所有样本中抽象词的词向量wi, t的数量为N,词向量wi, t具体表示 第i个样本中的第t种抽象词分词的词义特征。已知的样本分类数量为C,而样本数量为Μ。本 步骤中,将词向量聚类划分的质心称为S(表示为词向量空间中的向量),S的数量k即是聚类 划分个数。
[0036] 为体现词向量空间中的K-means聚类效果,本发明给出聚类划分数量适应性的计 算。为表示聚类划分数量适应性,令f (k)为体现聚类效果适应度的函数,
[0038] α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的 均值,具体地有:
[0041] 其中,S与f为不同聚类划分的质心向量,《^与/1>t是类属于第b个聚类划分中的 不同抽象词分词的词向量。
[0042] 设聚类划分个数ke[N,NXC],且为正整数,当f(k)=max(f(k))时,令最优聚类效 果适应度下的聚类划分数量K = k,f(K)是聚类效果适应度的最大值。经计算可知,函数f(k) 在N到K的区间是单调递增的,在K到NXC的区间是单调递减的,函数f(k)的图像如图3所示。 [00 43] 所以,当f (k)=max(f (k))时,K = k,f (K)是聚类效果适应度函数的极值,即最优聚 类效果适应度,K-means聚类质心S的数量最终确定为K。在确定max(f (k))、K与f (K)的过程 中,为减少K-means聚类及f(k)计算的执行次数,本发明提出最优聚类效果适应度划分算 法,算法中每进行一次f(k)计算则需预先执行一次质心数量为k的K-means聚类,具体如下:
[0044]最优聚类效果适应度划分算法
[0046] 最优聚类效果适应度划分算法分析:根据算法的递归运算特点,其时间复杂度为 〇 (l〇g2[(NXC-N)/4],所以本步骤中实际执行的K-means聚类次数与f (k)计算次数小于等 于log2[(NXC-N)/4]次;而当不采用最优聚类效果适应度划分算法时,有k={N,N+l,N+ 1,…,NXC},确定max(f (k))、K与f (K)的过程中所需执行的K-means聚类与f (k)计算的平均 次数为(NXC-N)/2。所以,本步骤中的最优聚类效果适应度划分算法降低了聚类及适应度 计算的执行次数。
[0047] 最后,根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S。 具体地,当f(k)=max(f(k))时,最优聚类效果适应度下的聚类划分数量K = k,将任意抽象 词w1>t替代表示为其词向量所属聚类划分的质心S,即将抽象词的特征近似认同为所属聚类 划分的质心。在任意局部词向量空间中,用质心S代表其聚类划分内的抽象词,其对应关系 如图4所示。具体替代表示关系如下式所述:
[0049] 其中,第b个聚类质心Sb所代表的抽象词wordi,t构成一个抽象词集合,Wi,t是抽象 词wordi, t的词向量,Wb是类属于质心Sb所在聚类划分的词向量所对应的抽象词的集合。
[0050] 步骤4:利用ST-IDF模块,输出抽象样本特征化表示。首先,统计每个抽象词在一个 样本中出现的频率,根据步骤3给出的质心S与抽象词的替代表示关系,将第b个质心Sb所代 表的抽象词在该样本中的出现频率计为质心Sb的频率;并统计词向量聚类质心Sb的逆向文 件频率,有b = {1,2,…,K}。而后,参照TF-IDF模型构成词向量聚类质心频率模型--ST-IDF,具体构成方式将进一步详细阐述。
[0051 ] TF-IDF模型中,样本doci的特征化表示由特征向量di实现,
[0052] di= (di(i) ,di(2),......,di(n))
[0053] 向量di中第t维元素 di(t)计算方式如下:
[0054] di(t) = TF(wordt,doCi) · IDF(wordt),
[0055] TF(wordt, doci)是词语wordt在样本doci中的频率,有其计算方式
[0057]中分子是该词语在样本中的出现次数,而分母则是在文件中所有词语的出现次数 之和,
[0058] IDF( wordt)为词语wordt的逆向文件频率,有其计算方式
[0060]其中,D为样本doci的构成数据集,|D|为数据集D中样本的总数,I {doci|wordte doci} |为包含词语wordt的样本数量。
[0061 ] 参照TF-IDF模型,ST-IDF模型具体构成如下:
[0062] SF( Sb,doci)是词向量聚类质心Sb在抽象样本doci中的频率,有其计算方式
[0064]其中,Wb是类属于质心Sb所在聚类划分的词向量所对应的抽象词的集合,TF( Wi,t) 表示抽象词wi,t在抽象样本doci中出现的频率,SF(Sb,doci)仅累计抽象样本doci中由质心Sb 所代表的抽象词的频率。
[0065] IDF(Sb)为词向量聚类质心Sb的逆向文件频率,有其计算方式
[0067]其中,D为抽象样本doc 4勺构成数据集,|D |为数据集D中样本的总数, I 丨u. e I为包含由质心sb所代表的抽象词的样本的数量。
[0068] ST-IDF模型中,抽象样本doci的特征化表示由特征向量#实现,
[0070] 向量乡中第b维元素#(&)计算方式如下:
[0071] di[h) = SFiS^doc^· lDF(Sh),
[0072] 本步骤所提出的ST-IDF模型属于VSM(向量空间模型)形式,用于特征化表示一个 抽象样本。
[0073] 步骤5:相似度计算,实现抽象样本的相似性分析。根据步骤4所提供的特征化表 示,计算两个抽象样本间的相似度;并据此进行信息检索领域中样本分类算法的执行。
[0074] -种基于上下文的信息检索抽象样本特征化表示方法采用步骤4所提出的ST-IDF 模型进行抽象样本特征化表示。任意两抽象样本间相似性由相似度函数Sim (doci,doc/ )表示,其具体计算方式如下:
[0075] Sim(cIoc,,cIoc·) = cos{i/(,i//),
[0076] cos(K)为ST-IDF向量空间中特征向景4与#间夹角的余弦值。
[0077]步骤6:利用分类模块,对特征化表示后的抽象样本进行类别判定。根据相似度,采 用NWKNN算法对抽象样本进行类别判定。
[0078]根据相似度函数SinKdoc^doc/),采用信息检索领域中的经典样本分类算法一一 NWKNN执行抽象样本分类。NWKNN是权重邻居KNN算法,用于不均衡分类样本集的样本分类判 另IJ,其公式如下:
[0080] 其中,函数score (doc, Ci)计算得出将文档doc归于分类Ci的评估值;函数Sim(doc, docj)表示样本doc与已知类别样本docj的相似度,采用向量余弦距离计算;Weighti为分类 权重设定值,赋值为3.5;函数5((1〇(^,(^)表示样本(1〇(^是否属于类别(^,若样本(1〇(^属于类 另lJ Cl,则该函数取值为1,否则,该函数取值为0。
[0081 ] 样本分类的性能评估采用Fl-measure标准。该标准结合召回率Recall和准确率 Precision的评估度量F1如下:
[0083]运用Fl-measure标准,可观察到一个样本分类系统针对数据集的分类效果。为便 于比较,将总结抽象样本分类结果的宏观F1度量值Macro-Fl,同时,可以得到抽象样本分类 结果的Average precision。
[0084]以维基百科XML数据Wikipedia XML为数据交换半结构化文本的数据集,以路透社 文档集Reuter-21578为普通文本的数据集,采用NWKNN算法进行抽象样本分类实验,并采用 Fl-measure标准进行样本分类的效果评估,本发明提出的SF-IDF向量与现有技术中TF-IDF 向量的分类效果对比见表1、表2:
[0085] 表lWikipedia XML数据集上TF-IDF向量与SF-IDF向量的分类效果比较
[0087] 表2Reuter-21578数据集上TF-IDF向量与SF-IDF向量的分类效果比较
[0089]根据表1、表2所述,可见本发明提出的SF-IDF向量的分类效果明显优于现有技术 中TF-IDF向量,尤其是在Wikipedia XML数据集上平均准确率由原有的48.7 %提高到 59.2%,在Reuter-21578数据集上平均准确率由原有的57.1 %提高到63.3%。实验结果显 示,针对抽象样本相似性分类的信息检索任务,本发明所提出的ST-IDF模型相较TF-IDF模 型拥有更优良的Fl-measure评估结果,证明本发明所提供的特征化表示方法具备抽象样本 词义特征提取的优势。
【主权项】
1. 一种基于上下文的抽象样本信息检索系统,其特征在于:它包括分词功能模块、词义 特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块,所述抽象样本信息检索 系统的抽象样本特征化表示方法包括W下步骤: 步骤1、利用分词功能模块对样本进行抽象词的分词:当样本是数据链报文时,可根据 数据链报文的格式与字长划分每个抽象词;当样本是文本时,可根据空格及特定分词规则 划分每个抽象词; 步骤2、利用词义特征提取模块提取抽象词的词语语义特征:针对由步骤1得到的抽象 词,采用Word2vector方法,基于抽象词的上下文关系提取其词义特征,并W词向量形式表 示; 步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示:首先,采用最优聚 类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K-means算法聚类,即实现 对抽象词词向量的"最优适应度划分"的聚类,其中,词向量聚类划分的质屯、称为S(表示为 词向量空间中的向量),S的数量k即是聚类划分个数,所有样本中抽象词的数量为N,已知的 样本分类数量为C,fXk)为体现聚类效果适应度的函数,α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的均值, 令正整数ke阳,NXC];当fXk)=max(fXk))时,令最优聚类效果适应度下的聚类划分数量K =k,质屯、S的数量最终确定为K;然后,根据最终的聚类结果将抽象词替代表示为其词向量 所属聚类划分的质屯、S,或称为用质屯、S代表其聚类划分内的抽象词,即将抽象词的特征近 似认同为所属聚类划分的质屯、; 步骤4、利用ST-IDF模块输出抽象样本特征化表示:首先,统计每个抽象词在一个样本 中出现的频率,根据步骤3给出的替代表示关系,将质屯、S所代表的抽象词在该样本中的出 现频率计为质屯、S的频率;并统计词向量聚类质屯、的逆向文件频率;而后,参照TF-IDF模型 构成词向量聚类质屯、频率模型一一ST-IDF,ST-IDF模型属于VSM形式,用于特征化表示一个 抽象样本; 步骤5、相似度计算,实现抽象样本的相似性分析:根据步骤4所提供的特征化表示,计 算两个抽象样本间的相似度,并据此进行信息检索领域中样本分类算法的执行; 步骤6、利用分类模块对特征化表示后的抽象样本进行类别判定:根据相似度,采用 NWK順算法对抽象样本进行类别判定。
【文档编号】G06F17/30GK106095791SQ201610369833
【公开日】2016年11月9日
【申请日】2016年5月29日
【发明人】吴 琳, 韩广, 袁鑫攀, 李亚楠
【申请人】长源动力(山东)智能科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1