基于聚合加权矩阵压缩算法的文本语义表示方法

文档序号:9929511阅读:353来源:国知局
基于聚合加权矩阵压缩算法的文本语义表示方法
【技术领域】
[0001] 本发明属于数据挖掘技术领域,具体提出一种基于聚合加权矩阵压缩算法的文本 表示方法。
【背景技术】
[0002] 纯文本作为一种广泛存在的数据形式(不同类型的网页、数字化的图书、日志文 件等等),一直以来是自然语言处理、机器学习、人工智能等领域研究的重点。在现今网络数 据不断膨胀的条件下,针对文本数据的分析处理技术显得愈发重要。传统文本处理技术的 一个共同点是需要将以自然段落呈现的文本数据转换为可计算的数据形式。其中,将文本 转化为固定大小的向量形式作为输入是许多文本处理技术的先决条件。以文本聚类分析为 例,许多聚类算法的核心思想是,首先将文本转化为向量形式,再通过相似度比较算法比较 文档向量两两之间的相似度,最后根据相似度计算结果将相似文档划分为一类。在此类文 本聚类算法中,如何将文本转化为向量既是算法的先决条件,也是影响算法效果的关键因 素。
[0003] 文本表示方法的研究长久以来都是国内外许多学者的研究焦点。最早的文本表示 法使用"词袋"模型,以自然语言中所有可能出现的单词作为维度,以每一个维度对应的单 词在目标文档中出现的次数作为目标文档在该维度上的取值来构建文档向量。使用词袋模 型生成的文档向量度量文档间相似度时,文档间重复出现的词越多,文档越相似。该模型的 缺陷是当两个文档表达的语义相近,但使用不同的词进行描述时,模型不能发现这两个文 档之间的相似性。针对这一问题,学者们提出了不同的解决方案。其中一种方案利用已有 的单词向量生成方法,通过单词向量的加权累加生成文档向量。由于单词向量生成方法保 证了同义词、近义词的单词向量位于词袋模型生成的特征空间中相邻的位置,因此由这些 单词向量加权累加生成的文档向量也位于此特征空间中相邻的位置,从而保证了了语义相 近的文档的表征向量也相似。然而,这种基于单词向量的文档向量生成方法通常关注于单 词向量的生成方式,却忽略了单词向量的组合方式。加权累加方式倾向于使用权重较大的 某些单词向量表征整篇文档,使得生成的文档向量信息缺失,更进一步造成了文档间相似 度的错误估计。此外,现有方法在估计单词向量的权值时,并没有考虑单词向量本身的语义 相似性,造成了权值估计的偏差。

【发明内容】

[0004] 本发明旨在提出一种新的基于单词向量的文档向量生成方法,该方法侧重于对单 词向量组合方式的改进。本发明首先通过对数平滑手段构造单词向量,提升了单词向量的 语义表征能力;然后利用语料库级别的全局文档频信息和目标文档中的局部词频信息设 计了单词向量聚合加权方法计算每个单词向量针对目标文档的权重,最后通过无穷范数求 取,即最大值比较方法生成文档向量。该方法以单词向量间的相似性作为权值度量的依据, 修正了单词向量权重的度量方法;充分比较了所有单词向量在相同维度的取值,不会盲目 倾向于权重较大的单词,捕获了更多的语义信息,以期在实际应用中更具鲁棒性。
[0005] 本方法首先根据给定的语料库生成单词向量,并保存由单词向量构成的全局平滑 语境,具体步骤如下:
[0006] 根据学界普遍接受的观点--语义相同的单词有相同的语境,量化后的语境是单 词语义的有效表示方法。本方法以单词作为维度,以向量的形式量化单词的语义,通过统计 单词与任意维度在给定语料库中的共现频率作为该单词在这一维度上的取值。如图1中所 示, Wl,V]是从语料库中抽取的单词,且Wl = Vl。以单词V]作为维度,图中矩阵的任意行向 量i对应单词Wl语义的量化,其中是单词 Wl与维度V]的共现频率。这些行向量构成的 矩阵被称之为全局语境。而本发明使用自然对数对共现频率进行了平滑处理,因此全局语 境被进一步称之为全局平滑语境。图中所示是一个由m个单词向量构成的全局平滑语境矩 阵,每一个单词向量的维度也为 m。由于在后续每一文档向量的生成过程中均需要使用全局 平滑语境,因此把全局平滑语境作为常量保存。
[0007] 生成全局平滑语境后,在生成任意目标文档向量时,均需度量每一个单词向量针 对此文档的权重。本发明考虑到同义词现象使得一些单词有相同或者相近的单词向量,也 即是说,这些单词虽然在形式上不同,但它们的语义相同,在构建文档向量时的作用相同, 因此应当有相同的权重。本发用以语义相近的单词集合中单个单词文档频的最大值作为集 合所包含所有单词的初始权重。因此单词向量权重的计算包含三部分:将相似的单词向量 聚为一簇、计算每一簇中文档频的最大值和最终权值的计算。其中前两部分合并为一步,具 体步骤如下:
[0008] 步骤一:单词向量聚合。本步骤采用层次聚类思想对单词向量进行聚合。算法初 始化时令每个单词向量自为一簇,并建立映射表,记录向量与簇之间的对应关系,记每一簇 的文档频为各自对应单词的文档频。算法首先计算所有向量两两之间的余弦距离。然后选 取单词向量中距离最近的两个向量;;与t (i < j),计算这两个向量的均值,并更新;;为该 均值。同时,更新映射表,将单词向量&与i的簇编号均更新为i,并更新第i簇的文档频为 向量&与士对应单词文档频的较大值。第三步需要计算所有向量与更新后的向量;;之间的 余弦距离,并设定所有向量与之间的距离为无穷大。重复这一过程直至簇的数量达到预 定值。图2展示了这一聚类过程。
[0009] 步骤二:单词向量权重计算。步骤一提供了各个簇的文档频和簇与具体单词向量 之间的对应关系映射表。在本步骤,首先针对目标文档计算每个单词在该文档中的词频;然 后求取各个文档频的逆文档频;最后将单词词频与单词所在簇的逆文档频的乘积作为单词 向量的权重。
[0010] 本方法的最后步骤是利用单词向量的权值压缩全局平滑语境,生成文档向量,具 体步骤如下:
[0011] 依图1所示,全局平滑语境为m行m列的矩阵,针对目标文档将全局平滑语境中的 单词向量与其在此目标文档中的权重进行乘法运算,得到加权单词向量。这些加权单词向 量构成了新的语境矩阵,由于该矩阵考虑了单词在单个文档中的局部语境,被称之为局部 语境矩阵。求取矩阵每一个列向量的无穷范数,m个列向量对应的m个无穷范数构成了新 的文档向量。因此新的文档向量是一个维数为m的向量,每一维对应全局平滑矩阵的一个 列向量的无穷范数。上述过程实际上求取了所有加权后单词向量在同一维度上的最大值作 为文档向量在此维度上的取值。对于生成的文档向量,一个常规操作是对文档向量使用二 范数进行归一化,以便消除文档长度不一对文档向量间比较结果的影响。本方法也采纳这 一意见,因此后续步骤还包括:计算每一个文档向量的二范数;将文档向量与其对应的二 范数进行除法运算,即向量中的每一维均除以该二范数进行归一化。
[0012] 综上所述,本方法包括全局平滑语境构建、单词向量聚合加权和全局平滑语境压 缩三部分。如图3所示,单词向量聚合加权计算包含了聚合单词向量,以便计算单词向量的 文档频,和针对具体文档的单词向量权重生成两个关键步骤。全局平滑语境压缩部分的主 要内容是使用无穷范数对局部语境矩阵进行压缩。本方法的优点在于通过对数平滑降低了 单词使用频率,即语用习惯对语义表征的影响;认识到同义词或近义词的单词向量在特征 空间中的同一性,修正了单词向量文档频的度量方法,从而得到了更精确的单词向量权重。 传统的加权后累加方法以单词权重作为单词向量重要性的唯一标准,使得文档向量往往近 似于某个或某些权重较大单词向量之和,而忽视了权重较小的单词向量,单词向量维度的 取值大小在这一过程中没有发挥作用;与之不同,本方法通过采用无穷范数矩阵压缩方法, 充分比较了每一维度在单词权重与维度取值相乘后的结果,保留了每一维度针对目标文档 的最大可能取值,避免了文档向量趋同于个别单词向量,较好地保留了文档的信息。
【附图说明】
[0013] 图1全局平滑语境示意图
[0014] 图2单词向量聚合示例图
[0015] 图3算法流程图 [0016] 具体实施方法
[0017] -、与本发明有关的概念和定义。
[0018] 1.词汇表
[0019] 对于给定的语料库,由语料库中所有不同的单词v构成的集合称之为词汇表V。
[0020] 2?文档内词频
[0021] 对于任意单词Wl,其在任意文档dk中出现的频率定义为文档内词频,统计方法为 :
[0023] 其中4为Wl在文档dk中出现的次数,lk为文档d k的长度。
[0024] 3.文档频
[0025] 对于任意单词W;,其文档频定义为:
[0027] 其中n为给定语料库中文档个数;ni为给定语料库中包含单词Wl的文档的数目。
[0028] 4?逆文档频
[0029] 文档频倒数的自然对数一般被称为逆文档频:
[0031] 5?共现频率
[0032] 对于任意两个单词Wl和V],它们在给定语料库中共同出现的频率称之为共现频 率,表示为,其统计方法为:
[0034] 其中m= |V|为词汇表中单词的数目。
[0035] 6?单词向量
[0036] 对于目标单词Wl,以词汇表V中的所有单词为维度构成特征空间,以Wl和任意维 度Vj的共现频率为 Wl在维度上的取值构成的特征向量称之为单词向量:
[0037] w, = m).
[0038] 7?全局语境
[0039] 以单词向量为行向量,由词汇表中所有单词对应的单词向量构成的矩阵称之为全 局语境:
[0040] Wmym
[0041] 8?文档向量
[0042] 对于目标文档山,以词汇表V中的所有单词为维度构成特征空间,以任意维度'在 山中的权值为山在维度 Vj上的取值构成的特征向量称之为文档向量:
[0043] d, = (a,x,〇)l2,..
[0044] 其中w 」为单词Vj在文档山中的权重。
[0045] 二、与本发明有关的数学定义
[0046] 1.向量间余弦相似度
[0047] 对于任意两个向量&和其余弦相似度定义为:
[0050] 2?向量间余弦距离
[0051] 对于任意两个向量&和4,其余弦距离定义为:
[0052] dist(w, ,Wj) = \-cos(w ,Wj).
[0053] 由于向量间余弦相似度的取值范围为[0,1],所以向量间余弦距离的取值范围也 为[0,1],且向量间余弦相似度越大,向量间余弦距离越小,反之亦然。另外,余弦距离具有 对称性,BPdist(w,,w 7) = dist(wy,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1