文献资源主题聚类共现潜在语义向量空间模型语义核方法与流程

文档序号：12063817阅读：来源：国知局

技术特征：

1.文献资源主题聚类共现潜在语义向量空间模型语义核方法，其特征在于包括以下步骤：

第一步：文献数据的预处理：数据清洗，标记文献，提取每篇文献的关键词，并保留关键词与相应文献的对应关系；

第二步：所提取的关键词进行词频统计，关键词按词频降序排列，以备后续建立共现矩阵使用；

第三步：以关键词在文献中是否出现为权重，构建文献表示的向量空间模型如下：

d_l＝(a_l1,a_l2,...,a_lm)^T∈R^m，l=1,2,…,n.

其中：d_l是n篇文献中第l篇文献在欧式空间R^m中的表示向量，a_lj(j=1,2,…,m)为第j个关键词在第l篇文献中的权重，当第j个关键词是文献d_l的关键词时，a_lj等于1，否则为0；l为文献序号，n为文献总篇数，m为关键词集中总关键词的个数，R^m为欧式空间，T表示转置运算，文献集的“篇-词”矩阵A＝(a_lj)_n×m；

第四步：共现潜在语义向量空间模型的构建：

(1)计算共现强度矩阵

关键词之间的共现矩阵C＝A^TA＝(c_ij)_m×m，其中，当i≠j时，c_ij为第i个关键词与第j个关键词的共现频次，当i=j时，c_ii为第i个关键词的总频次；

然后计算共现强度矩阵B，

$<mrow> <mi>B</mi> <mo>=</mo> <msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mrow> <mi>m</mi> <mo>×</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <mi>d</mi> <mi>i</mi> <mi>a</mi> <mi>g</mi> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>/</mo> <msqrt> <msub> <mi>c</mi> <mn>11</mn> </msub> </msqrt> <mo>,</mo> <mn>1</mn> <mo>/</mo> <msqrt> <msub> <mi>c</mi> <mn>22</mn> </msub> </msqrt> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mn>1</mn> <mo>/</mo> <msqrt> <msub> <mi>c</mi> <mrow> <mi>m</mi> <mi>m</mi> </mrow> </msub> </msqrt> </mrow> <mo>)</mo> </mrow> <mo>·</mo> <msup> <mi>A</mi> <mi>T</mi> </msup> <mo>·</mo> <mi>A</mi> <mo>·</mo> <mi>d</mi> <mi>i</mi> <mi>a</mi> <mi>g</mi> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>/</mo> <msqrt> <msub> <mi>c</mi> <mn>11</mn> </msub> </msqrt> <mo>,</mo> <mn>1</mn> <mo>/</mo> <msqrt> <msub> <mi>c</mi> <mn>22</mn> </msub> </msqrt> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mn>1</mn> <mo>/</mo> <msqrt> <msub> <mi>c</mi> <mrow> <mi>m</mi> <mi>m</mi> </mrow> </msub> </msqrt> </mrow> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <msqrt> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> </msqrt> <msqrt> <msub> <mi>c</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> </msqrt> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow>$

其中，c₁₁,c₂₂,…,c_mm分别为第1个，第2个，……,第m个关键词的频数；当i≠j时，b_ij为第i个关键词与第j个关键词的共现强度，当i＝j时，b_ii＝1,即矩阵B的对角线元素全为1；

(2)共现信息的提取

记a_lj＝1的j的指标集为I_l1，即：I_l1＝{j|a_lj＝1}，称第l篇文献与第j个关键词的潜在语义相似度，表示集合{b_jt}中满足条件t∈I_l1的最大值，记为当a_lj＝1时，q_lj＝1；当a_lj＝0时，0≤q_lj＜1；

(3)共现潜在语义向量空间模型(CLSVSM)

其中：

$<mrow> <msub> <mi>q</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>t</mi> <mo>&Element;</mo> <msub> <mi>I</mi> <mrow> <mi>l</mi> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>{</mo> <msub> <mi>b</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>}</mo> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>a</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <munder> <mi>max</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <msub> <mi>I</mi> <mrow> <mi>l</mi> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>{</mo> <msub> <mi>b</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>}</mo> <mo>&NotEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>s</mi> <mo>.</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>$

基于CLSVSM的新的“篇-词”矩阵为：

第五步：语义核函数的构建

(1)对新的“篇-词”矩阵的转置进行奇异值分解

根据奇异值分解理论，经matlab软件运算，得到Q^T的分解式：

$<mrow> <msup> <mi>Q</mi> <mi>T</mi> </msup> <mo>=</mo> <msup> <mi>UΣV</mi> <mi>T</mi> </msup> <mo>=</mo> <mi>U</mi> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>Δ</mi> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <msup> <mi>V</mi> <mi>T</mi> </msup> </mrow>$

其中Q^T是维数为m×n的新的“词-篇”矩阵；U、V称为奇异矩阵，是维数分别为m和n的方阵,且都是正交矩阵，即UU^T＝I，VV^T＝I；是维数为m×n的矩阵，假设“词-篇”矩阵Q^T的秩为r，Δ＝diag(δ₁ δ₂ δ₃ … δ_r)，δ_i(i＝1,2,…,r)是非零奇异值，且按从大到小的顺序进行排列为δ₁≥δ₂≥…≥δ_r，关键词与关键词之间的相关性矩阵Q^TQ＝UΣV^TVΣ^TU^T＝U∑∑^TU^T＝UΛU^T，奇异矩阵U同时又等于Q^TQ的正交单位特征向量组成的矩阵，矩阵是m×m维的方阵，对角线上的元素为Q^TQ所对应的特征值，为非零特征值组成的对角阵；

(2)特征提取、降维

选取前k个最大的特征值，k的大小取决于特征值的累计贡献率要求，当可取特征值累计贡献率不小于90％，则k为

$<mrow> <mi>k</mi> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>t</mi> </munder> <mrow> <mo>(</mo> <mfrac> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </msubsup> <msub> <mi>λ</mi> <mi>i</mi> </msub> </mrow> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </msubsup> <msub> <mi>λ</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>&GreaterEqual;</mo> <mn>90</mn> <mi>%</mi> <mo>)</mo> </mrow> </mrow>$

同时选取相应的奇异矩阵U和V的前k列，对奇异矩阵实现降维处理，分别记为U_k和V_k，然后得到一个Q^T矩阵的k阶近似，即X_k^T＝U_k∑_kV_k^T；

(3)基于CLSVSM的语义核

k(d_l,d_s)＝(U_k^Tφ(d_l))^T(U_k^Tφ(d_s))＝φ^T(d_l)U_kU_k^Tφ(d_s)，l,s＝1,…,n

该语义核函数得到相一致的核矩阵为：

$<mrow> <mover> <mi>K</mi> <mo>^</mo> </mover> <mo>=</mo> <msub> <mi>QU</mi> <mi>k</mi> </msub> <msup> <msub> <mi>U</mi> <mi>k</mi> </msub> <mi>T</mi> </msup> <msup> <mi>Q</mi> <mi>T</mi> </msup> </mrow>$

基于CLSVSM的语义核简记为CLSVSM_K；

第六步：文献聚类

对文献进行语义核函数表示，核矩阵作为文献之间的相似性矩阵，选取聚类算法进行文献主题聚类。

完整全部详细技术资料下载

当前第2页1 2 3