文本的降维特征向量确定方法及装置的制造方法

文档序号：10655145阅读：234来源：国知局

文本的降维特征向量确定方法及装置的制造方法
【专利摘要】本发明适用于文本特征处理领域，提供了一种文本的降维特征向量确定方法及装置。所述方法包括：确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量；将转换后的文本特征向量映射到再生核希尔伯特空间RKHS；确定所述RKHS的特征向量；根据所述RKHS的特征向量确定文本的降维特征向量。通过上述方法，减少重要信息的损失，增加了后续文本处理算法的选择面。
【专利说明】
文本的降维特征向量确定方法及装置
技术领域
[0001] 本发明实施例属于文本特征处理领域，尤其设及一种文本的降维特征向量确定方法及装置。
【背景技术】
[0002] 现今的时代是信息的时代，每天的信息都在不断增长，为更好地过滤信息，需要对信息(如文本的信息)进行一定的处理。
[0003] 现有方法中，对文本进行处理的步骤通常为:选取文本的特征，再通过对选取的特征的处理来实现对文本的处理。常用的特征选取方法主要有，词频-逆向文件频率（term frequen巧-inverse document frequency，TF-IDF)，信息增益，卡方检验，互信息等，其中 IF-IDF方法形式简洁、结构简单，并且准确率较高，应用较广。但传统的TF-IDF方法仍有W 下不足：
[0004] (1)直接通过计算文本的各个特征的权重值，再选取权重较大的特征，丢弃权重较小的特征，但由于直接丢弃部分权重较小的特征，因此损失了部分特征的重要信息。
[0005] (2)当选取的特征个数大于样本个数时，导致有些算法(如要求特征个数小于样本个数的算法)不适用于后续的文本处理。

【发明内容】

[0006] 本发明实施例提供了一种文本的降维特征向量确定方法及装置，旨在解决现有方法选取的特征损失了部分特征的重要信息，W及选取的特征的个数过大所导致的适用的文本处理算法过少的问题。
[0007] 本发明实施例是运样实现的，一种文本的降维特征向量确定方法，所述方法包括： [000引确定文本语料库中的特征，并确定所述特征在不同文本的权重，W将文本语料库中的特征转换为文本特征向量；
[0009]将转换后的文本特征向量映射到再生核希尔伯特空间服服；
[0010] 确定所述服服的特征向量；
[0011 ]根据所述RKHS的特征向量确定文本的降维特征向量。
[0012] 本发明实施例的另一目的在于提供一种文本的降维特征向量确定装置，所述装置包括：
[0013] 文本特征向量确定单元，用于确定文本语料库中的特征，并确定所述特征在不同文本的权重，W将文本语料库中的特征转换为文本特征向量；
[0014] 文本特征向量映射单元，用于将转换后的文本特征向量映射到再生核希尔伯特空间服服；
[0015]服服的特征向量确定单元，用于确定所述服服的特征向量；
[0 016 ]降维特征向量确定单元，用于根据所述R K H S的特征向量确定文本的降维特征向量。
[0017] 在本发明实施例中，由于文本特征向量是根据文本语料库中的特征确定，因此，确定的文本特征向量更全面，减少重要信息的损失，并且，由于将文本特征向量映射到服HS 后，再确定该RKHS的特征向量，进而根据该RKHS的特征向量确定文本的降维特征向量，因此，使得确定的降维特征向量更准确，从而提高后续文本处理的准确性，增加了后续文本处理算法的选择面。
【附图说明】
[0018] 图1是本发明第一实施例提供的一种文本的降维特征向量确定方法的流程图；
[0019] 图2是本发明第二实施例提供的一种文本的降维特征向量确定装置的结构图。
【具体实施方式】
[0020] 为了使本发明的目的、技术方案及优点更加清楚明白，W下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不用于限定本发明。
[0021] 本发明实施例中，确定文本语料库中的特征，并确定所述特征在不同文本的权重， W将文本语料库中的特征转换为文本特征向量，将转换后的文本特征向量映射到再生核希尔伯特空间RKHS，确定所述服HS的特征向量，根据所述服HS的特征向量确定文本的降维特征向量。
[0022] 为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。
[002；3] 实施例一:
[0024] 图1示出了本发明第一实施例提供的一种文本的降维特征向量确定方法的流程图，详述如下：
[0025] 步骤Sl 1，确定文本语料库中的特征，并确定所述特征在不同文本的权重，W将文本语料库中的特征转换为文本特征向量。
[00%]其中，文本语料库包括多个文本。
[0027]可选地，在步骤Sll之前，包括:对文本语料库进行分词及去停用词的处理。在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，运些字或词即被称为Stop Words(停用词）。停用词在文本中没有显著作用的词，如"啊"，"的"等词。通过该步骤，能够对文本语料库进行初步清洗，减少后续的工作量。
[00巧]在步骤Sll中，将文本语料库进行向量空间模型（Vector space model，VSM)处理， W把对文本内容的处理简化为向量空间中的向量运算，并且它W空间上的相似度表达语义的相似度。例如，对文本语料库进行分词及去停用词的处理后，文本语料库中的全部特征为 W1，W2, ...，Wm,其中Wl, 分别表示不同的字、词或者词组，贝晦个文本可W表示为如表1 所示：
[0029] 表1:
[0030]
[0031」其中，Xij表示文本的权重，
j《m，文本的权重可通妊TF-IDF、信恳增益，卡方检验，互信息等确定。Xr ?? Xn表示n个文本。
[0032] 步骤S12,将转换后的文本特征向量映射到再生核希尔伯特空间服服。
[0033] 其中，所述将转换后的文本特征向量映射到再生核希尔伯特空间服服，具体包括：
[0034] Al、确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵。
[0035] A2、确定所述信息矩阵所在的空间，根据所述信息矩阵所在的空间W及映射规则将转换后的文本特征向量映射到RKHS。
[0036] 上述Al和A2中，假设文档化的特征权重向量为Xi = Ui,，...，xim)，于是可得信息矩阵-
属于空间12,且分类的训练样本记为响应变量
例如，yi对应的分类为新闻类别，响应变量中的每个参数都对应不同的类别。设再生核希尔伯特空间为H，与其为一对应的核函数为K(xi，xj)。其中再生核的核函数可为:高斯核函数：
为核函数的宽度参数，用于调节高斯核函数的径向作用范围;或者，为多项式核函数：
[0037]
scale,offset,degree〉0,其中，degree 为多项式的项次，"?"表示乘法运算，"II I"表示求取向量的模长，当参数不同时，可得到不同的核函数，即通过调节参数可W选取不同的再生核。
[003引假设空间b到H的映射为：
爾足XEh时，d) (X) GH，则根据映射规则将转换后的文本特征向量映射到服服。
[0039] 步骤Sl 3，确定所述服服的特征向量。
[0040] 其中，所述确定所述服服的特征向量包括：
[0041 ] Bl、对文本特征向量进行k邻近平均处理。其中，该k邻近平均处理的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于运个类别。
[0042] B2、根据k邻近平均处理的处理结果、文本特征向量本身W及文本平均特征向量对文本高维特征向量进行非线性特征选择，W确定所述RKHS的特征向量。
[0043] 上述Bl和B2中，假设X为12中（此处X属于12空间，并且12本质上也是一个服HS,然后X通过映射d)，将X映射成(I)(X)属于H)的文本特征向量，且(I)(X)GH,K为再生核的核函数，贝lj< 4 (Xi), 4 (xj)〉H=K(xi,xj)，格拉姆矩阵G，
[0044]
n为文本的个数；
[0045] 对文本特征向量进行k邻近平均处理具体为
与 Xi类别相同，且是Xi的k个邻近点（即与Xi距离最近的k个样本的下标对应的文本特征向量）}，ei =(0，..，1,..,1,..0，..0)，当j ￡以时，向量ei的第j个元素为1，否则为0(表示：当 Xj和Xi类别相同，并且^属于与Xi距离最近的k个样本中，那么向量ei的第j个元素为1，否则为0)。其中，馬表示求取的均值，XT表示X的转置，通过对文本的特征向量采用k邻近平均处理，解决了文本特征在类间分布不均的情况。
[0046] 例如，假设文本总共有C个类，运C个类采用如下的X表示，类别号记为1，..，c，.，C 时，第C类样本为：
[0047] Kxi，yi):yi = c}，将样本按样本记号从小到大排列，经过处理后的C个类的文本用 X表示，得到：
[004引
[0049]
[(K)加]
[0化1 ]
[0化2]
[0化3] 通过求解上式的、Cl，a为服服的特征向量。
[0054] 步骤S14，根据所述RKHS的特征向量确定文本的降维特征向量。
[0055] 其中，所述根据所述RKHS的特征向量确定文本的降维特征向量，具体包括：
[0056] Cl、对所述RKHS的特征向量的维度进行排序。
[0057] C2、选取预设个数的高维特征向量作为文本的降维特征向量，预设个数小于文本的总个数。
[0化引上述Cl和C2中，当求出A，a后，由于、，Qs--对应，因此将、从大到小排列，取前P 个Qs作为最终的降维特征(ai, ...，ap)。当然，也可将、从小到大排列，取后P个Qs作为最终的降维特征，此处不作限定。
[0059] 可选地，在所述根据所述RKHS的特征向量确定文本的降维特征向量之后，包括：
[0060] D1、获取新的文本特征向量。运里新的文本特征向量为需降维的文本特征向量。 [0061 ] D2、根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。
[0062] 上述Dl和D2中，假设新的文本特征向量为（Xnew，ynew)，ynewG {1，. . .，C}，则根据下式确定新的文本的降维特征向量：
[0063] X new二化（Xnew, Xl ) , . . . , K(Xnew, Xn) ) IXn(口1, . . . , 口P )nXp
[0064] 通过上述步骤，可将新的文本特征向量从m维特征降为P维，且，因此，解决后续文本处理由于高维特征而产生的稀疏性的问题。
[0065] 需要指出的是，该新的文本特征向量的个数应与文本语料库中的文本的总个数相等，否则，应保证选取的文本的降维特征向量的个数应小于该新的文本特征向量的个数。
[0066] 本发明第一实施例中，确定文本语料库中的特征，并确定所述特征在不同文本的权重，W将文本语料库中的特征转换为文本特征向量，将转换后的文本特征向量映射到再生核希尔伯特空间服HS，确定所述服HS的特征向量，根据所述服HS的特征向量确定文本的降维特征向量。由于文本特征向量是根据文本语料库中的特征确定，因此，确定的文本特征向量更全面，减少重要信息的损失，并且，由于将文本特征向量映射到RKHS后，再确定该 RKHS的特征向量，进而根据该服HS的特征向量确定文本的降维特征向量，因此，使得确定的降维特征向量更准确，从而提高后续文本处理的准确性，增加了后续文本处理算法的选择面。
[0067] 应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应W其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[006引实施例二:
[0069] 图2示出了本发明第二实施例提供的一种文本的降维特征向量确定装置的结构图，该文本的降维特征向量确定装置可W包括经无线接入网RAN与一个或多个核屯、网进行通信的用户设备，该用户设备可W是移动电话(或称为"蜂窝"电话）、具有移动设备的计算机等，例如，用户设备还可W是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。又例如，该移动设备可W包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明，仅示出了与本发明实施例相关的部分。
[0070] 该文本的降维特征向量确定装置包括：
[0071] 文本特征向量确定单元21，用于确定文本语料库中的特征，并确定所述特征在不同文本的权重，W将文本语料库中的特征转换为文本特征向量。
[0072] 可选地，该文本的降维特征向量确定装置包括:初步清洗单元，用于对文本语料库进行分词及去停用词的处理。
[0073] 文本特征向量映射单元22,用于将转换后的文本特征向量映射到再生核希尔伯特空间服服。
[0074] 其中，所述文本特征向量映射单元22包括：
[0075] 信息矩阵确定模块，用于确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵。
[0076] 信息矩阵所在的空间确定模块，用于确定所述信息矩阵所在的空间，根据所述信息矩阵所在的空间W及映射规则将转换后的文本特征向量映射到RKHS。
[0077] 上述信息矩阵确定模块和信息矩阵所在的空间确定模块中，假设文档化的特征权重向量为Xi=Uil,，...，Xim)，于是可得信息矩阵
属于空间12,且分类的训练样本记为响应变量
设再生核希尔伯特空间为H，与其为一对应的核函数为K(Xi，Xj)。其中再生核的核函数可为:高斯核函数：
或者，为多项式核函数：
[007引 K(xi,xj) = (scale ? I |x广Xj2+0ffset)dgree,scale,offset,degree〉0,当参数不同时，可得到不同的核函数，即通过调节参数可W选取不同的再生核。假设空间b到H的映射为与W 4 (X) GH，则根据映射规则将转换后的文本特征向量映射到服服。
[0079] 服服的特征向量确定单元23,用于确定所述服服的特征向量。
[0080] 其中，所述服服的特征向量确定单元23包括：
[0081] k邻近平均处理模块，用于对文本特征向量进行k邻近平均处理。其中，对文本特征
向量进行k邻近平均处理具体为：以二化刮与Xi类别相同，且是Xi的，. k个邻近点}，ei= (0，. .，1，. .，1，. .0，. .0)，当j ￡以时，向量ei的第j个元素为1，否则为0。
[0082] 非线性特征选择模块，用于根据k邻近平均处理的处理结果、文本特征向量本身W 及文本平均特征向量对文本高维特征向量进行非线性特征选择，W确定所述RKHS的特征向量。具体地，令：
[0083]
[0084]
[0085] 假设a是一个n维向量，且有0=( 4 (Xi), . . .，4 (Xn))a= 4 (X)a，于是
[0086]
[0087] 通过求解上式的、a，a为服服的特征向量。
[0088] 降维特征向量确定单元24,用于根据所述RKHS的特征向量确定文本的降维特征向量。
[0089] 其中，所述降维特征向量确定单元24具体包括：
[0090] 特征向量的维度排序模块，用于对所述RKHS的特征向量的维度进行排序。
[0091] 高维特征向量选取模块，用于选取预设个数的高维特征向量作为文本的降维特征向量，所述预设个数小于文本的总个数。
[0092] 当求出、a后，由于、，Os-一对应，因此将、从大到小排列，取前P个Os作为最终的降维特征(ai，...，ap)。当然，也可将、从小到大排列，取后P个Qs作为最终的降维特征，此处不作限定。
[0093] 可选地，所述文本的降维特征向量确定装置包括：
[0094] 新的文本特征向量获取单元，用于获取新的文本特征向量。
[00%]新的文本的降维特征向量确定单元，用于根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。
[0096] 假设新的文本特征向量为(Xnew，ynew)，ynewG {1，. . .，C}，则根据下式确定新的文本的降维特征向量：
[0097] X new=化(Xnew, Xl ) , . . . ,K(Xnew, Xn))lXn(口 1, . . . , 口p)nXp
[0098] 通过上述步骤，可将新的文本特征向量从m维特征降为P维，且，因此，解决后续文本处理由于高维特征而产生的稀疏性的问题。
[0099] 在第二实施例中，各个参数表示的含义与第一实施例中相同，此处不再寶述。
[0100] 本发明第二实施例中，由于文本特征向量是根据文本语料库中的特征确定，因此，确定的文本特征向量更全面，减少重要信息的损失，并且，由于将文本特征向量映射到RKHS 后，再确定该RKHS的特征向量，进而根据该RKHS的特征向量确定文本的降维特征向量，因此，使得确定的降维特征向量更准确，从而提高后续文本处理的准确性，增加了后续文本处理算法的选择面。
[0101] 本领域普通技术人员可W意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够W电子硬件、或者计算机软件和电子硬件的结合来实现。运些功能究竟 W硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能，但是运种实现不应认为超出本发明的范围。
[0102] 所属领域的技术人员可W清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可W参考前述方法实施例中的对应过程，在此不再寶述。
[0103] 在本申请所提供的几个实施例中，应该理解到，所掲露的系统、装置和方法，可W 通过其它的方式实现。例如，W上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可W有另外的划分方式，例如多个单元或组件可W结合或者可W集成到另一个系统，或一些特征可W忽略，或不执行。另一点，所显示或讨论的相互之间的禪合或直接禪合或通信连接可W是通过一些接口，装置或单元的间接禪合或通信连接，可W是电性，机械或其它的形式。
[0104] 所述作为分离部件说明的单元可W是或者也可W不是物理上分开的，作为单元显示的部件可W是或者也可W不是物理单元，即可W位于一个地方，或者也可W分布到多个网络单元上。可W根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0105] 另外，在本发明各个实施例中的各功能单元可W集成在一个处理单元中，也可W 是各个单元单独物理存在，也可W两个或两个W上单元集成在一个单元中。
[0106] 所述功能如果W软件功能单元的形式实现并作为独立的产品销售或使用时，可W 存储在一个计算机可读取存储介质中。基于运样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可WW软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用W使得一台计算机设备(可W是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memo巧）、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可W存储程序代码的介质。
[0107] W上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明掲露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述W权利要求的保护范围为准。
【主权项】
1. 一种文本的降维特征向量确定方法，其特征在于，所述方法包括：确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量；将转换后的文本特征向量映射到再生核希尔伯特空间RKHS; 确定所述RKHS的特征向量；根据所述RKHS的特征向量确定文本的降维特征向量。2. 根据权利要求1所述的方法，其特征在于，所述将转换后的文本特征向量映射到再生核希尔伯特空间RKHS，具体包括：确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵；确定所述信息矩阵所在的空间，根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。3. 根据权利要求1所述的方法，其特征在于，所述确定所述RKHS的特征向量包括：对文本特征向量进行k邻近平均处理；根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择，以确定所述RKHS的特征向量。4. 根据权利要求1所述的方法，其特征在于，所述根据所述RKHS的特征向量确定文本的降维特征向量，具体包括：对所述RKHS的特征向量的维度进行排序；选取预设个数的高维特征向量作为文本的降维特征向量，所述预设个数小于文本的总个数。5. 根据权利要求1至4任一项所述的方法，其特征在于，在所述根据所述RKHS的特征向量确定文本的降维特征向量之后，包括：获取新的文本特征向量；根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。6. -种文本的降维特征向量确定装置，其特征在于，所述装置包括：文本特征向量确定单元，用于确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量；文本特征向量映射单元，用于将转换后的文本特征向量映射到再生核希尔伯特空间 RKHS； RKHS的特征向量确定单元，用于确定所述RKHS的特征向量；降维特征向量确定单元，用于根据所述RKHS的特征向量确定文本的降维特征向量。7. 根据权利要求6所述的装置，其特征在于，所述文本特征向量映射单元包括：信息矩阵确定模块，用于确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵；信息矩阵所在的空间确定模块，用于确定所述信息矩阵所在的空间，根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。8. 根据权利要求6所述的装置，其特征在于，所述RKHS的特征向量确定单元包括： k邻近平均处理模块，用于对文本特征向量进行k邻近平均处理；非线性特征选择模块，用于根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择，以确定所述RKHS的特征向量。9. 根据权利要求6所述的装置，其特征在于，所述降维特征向量确定单元具体包括：特征向量的维度排序模块，用于对所述RKHS的特征向量的维度进行排序；高维特征向量选取模块，用于选取预设个数的高维特征向量作为文本的降维特征向量，所述预设个数小于文本的总个数。10. 根据权利要求6至9任一项所述的装置，其特征在于，所述装置包括：新的文本特征向量获取单元，用于获取新的文本特征向量；新的文本的降维特征向量确定单元，用于根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。
【文档编号】G06F17/30GK106021299SQ201610289966
【公开日】2016年10月12日
【申请日】2016年5月3日
【发明人】吴成龙
【申请人】Tcl集团股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴成龙;
技术所有人：TCL集团股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。