对文本进行处理以构造文本模型的方法

文档序号:6533464阅读:158来源:国知局
对文本进行处理以构造文本模型的方法
【专利摘要】文本被处理以构造文本的模型。文本具有共用词汇。文本被分成文本的集合和子集。共用词汇在两个或更多个集合中的用法不同,并且两个或更多个子集的主题不同。针对文本定义概率模型。该概率模型将文本中的各单词视为具有位置和单词值的标志,并且使用该概率模型中的随机变量的分布来表示在文本中的共用词汇的用法、主题、子主题和针对各标志的单词值,其中该随机变量是离散的。对应于与单词关联的词汇用法、单词值、主题和子主题,针对模型,估计参数。
【专利说明】对文本进行处理以构造文本模型的方法

【技术领域】
[0001] 本发明总体上涉及文本处理,更具体地,涉及构造针对具有共用词汇的不同用法 的文本的集合的模型。

【背景技术】
[0002] 在许多实际情形下,文本中具有不同词汇用法模式的片段可能指的是相同的主 题,然而这些片段可能使用不同的关键词语来表达相同的含义。例如,同种语言的不同地方 方言、论述中的正式的或学术的不同级别、写作的不同风格代表了词汇用法的这种差异,所 有这些我们可以称之为更广义的方言。重要的问题则是:给定了一种方言中的查询词语, 如何可以可靠地以不同方言返回相关片段。解决这种问题在信息检索方面将会具有实际价 值,其中在不熟悉领域利用不同的关键词语搜索可用信息会是困难的任务。这种情形的示 例是针对不同编程语言的用户手册、针对不同品牌产品的用户手册,或者来自不同大学的 选课目录。
[0003] 在统计学中,潜在狄利克雷分配(LDA)是生成模型(generativemodel),其试图 通过分析文档中单词的同时出现来寻找被称为主题的单词簇的。LDA及其扩展将各文档建 模为主题的混合体,其中,各单词从多个主题中的一个产生。
[0004] LDA指定概率过程来产生文档中的单词,就这个意义而言,它是生成模型。对于给 定文档,根据狄利克雷分布先验概率提取多项式主题概率的集合和被给定主题的多项式单 词概率的集合。然后,对于文档中的各单词位置,根据文档的主题概率提取主题;最后,根据 该主题的单词概率分布提取单词。然而,当观察数据时,各文档的主题分布、被给定主题的 单词的概率分布和产生文档中的各单词的主题是未知的。LDA中的推测总体上是对各文档 中的主题概率的后验分布、被给定主题的单词的概率、主题向各单词的指派的估计。
[0005] 尽管LDA本身不旨在将方言依存性建模,但已经为此目的开发了它的许多扩展。
[0006] 使用主题模型的词意明确化方法试图根据单词的预定标记的层次来学习多义词 的隐含含义。用于多语言语料库的其它模型需要对齐的或在句法上近似的文档。其它模型 作用于未对齐的文档,然而,这些模型以不同词汇对对应主题建模。相比之下,我们的方法 是完全不受监督的并且在共用词汇内对方言建模。
[0007] 这些方面的一个相关工作是"方言主题模型"(diaTM),它将语料库中的不同文档 与来自方言混合体和主题混合体这两者的不同提取物相关联。我们正在考虑以下应用:将 各语料库与仅一种方言相关联并且所有语料库共用通用主题集合。然而,各语料库可将不 同术语与各主题相关联。这样将在不带来主题的差别的情况下,引起语料库(对应于方言) 中语言的系统性变化。"方言主题模型"的结构没有使得这种约束的定制化容易,因为它允 许各语料库定义不同的主题集合。
[0008] 其它相关工作是适应主题的潜在狄利克雷分配模型(τLDA)和层次潜在狄利克 雷分配(hLDA)模型,潜在狄利克雷分配模型将技术层次与主题层次平行地建模,层次潜在 狄利克雷分配模型使用巢型中国餐厅处理(nestedChineserestaurantprocess)对针对 已学习的主题的树状层次建模。这些模型最适于解决不同特异性(或"技术性")级别的文 档,这不一定是我们考虑的应用中的情况。
[0009] 以上方法的另一个问题是,这些方法不能够直接识别随方言变化而变化的等同词 语的集合。这表示将该问题的固有约束精确地建模的失败,并且会导致信息检索的结果不 准确。


【发明内容】

[0010] 本发明总体涉及处理文本的集合。假设各集合(也被称为"语料库")包括文本的 子集合(也被称为"文档")。语料库内的所有文档通过相同的词汇用法模式(也称为"方 言")表征,而它们就标题(也被称为"主题")而言可以是不同的。词汇中的一些词语在含 义上是等同的,但在不同方言上系统性地不同。该模型可分开地表征各文档的方言和主题, 以隔离针对特定任务而关注的成分(方言或主题)。
[0011] 术语"语料库"和"文档"没有约束这些术语可表示的内容。语料库可以是文本的 集合,并且文档是该文本的子集合。例如,语料库可以是不同的书,文档可以是这些书中的 章节,或者各语料库可以是一群人写的消息的集合,并且文档可以是该集合中的一些段落。 同样,以上提及的"主题"和"方言"将分别取它们的标题和词汇用法的一般含义。
[0012] 本发明的实施方式提供了针对由共用词汇的不同方言中的单词构成的文档的概 率模型。具体地,该模型是基于被称为潜在狄利克雷再分布(LDR)的潜在狄利克雷分布 (LDA)的扩展形式。LDR是LDA的扩展形式,其旨在处理以下情况:存在通过变化词汇用法 来表征的多个语料库,在这个意义上,使用一个语料库中的特定单词表示的含义可使用另 一个语料库中的不同单词来表示,这个差别不依赖于语料库内的特定文档。
[0013]LDR使用主题模型将单词分布分配给各文档。在LDR中,以方言独立方式用主题 产生被称为子主题的单词占位符,继而子主题以方言依存方式产生单词。借助这些子主题, LDR能够在可变术语(随方言的变化而变化的术语)之间进行单词概率的再分配。相比之 下,如果对于所有这些方言而言术语的用法是等同的,则词汇术语相对于特定方言集合是 恒定的。
[0014] 实施方式提供了使用诸如吉布斯采样或混合型蒙特卡罗(Monte-Carl0)的蒙特 卡罗方法进行推测的方法。
[0015] 在统计学中,吉布斯米样用两个或更多个随机变量的联合概率分布产生一系列样 本。这些样本逼近联合后验分布。

【专利附图】

【附图说明】
[0016] 图1是根据本发明的实施方式的图形模型。
[0017] 图2是现有技术的主题模型的图形模型。
[0018] 图3是根据本发明的实施方式的产生文本模型的流程图。
[0019] 图4是根据本发明的实施方式的对文本集合建模的方法的流程图。

【具体实施方式】
[0020] 介绍
[0021] 本发明的实施方式提供了潜在狄利克雷分配(LDA)的扩展形式,称为潜在狄利克 雷再分配(LDR)。LDR是旨在处理由不同的词汇用法来表征多个语料库中的至少一些而其 它语料库可以具有相同词汇用法的情况的现有技术LDA的扩展形式。通常,如本文使用的, 词汇用法与单词在各种文本中的用法有关。
[0022] 在LDR中,仍然针对各文档从狄利克雷分配独立地提取主题概率,并且针对文档 中的各单词位置从这些分布中提取主题,完全和在LDA中一样。这里我们认为文本中的各 单词是具有位置和单词值的标志(token)。
[0023] 然而,LDR主题不直接产生单词,而是产生针对被称为子主题的单词的占位符。这 些子主题旨在代表单词的语义含义。因此,本文中子主题的使用具有与语义相关的特别含 义,这是在现有技术文本建模中没有发现的。
[0024] 各文档的单词然后从被给定子主题的单词的概率提取。这些单词概率依赖于语料 库的词汇用法(但不依赖于语料库内的特定文档)并且允许用不同的单词表达给定含义, 这依赖于语料库中出现的词汇用法。这被称为依赖于词汇用法,将针对特定含义的概率"再 分配"给不同的单词。
[0025] 针对各方言的被给定子主题的单词的概率从狄利克雷分布提取,如被给定主题的 子主题的概率那样。然而,从只具有几个非零元素的意义上来说,针对被给定子主题的单词 的概率的狄利克雷分布的参数被约束成稀疏的。在统计学中,稀疏是本领域熟知的术语。
[0026] 针对给定子主题,只有几个单词具有明显非零的概率,在这个意义上,这样确保了 子主题中的单词数量少。
[0027] 通常,LDR中的推测涉及以下各项的后验分布的估计:
[0028] 1)方言概率;
[0029] 2)各文档中的主题概率;
[0030] 3)被给定主题的子主题的概率;
[0031] 4)被给定子主题和方言的单词的概率;
[0032] 5)将方言向各语料库的指派;
[0033] 6)将子主题向各标志的指派;以及
[0034] 7)将主题向各标志的指派。
[0035] 相关现有技术是"方言主题模型",其将语料库中的不同文档与来自方言混合体和 主题混合体的不同样本相关联。该模型遭受不被约束的困扰,在于各方言具有其自身的由 被给定主题的单词的概率的集合。这妨碍了主题在不同方言上可识别。
[0036] 我们的LDR模型的区别在于,根据独立于方言的由子主题给定的主题的概率,在 不同的方言上,主题被约束成相同的。由单词给定的子主题的概率受以独立于方言的方式 稀疏的狄利克雷先验概率的约束,使得各子主题仅能够产生属于小的集合的单词,而与方 言无关。"方言主题模型"的不同结构没有促使构想出这种约束。
[0037] 现有技术的方言主题模型可以退化成针对各方言的独立的主题模型,而我们的 LDR模型产生对应于不同方言的主题模型。与"主题适应"(另一种现有技术的方法)相 反,我们的模型向词语分配合适的概率,然后,能够在少量术语之间进行概率的依赖于方言 的再分配。因此,我们的模型可用于同时处理来自不同方言的文档,以及推测与之前未见的 文档对应的方言。用现有技术的主题适应方法,这是不可能的。
[0038] 在本说明书中,定义并且使用下面的变量。
[0039]C :语料库的数量
[0040]c :语料库索引
[0041]D。:预料库c中的文档的数量
[0042] d :语料库c中的文档的索引
[0043]z:主题(在子主题上的分布)(Zi:针对标志i的主题指派)
[0044]k:主题索引
[0045]K :主题的数量
[0046]Θ。,d:语料库c中针对文档d的主题分布
[0047] Φ,:主题k的子主题的主题独立(多项)分布
[0048] u:子主题或含义(单词分布)(Ui :针对标志i的子主题指派)
[0049] m:子主题索引
[0050] M :子主题的数量
[0051] V:词汇大小
[0052] J:预期对于子主题内的所有方言而言可变的术语的平均数量
[0053] w:单词(Wi:针对标志i的单词指派)
[0054] N。,d :语料库c的文档d中的单词的数量
[0055] 1 :方言(Ic :语料库c的方言分派)
[0056]L :方言的数量
[0057]Ψ :在方言上的分布
[0058]π :对称狄利克雷分布(对于Ψ)的标量参数
[0059]Y1;Π1:针对子主题m和方言1的单词的多项式分布
[0060]Hm :针对子主题m的子主题独立狄利克雷先验概率(对于YJ
[0061]Ct:针对对称狄利克雷分布的标量参数(对于Θc,d)
[0062]β:针对对称狄利克雷分布的标量参数(对于<K)
[0063]λ :标量参数化指数分布
[0064] W :所有单词指派的集合
[0065] Z :所有主题指派的集合
[0066] U :所有子主题分派的集合
[0067]X :随机变量
[0068] ?:所有0。(1的集合 [0069]①:所有吣的集合
[0070]Y:所有Y^的集合
[0071]Dir:狄利克雷分布
[0072] exp :指数分布
[0073]Mult :多项式分布
[0074] 潜在狄利克雷再分配
[0075] 在LDR中,假设根据从语料库独立多项先验分布提取的相同语料库依存词汇用法 (或方言)1。e {1,· · ·,U将写入语料库C= 1,· · ·,C中的文档d= 1,· · ·,D。。特定情 况从将方言的数量设置成等于语料库的数量并且将一个方言指派给各自语料库得到。
[0076] 我们将各文档d= 1,...,D。与从狄利克雷分布提取的主题上的分布Θd相关 联,其中,所有语料库在所有主题上被共用。这里,我们向各主题ze{1,...,K}关联"子 主题"ue{l,...,M}上的分布。我们向各子主题关联词汇术语{1,...,V}上的分布。以 下,描述子主题背后的直观。
[0077] 对于各标志i=1,· · ·,N。,d,根据Θ。,d提取王题Zi =k然后,从王题依存多项式 提取子主题Ui=Hl15依赖于方言和子主题指派这二者,从多项式Ylc;,m中选择词汇术语。
[0078] 我们模型的关键特征是我们对Y1:U1:M设置的子主题依存狄利克雷先验概率 Π1:M。以下,描述这个特征的动机。
[0079] 生成模型
[0080] 详细地,指定先验的、多个方言L、主题K、子主题M和词汇大小V,其中,K明显小于 M,M小于V。该模型具有针对对称狄利克雷分布的三个标量参数α、β和π。标量λ将 指数分布参数化。
[0081] 生成模型是
[0082] I. n m I λ ?exp ( λ ) ;m = 1, · · · , M ;
[0083] 2· Φ k I β ?Dir (β) ;k=l,...,K;
[0084] 3· Ψ Iπ?Dir〇);
[0085] 4· γhm Iηm?Dir (nm),m =1,···,Μ, 1=
[0086] 5·针对c=I, · ··,C:
[0087] a) lc| Ψ?Mult(F),
[0088] b) Θ c, d I α ?Dir ( θ ),d = I,· · ·,Dc ;
[0089] 6·针对c= 1,· · ·,C,d= 1,· · ·,Dc,i= 1,· · ·,Nc,d:
[0090] a) zc,d,i I Θ c,d ?Mult ( Θc,d),
[0091] b)ucdi\zcd.^ VK ~Mult(^erf;),
[0092] c)
[0093] 为了简化这个描述,在θ 1:αι:Ι)ε、Ψ和φ1:κ的狄利克雷分布先验概率是对称的。然 而,实际上,它们可以不对称。
[0094] 注意的是,以上的生成处理只是模型结构的定义,并且在实践中它不实际用于数 据的构造。仅假设观察到的数据是这样产生的。对观察到的数据进行分析的目标是通过求 解逆问题来估计模型的参数。
[0095] 图1示出针对我们LDR的图形模型100,该模型指定变量之间的统计依存关系。这 使用了称为"板计数法"的计数法。在右下角带有字母"X"的各矩形意味着该结构将被重 复X次。这里,大矩形意味着将相同结构重复C次,针对每个语料库一次。然后,在各语料 库C内,再将中间大小的矩形中的结构重复D次,针对语料库中每个文档一次(精确地说, D。次),因为对于不同语料库,各语料库中的文档的数量可以不同。然后,在属于语料库c的 各文档d中,将最内结构重复N次,针对该文档内部每个单词一次(精确地说,Ncu),因为对 于不同文档,各文档中的单词的数量可以不同。如果存在连接A和B的定向边,则对A有条 件地(即,根据依赖于A的分布)产生随机变量B。这与这些变量是否在同一矩形内无关。
[0096] 注意的是,这不是处理图。使用这个模型的过程观察来自给定文档的单词并且寻 找后验概率分布,和/或所关注变量(诸如,方言)的最有可能的值、或与主题分布最佳匹 配的数据库中的文档。
[0097] 图2示出与现有技术LDA相当的模型。在该模型中,外部矩形201代表文档,并且 内部矩形202代表文档内的主题和单词的重复选择。
[0098] 术语之间的建模再分配
[0099] 现在,描述我们LDR的动机,重点放在直观上。
[0100] 单词的子主题含义
[0101] M个子主题是单词Wi的期望的"含义"。独立于方言来从主体依存分布提取子主题 Ui,并且单词概率依赖于单词的期望的含义和方言这两者是有意义的。
[0102] 理想地,每个恒定术语对应于其自身的子主题。对于可变术语,该模型向群组指派 含义等同的术语,并且将一个子主题与该群组中的所有术语相关联。
[0103] 我们考虑子主题与恒定术语相关联。在这种情况下,已经确定了单词,并且适当构 造的子主题依存多项式没有将概率再分配给另一个术语。然而,当选择对应于可变群 组的子主题时,正确地向最高概率再分配给适于方言的术语。
[0104] 用于再分配的稀疏狄利克雷分布先验概率
[0105] 我们描述用于自动学习适当构造的多项式的技术。
[0106] 通过为Y1:U1:M给定由η1:Μ参数化的、子主题依存的、非对称狄利克雷分布先验概 率,使用贝叶斯方法以不受监管的方式自动学习适当构造的多项式。
[0107] 在V-I维的概率单成形定义狄利克雷分布,V-I维的概率单成形是其中各顶点对 应于词汇术语的多面体。我们希望这个狄利克雷分布是稀疏的,即,对于分布,在多面体的 (P-I)面(对应于子主题m下的ρ个可变术语)或者单个顶点(子主题m下的恒定术语) 赋予权重。狄利克雷分布本身并非稀疏的,但来自分布中的提取物支持稀疏。
[0108] 针对稀疏狄利克雷分布的超先验
[0109] 狄利克雷分布转换成任何高概率词汇术语,例如,针对子主题m的j',具有大于所 有其它术语的对应。为了促进此转换,我们在各η1:Μ的各分量上设置共用指数超先 验。也就是说,假设nm,j?exp{λ},m= 1,…,Μ,j= 1,…,V.
[oho] 我们提出了用于设置标量λ的试探。如果J是术语的平均数量,则期望在子主题 m内在所有方言上术语变化。考虑随机变量d.exp(A)中的提取物。我们想要将 大于一的采样术语的期望数量约束成J,也就是说,>I})=./对应的标量 是λ=Iog(V)-Iog(J)。
[0111] 平均地,语料库内的各文档使用一个术语,这个术语对于不同方言是变化的。这对 应于词汇中的总共D=Sc^dI个可变术语,我们期望在子主题上平均分布。因此,J=D/ Μ并且A二Iog(K) - Iog(D) + l.og(M).
[0112] 将组合搜索放宽为贝叶斯再分配
[0113] 我们描述学习在多个方言上的单词等同的问题。因此,我们形成针对各方言的术 语的多项式概率(这里,Y1J以最优地表征方言。这样必须找到术语的最优稀疏选择来表 示方言中的可变术语。这是搜索空间等于V的幂集的组合优化问题,该问题造成了计算上 难控制的任务。
[0114] 通过使用贝叶斯法和在多个方言上共用的子主题依存狄利克雷分布先验概率,我 们将组合搜索放宽到连续优化,其是在推测期间自动执行的。
[0115] 从含义到子主题
[0116] 我们希望M非常接近V,并且每个词汇术语(或可变术语的群组)具有对应的逐个 方言的单词多项式,准确地指明何时使用该术语。然而,这必须满足LMV?LV2单词多项式 参数,对于实际应用这是不合理的。因此,我们减小了M的值。
[0117] 推测和学习
[0118] 对于我们的模型而言遗憾的是指数和狄利克雷分布不是共轭的,所以变分推测和 吉布斯采样不是直接进行的。可以通过使用各种采样方法(诸如,混合蒙特卡罗、倒塌吉布 斯采样或切片采样)执行推测。
[0119] 图3示出根据本发明的实施方式的对文档建模的步骤。
[0120] 图1中实现的概率模型302与包括用语料库和文档标记的文本训练数据在内的训 练数据301结合使用,以估计303包括方言、主题、子主题和单词分布参数在内的模型参数 304。
[0121] 以上步骤可在如本领域已知的与存储器和输入/输出接口连接的处理器中执行。
[0122] 在这一点上,该模型可用于多种应用,诸如方言估计、主题估计、检索主题相关文 档、文档摘要或其它语言建模任务。
[0123] 应用
[0124] 图4示出本发明在示例应用中的使用。图1中实现的概率模型402与包括用语料 库和文档标记的文本训练数据在内的训练数据401结合使用,以估计403包括方言、主题、 子主题和单词分布参数在内的模型参数404。
[0125] 为了方言估计,文本输入405与模型参数404结合使用,以计算410从中导出方言 类别估计411的方言分数。
[0126] 为了主题估计,文本输入405与模型参数404结合使用,以计算420从中导出主题 类别估计421的主题分数。
[0127] 为了文档检索,文本输入405与模型参数404结合使用,以计算430从中导出匹配 文档ID431的文档分数。
[0128] 本发明的效果
[0129] 潜在狄利克雷再分配能够成功地学习先验概率,以在没有过拟合的情况下表征由 不同方言构成的文档。
[0130] 在搜索应用中,在给定了查询术语或文档的情况下,能够使用LDR根据文档主题 的分布将术语与其它各语料库中的最有可能的文档相关联。
[0131]另选地,能够使用诸如相关主题模型这样的联系方法来推测来自不同语料库的任 两个文档之间的联系。解释是除了方言外,所联系文档涵盖了相同材料。
【权利要求】
1. 一种对文本进行处理以构造该文本的模型的方法,该方法包括以下步骤: 获取所述文本,其中,所述文本具有共用词汇,其中,所述文本包括单词,其中,所述文 本被划分成文本集合并且至少一个文本集合被划分成文本的子集,其中,共用词汇在两个 或更多个集合中的用法不同,并且两个或更多个子集的主题不同; 定义针对所述文本的概率模型,其中,所述概率模型存储在存储器中,并且其中,所述 概率模型将所述文本中的各单词视为具有位置和单词值的标志,并且使用所述概率模型中 的随机变量分布来表示在所述文本中针对各标志的共用词汇的用法、主题、子主题和单词 值,其中,所述随机变量是离散的,其中,各文本集合具有词汇用法随机变量,其中,各标志 与对应于所述主题、所述子主题和所述单词值的随机变量相关联,其中,与针对所述标志的 所述主题关联的所述随机变量的分布依赖于包括所述标志的文本的子集合,与针对所述标 志的所述子主题关联的所述随机变量的分布依赖于所述标志的所述主题,并且针对所述标 志的单词值的随机变量分布依赖于包括所述标志的文本集合的所关联的子主题和词汇用 法;以及 基于与所述单词关联的所述词汇用法、所述单词值、所述主题和所述子主题,估计所述 概率模型的参数,其中,所述方法中的所述步骤在处理器中执行。
2. 根据权利要求1所述的方法,所述方法还包括以下步骤: 使用所述模型来执行词汇用法估计。
3. 根据权利要求1所述的方法,其中,训练数据中的各词汇用法对应于方言。
4. 根据权利要求3所述的方法,所述方法还包括: 使用所述模型来执行方言估计。
5. 根据权利要求2所述的方法,所述方法还包括: 执行词汇用法估计来优化独立于词汇用法的主题模型。
6. 根据权利要求1所述的方法,所述方法还包括: 使用所述模型来执行对于词汇用法而言不变的在主题上相关的子集合的检索。
7. 根据权利要求1所述的方法,所述方法还包括: 使用所述模型来执行文本摘要化。
8. 根据权利要求1所述的方法,所述方法还包括: 将被给定子主题的单词指派的分布约束成稀疏的。
【文档编号】G06F17/27GK104246763SQ201380017595
【公开日】2014年12月24日 申请日期:2013年2月26日 优先权日:2012年3月28日
【发明者】J·R·赫尔歇, J·勒鲁克斯, C·K·哈库兰尼 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1