产品简介生成方法及系统的制作方法_3

文档序号:9418043阅读:来源:国知局
d)和简化的吉布斯米样(collapsed Gibbs sampling CGS)是最受欢迎的两种算法。在某具体实施例中,采用比变分法更为简单和可比较的简化 的吉布斯采样方法。
[0064] 在经典的LDA中,文档中的主题分布和主题中的单词分布都是未知的。但是,可以 应用上述分布的线索来提升LDA模型的效果。直观地,若已知文档是关于数码相机的,所述 文档很有可能具有与"相机"相关的主题和单词。应用这样一些先验知识以提高模型的拟 合效果。可以将上述模型命名为半监督LDA。
[0065] 图11为所述半监督LDA的图模型。当创建者在文档d中写下第i个评论的单词 Wdil时,创建者首先会依据在d中的,由第一狄利克雷分布(K · α · a ' d)描述的主题分布 9d选择其中一个主题z dil。其中,K为主题的数量,α为比例常数,α ',为归一化的先验 概率p' (z| 0d),p' (z| 0d)为非对称向量。然后,在选中的主题Zdi中,创建者依据主题 z中的,由第二狄利克雷分布(ν·β ·β ' z)描述的单词分布(^选出单词W41。其中,V为 词汇表的大小,β为比例常数, z是一个非对称向量和归一化的先验概率V (w| Φ z)。 所述先验分布α '和β '可以通过手动设定或者依据测试样本自动生成。对所有文档中 的所有单词重复上述生成步骤。
[0066] 吉布斯采样可以用于模型的学习。基于所有其他主题标记Zui与先验因子对主题 Zdil进行重复采样。某主题选中的概率可以通过如下算式表示:
[0067]
[0068] 其中,N表示满足下标以及上标条件的单词数量,而在Z和N的上标或者下标中的 "\d,i"表示除了在文档d中的第i位置上的数据外的数量。所述变量可以在多次迭代后, 通过一次吉布斯采样获得。为了计算结果更可靠,在本发明某具体实施例中,所述主题模型 可以获取并利用不同的初始化条件中的多重马尔科夫链。
[0069] 经典的LDA对不同的主题和文档均使用相同的α,对不同的单词和主题也使用相 同的β,而半监督LDA则在主题和文档使用特定的α ',在单词和主题使用特定的β '来 实现先验知识的整合。
[0070] 继续参阅图9,依据对应的先验知识(S904),本发明提供了三个生成改进的LDA模 型的具体实施例(S905)。依据本发明所公开的技术特征及具体实施例,本领域技术人员还 可以在不进行创造性劳动时获得其他的具体技术方案。所述改进的LDA模型以半监督LDA 为基础,分别表不为DuanLDA,DuanLDA+和SpecLDA。
[0071] 图12为DuanLDA的图模型。在DuanLDA模型中,将说明视为主题,压缩后的评论 视为文档。
[0072] 假设具有M个文档,每个文档具体为某一产品p的压缩后的评论,并且在每个文 档中具有Np个单词。S为产品说明(功能-参数配对),视作主题,并且具有|S|个可能 的主题。结合生成的先验知识,P的主题(功能-参数配对)分布θ ρ,由狄利克雷分布 (Κ· α · a ' fts)描述,其中K表示主题的数量。功能-参数配对的单词分布叭由狄利克 雷分布(V· β · β ' SiW)描述,其中V表示词汇表的大小。对所有产品文档中的所有单词 重复执行上述生成步骤。
[0073] 具体的,β ' SiW为通过计算功能单词与评论单词之间的标准化互信息(NPMI)获 取的数据生成的先验知识Φ3。然后移除那些负相关的单词,并且给出每个单词的归一化 概率P (w I f),其中,f为功能。另外,DuanLDA还可以依据说明生成先验知识Θ ;若某一功 能-参数配对s没有出现在某具体产品p中,将a ' PiS标记为0,否则标记为相应的概率。 文档中所有存在的功能-参数配对的概率均相等。
[0074] 进一步的,所述DuanLDA与半监督LDA的最大区别在于:DuanLDA使用背景语言模 型,表示整个数据集合中的单词最大拟然估计。
[0075] 更具体的,当创建者为ρ写下一个评论单词Wpil时,创建者依据由参数λ决定的 选择条件Xpil选择背景语言模型或者功能主题。若选择背景语言模型,W P则通过背景语言 模型φΒ来描述。否则,依据θ ρ选择说明Sp i。其中,θρ由带α和α ' ρ的狄利克雷分 布所描述,此时Wpil由φ s.描述。
[0076] 所述DuanLDA的文档模型可以通过如下算式定义:
[0077]
[0078] 选择条件Xpil选择背景语言模型的概率由参数λ决定。其中,所述背景语言模型 可以定义如下:
[0079]
[0080] 当选择条件Xpil为不选择背景语言模型时,学习 S Ρι1的吉布斯采样方程可以通过 如下算式定义:
[0081]
[0082] 若Wftl在一个背景语言模型具有足够高的值,可以基本上分配到该背景主题中,并 且若Wpil与其中一个|s|说明相接近时,分配到该说明主题Sftl。
[0083] 图13为DuanLDA+的图模型。DuanLDA面临两个主要问题:1、它仅考虑了说明形 成的主题;2、先验分布β'的使用中忽略了主题的大小。为了解决上述缺陷,DuanLDA+模 型不再使用背景语言模型而加入并使用产品-特点语言模型。
[0084] 评论中可能存在一些产品说明中没有的主题。例如,价值、设计或者其他产品说明 中没有列举,而在评论中提及的功能。所述DuanLDA+模型在产品说明中增加|Ε|评论的 主题。由此,所有主题为广品说明的分布θρ。由带α和 α ' ρ的狄利克雷分布所描述。其中a ' PiS。在所有的说明和评论主题中均相等。若描述 的说明Stu属于说明的主题,则与上述DuanLDA的执行方式相同。但是,若S tu属于评论主 题(E),其单词Wftl则由带Φ %的狄利克雷分布来描述。
[0085] 每个说明的主题均具有计算得出的主题大小Ns。若主题大小队相对于先验知识 V β过大或者过小,这些主题将过多或者过少的依赖先验分布β ^ s。当一个主题过多的依 赖先验分布时,这个主题的单词分布将基本遵循先验分布。而当一个主题过少的依赖先验 分布时,这个主题却能够包容那些与先验知识毫无关联的项目。其中,后者是一个更为严重 问题。因此,可以依据主题的大小归一化所述先验分布。所述DuanLDA+模型引入了先验分 布大小控制子{1,...,n |s|},若主题过小时,每个控制子均通过衰减因子ζ来不断的减 小先验分布的大小。更具体的,对于单词在某一主题S pil= ζ中进行吉布斯采样的概率可 以定义如下:
[0086] (5)
[0087] 其中,先验知识大小V β由n s控制,依据如下算式进行减小:
[0088]
(6)
[0089] 其中,上标(η)和(n+1)分别表示在第η次和第n+1次吉布斯采用迭代过程的变 量。说明S与先验分布的大小比例pp (S)为:pp (S) = n sv β / (Ns+ n sv β )。所述DuanLDA+ 能够在主题过小时减少先验分布控制子的大小来避免一个小的主题具有一个小的先验知 识比例,导致主题与先验分布之间的联系不足的情况的发生。因此,若主题的大小对于S而 言足够并且先验分布的比例过大时,先验分布的大小的n Jβ将减小。
[0090] 进一步的,DuanLDA模型使用的背景语言模型对于处理数据而言并不是必要的。因 为,在评论的文本数据预处理时,停止词已经被移除以保证主题是由有用的词语所组成。因 此,所述DuanLDA+模型不使用背景语言模型,而用产品特点主题来替代。这些主题可以是 那些产品的特点。为了应用,DuanLDA+模型为每个产品ρ增加特点主题Φ ρ从而抓取产品 特点描述单词。当评论创建者为产品P写下一个单词Wtu时,仓Ij建者首先会依据由带参数 γ的贝尔塔分布描述的λρ,在特点主题和说明主题之间进行选择。若选择了特点主题,单 词Wtu将由带δ的狄利克雷分布描述的φ ρ来描述。其余的步骤则与上述DuanLDA相同, 在此不作赘述。
[0091] 所述最终结果的文档模型可以定义如下:
[0092]
[0093] 当X = 0时,用于学习的吉布斯采样方程具体如下式表示:
[0094]
[0095] 其中,γ为小常数。为了学习当X = 1时的说明主题s e S,结合所有先验知识Ω 的方程具体如下:
[0096]
[0097] 其中,K是所有主题(|S| + |E|)的数量。相类似的,学习当X= 1时的评论主题 S e E的吉布斯采样方程为: LlN 丄Utajyz丄丄 Λ ~j Ij 丄丄/IOJA
[0098]
[0099] 基于互信息β的先验分布中包含了非常多与功能"有些"相关的单词。由于那些 与功能"有些"相关的单词概率的加入会使高序列位置的单词概率P(w|f)排序降低。因此, 主题f很难选中这些单词,即使它们相关程度很高并且在 f中有高的排序位置。因此, 所述DuanLDA+模型假设先验知识服从齐夫定律分布并且据此调整p(w|f)。更具体的,对于 DuanLDA中获得的先验知识的p (w I f),每个单词w的调整后p/ (w I f)可以定义如下:
[0100]
[0101] 其中,V (f)为f中的词汇表,V表示所有评论的词汇表,rankf (W)为不包括V (f)的 单词时,w在p(w|f)中的排序位置。齐夫定律分布的函数Zipf⑴可以表示如下:
[0102] (12)
[0103] 其中,s为分布的特征参数。基本上,p' (w If)保持P (w If)的排序结果,但是抛 弃非功能单词的单词概率。功能单词对齐夫定律分布的前η个概率求和,其中η为功能词 汇表与所有评论词汇表的交集。并且利用上述概率和重新分配功能单词在p(w|f)中各自 的比例。除去功能单词,非功能单词保持它们的排序位置并且将新的,服从上述排序结果的 齐夫定律分布的先验知识概率与v(f)相加。通过采用这种方式,所述DuanLDA+模型可以 更精确的从不重要的单词中辨别出重要的单词从而使主题不再被不重要的先验知识单词 所占据。
[0104] 图14为SpecLDA的图模型。所述DuanLDA+模型还存在的问题为:这一模型还未 能很好的利用产品说明的结构。在DuanLDA和DuanLDA+模型中,每个功能-参数配对被认 为是一个独立的产品说明。若数据中不具有足够的描述功能-参数配对的句子,计算出的 功能-参数配对主题将不恰当。而且,大部分的功能均具有超过一个以上的功能参数,意味 着功能是多个具有相同功能的功能-参数配对之间的交集。因此,SpecLDA将功能主题和 功能参数主题分离从而合并那些功能交集。另外,DuanLDA和DuanLDA+模型仅输入那些来 源于功能单词的先验知识。然而,功能参数单词很可能比功能单词更为重要。例如,对于一 个功能-参数配对("感光芯片类型","CMOS"),当他们提到这个功能-参数配对时,人们 喜欢使用"CMOS"这个词。但是,"CMOS"很可能在DuanLDA的功能先验知识的"感光芯片类 型"中排序较低,因为这个功能通常具有其他的功能参数配对。因此,所述SpecLDA模型使 用功能与参数分离的先验知识。
[0105] 在SpecLDA模型中,对于功能|F|中的每个功能f,设定具有|Uf I个可能关联的功 能参数。为了从功能参数中分离出功
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1