产品简介生成方法及系统的制作方法_4

文档序号：9418043阅读：来源：国知局

能部分，功能变量f与参数变量Uf分离。其中，U fS f的一个可能的功能参数。当然，引入功能参数主题ω与功能主题φ进行分离。
[0106] 在这一模型中，当创建者书写某一产品ρ的评论单词Wpil时，所述创建者首先使用依据由带对称向量γ的贝尔塔（beta)分布描述的λ ρ的转换子Xp i选择单词关于产品功能主题还是产品-特点主题。若选择为产品-特点主题，单词将服从由带对称向量δ的狄利克雷分布描述的Φ ρ。若选择了产品功能主题，创建者将从可能功能集合{匕，...，^+^ |F|+1，...，f |F| + |E|}中选择其中一个功能fPil，其中为来源于产品说明的功能集合，{f|F|+1，...，f |F| + |E|}为产品说明中没有出现而在评论中提及的，依据由带α和对称向量 α' ρ的狄利克雷分布描述的θ ρ开$成的功能集合。若fPii属于评论提及的功能，Wtu由多项分布Φ%进行描述其中，所述多项分布由带对称向量β 的狄利克雷分布描述。
[0107] 若fPii属于产品说明的功能，仓Il建者继续通过依据由带对称向量γ 1勺beta分布描述的Jif的转换子y P选择书写功能单词还是功能参数单词。若创建者选择为功能单词 fPil，则依据由带常数β和非对称先验知识的狄利克雷分布描述的（i>f选择w Pil。相反的，创建者则依据Ipif选择功能fPil功能参数单词u f。其中，Ipif由带常数τ和非对称先验知识ip，f的狄利克雷分布描述。结合选中的功能参数 Uf，创建者依据Cofu选择单词，其中，u由带常数p和非对称先验知识p ' f u的狄利克雷分布所描述。上述生成步骤在所有产品的所有评论单词中重复进行。
[0108] 所述生成方法可以通过如下具体算法描述：
[0109] CN 105139211 A ^ 兀 ~Ρ 13/18 页
[0110] 因此，SpecLDA的文档模型具体如下：
[0111]
[0112]
[0113]
[0114] 并且，当使用产品-细节主题（即x = 0)时，用于学习的吉布斯采样方程与算式 (8)相同。
[0115] 当学习某评论主题或者产品说明功能主题f时，所述方程具体如下：
[0116] P (Xpjl= I, f Pll= Z, Ypjl= 〇Ι ω Pj1，Χ\ρ>1，Ε\ρ>1, ΥΧρ>1, Ω)
[0117] °cp(Xp i= ?|ΧΧρ>ι, Q)p(fp>i= z|FXp>1, ΕΧρ>1, Ω)
[0118] p(yp, i -〇 I z，Y \p, i，F\p, p E\p, ;，Ω ) p (ω p, i I z，F、p, p E\p, ;，Y\p, ;，Ω ) (15)
[0119] 其中，p(xPii= I |X Vi，Ω)由算式（9)所定义，其他的项的具体定义如下：
[0120]
[0121]
[0122]
[0123] 其中K为所有评论及产品说明主题的总数。
[0124] 当选中某功能（即fPii= z)和配对的功能参数（u Pii= j)来描述该功能时，所述 SpecLDA模型也进行学习，具体如下：
[0125] P (xPj1= L f Pj1= z, y = I, Upjl= j
[0126] k，Xw, Yw, Uw, Ω)
[0127] ρ(Χρ ι= ι|χ、ρ ι，Ω)
[0128] PCfpjl=ZlFxpjljExpjljQ)
[0129] p(yp>1= I |ζ, ΥΧρ>1, FXp>1, ΕΧρ>1, Ω)
[0130] p(up> j= I |z, YXp>1, FXp>1, UXp>1, Ω)
[0131] p(wp>i|z, j, UXp>i, Ω) (19)
[0132] 其中，第一及第二项定义如前所述，剩余项具体定义如下：
[0133]
[0134] CN 105139211 A I兄明书 15/18 页
[0135]
[0136] 其中，|Uf|为某功能f的所有可能的功能参数的总数。对功能单词和功能参数单词采用DuanLDA+模型中使用的归一化方法。
[0137] 请继续参阅图9,所述主题生成模型还可以用于提供精确化的产品说明。基于生成的主题模型的ad-hoc语言模型检索系统可以依据检索条件检索相关的评论语句（S906)。所述检索条件可以是从产品说明的预处理结果中获得的产品的功能-参数配对。
[0138] 更具体的，为了从收集的文档中检索相关的文档，可以使用如下所述的拟然查询检索模型
[0139] p (d I q) 00 p (q I d_ · p (d)
[0140] (23)
[0141] 00 p(qI d)
[0142] 其中，d表示某文档，q为词语列表的检索条件，p (d I q)为d满足在给定的q下的信息要求的概率。P (q Id)用于衡量d到q的距离，并且p (d)为在d中，与检索条件相独立的用户偏好。由此，若文档能够与检索条件良好吻合并且符合用户偏好，上述算式将这一文档标记为高得分。在某具体实施例中，假设所述文档的偏好没有给定，因此，可以认为q是均等的并且忽略P (d)这一项。
[0143] 总的来说，p (q |d)可以定义如下：
[0144]
[0145] 其中，w为在q中的单词，V为收集的文档中的词汇表集合，并且c (w, q)为在q中 w的计数。p (w I d)为通过最大拟然估计计算得出的一元文法语言模型（unigram language model)，它表示在文档d中单词w的相似性。因此，若在q中的单词更多的出现在文档d中，文档d与检索条件q的相似性p (q I d)将会提高。
[0146] 为了避免过拟合和阻止当没有任何q的单词出现在文档d中时，p(q|d)等于〇,通常需要使用平滑的P (q |d)。具体的，可以使用线性插值平滑方法（Jelinek-Mercer smoothing method)，p (w I d)可以定义如下：
[0147] p(w|d) = (l-A)pml(w|d) + Ap(w|B) (25)
[0148] 其中，pml (w I d)为结合最大拟然估计得出的文档语言模型，并且p (w IB)为收集语言模型。为了平滑Pnl(w|d)，需要使用一个参考语言模型p(w|B)。其中，使用由B表示的整个语料库以便于一般的单词相似性能够提升P ml (w I d)。由此，所述结果p (w I d)通过Pml (w I d) 和P(w|B)加权平均获得。在算式（24)中，由于多次小值相乘可能会导致下溢的发生。为
[0149] 了避免这种情况，需要采用一个算法并随之使用标准语言模型检索方法。所述对于q的文档d的得分可以定义如下：
[0150]
[0151]
[0152] 其中，若将Σ w E VC (W，q) log λ p (WIB)代入算式（28)中，算式（27)和算式（28)是等效的。但是省略了 aq，因为它不依赖于山亦表示它不会影响文档的排序。通过将算式 (27)改写为算式（28)，其能够对于检索条件中的普通单词进行罚分，这也是ad-hoc信息检索中需要的特性。
[0153] 在较佳实施例中，可以应用进行了合适调整的拟然查询检索方法。在当前的问题设定中，检索条件q为在待检索的产品说明S q= (fq, Uq)中的单词，而d为在所有评论语句 T中的语句t。V表示在T中的词汇表，B为T的一元文法语言模型。由于当前文本单位为句子，所以通常包含的单词比文档要少得多导致在检索条件与句子之间的统计论据相当薄弱，使得问题要比文档检索更难解决。幸运的是，所述方法利用产品说明来过滤掉不相关的句子；若句子t p来自产品P的评论语句Tp而待检索的产品说明不在P的产品说明Sp中，那么可以忽略t p。因此，所述句子t对于q的相关性得分可以表示如下：
[0154] C 29 5
[0155] 其中，o/w表示"否则"，并且可以采用算式（25)中计算p(w|d)的方法来计算 Pnl (w I tp)。算式（29)可以被用作基线法并且简称为QL。
[0156] 但是对于基线法而言，若检索条件使用的词汇表与文档中描述检索条件所使用的词汇表不相同时，其运算结果不佳。例如，对于检索某功能-参数配对（"显示屏" "3英寸 LCD显示屏")，因为检索条件的单词没有出现在句子"屏幕较大但是在活动时容易破碎"中， QL会将这一与功能密切相关的句子标记为零分，并且Pnil(Wltp)的输出结果也会是0。因此，为了在产品说明和评论的词汇表差异之间建立联系，需要用使用了主题模型的V (w|tp) 来代替 pmi(w|tp)。
[0157] 另外，在较佳实施例中，在ad-hoc检索方法中结合改进的LDA模型。因为它会丢失原始的检索信息，因此仅仅依靠 LDA文档模型并不是一个理想的做法，而应当整合原始信息的语言模型。因此，本发明所述方法使用了一个结合了改进的LDA文档模型和最大拟然估计语言模型的加权插值模型。
[0158] 具体的，检索系统的目标在于获取相关的句子而非文档。若拓展的主题模型具有句子单元，由于句子的数量通常远大于文档的数量，它可能需要过多的目标变量。因此，在较佳的实施例中，不使用LDA中的句子单元，而转化为计算从文档层次到句子层次。在某文档d中的句子t的语言模型p' (w|tp)由此可以定义如下：
[0159] p' （w|tp) = λ ' pml(w|tp) + (l_A ' ）plda (30)
[0160] 因此，结合主题模型和最大拟然估计语言模型，在较佳实施例中使用的句子t对于q的相关性得分计算算式如下所示：
[0161]
[0162] 其中，p' (w|tp)是通过上述的任意一种改进的LDA模型和最大拟然估计语言模型计算得出。在此，通过算式（30)获取p' (w |tp)从而为句子标记得分。
[0163] 消费者一般想要知道与其他产品相比，这一产品具有哪些特点。产品特点主题可以通过DuanLDA+和DuanLDA获得（S907)。对于每个产品ρ，Φ ρ包括了一个产品特点主题。在Φρ中具有排序靠前的单词表示这些单词更为接近产品特点主题而非其他主题。因此，那些排序靠前的单词可以认为是某个产品的特点描述单词。
[0164] 对于一个不熟悉产品的功能的新手来说，功能的重要程度也是非常有用的信息。功能重要程度信息可以由改进的LDA模型生成（S908)。在DuanLDA和DuanLDA+中，不同的功能-参数配对具有功能交集。并且对于某功能f的功能重要程度可以通过学习后的吉布斯采样计算得出，具体如下所示：
[0165] (32)
[0166] 而由于在SpecLDA中，功能和功能参数分离，所以功能的重要程度可以由下式表示：
[0167] (33)
[0168] p (f)越高表示功能f在评论中提及得越多。
[0169]

完整全部详细技术资料下载

当前第4页1 2 3 4 5