产品简介生成方法及系统的制作方法_2

文档序号：9418043阅读：来源：国知局

01、预处理模块502、主题模型生成模块503以及产品简介生成模块504。
[0040] 所述产品信息数据库501可以存储源自于产品信息网站304的数据。具体的，所述数据库501可以存储产品说明5011、用户评论5012以及产品简介5013的数据。
[0041] 在具体操作中，当消费者使用web用户终端301来浏览产品信息网站303时，消费者可以在网站304中对产品进行评论。那些存储在产品信息数据库501中，选中的用户评论5012以及产品说明5011可以用来生成产品简介5013。所述产品简介5013可以存储在产品信息数据库501中。在本发明的具体实施例中，一个产品说明表示一个产品功能与其配对的功能参数，例如（数码照相机产品的"感光度"为"IS025600"）。每个产品都具有多个产品说明5013 (即上述配对的功能-参数）。所述产品简介5013包括了那些用于帮助消费者理解产品说明的额外产品相关信息。
[0042] 源自于产品信息数据库501的产品说明5011以及用户评论5012数据可以在预处理模块502中进行处理。所述预处理模块502可以用于运行评论的自然语言分析工具以及将同一产品的所有评论收集并为每一产品形成一个对应的产品文档。
[0043] 将预处理模块502中生成的产品文档提供给主题模型生成模块503进行处理。在本发明的具体实施例中，主题模型是指使用自然语言处理形成的，用于挖掘在选中的文档中出现的主题的统计模型。所述主题模型可以依据在文档中的包含的主题统计结果以及在主题中包含的词汇统计结果，计算一系列的文档并且输出结果。亦即，所述主题模型可以学习在每个文档中的主题分布以及每个主题中的单词分布。
[0044] 所述主题模型生成模块503进一步包括：先验知识生成单元5031以及改进的LDA 模型生成单元5032.在某具体实施例中，可以使用改进的三层贝叶斯概率分布模型（LDA) 作为主题模型。在这一 LDA模型中，每个文档与一个产品的用户评论内容相关联，而每一个主题则为源自于产品说明的功能-参数配对。
[0045] LDA模型假设主题的分布具有狄利克雷先验。亦即，主题分布服从狄利克雷分布。在实际操作中，所述LDA模型通过描述依据狄利克雷分布的两个变量来生成文档中的全部单词：每个文档都具有不同的主题分布以及每个主题都具有不同的单词分布。由于某一文档的单词分布是已知的，随着LDA模型迭代生成文档中的单词，LDA模型不断调整上述两个变量以便于其尽可能好的与数据拟合。所述数据包括给定的文档（与评论内容相关联）和主题（来源于产品说明的功能-参数配对）。因此，所述LDA模型可以学习所述数据并且在每个文档中生成主题分布以及在主题中生成单词分布。
[0046] 所述改进的LDA模型生成单元5032也可以在传统LDA模型中整合先验知识。所述先验知识生成单元5031可以获取先验知识，包括预先得知的，在文档中具体的主题分布以及主题中具体的单词分布。
[0047] 所述产品简介生成模块504可以用于生成一个或者多个相关语句5041、功能重要程度信息5042以及产品-特点单词5043。在某具体实施例中，对相关语句5041查询结果可以为通过即席查询（ad-hoc)语言模型检索系统生成的相关评论句子。检索条件可以为某一具体产品的功能-参数配对。所述ad-hoc语言模型检索系统可以使用基于生成的主题模型的检索条件检索相关的句子。（例如，在文档中的主题分布以及在主题中的单词分布）。所述功能重要程度信息5042可以依据生成的主题模型对产品功能进行排序。产品-特点单词5043可以基于生成的主题模型显示某一产品的独特特点描述单词。
[0048] 图6为本发明具体实施例的通过用于生成产品简介的系统500执行的产品购买循环600的示意图。当消费者点击某产品的链接时（S601)，消费者可以获得产品相关信息 (S602)，例如一般的产品说明6021，产品的用户评论6051以及产品简介6061。当消费者购买了产品后（S603)，消费者使用了产品一段时间后，可以写下产品评论来和其他人分享使用经验（S605)。所述产品简介6061从积累的产品的用户评论6051中生成（S606)。更具体的，结合产品的数据和相应的用户评论、产品说明，所述用于提升产品购买经验的系统 500能够自动分析关于某说明的评论句子并且结合上述分析结果提供更精确的产品说明。
[0049] 图7为系统500的具体使用方法的示意图。在包含由消费者提供的用户评论和相关产品说明的产品信息数据库中可以执行一些具体的处理。例如可以对用户评论数据进行预处理，并且将预处理后的用户评论或者产品说明作为语料提供给主题模型。所述语料可以用于主题模型算法中从而创建一个主题模型。
[0050] 所述产品说明也可以进行预处理。预处理后的产品说明可以用以作为主题模型的先验知识（"先验分布"）并且作为检索系统的检索条件。所述主题模型学习带先验知识的文本数据并且生成一个新的文档，所述文档同样也提供给检索系统。所述检索系统从所述新的文档中检索与检索条件相关的句子。
[0051] 同时，所述主题模型可以用于依据语料和先验知识，生成产品功能重要程度信息以及产品特点单词。将主题模型的结果（即功能重要程度信息和产品特点单词）和检索系统的输出结果加入到产品说明中，从而生成产品简介。
[0052] 图8为本发明具体实施例所述的产品简介的示意图。如图8所示，所述产品简介可以包括每个功能的重要程度信息，描述产品特点的词汇以及与每个功能参数相关的句子。
[0053] 具体的，除了展示产品功能列表和对应功能参数列表外，功能重要程度列表也可以加入到对应的功能中。所述功能的重要程度列表依据功能的重要性对每个功能进行排序。进一步的，所述产品特点描述单词也可以一同展示。可以通过所述产品特点描述单词的字体以及颜色显示哪一个单词描述了某产品的最佳特点。例如，在所述产品特点描述单词中，最佳的特点描述单词可以使用最大的字体和最深的颜色。
[0054] 另外，如果消费者点击某个功能参数框，则向其展示评论中相关的句子。无经验的消费者可以通过搜索获得的相关评论语句中了解某一具体功能参数，从而使消费者在阅读产品说明时，能够选择购买符合自身需求的功能的产品。在某具体实施例中，所述相关评论语句可以在浮动窗口中展示，功能参数描述单词则可以在句子中突出显示。
[0055] 图9为具体实施例的生成产品简介的方法900的方法流程图。所述方法900可以结合在评论中，与每个功能参数相关语句的检索结果来生成增强型的产品说明并且获取功能重要程度和产品特点项以便于用户能够更好的理解产品。假如一个消费者阅读更多的，源自于其他消费者，与某功能参数相关的内容，相信他能够更好的了解这一功能参数。
[0056] 如图9所示，获取若干个产品的产品说明和用户评论（S901)。具体的，给定M个具有多个评论R的产品P，评论句子T以及产品说明S。对于每个产品p而言，其具有对应的产品说明S p和由评论语句Tp组成的评论Rp。产品p的评论数据Rp由一个或者多个评论组成，其中每个评论又包括一个或者多个句子。产品P的产品说明数据S p定义为：Sp = {s I s e S 并且s为P的一部分}。其中，s为功能-参数配对（f，u)，并且S表示所有可能的功能-参数配对的集合。举例来说，f为"图像处理芯片"而排序第一的u则为"DIGIC5+"。所述方法900可以生成产品简介S p'，具体通过加入与（f，u)相关的句子I\f，u)并标记所有f的重要程度来获得。另外，还可以增加描述产品P特点的单词。
[0057] 所述方法900的实现面临如下问题。首先，对于同一功能或者功能的价值，在产品说明中使用的单词可能与评论中使用的不一样。例如，在功能"有效像素值"中的参数 "10. 000. 000像素"与用户使用的表示方法不相同。一般的，用户更倾向于使用"10MP"或者"十万像素"来表示。若仅使用预设的功能参数描述，可能会错失很多相关的用户评论。另外的问题还包括：功能或者功能参数的单词通常会在说明的多个地方中使用，导致同一句子会在多个不同的检索条件中重复出现。例如，功能单词"像素值"可以在"感光芯片像素值"，"有效像素值"，"最大录像像素值"，以及"屏幕像素值"这样一些完全不同的功能中出现。所述检索系统需要采用某些方法来很好的区分这些功能。另外，产品说明中的一些功能和功能参数并不会过多的在评论中出现，若作者认为这些功能不值得提及。这种情况会导致许多假阳性结果。
[0058] 使用自然语言分析工具，例如Stanford CoreNLP，对评论内容进行句子情感分析，单词标记以及词干提取以完成评论内容的预处理（S902)。对标记词降序并且移除那些罚分部分。然后通过自然语言分析工具移除停用词。在某具体实施例中，那些在少于5个评论中出现的标记词也移除。将一个产品的所有评论进行压缩并形成一个单独的产品文档用于主题模型构建。
[0059] 产品说明数据同样也进行预处理（S903)。在某具体实施例中，移除那些在少于5 个产品中出现的功能。然后，将每个功能及其参数描述文本依据空格（blank)分成标记词，并且对标记词降序。所述功能和功能参数的标记词用于生成先验知识。所述产品说明的标记词提供给检索系统作为检索条件来检索相关句子。
[0060] 所述预处理的用户评论以及产品说明数据可以应用于主题模型来定义在压缩后的评论文档中的功能-参数配对的分布（S905)。生成由用户评论和产品说明形成的先验知识（S904)并应用于主题模型提升拟合效果。
[0061] 具体的，一个主题模型是一个可以寻找到那些隐藏项目以及他们在源自于采样文本的文档中的分布的概率分布模型。其中，所述项目是指那些在文档中重复出现频率较高的单词的聚类。在一个主题模型中，主题表示相关的单词。亦即，即使文档中不包含完全相同的单词，在文档d中有足够的单词与w相似时，一个文档中的单词w的相似概率p (w I d) 依然具有足够高的值。例如，即使"LCD"没有在评论句子t中出现，若句子中包含了相关的词语"屏幕"和"易碎"等时，该句子的p( "LCD" |t)值依然足够高。因此，在本实施例中应用的主体模型，特别是LDA主题模型，能够在产品说明和评论的之间词汇差异建立联系。
[0062] 图10为LDA的图模型。如图10所示，LDA是一个学习型的主题模型，他能够挖掘隐藏的主题。其中每个主题z由单词分布Φ ζ表示，并且在文档d中具有分布Θ d。给定主题的数量K和文档数量M，每个文档d都包含了 Nd个单词并且通过所有的文档建立单词词汇表V。LDA通过计算服从狄利克雷分布的ed= {p(z|d) }ζΕ[1,κ#Ρ Φ z= {p(w|z) }wEV来生成每个文档d。换言之，当LDA生成在d中的每个单词时，它首先依据狄利克雷分布Dir ( a ) 来描述d中的主题总体情况0d，其中，a为对称先验分布。其次，它通过多项分布0,来选择一个主题z。最后，它通过多项分布Φ ζ来选择单词w。其中，Φζ依据狄利克雷分布 Dir(β)描述，β为对称先验分布。
[0063] 因为计算所有可能的主题结构是不可行的，所以通过近似算法计算变量θ φ ζ 以尽量好的拟合数据。在近似算法中，文档作为在所有可能的主题结构中进行检索的线索。其中，变分法（variational metho

完整全部详细技术资料下载

当前第2页1 2 3 4 5