用于网上购物的关联提取的系统和方法

文档序号:6533011阅读:179来源:国知局
用于网上购物的关联提取的系统和方法
【专利摘要】本公开涉及用于向网页提供数据使得以模拟真实世界购物体验的方式向用户呈现项目的计算机系统和由选择性编程的数据处理器执行的方法。所公开的技术的各个方案还涉及用于使用关联关系提取来计算产品或类别关联的系统和方法。所公开的技术的附加方案涉及自动话题发现以及事件和类别匹配。
【专利说明】用于网上购物的关联提取的系统和方法
[0001] 要求优先权
[0002] 本申请要求于2012年2月9日提交的美国临时专利申请No. 61/597,032以及于 2012年9月10日提交的美国非临时专利申请No. 13/607, 967的优先权,其全部内容通过引 用的方式并入本文。

【技术领域】
[0003] 本发明大体上涉及电子商务,更具体地,涉及基于网络的计算机系统和方法,用于 实现性能和呈现增强协议以及用于促进基于web的商务的系统架构。

【背景技术】
[0004] 网上购物在很多方面与在实际商场购物极大地不同。一个明显的区别是网上购物 模型是面向搜索的,即,基于用户键入查询并且在最佳结果中找到相应的产品。因此,网上 购物非常适合于心里有希望购买的特定类型的产品的用户的目标。此类用户希望能够快速 地找到其选择产品或者比较相同产品的接近的备选物和变体。
[0005] 另一方面,很多用户非常享受购物活动并且喜欢在他们决定购买之前浏览各种不 同的项目。这种购物体验传统上仅非常适合于线下或实际商场,例如通过走进百货公司或 者购物中心并且浏览。面向搜索的网上购物网站未提供全面或令人满意的"浏览"功能。
[0006] 本发明试图解决这些问题和其他问题,以提供增强的网上购物体验,从而部分地 允许用户体验在实际商场浏览的网上等同效果并且向用户提供相关的产品。


【发明内容】

[0007] 因此,本发明的一个目的是提供具有向用户呈现相关联产品的访问门户网站的基 于网络的计算机系统。
[0008] 本发明的另一目的是提供用于优化向用户呈现的相关联产品的协议。
[0009] 本发明的另一目的是提供关联关系提取。
[0010] 本发明的另一目的是提供用于产品/电子商务域的话题发现。
[0011] 本发明的另一目的是提供事件和类别匹配。
[0012] 本发明的上述目的和其他目的在其特定示意性实施例中被实现,其中,特定示意 性实施例包括连接到web的选择性编程的计算机平台和系统。
[0013] 当结合附图和详细描述考虑时,本发明的其他特征和优点将变得更加显而易见。

【专利附图】

【附图说明】
[0014] 在附图中:
[0015] 图1是示出了根据所公开的技术的一个实施例的示例性互联网商场环境的框图。
[0016] 图2是根据所公开的技术的一个实施例的图1的网上购物服务器110中的示例性 组件的框图。
[0017] 图3至图4是所公开的技术的示意性实施例的屏幕截图。
[0018] 图5是示出了 LDA模型及其参数的示图。

【具体实施方式】
[0019] 本发明涉及用于向网页提供数据使得以模拟真实世界购物体验的方式向用户呈 现项目的计算机系统和由选择性编程的数据处理器所执行的方法。所公开的技术的各个方 案还涉及用于使用关联关系提取来计算产品或类别关联的系统和方法。所公开的技术的附 加方案涉及自动话题发现以及事件和类别匹配。本文所描述的特定实施例是示例性的,而 不限制所公开的技术的范围。
[0020] 现在参照图1,示出了根据所公开的技术的互联网商场基础设施100的一个实施 例的框图。互联网商场基础设施100包括网络102,网络102可以包括一个或更多个电信 设备(例如,路由器、集线器、网关等)以及一个或更多个连接(例如,有线连接或无线连 接)。在不同的实施例中,网络102可以包括不同数量的电信设备和连接,并且可以跨越不 同地理范围。在不同的实施例中,网络102可以尤其包括有线电话基础设施、蜂窝电话基础 设施、有线电视基础设施和/或卫星电视基础设施的全部或部分。
[0021] 各个互联网商场参与者(包括一个或更多个用户计算机104和106、零售商服务 器108和网上购物服务器110)与网络102进行通信。本文所使用的术语"计算机"包括可 以执行机器指令的任何系统或设备,包括例如:台式计算机、膝上型计算机、服务器、手机、 智能手机、手持设备、电视机顶盒和/或联网的计算系统或其中的多个或其组合。零售商服 务器108包括网页和web服务器软件,其中web服务器软件可以向请求网页的系统或设备 提供网页。网页可以包括大量不同的媒体和内容,包括例如:购物内容。网上购物服务器 114可操作以确定类别与产品之间的关联关系,构造话题页面,并且执行下面详细描述的各 种其他功能。网上购物服务器114可以是零售商服务器108的一部分,或者可以是单独的 服务器。
[0022] 用户计算机104和106、零售商服务器108和网上购物服务器110均可以包括硬 件,例如,网络通信设备、非瞬时存储介质/设备、处理器、存储器和诸如操作系统软件、web 服务器软件和/或web浏览软件等的软件。在一个实施例中,用户计算机104和106包括 web浏览器,web浏览器可以向零售商服务器108和/或网上购物服务器110请求网页。本 领域技术人员将理解的是,"网页"是指不同事物的集合,包括:在屏幕上显示的视觉内容 (例如,文本、图片、视频、按钮等)、使视觉内容被显示的软件代码、以及不使任何事物被显 示而是结合网页执行特定功能的其他软件代码。
[0023] 图2示出了根据所公开的技术的一个实施例的图1的网上购物服务器110的示例 性组件。界面软件202允许与网上购物服务器110进行用户交互。存储介质204可操作以 存储选择性程序,包括:实现关联关系提取引擎206和输出引擎210所需的程序。可以在数 据处理器208上运行关联关系提取引擎206,使得执行下面所描述的算法和方法。输出引擎 210可操作以向用户计算机或零售商服务器输出关联关系提取引擎206的结果,例如,话题 页面。
[0024] 在一个实施例中,用户能够在特定产品类别(例如,酒)中查看产品。系统的目的 之一是确定用户将对哪些其他类别感兴趣并且显示这些类别。例如,在酒的情况下,可能存 在各种类型的酒,但也有开瓶器具和储存器具以及酒杯或与酒一起供应的适合的食物(例 如,奶酪)。可以在每一个零售商可能特有的"产品本体树"中定义这些产品类别。例如, 零售商X可能具有家用项目类别(其具有开瓶器作为子类别)以及食物类别(其具有饮料 作为子类别并且具有酒作为饮料类别的子类别)。在该示例中,上文提到的所有类型的产 品被指派给零售商的产品层级中的不同类别,这些类别在产品本体树中通常离得很远。此 夕卜,用户数据可能不足以找到这种类型的关联,这是因为它可能遇到稀少问题,或者以此方 式找到的相关内容可能不足够相干使得将它一起显示将提供愉快的上网体验。
[0025] 考虑到零售商产品层级中的类别(例如,意大利面酱)以及指派给该类别的产品 的描述,本发明在意大利面酱的情况下提取其他相关联的类别,例如,意大利面、西红柿、橄 榄油和奶酪。这是通过创建"类别文档"的集合并且采用发现该文档集合中的隐藏话题的 话题模型算法来实现的。
[0026] 然后,基于对于每一个类别是重要的的话题和类别名称的共存来找到相关联的类 另IJ。此外,还可以根据相关联的类别被指派给的话题来对相关联的话题进行分组,这提供了 布置相关联的类别信息的自然方式。对于每一个相关类别,所公开的发明选择示例产品和 产品描述中说明关联的片段句子。此外,所公开的发明还构造话题页面,该话题页面列出了 对于给定话题主要的类别。话题页面可以被认为是商店中的主题显示的等同物,例如,在意 大利菜中使用的配料。
[0027] 网h购物范例
[0028] 网上购物可以被定义为网上购物范例,这有助于希望"浏览"网上商店的用户浏览 和仔细查看各种产品。网上购物的目标用户是不一定打算搜索特定项目、而是访问网站以 仔细查看和享受购物活动的用户。因此,网上购物界面的目的是捕获用户的意图并且提供 娱乐。他们维持在站点上的时间越长,他们越可能发现他们决定购买的产品。网上购物的 另一个功能是通过在浏览提议中显示用户可能还不了解或者还未想要搜索的产品来使他 们接触到这些产品。
[0029] 因此,在优选的实施例中,网上购物界面包括多个导航选项和一个吸引人的显示。 为了使用户感兴趣,系统应当提供与用户当前正在查看的产品选择相关的多个选项,所述 多个选项可以用作要仔细查看的其他可能的方向。此外,应当以有趣且吸引人的方式组织 和显示作为相关选项显示的项目(产品类别或产品)以促进进一步浏览站点。通过用于提 取产品类别之间的关联关系并且将这些关联组织为主题/话题的方法来促进这些要素。前 面的两个部分介绍了在原型试验中使用的方法和数据的组成部分。
[0030] 初步定义和数据
[0031] 关联关系。考虑到典型的网上零售商产品类别层级,在不一定处于相同语义类中 (即,在产品树中接近)但是仍然被感知为概念上相关的项目之间存在关联关系。这种关 系的示例包括杯子和咖啡或者自行车和头盔。可以认为项目是关联相关的,这是因为它们 参与一个活动或事件类型(煮意大利面涉及意大利面、锅、热水等),一个项目类型用作另 一个项目类型的容器(茶、茶壶),或者它们经常一起被发现(女士手提包中的手帕和化妆 镜)。
[0032] 除了发现与给定实体关联相关的实体集合之外,还可以根据将它们与目标实体相 联系的主题或整个话题来对其成员进行分组。例如,与奶酪相关的实体可以包括通常在早 餐时吃的其他食物、或者与使用奶酪烹饪相关的项目,在该情况下,相关联的实体被细分为 两个主题组。以单个话题为例,在烹饪主题下分组的与奶酪相关的实体可以包括擦菜板 (用于擦菜的工具)、比萨(奶酪用作配料或调味配料)或者番茄汁(与奶酪搭配的配料)。 [0033] 基于手动或自动分类,类别节点可以被分为类别和属性,其中,属性节点出现在树 的下方。例如,饭碗类别的子类别可以包括描述诸如瓷、陶瓷、塑料等的材料的属性。
[0034] 术语类别是指在层级中的该类别节点下的产品集合(和相应的产品文档),而术 语类别名称是指向类别提供的标签。在一个示例中,可以进行如下简化假设:当在产品文档 中使用类别名称时,它是指该类别中的项目。在一个示例中,每一个类别具有一个名称/标 签,但是原则上,可以使用用于提及类别中的项目的同义词或关键词列表来替换该名称。
[0035] 方法概沭
[0036] 下面描述了一种用于找到所选域(例如,食物和厨房)中的产品类别之间的关联 的方法。下面参照仅考虑来自食物和厨房域的类别节点(共1088个)的具体试验,并且将 理解的是,下面对具体示例的参考不是限制性的。在一个实施例中,用于提取关联关系的方 法由以下步骤构成:
[0037] 1、类别文档构造
[0038] 针对域中的每一个类别X,构造人造文档,该人造文档由关于其他类别Y描述该类 别的所有句子构成,更具体地,包括对X中的产品的描述中提到至少一个其他类别Y的名称 的所有句子以及对类别Y中的产品的描述中提到类别X的名称的所有句子。结果是文档集 合(库),针对每一个类别有一个文档。
[0039] 2、使用潜在狄利克雷分配(LDA)的话题发现
[0040] 通过对类别文档库使用LDA来运行话题模型,这发现了文档中的隐藏话题/主题。 模型的结果提供了文档集合中的(由可能出现在每一个话题中的词表示的)主话题以及针 对每一个类别文档的主要话题和针对文档集合中的每一个词的话题标签。必须凭经验建立 针对给定文档库的话题的数量。针对食物和厨房域,话题的数量比类别的数量少十倍是最 佳的。在一个实施例中,为了避免太笼统的话题,丢弃前10%的话题。
[0041] 3、选择针对每一个类别文档的相关类别并且向话题指派类别
[0042] 针对在单独的类别文档中描述的每一个目标类别,根据潜在相关话题在目标类别 文档中的出现来对它们进行分类,或者基于话题模型结果来向它们指派相关分数。还基于 目标中的最佳话题之一与相关类别文档中的最佳话题的重叠来将每一个相关类别指派给 该目标中的最佳话题之一。
[0043] 4、片段和样本产品选择
[0044] 考虑到前两个步骤,相关类别到话题的指派是已知的,并且在目标类别文档中存 在可以用作说明目标与相关类别之间的关系的片段候选的句子集合。针对该句子集合,包 含关联对中的类别名称之一的最常见的谓语变元结构被发现,并且根据词属于被指派给该 特定关联关系的话题的可能性来对这些句子进行分类。在其描述中具有高分数的片段的产 品被选作示例。可以通过根据目标类别名称和代表话题的词构造查询并且将搜索结果限制 于相关类别中的项目来在产品索引中搜索其他示例性产品。
[0045] 5、类别的选择和聚类以表示每一个话题
[0046] 因为使用LDA在类别文档集合中发现了隐藏话题,因此结果还使得可以构造"话 题页面",该话题页面可以被视为商店中的主题显示或主题角的等同物。为了构造话题页 面,该话题下最可能的类别文档被选择并且k均值聚类版本用于根据产品本体树中的距离 对其进行分组,使得类似的类别可以被显示在一起并且使得不适合在一起的类别可以被移 除。在图3中示出了根据所公开的发明的一个实施例的示例性话题页面的屏幕截图。
[0047] 6、话题标签选择
[0048] 话题的数量远少于给定域中的类别的数量(例如,针对1088个类别的食物和厨房 域有100个话题),这允许手动的话题标签选择。然而,在一个实施例中,话题标签选择是自 动化的。可以由注释器基于话题页面上的最佳话题关键词和类别的选择来指派话题标签。
[0049] 方法细节
[0050] 1、类别文档构造
[0051] 该部分描述了如何考虑到该类别中的所有产品描述来构造类别文档。然后,针对 给定域的此类文档的集合可以用作在下一部分中描述的话题模型聚类的输入。
[0052] 首先,对所有描述进行标记化,并且给词性(P0S)加标签并将词性划分到句子中。 产品描述中的句子分段基于简单的朴素贝叶斯分类器,该朴素贝叶斯分类器决定当它遇到 给定的具有约20个字符(不仅可以包括标点符号,而且还可以包括星号、音符以及一些其 他符号)的集合中的分隔符之一时是否进行分段。提供给分类器的特征是:前一个词、前一 个词的P0S、分隔符自身以及与前一分隔符的距离(以词为单位)。
[0053] 在分段之后,根据以下规则来清理(clean)描述数据。如果重复描述来自由相 同的零售商提供的产品描述,则移除重复描述,也移除重复句子。仅标点符号或者数字不 同的句子也被认为是重复的。此外,不包含任何谓语(动词或形容词)或格助词(case particle)的分段被移除,以排除诸如关键词列表等的非句子分段。
[0054] 基于源类别将所有句子分组到单独的文档中,并且向这些句子指派唯一 id,该唯 一 id包含产品描述所属的类别的id。然后,进一步对句子进行过滤,从而仅留下包含域中 的另一类别的名称的那些句子。这允许保留潜在地描述给定产品类别与其他类别之间的关 系的句子。这还有助于移除诸如运输或包装信息等的元数据。以标记化的格式保存数据, 然而,与类别名称相匹配的所有子字符串被级联以形成单个词(很多类别名称由多于一个 标记构成)。
[0055] 与类别X相关的重要知识也可以包含在来自其他类别的提到类别X的名称的产品 描述中。因此,在最后一个步骤中,使用从其他类别中的包含相关类别名称的描述复制而来 的句子来增大每一个类别文档。
[0056] 结果是文档集合(库),针对每一个产品类别有一个文档。应当注意的是,这些文 档不是连贯(coherent)文本或概述,它们仅将从产品描述中提取的相关句子聚集在一起。 因为LDA是词包模型,因此这种类别文档库构成了下一个步骤的有效输入。
[0057] 2、潜在狄利克雷分配
[0058] 除了识别与给定目标关联相关的实体之外,另一个目的是基于目标实体的不同方 面以及它与已经被分类为相关的实体相关联的方式将该知识组织到主题组中。因此,利用 称作潜在狄利克雷分配(LDA)的模型。
[0059] 为了运行LDA,必须指定三个参数:话题先验(prior)、词先验、以及话题群集的数 量,g卩,库中将被模型发现的隐藏主题的数量。在一个实施例中,话题先验被设置为50除以 话题的数量,并且词先验被设置为0. 01。小于1的话题先验确保话题在文档中的"峰值"分 布,其中针对每一个文档区分几个主要话题。应当凭经验来建立针对给定文档库的话题的 数量。对于食物和厨房域,发现话题数量比类别数量小十倍是最佳的。
[0060] 可以使用采用倒塌的吉布斯采样作为推断方法的软件。通过利用采样方法,可以 在采样器的多次"老化(burn-in)"迭代之后通过多个采样对结果进行平均。然而,实际上, 可能引入采样之间的话题不可辨识的问题。在一个实施例中,可以在库的对数似然已经稳 定(例如,2500至3000次迭代)之后使用单个采样近似。
[0061] 在一个试验中,以基本单调的形式呈现文档中的所有词。具有113个词的禁用列 表用于从文档中移除所有数字和标点符号。输入还被格式化以增大发现表征关联关系和活 动的话题的机会。除了使用文档中的所有词作为输入之外,还可以对库运行从属解析器并 且仅保留谓语表达(动词、形容词和动名词)和其原始格位形式的变元(即,格助词被附着 到名词以形成单个标记)。除了影响话题分布之外,后一个选项具有减小库大小从而缩短计 算时间的优点。
[0062] LDA的结果由每一个文档中的推断的话题比例以及话题的词分布表示构成。话题 词分布允许确定给定话题下最常见的词。这些词是可以由人类注释器使用以向话题指派标 签或者通过自动化方式使用的词。
[0063] LDA发现的隐藏话题在特异性/通用性方面不同。一些话题群集对于给定域太笼 统,例如,与食物和厨房域中的食用相关的话题。可以通过查看被指派该话题的类别的数量 来找出和排除此类话题(类别越多,话题越笼统并且越不清楚)。为了避免太笼统的话题, 可以设想根据文档的数量丢弃话题的前X% (例如,10% )。
[0064] 在一个实施例中,使用被监督的LDA,例如,合理话题模型(RTM),以发现产品本体 树内的相关类别。通过使用RTM,可以在产品本体树中的类别之间的现有链路上训练模型, 并且结果可以应用于预测类别层级树中彼此远离的类别之间的链路。
[0065] 3、相关类别选择和话题指派
[0066] 针对通过单独的类别文档所描述的每一个目标类别,所公开的发明根据目标类别 文档中提到相关类别或者源自相关类别中的产品描述的句子的数量来对潜在相关类别进 行分类。这提供了对两个类别之间相关强度的近似度量。
[0067] 两个类别之间的关系的另一可能度量可以直接基于LDA结果计算的分数,其被表 达为考虑到主类别和话题z感测到相关类别候选的概率,其可以被定义如下:
[0068] P(c: I £?) = Σ I z)l>i<z I 6'i)
[0069] 其中,(在另外假设所有文档是等概率的情况下)根据贝叶斯规则来计算考虑到 话题z的类别文档c的概率:
[。_斗,丨5)="'、丨以。
[0071] 在一个实施例中,在目标类别文档中选择四个最佳话题以表示针对该类别的主要 主题。虽然该数量是灵活的,但是通常在单个类别中仅有3至5个话题是主要的。对于这 些话题中的每一个话题,通过迭代先前分类的类别候选列表并且基于以下公式将每一个候 选指派给话题来指派4个相关类别,其中z是话题并且c是类别。
[0072] RelZ(Ci,Cj) = maxz (P (zk | Cj)+P (zk | Cj)) (1)
[0073] 这与选择重叠话题相对应,该重叠话题最大化两个类别在该话题下的概率。针对 潜在重叠所核查的话题被限制于目标和相关候选类别中的前十个话题,因此如果不存在重 叠则可以拒绝候选。
[0074] 将相关类别指派给话题的另一备选方式可以是(例如,通过从主类别文档中提取 包含相关类别的名称的所有句子)构建由描述关系的句子构成的新文档。然后,拟合的LDA 模型可以用于使用标准LDA预测方法之一来预测新文档中的最佳话题。
[0075] 4、片段选择
[0076] 为了选择片段以表示每一个相关类别中的示例产品,所公开的发明使用来自目标 类别文档的句子分段作为片段候选池。
[0077] 包含在单个相关类别的候选集合中的句子包括(a)包含目标和相关类别的名称 的句子、(b)包含对中的一个类别的名称并且来自另一类别中的产品描述的句子。这意味 着可能仅类别名称之一出现在片段中并且另一个可能隐式地存在,这是因为句子来自该类 别中的产品的描述。产品所属类别的名称通常不存在于描述中。取而代之地,它是隐式或 空变元,例如,拉面面条的描述可能不包含词拉面,即使它是指面条。允许仅单个类别名称 出现在句子中的策略允许对句子更大的覆盖和更可靠的频率统计。
[0078] 首先,通过最常用的变元+谓语结构来对候选句子进行过滤,其中格位变元(case argument)是类别名称。假设存在通用地表达类别之间的关系的特定谓语形式,但是因为可 能仅类别名称之一存在于句子中,因此所公开的发明从对中的两个类别中选择最常用的类 别名称+格位组合。接下来,系统找出该类别变元在候选集合中依据的最常见动词。例如, 针对类别对黄瓜和腌菜,最常见变元-谓语结构可以是腌制黄瓜。
[0079] 然后,根据具有最常见的格位和谓语形式的候选句子中的词如何紧密地反映相关 类别对被指派给的话题来对候选句子进行评分。通过对每一个句子中的词的话题z分数进 行求和来指派分数。z分数是表示标准偏差的数量的统计度量,其中话题中的词的出现与均 值(即,其预期的频率,而不论话题如何)相差该标准偏差。它是作为话题t中的词 Wi的 原始频率与t中的Wi的预期频率之间的差值除以库的标准偏差来计算的(针对二项式分 布来计算的),如下所示。N是整个库中的词的数量。
[0080]

【权利要求】
1. 一种用于确定关联关系的计算机实现的方法,包括: 构造多个类别文档,其中所述多个类别文档中的每一个类别文档与类别相关联并且包 括关于一个或更多个其他类别对相应类别的描述; 将所述多个类别文档应用于话题模型以确定话题; 选择针对所述多个类别文档中的第一类别文档的相关类别; 将所述相关类别中的一个或更多个相关类别指派给所确定的话题; 根据所述多个类别文档中的所述第一类别文档来选择所述描述中的一个或更多个描 述,以说明所述多个类别文档中的所述第一类别文档与所述多个类别文档中的第二类别文 档之间的关系; 基于所选择的一个或更多个描述来选择代表性产品;以及 构建话题页面。
2. 根据权利要求1所述的计算机实现的方法,其中,所述话题模型使用潜在狄利克雷 分配算法。
3. 根据权利要求1所述的计算机实现的方法,其中,构建所述话题页面包括:进行k均 值聚类,以根据产品本体树中的距离将话题聚集在一起。
4. 根据权利要求1所述的计算机实现的方法,其中,确定的话题的数量比类别的数量 少至少十倍。
5. 根据权利要求1所述的计算机实现的方法,其中,选择相关类别包括:根据所述多个 类别文档中的所述第一类别文档中提到所述相关类别之一或者源自所述相关类别之一中 的产品描述的句子的数量来对潜在相关类别进行分类。
6. 根据权利要求1所述的计算机实现的方法,其中,所述多个类别文档中的所述第一 类别文档的所述描述包括所述多个类别文档中的所述第一类别文档中的产品描述中提到 与所述多个类别文档中的所述第二类别文档相关联的类别名称的所有句子。
7. -种用于确定关联关系的系统,包括: 数据处理器,被编程为: 构造多个类别文档,其中所述多个类别文档中的每一个类别文档与类别相关联并且包 括关于一个或更多个其他类别对相应类别的描述; 将所述多个类别文档应用于话题模型以确定话题; 选择针对所述多个类别文档中的第一类别文档的相关类别; 将所述相关类别中的一个或更多个相关类别指派给所确定的话题; 根据所述多个类别文档中的所述第一类别文档来选择所述描述中的一个或更多个描 述,以说明所述多个类别文档中的所述第一类别文档与所述多个类别文档中的第二类别文 档之间的关系; 基于所选择的一个或更多个描述来选择代表性产品;以及 构建话题页面。
8. 根据权利要求7所述的系统,其中,所述话题模型使用潜在狄利克雷分配算法LDA。
9. 根据权利要求7所述的系统,其中,所述数据处理器被进一步编程为: 通过使用LDA结果以选择表示所述话题的产品类别,来构建所述话题页面;以及 使用k均值聚类根据产品本体树中的距离将所述类别聚集在一起。
10. 根据权利要求7所述的系统,其中,确定的话题的数量比类别的数量少至少十倍。
11. 根据权利要求7所述的系统,其中,所述数据处理器被进一步编程为选择相关类别 包括:根据所述多个类别文档中的所述第一类别文档中提到所述相关类别之一或者源自所 述相关类别之一中的产品描述的句子的数量来对潜在相关类别进行分类。
12. 根据权利要求7所述的系统,其中,所述多个类别文档中的所述第一类别文档的所 述描述包括所述多个类别文档中的所述第一类别文档中的产品描述中提到与所述多个类 别文档中的所述第二类别文档相关联的类别名称的所有句子。
13. -种包含有程序的非瞬时计算机可读存储介质,当在数据处理器上执行所述程序 时,所述程序使所述数据处理器执行包括以下各项的步骤: 构造多个类别文档,其中所述多个类别文档中的每一个类别文档与类别相关联并且包 括关于一个或更多个其他类别对相应类别的描述; 将所述多个类别文档应用于话题模型以确定话题; 选择针对所述多个类别文档中的第一类别文档的相关类别; 将所述相关类别中的一个或更多个相关类别指派给所确定的话题; 根据所述多个类别文档中的所述第一类别文档来选择所述描述中的一个或更多个描 述,以说明所述多个类别文档中的所述第一类别文档与所述多个类别文档中的第二类别文 档之间的关系; 基于所选择的一个或更多个描述来选择代表性产品;以及 构建话题页面。
14. 根据权利要求13所述的非瞬时计算机可读存储介质,其中,所述话题模型使用潜 在狄利克雷分配算法。
15. 根据权利要求13所述的非瞬时计算机可读存储介质,其中,构建所述话题页面包 括:进行k均值聚类,以根据产品本体树中的距离将话题聚集在一起。
16. 根据权利要求13所述的非瞬时计算机可读存储介质,其中,确定的话题的数量比 类别的数量少至少十倍。
17. 根据权利要求13所述的非瞬时计算机可读存储介质,其中,选择相关类别包括:根 据所述多个类别文档中的所述第一类别文档中提到所述相关类别之一或者源自所述相关 类别之一中的产品描述的句子的数量来对潜在相关类别进行分类。
18. 根据权利要求13所述的非瞬时计算机可读存储介质,其中,所述多个类别文档中 的所述第一类别文档的所述描述包括所述多个类别文档中的所述第一类别文档中的产品 描述中提到与所述多个类别文档中的所述第二类别文档相关联的类别名称的所有句子。
【文档编号】G06Q30/06GK104106087SQ201380008497
【公开日】2014年10月15日 申请日期:2013年2月8日 优先权日:2012年2月9日
【发明者】佐菲亚·斯坦基维兹, 关根聪 申请人:乐天株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1