获取装置、获取方法、训练装置以及检测装置的制造方法

文档序号:10624819阅读:193来源:国知局
获取装置、获取方法、训练装置以及检测装置的制造方法
【专利摘要】本公开提供了获取装置、获取方法、训练装置以及检测装置。用于获得用户的属性信息的获取装置包括:第一信息获取单元,其基于用户的用户简档中的结构化信息获得用户的第一属性信息;以及第二信息获取单元,其基于用户发布的内容中的非结构化信息获得用户的第二属性信息,其中,第二信息获取单元被配置为在用户发布的内容中搜索与至少一个关键词相似的近似词,以获得用户的第二属性信息,其中,关键词是通过下述迭代过程获得的:在给定语料中搜索与预设触发词相似的近似词,作为新的触发词,再在给定语料中搜索与新的触发词相似的近似词,重复上述迭代过程,直到达到预设的迭代停止条件为止,并将所有得到的近似词连同预设触发词一起作为关键词。
【专利说明】
获取装置、获取方法、训练装置从及检测装置
技术领域
[0001] 本公开总体上设及信息处理的技术领域,具体而言,设及与用户的属性信息有关 的获取装置、获取方法、训练装置W及检测装置,并且尤其设及一种用于获得用户的属性信 息的获取装置和获取方法、一种基于所获得的属性信息来对用户属性模型进行训练的训练 装置、W及一种通过该训练装置训练得到的用户属性模型来对用户的属性进行检测的检测 装置。
【背景技术】
[0002] 近年来,越来越多的用户使用诸如脸书(Facebook)、微博等社交媒体,并在运样的 社交媒体上发布各种信息。相较于传统的网络服务,各种社交媒体提供的社交网络服务更 全面、更具体地体现了每个用户的个体属性,如性别、年龄、职业、爱好、地域等等。
[0003] 从社交网络服务等网络服务获得的运些用户属性可W被应用于企业或政府部口 的统计分析和辅助决策等。因此,如何从各种网络服务或者其他含有用户属性信息的系统 或服务中提取用户属性信息已经获得了越来越多的关注。目前,尤其存在提高所获取的用 户属性信息的准确性W及提高获取用户属性信息的效率的需求。

【发明内容】

[0004] 在下文中给出了关于本发明的简要概述,W便提供关于本发明的某些方面的基本 理解。应当理解,运个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是W简化的形式给出某些概 念,W此作为稍后论述的更详细描述的前序。 阳〇化]鉴于现有技术的上述缺陷,本发明的目的之一是提供一种不仅基于用户的用户简 档中的结构化信息、还基于用户发布的内容中的非结构化信息来获取用户的属性信息的获 取装置和获取方法,W至少克服现有的问题。
[0006] 根据本公开的第一方面,提供一种用于获得用户的属性信息的获取装置,所述获 取装置包括:第一信息获取单元,其基于用户的用户简档中的结构化信息获得所述用户的 第一属性信息;W及第二信息获取单元,其基于所述用户发布的内容中的非结构化信息获 得所述用户的第二属性信息,其中,所述第二信息获取单元被配置为在所述用户发布的内 容中捜索与至少一个关键词相似的近似词,W获得所述用户的第二属性信息。所述关键词 是通过下述迭代过程获得的:在给定语料中捜索与预设触发词相似的近似词,作为新的触 发词,再在给定语料中捜索与新的触发词相似的近似词,重复上述迭代过程,直到达到预设 的迭代停止条件为止,并将所有得到的近似词连同预设触发词一起作为所述关键词。
[0007] 根据本公开的另一方面,提供一种用于获得用户的属性信息的获取方法,所述获 取方法包括:基于用户的用户简档中的结构化信息获得所述用户的第一属性信息;W及基 于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息。获得所述用户的 第二属性信息包括:在所述用户发布的内容中捜索与至少一个关键词相似的近似词,W获 得所述用户的第二属性信息,其中,所述关键词是通过下述迭代过程获得的:在给定语料中 捜索与预设触发词相似的近似词,作为新的触发词,再在给定语料中捜索与新的触发词相 似的近似词,重复上述迭代过程,直到达到预设的迭代停止条件为止,并将所有得到的近似 词连同预设触发词一起作为所述关键词。
[0008] 根据本公开的又一个方面,还提供一种对用户属性模型进行训练的训练装置,包 括:第一信息获取单元,其基于用户样本的用户简档中的结构化信息获得所述用户样本的 第一属性信息;第二信息获取单元,其基于所述用户样本的发布内容中的非结构化信息获 得所述用户样本的第二属性信息。所述第二信息获取单元被配置为在所述用户样本的发 布内容中捜索与至少一个训练关键词相似的训练近似词,W获得所述用户样本的第二属性 信息,其中,所述训练关键词是通过下述迭代过程获得的:在给定训练语料中捜索与预设训 练触发词相似的训练近似词,作为新的训练触发词,再在给定训练语料中捜索与新的训练 触发词相似的训练近似词,重复上述迭代过程,直到达到预设的训练迭代停止条件为止,并 将所有得到的训练近似词连同预设训练触发词一起作为所述训练关键词;W及模型训练单 元,其利用所获得的第一属性信息和第二属性信息,对用户属性模型进行训练。
[0009] 根据本公开的再一个方面,还提供一种通过如本公开的上一个方面所述的训练装 置训练得到的用户属性模型来对用户的属性进行检测的检测装置,包括:第一信息获取单 元,其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息;第二信息获取 单元,其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息;W及 属性检测单元,其利用所获得的所述用户的第一属性信息和第二属性信息,基于所述用户 属性模型,检测所述用户的属性,其中,所获得的所述用户的第一属性信息和第二属性信息 与在训练所述用户属性模型时获得的用户样本的第一属性信息和第二属性信息是对应的。 上述第二信息获取单元被配置为在所述用户发布的内容中捜索与至少一个检测关键词相 似的检测近似词,W获得所述用户的第二属性信息,其中,所述检测关键词是通过下述迭代 过程获得的:在给定检测语料中捜索与预设检测触发词相似的检测近似词,作为新的检测 触发词,再在给定检测语料中捜索与新的检测触发词相似的检测近似词,重复上述迭代过 程,直到达到预设的检测迭代停止条件为止,并将所有得到的检测近似词连同预设检测触 发词一起作为所述检测关键词。
[0010] 依据本公开的其它方面,还提供了一种使得计算机用作如上所述的用于获得用户 的属性信息的获取装置的程序。
[0011] 依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存 储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设 备执行上述用于获得用户的属性信息的获取方法。
[0012] 上述根据本公开实施例的用于获得用户的属性信息的获取装置和获取方法,至少 能够获得W下益处至少之一:通过不仅基于用户的用户简档中的结构化信息、还基于用户 发布的内容中的非结构化信息来获取用户的属性信息,能够全面、准确地获取用户的属性 信息;而通过W迭代过程扩充触发词得到关键词、并在用户发布的内容中捜索与关键词相 似的近似词来获得用户的属性信息,能够提高获取用户属性信息的效率和准确性。
[0013] 通过W下结合附图对本公开的最佳实施例的详细说明,本公开的运些W及其他优 点将更加明显。
【附图说明】
[0014] 本公开可W通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本 公开的优选实施例和解释本公开的原理和优点。其中:
[0015] 图1是示意性地示出根据本公开实施例的用于获得用户的属性信息的获取装置 的示例结构的框图。
[0016] 图2是示出了根据本公开实施例的用于获得用户的属性信息的获取方法的示例 流程的流程图。
[0017] 图3是示意性地示出根据本公开实施例的对用户属性模型进行训练的训练装置 的示例结构的框图。
[001引图4是示意性地示出根据本公开实施例的、通过根据本公开实施例的训练装置训 练得到的用户属性模型来对用户的属性进行检测的检测装置的示例结构的框图。
[0019] 图5是示出了可用来实现根据本公开实施例的用于获得用户的属性信息的获取 装置和获取方法的一种可能的硬件配置的结构简图。
【具体实施方式】
[0020] 在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何运种实际实施 例的过程中必须做出很多特定于实施方式的决定,W便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且运些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,运种开发工作仅仅是例行的任务。
[0021] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。
[0022] 本发明人发现,现有的从含有用户属性信息的系统或服务中提取用户属性信息的 过程没有全面准确地获取用户的属性信息,并且运种提取过程可能设及复杂的语义分析、 推理或大量的计算。
[0023] 基于此,本公开提供了一种不仅基于用户的用户简档中的结构化信息、还基于用 户发布的内容中的非结构化信息来获取用户的属性信息的获取装置和获取方法,因而能够 W组合的方式从结构化信息和非结构化信息两者中全面、准确地获取用户的属性信息。而 且,在根据本公开实施例的获取装置和获取方法中,W迭代过程扩充触发词得到关键词、并 在用户发布的内容中捜索与运样得到的关键词相似的近似词来获得用户的属性信息,从而 能够进一步提高获取用户属性信息的效率和准确性。
[0024] 图1是示意性地示出根据本公开实施例的用于获得用户的属性信息的获取装置 的示例结构的框图。
[00对如图1所示,用于获得用户的属性信息的获取装置10包括:第一信息获取单元 101,其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息;W及第二信息 获取单元102,其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信 息。
[00%] 上述第二信息获取单元102被配置为在所述用户发布的内容中捜索与至少一个 关键词相似的近似词,W获得所述用户的第二属性信息,其中,所述关键词是通过下述迭代 过程获得的:在给定语料中捜索与预设触发词相似的近似词,作为新的触发词,再在给定语 料中捜索与新的触发词相似的近似词,重复上述迭代过程,直到达到预设的迭代停止条件 为止,并将所有得到的近似词连同预设触发词一起作为所述关键词(为便于描述,本文中 也将上述通过迭代过程得到关键词的处理称为扩充触发词的处理)。
[0027] 在用户能够发布内容的系统或服务中,通常针对每个用户存在相应的用户简档, 其中W统一的格式或结构存储该用户的用户名、昵称、出生日期、年龄、性别、地域等信息, 运些包含在用户简档中的信息可称为结构化信息。本公开实施例的第一信息获取单元101 能够从用户的用户简档中获取运样的结构化信息,并直接或经过一定处理后作为用户的第 一属性信息。作为示例,第一信息获取单元101可W将出生日期转换为年龄,W作为第一属 性信息。
[0028] 与用户简档中的结构化信息相对照地,用户发布的内容中所包含的信息可称为非 结构化信息。本公开实施例的第二信息获取单元102基于用户发布的内容中的非结构化信 息获得用户的第二属性信息。由于用户发布的内容中的非结构化信息包含了关于用户的更 多具体信息,因此相较于仅基于用户简档的结构化信息的获取方式,本公开实施例的获取 装置10能够更全面准确地获取用户的属性信息。
[0029] 作为示例,第二信息获取单元102可W从用户发布的所有内容(例如,用户在微博 站点上原创和转发的所有帖子)、一段时间内发布的全部内容、或一段时间内发布的部分内 容(例如,用户在一段时间内在微博站点上原创的所有帖子)中获得用户的第二属性信息。
[0030] 更具体地,第二信息获取单元102通过在用户发布的内容中捜索与至少一个关键 词相似的近似词来获得第二属性信息,其中,关键词是通过在给定语料中W迭代方式扩充 触发词得到的。
[0031] 相较于直接使用未经扩充的触发词作为捜索关键词,本公开实施例的第二信息获 取单元102通过预先扩充触发词来获得关键词的方式,能够提高获取用户的属性信息的准 确性。
[0032] 举例而言,上述预设触发词可W是有利于反映用户的某种属性的词语,诸如与用 户的"学生"属性有关的"挂科"、等。如果简单地捜索与运些触发词相似的近似词,可能只 能得到有限的捜索结果,因而无法全面准确得到用户的属性信息。而通过上述扩充触发词 的过程,可W预先得到大量相关词汇作为关键词,诸如"补考"、"考好"、"线代"、"裸考"、"全 过"、"高数"、"期末",等等。在用户发布的内容中捜索运些词汇,则可W更准确、全面地得到 与用户的"学生"属性有关的词汇,从而提高获取用户的属性信息的准确性。
[0033] 作为示例,上述给定语料可W是供用户发布内容的系统或服务中多个用户发布的 内容,或者是其他任意适合于扩充触发词的语料。扩充触发词的迭代停止条件可W是已经 在给定语料中得到了预定数目的触发词,或者是在给定语料中无法再得到与现有触发词相 似的近似词,等等。作为示例,最初的预设触发词的数目可W是20到30个,而通过扩充触 发词得到的关键词的数目可W达到大约2000个。在一个优选实施例中,在给定语料中捜 索与触发词相似的近似词包括:利用权重为浮点数的词向量表示给定语料中的词汇W及触 发词,并通过计算相应的词向量之间的距离来计算给定语料中的词汇与触发词之间的相似 度。 W34] 在相关技术中,上述权重为浮点数的词向量也可W称为"词嵌入"("Word embedding"),本文中有时也将其简称为"词向量"。作为示例,运种词向量的具体示例可W 为[0.782,-0. 174,-0. 127,0. 139,-0.512,…],其维度可 W 为 50 维或 100 维。例如,可 W 通过从大量未标注的普通文本数据中无监督地或半监督地学习出每个词的词向量。可W理 解,作为训练语料的文本数据越丰富,获得的词向量的语义特性就越好。
[0035] 在文末参考文献列表中的参考文献1-8等现有技术中,已经公开了各种获得词向 量的具体方式;通过引用而将运些参考文献的全部内容并入本公开中。本优选实施例可 W采用上述参考文献公开的方式中的任意一种方式或者任意其他适当方式来获得权重为 浮点数的词向量,在此不进行详细说明。作为示例,也可W直接利用Google提供的工具 word2vec通过对训练数据进行训练来获得与每个词对应的词向量表示,其中训练数据例如 可W是词典、百科全书、特定媒体在一段时间内的新闻稿等。
[0036] 本优选实施例中采用的权重为浮点数的词向量有利于W简单的方式计算词汇之 间的相似度并捜索近似词。例如,可W计算给定语料中的词汇的词向量与触发词的词向量 之间的欧式距离或余弦距离,作为运两个词向量之间的距离;该距离即可反映运两个词向 量所表示的词汇之间的语义相似度,进而可W用于捜索给定语料中与触发词相似的词汇。
[0037] 相较之下,若使用现有技术中的稀疏的向量表示方式(该方式是W〇、l为权重、长 度为数千或数万的整个词表大小的向量表示方式,其中仅有与当前词对应的元素为0,其他 元素均为1,例如[0 0 0 0 0 00 10 0 0…0 0 0 0 0 0 0 0 0]),则由于不同词的稀疏的 向量之间是孤立且无关的,因而无法通过运样的向量获得不同的用户属性信息之间的相似 度。
[0038] 在一个优选实施例中,所述用户简档包括标签文本,并且所述第一信息获取单元 101被配置为利用权重为浮点数的词向量表示所述标签文本,W获得所述用户的第一属性 ?目息。
[0039] 第一信息获取单元101可W通过任何适当的技术获得标签文本的权重为浮点数 的词向量表示,如上述各参考文献中公开的方式W及任意其他适当方式。作为示例,第一信 息获取单元101可W利用Google提供的工具word2vec通过对训练数据进行训练来获得与 每个词对应的词向量表示,该训练数据可W是在随机抽取的给定时间(例如,一天)内,供 用户发布内容的系统或服务中全部用户发布的所有内容。 W40] 如W上已指出的,权重为浮点数的词向量可W具有50维或100维的较小长度。因 此,相较于现有技术中长度动辄数千或数万的稀疏的向量表示方式,本优选实施例的第一 信息获取单元101所采取的词向量表示方式能够大大降低从标签文本获得的第一属性信 息的维度,因而降低后续存储和分析该信息的系统负荷。
[0041] 另一方面,本优选实施例中获得的标签文本的权重为浮点数的词向量也有利于应 用于用户属性分析。如W上已指出的,运样的两个词向量之间的距离(例如欧式距离或余 弦距离)可W反映其所表示的两个词之间的语义相似度,因而可W直接通过计算不同用户 的标签文本的上述词向量之间的距离来得到其所表示的不同用户的用户属性信息之间的 相似度,而现有技术中的稀疏的向量表示方式则无法获得运样的效果。
[0042] 在一个优选实施例中,所述用户简档包括多个标签文本,并且所述第一信息获取 单元101进一步被配置为在获得所述多个标签文本的、权重为浮点数的词向量之后,计算 所获得的词向量的平均值,W获得所述用户的第一属性信息。
[0043] 在本优选实施例中,第一信息获取单元101计算多个标签文本的权重为浮点数的 词向量的平均值,因而相较于直接使用运些词向量本身而言,在能够有效表示标签文本中 包含的用户属性的同时,进一步降低了后续存储和分析该信息的系统负荷。
[0044] 例如,用户简档中的标签文本可W包括用户自行添加或系统分配的多个标签,如 "学生"、"90后"、"驴友"、"旅游"、"美食"、"音乐"等等。运些标签中,一些标签的实际含义是 相近或重合的,例如,"学生"和"90后"、"驴友"和"旅游"。通过计算各个标签的词向量的 平均值,可W在保留有效信息的同时降低第一信息获取单元101所获得的信息的冗余度。
[0045] 在一个优选实施例中,所述第二信息获取单元102还被配置为利用文档主题生成 模型获取表示所述用户发布的内容中的话题的N维向量,W获得所述用户的第二属性信 息,其中N为自然数。
[0046] 作为示例,第二信息获取单元102所利用的文档主题生成模型可W是表示如何从 语料库中抽取Μ个词来生成一篇包含Μ个词、N个主题(本文中也称为话题)的文档的模 型,其中Μ、Ν均为自然数。运样的模型例如可W通过各种现有技术方式得到(诸如通过统 计语料库的主题-词(topic-word)贡献频率矩阵等方式),在此不进行详细描述。
[0047] 举例而言,第二信息获取单元102可朗尋用户发布的所有内容(例如,用户在微博 站点上原创和转发的所有帖子)、一段时间内发布的全部内容、或一段时间内发布的部分内 容(例如,用户在一段时间内在微博站点上原创的所有帖子)作为一个文档,对该文档应用 文档主题生成模型,W获得表示用户发布的内容中的话题的N维向量。
[0048] 作为示例,第二信息获取单元102通过文档主题生成模型获得的N维向量中的每 个元素可W是一个置信度或概率,其表示相应话题在用户发布的内容中出现的可能性,该N 维向量即表示了 N个话题在用户发布的内容中出现的可能性。例如,可W通过基于文档主 题生成模型来计算用户发布的内容中的词汇与N个主题的相关度,将文档转为运样的N维 向量表示,其中N的取值可W通过先验知识来适当地指定。
[0049] 利用本优选实施例的第二信息获取单元102,能够从包含数千甚至数万词汇的用 户发布的内容中获取表示其中的话题的N维向量(例如50维或100维向量),从而大大降 低了存储和分析与用户发布的内容有关的系统负荷和计算量。
[0050] 在一个优选实施例中,所述文档主题生成模型是通过利用给定语料进行训练获得 的隐含狄利克雷分布LDA模型。
[0051] 隐含狄利克雷分布(LDA)模型是一种文档主题生成模型,也称为Ξ层贝叶斯概率 模型,包含词、主题和文档Ξ层结构。文档到主题的概率分布服从狄利克雷分布,主题到词 的概率分布服从多项式分布。LDA是一种非监督机器学习技术,可W用来识别大规模文档集 或语料库中潜藏的主题信息。
[0052] 作为示例,LDA模型的训练可W基于给定语料利用Gi化S Sampling算法来实现。 可W在参考文献9等现有技术中发现Gi化S Sampling算法的实现细节,在此不进行进一步 描述。
[0053] 本公开实施例的第二信息获取单元102可W利用运样得到的LDA模型来推断用户 发布的内容中的主题语义分布,换言之,获取表示用户发布的内容中的话题的N维向量,其 中该向量的每个元素表示对应话题在用户发布的内容中出现的概率。
[0054] 本领域技术人员可W理解,上述LDA模型只是优选实施例的第二信息获取单元 102所采用的文档主题生成模型的一种示例,第二信息获取单元102能够利用除LDA模型 W外的任意适当文档主题生成模型,例如化SA(概率潜在语义分析,Prob油ilistic Latent Semantic Analysis)模型等,在此不进行详细描述。 阳化5] 由于通过基于用户简档中的结构化信息W及用户发布内容中的非结构化信息来 获取用户的属性信息,因此根据本公开实施例的用于获得用户的属性信息的获取装置能够 全面、准确地获取用户的属性信息。此外,由于通过W迭代过程扩充触发词得到关键词、并 在用户发布的内容中捜索与关键词相似的近似词来获得用户的属性信息,因此根据本公开 实施例的获取装置能够提高获取用户属性信息的效率和准确性。
[0056] 根据本公开的另一方面,还提供了一种用于获得用户的属性信息的获取方法。
[0057] 图2是示出了根据本公开实施例的用于获得用户的属性信息的获取方法200的示 例流程的流程图。如图9所示,获取方法200包括:第一信息获取步骤S201,其基于用户的 用户简档中的结构化信息获得所述用户的第一属性信息;W及第二信息获取步骤S203,其 基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息。
[0058] 在上述第二信息获取步骤S203中,获得所述用户的第二属性信息包括:在所述用 户发布的内容中捜索与至少一个关键词相似的近似词,W获得所述用户的第二属性信息; 其中,所述关键词是通过下述迭代过程获得的:在给定语料中捜索与预设触发词相似的近 似词,作为新的触发词,再在给定语料中捜索与新的触发词相似的近似词,重复上述迭代过 程,直到达到预设的迭代停止条件为止,并将所有得到的近似词连同预设触发词一起作为 所述关键词。
[0059] 第一信息获取步骤S201例如可W包括W上参照图1描述的获取装置10中的第一 信息获取单元101中进行的各种处理并获得相应的效果,并且第二信息获取步骤S203例如 可W包括W上参照图1描述的获取装置10中的第二信息获取单元102中的各种处理并获 得相应的效果,运些处理和效果的具体细节在此不再寶述。
[0060] 在一个优选实施例中,在通过迭代获得关键词的过程当中,在给定语料中捜索与 触发词相似的近似词包括:利用权重为浮点数的词向量表示给定语料中的词汇W及触发 词,并通过计算相应的词向量之间的距离来计算给定语料中的词汇与触发词之间的相似 度。
[0061] 在一个优选实施例中,所述用户简档包括标签文本,并且第一信息获取步骤S201 中的获得所述用户的第一属性信息包括:利用权重为浮点数的词向量表示所述标签文本, W获得所述用户的第一属性信息。
[0062] 在一个优选实施例中,所述用户简档包括多个标签文本,并且第一信息获取步骤 S201中的获得所述用户的第一属性信息进一步包括:在获得所述多个标签文本的、权重为 浮点数的词向量之后,计算所获得的词向量的平均值,W获得所述用户的第一属性信息。
[0063] 在一个优选实施例中,第二信息获取步骤S203中的获得所述用户的第二属性信 息还包括:利用文档主题生成模型获取表示所述用户发布的内容中的话题的N维向量,W 获得所述用户的第二属性信息,其中N为自然数。
[0064] 在一个优选实施例中,所述文档主题生成模型是通过利用给定语料进行训练获得 的隐含狄利克雷分布LDA模型。 阳0化]上述各个优选实施例可W包括W上参照图1描述的获取装置10中的第一信息获 取单元101和第二信息获取单元102中进行的各种优选处理并获得相应的效果,运些处理 和效果的具体细节在此不再寶述。
[0066] 由于通过基于用户简档中的结构化信息W及用户发布内容中的非结构化信息来 获取用户的属性信息,因此根据本公开实施例的用于获得用户的属性信息的获取方法能够 全面、准确地获取用户的属性信息。而且,由于通过W迭代过程扩充触发词得到关键词、并 在用户发布的内容中捜索与关键词相似的近似词来获得用户的属性信息,因此根据本公开 实施例的获取方法能够提高获取用户属性信息的效率和准确性。
[0067] 根据本公开实施例的用于获得用户的属性信息的获取装置和获取方法可W具有 广泛的应用。例如,该获取装置和获取方法可W用于获取期望的用户属性信息W进行用 户属性信息的补齐、基于不同用户的用户属性信息进行用户相关度判断和/或关联用户推 荐、基于用户属性信息进行用户属性模型的训练、基于该训练得到的模型进行用户属性检 测,等等。
[0068] 根据本公开的又一个方面,提供一种对用户属性模型进行训练的训练装置。
[0069] 图3是示意性地示出根据本公开实施例的对用户属性模型进行训练的训练装置 30的示例结构的框图。如图3所示,训练装置30包括:第一信息获取单元301,其基于用 户样本的用户简档中的结构化信息获得所述用户样本的第一属性信息;第二信息获取单元 302,其基于所述用户样本的发布内容中的非结构化信息获得所述用户样本的第二属性信 息;W及模型训练单元303,其利用所获得的第一属性信息和第二属性信息,对用户属性模 型进行训练。
[0070] 训练装置30的第二信息获取单元302被配置为在所述用户样本的发布内容中捜 索与至少一个训练关键词相似的训练近似词,W获得所述用户样本的第二属性信息,其中, 所述训练关键词是通过下述迭代过程获得的:在给定训练语料中捜索与预设训练触发词相 似的训练近似词,作为新的训练触发词,再在给定训练语料中捜索与新的训练触发词相似 的训练近似词,重复上述迭代过程,直到达到预设的训练迭代停止条件为止,并将所有得到 的训练近似词连同预设训练触发词一起作为所述训练关键词。
[0071] 训练装置30中的第一信息获取单元301和/或第二信息获取单元302例如可W 包括W上参照图1描述的获取装置10中的第一信息获取单元101和/或第二信息获取单 元102中进行的各种处理W及相应的效果,运些处理和效果的具体细节在此不再寶述。当 然,本领域技术人员可W理解,本实施例与参照图1描述的获取装置10存在下述区别:在本 实施例中处理所针对的是样本数据或训练数据,而在参照图1描述的获取装置10中处理所 针对的是要从中获得用户属性信息的用户数据。
[0072] 利用所获得的第一属性信息和第二属性信息,模型训练单元303可W对用户属性 模型进行训练。作为示例,该用户属性模型例如可W是多个基于支持向量机的二分类的分 类器,例如分别输出关于用户是否为学生、是否为女性、是否爱好美食等判断结果。替选地, 用户属性模型可w是任意适当的模型,例如基于决策树的模型,等等。具体训练处理过程可 W参考各种现有训练处理机制,细节不再寶述。
[0073] 由于通过基于用户样本的用户简档中的结构化信息W及用户样本的发布内容中 的非结构化信息来获取用户样本的属性信息,因此根据本公开实施例的训练装置能够全 面、准确地获取用户样本的属性信息;而且,由于通过W迭代过程扩充触发词得到关键词、 并在用户样本的发布内容中捜索与关键词相似的近似词来获得用户样本的属性信息,因此 根据本公开实施例的训练装置能够提高获取用户样本的属性信息的效率和准确性,从而改 进训练用户属性模型的效率和准确性。
[0074] 根据本公开的再一个方面,还提供一种通过根据本公开实施例的训练装置训练得 到的用户属性模型来对用户的属性进行检测的检测装置。
[00巧]图4是示意性地示出根据本公开实施例的、通过根据本公开实施例的训练装置训 练得到的用户属性模型来对用户的属性进行检测的检测装置40的示例结构的框图。如图 4所示,检测装置40包括:第一信息获取单元401,其基于用户的用户简档中的结构化信息 获得所述用户的第一属性信息;第二信息获取单元402,其基于所述用户发布的内容中的 非结构化信息获得所述用户的第二属性信息;W及属性检测单元403,其利用所获得的所 述用户的第一属性信息和第二属性信息,基于事先已训练好的用户属性模型,检测所述用 户的属性。运里,检测装置40的第一信息获取单元401和第二信息获取单元402所获得的 所述用户的第一属性信息和第二属性信息与在训练所述用户属性模型时训练装置30的第 一信息获取单元301和第二信息获取单元302获得的用户样本的第一属性信息和第二属性 ?胃息是对应的。
[0076] 检测装置40的第二信息获取单元402被配置为在所述用户发布的内容中捜索与 至少一个检测关键词相似的检测近似词,W获得所述用户的第二属性信息,其中,所述检测 关键词是通过下述迭代过程获得的:在给定检测语料中捜索与预设检测触发词相似的检测 近似词,作为新的检测触发词,再在给定检测语料中捜索与新的检测触发词相似的检测近 似词,重复上述迭代过程,直到达到预设的检测迭代停止条件为止,并将所有得到的检测近 似词连同预设检测触发词一起作为所述检测关键词。
[0077] 检测装置40中的第一信息获取单元401和/或第二信息获取单元402例如可W 包括W上参照图1描述的获取装置10中的第一信息获取单元101和/或第二信息获取单 元102中进行的各种处理W及相应的效果,运些处理和效果的具体细节在此不再寶述。
[007引检测装置40中的属性检测单元403所利用的用户属性模型例如可W对应于W上 参照图3描述的训练装置30中的模型训练单元303所得到的模型,并且包括该模型所设及 的各种处理W及相应的效果,运些处理和效果的具体细节在此不再寶述。
[0079] 在一个优选实施例中,在给定检测语料中捜索与检测触发词相似的近似词包括: 利用权重为浮点数的词向量表示给定检测语料中的词汇W及检测触发词,并通过计算相应 的词向量之间的距离来计算给定检测语料中的词汇与检测触发词之间的相似度。
[0080] 在一个优选实施例中,所述用户的用户简档包括标签文本,并且检测装置40的第 一信息获取单元401被配置为利用权重为浮点数的词向量表示所述标签文本,W获得所述 用户的第一属性信息。
[0081] 在一个优选实施例中,所述用户的用户简档包括多个标签文本,并且检测装置40 的第一信息获取单元401进一步被配置为在获得所述多个标签文本的、权重为浮点数的词 向量之后,计算所获得的词向量的平均值,W获得所述用户的第一属性信息。
[0082] 在一个优选实施例中,检测装置40的第二信息获取单元402还被配置为利用文档 主题生成模型获取表示所述用户发布的内容中的话题的N维向量,W获得所述用户的第二 属性信息,其中N为自然数。
[0083] 在一个优选实施例中,所述文档主题生成模型是通过利用给定语料进行训练获得 的隐含狄利克雷分布LDA模型。
[0084] 上述各个优选实施例可W包括W上参照图1描述的获取装置10中的第一信息获 取单元101和第二信息获取单元102中进行的各种优选处理并获得相应的效果,运些处理 和效果的具体细节在此不再寶述。
[00化]由于通过基于用户简档中的结构化信息W及用户发布内容中的非结构化信息来 获取用户的属性信息,因此根据本公开实施例的检测装置能够全面、准确地获取用户的属 性信息;而且,由于通过W迭代过程扩充触发词得到关键词、并在用户发布的内容中捜索与 关键词相似的近似词来获得用户的属性信息,因此根据本公开实施例的检测装置能够提高 获取用户属性信息的效率和准确性,从而改进用户属性检测的效率和准确性。
[0086] 上述根据本公开实施例的用于获得用户的属性信息的获取装置(例如图1中所示 的获取装置10)、对用户属性模型进行训练的训练装置(例如图3中所示的训练装置30)、 W及通过根据本公开实施例的训练装置训练得到的用户属性模型来对用户的属性进行检 测的检测装置(例如图4中所示的检测装置40) W及其中的各个组成单元等可W通过软 件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储 介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各 种程序时,能够执行上述各组成单元、子单元的各种功能。
[0087] 图5是示出了可用来实现根据本公开的实施例的用于获得用户的属性信息的获 取装置和获取方法的一种可能的硬件配置即,机器500的结构简图。
[0088] 在图5中,中央处理单元(CPU) 501根据只读存储器(ROM) 502中存储的程序或从 存储部分508加载到随机存取存储器(RAM) 503的程序,使得机器500执行各种处理(例如, 结合图1至图4所描述的各种处理)。在RAM503中,还根据需要存储当CPU 501执行各种 处理等等时所需的数据。CP呪01、ROM 502和RAM 503经由总线504彼此连接。输入/输 出接口 505也连接到总线504。
[0089] 下述部件也连接到输入/输出接口 505 :输入部分506 (包括键盘、鼠标等等)、输 出部分507 (包括显示器,例如阴极射线管(CRT)、液晶显示器化CD)等,和扬声器等)、存储 部分508 (包括硬盘等)、通信部分509 (包括网络接口卡例如LAN卡、调制解调器等)。通 信部分509经由网络例如因特网执行通信处理。根据需要,驱动器510也可连接到输入/ 输出接口 505。可拆卸介质511例如磁盘、光盘、磁光盘、半导体存储器等等可W根据需要被 安装在驱动器510上,使得从中读出的计算机程序可根据需要被安装到存储部分508中。
[0090] 在通过软件实现上述系列处理的情况下,可W从网络例如因特网或从存储介质例 如可拆卸介质511安装构成软件的程序。
[0091] 本领域的技术人员应当理解,运种存储介质不局限于图5所示的其中存储有程 序、与设备相分离地分发W向用户提供程序的可拆卸介质511。可拆卸介质511的例子包 含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘值VD))、磁光盘 (包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可W是ROM 502、存储部 分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0092] 此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令 代码由机器读取并执行时,可执行上述根据本公开的实施例的用于获得用户的属性信息的 获取方法。相应地,用于承载运种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各 种存储介质也包括在本公开的公开中。
[0093] 在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征 可相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征 相组合,或替代其它实施方式中的特征。
[0094] 此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时 间顺序来执行,也可W按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述 的方法的执行顺序不对本公开的技术范围构成限制。
[0095] 此外,显然,根据本公开的上述方法的各个操作过程也可存储在各种机器可 读的存储介质中的计算机可执行程序的方式实现。
[0096] 而且,本公开的目的也可W通过下述方式实现:将存储有上述可执行程序代码的 存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理 单元(CPU)读出并执行上述程序代码。
[0097] 此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于 程序,并且该程序也可W是任意的形式,例如,目标程序、解释器执行的程序或者提供给操 作系统的脚本程序等。
[0098] 上述运些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备, 磁盘单元例如光、磁和磁光盘,W及其它适于存储信息的介质等。
[0099] 另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的 计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可W实现本公开的各实 施例。
[0100] 综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此: 阳101] 方案1、一种用于获得用户的属性信息的获取装置,所述获取装置包括: 阳102] 第一信息获取单元,其基于用户的用户简档中的结构化信息获得所述用户的第一 属性信息;W及 阳103] 第二信息获取单元,其基于所述用户发布的内容中的非结构化信息获得所述用户 的第二属性信息,
[0104] 其中,所述第二信息获取单元被配置为在所述用户发布的内容中捜索与至少一个 关键词相似的近似词,W获得所述用户的第二属性信息,
[01化]其中,所述关键词是通过下述迭代过程获得的:在给定语料中捜索与预设触发词 相似的近似词,作为新的触发词,再在给定语料中捜索与新的触发词相似的近似词,重复上 述迭代过程,直到达到预设的迭代停止条件为止,并将所有得到的近似词连同预设触发词 一起作为所述关键词。 阳106] 方案2、如方案1所述的获取装置,其中, 阳107] 在给定语料中捜索与触发词相似的近似词包括:利用权重为浮点数的词向量表示 给定语料中的词汇W及触发词,并通过计算相应的词向量之间的距离来计算给定语料中的 词汇与触发词之间的相似度。
[0108] 方案3、如方案1所述的获取装置,其中,
[0109] 所述用户简档包括标签文本,并且所述第一信息获取单元被配置为利用权重为浮 点数的词向量表示所述标签文本,W获得所述用户的第一属性信息。
[0110] 方案4、如方案3所述的获取装置,其中, 阳111] 所述用户简档包括多个标签文本,并且所述第一信息获取单元进一步被配置为在 获得所述多个标签文本的、权重为浮点数的词向量之后,计算所获得的词向量的平均值,W 获得所述用户的第一属性信息。
[0112] 方案5、如方案1所述的获取装置,其中,
[0113] 所述第二信息获取单元还被配置为利用文档主题生成模型获取表示所述用户发 布的内容中的话题的N维向量,W获得所述用户的第二属性信息,其中N为自然数。
[0114] 方案6、如方案5所述的获取装置,其中,
[0115] 所述文档主题生成模型是通过利用给定语料进行训练获得的隐含狄利克雷分布 LDA模型。
[0116] 方案7、一种对用户属性模型进行训练的训练装置,包括:
[0117] 第一信息获取单元,其基于用户样本的用户简档中的结构化信息获得所述用户样 本的第一属性信息;
[0118] 第二信息获取单元,其基于所述用户样本的发布内容中的非结构化信息获得所述 用户样本的第二属性信息,
[0119] 其中,所述第二信息获取单元被配置为在所述用户样本的发布内容中捜索与至少 一个训练关键词相似的训练近似词,W获得所述用户样本的第二属性信息,
[0120] 其中,所述训练关键词是通过下述迭代过程获得的:在给定训练语料中捜索与预 设训练触发词相似的训练近似词,作为新的训练触发词,再在给定训练语料中捜索与新的 训练触发词相似的训练近似词,重复上述迭代过程,直到达到预设的训练迭代停止条件为 止,并将所有得到的训练近似词连同预设训练触发词一起作为所述训练关键词;W及 阳121] 模型训练单元,其利用所获得的第一属性信息和第二属性信息,对用户属性模型 进行训练。
[0122] 方案8、一种通过如方案7所述的训练装置训练得到的用户属性模型来对用户的 属性进行检测的检测装置,包括: 阳123] 第一信息获取单元,其基于用户的用户简档中的结构化信息获得所述用户的第一 属性信息;
[0124] 第二信息获取单元,其基于所述用户发布的内容中的非结构化信息获得所述用户 的第二属性信息,
[0125] 其中,该第二信息获取单元被配置为在所述用户发布的内容中捜索与至少一个检 巧咲键词相似的检测近似词,W获得所述用户的第二属性信息,
[01%] 其中,所述检测关键词是通过下述迭代过程获得的:在给定检测语料中捜索与预 设检测触发词相似的检测近似词,作为新的检测触发词,再在给定检测语料中捜索与新的 检测触发词相似的检测近似词,重复上述迭代过程,直到达到预设的检测迭代停止条件为 止,并将所有得到的检测近似词连同预设检测触发词一起作为所述检测关键词;W及 [0127] 属性检测单元,其利用所获得的所述用户的第一属性信息和第二属性信息,基于 所述用户属性模型,检测所述用户的属性,
[012引其中,所获得的所述用户的第一属性信息和第二属性信息与在训练所述用户属性 模型时获得的用户样本的第一属性信息和第二属性信息是对应的。
[0129] 方案9、如方案8所述的检测装置,其中,
[0130] 在给定检测语料中捜索与检测触发词相似的近似词包括:利用权重为浮点数的词 向量表示给定检测语料中的词汇W及检测触发词,并通过计算相应的词向量之间的距离来 计算给定检测语料中的词汇与检测触发词之间的相似度。 阳131] 方案10、如方案8所述的检测装置,其中,
[0132] 所述用户的用户简档包括标签文本,并且所述检测装置的第一信息获取单元被配 置为利用权重为浮点数的词向量表示所述标签文本,W获得所述用户的第一属性信息。 阳133] 方案11、如方案10所述的检测装置,其中,
[0134] 所述用户的用户简档包括多个标签文本,并且所述检测装置的第一信息获取单元 进一步被配置为在获得所述多个标签文本的、权重为浮点数的词向量之后,计算所获得的 词向量的平均值,W获得所述用户的第一属性信息。
[0135] 方案12、如方案8所述的检测装置,其中,
[0136] 所述检测装置的第二信息获取单元还被配置为利用文档主题生成模型获取表示 所述用户发布的内容中的话题的N维向量,W获得所述用户的第二属性信息,其中N为自然 数。 阳137] 方案13、如方案12所述的检测装置,其中,
[0138] 所述文档主题生成模型是通过利用给定语料进行训练获得的隐含狄利克雷分布 LDA模型。
[0139] 方案14、一种用于获得用户的属性信息的获取方法,所述获取方法包括:
[0140] 基于用户的用户简档中的结构化信息获得所述用户的第一属性信息;W及 阳141] 基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息, 阳142] 其中,获得所述用户的第二属性信息包括:
[0143] 在所述用户发布的内容中捜索与至少一个关键词相似的近似词,W获得所述用户 的第二属性信息,
[0144] 其中,所述关键词是通过下述迭代过程获得的:在给定语料中捜索与预设触发词 相似的近似词,作为新的触发词,再在给定语料中捜索与新的触发词相似的近似词,重复上 述迭代过程,直到达到预设的迭代停止条件为止,并将所有得到的近似词连同预设触发词 一起作为所述关键词。
[0145] 方案15、如方案14所述的获取方法,其中, 阳146] 在给定语料中捜索与触发词相似的近似词包括:利用权重为浮点数的词向量表示 给定语料中的词汇W及触发词,并通过计算相应的词向量之间的距离来计算给定语料中的 词汇与触发词之间的相似度。 阳147] 方案16、如方案14所述的获取方法,其中,
[0148] 所述用户简档包括标签文本,并且获得所述用户的第一属性信息包括:利用权重 为浮点数的词向量表示所述标签文本,W获得所述用户的第一属性信息。
[0149] 方案17、如方案16所述的获取方法,其中,
[0150] 所述用户简档包括多个标签文本,并且获得所述用户的第一属性信息进一步包 括:在获得所述多个标签文本的、权重为浮点数的词向量之后,计算所获得的词向量的平均 值,W获得所述用户的第一属性信息。 阳151] 方案18、如方案14所述的获取方法,其中, 阳152] 获得所述用户的第二属性信息还包括:利用文档主题生成模型获取表示所述用户 发布的内容中的话题的N维向量,W获得所述用户的第二属性信息,其中N为自然数。 阳153] 方案19、如方案18所述的获取方法,其中,
[0154] 所述文档主题生成模型是通过利用给定语料进行训练获得的隐含狄利克雷分布 LDA模型。
[0K5] 最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来 将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示运些实体或操 作之间存在任何运种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变 体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包 括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为运种过程、方法、物品 或者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0156] 尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该 理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进 或者等同物。运些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。 阳157] 参考文献列表
[0158] 1、Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research(JM LR), 3:1137 - 1155, 2003.
[0159] 2、Ronan Collobert, Jason Weston, Leon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa. Natural Language Processing(Almost)from Scratch. Journal of Machine Learning Research(JMLR), 12:2493-2537, 2011.
[0160] 3、Andriy Mnih&Geoffrey Hinton. Three new graphical models for statistical language modelling. International Conference on Machine Learning(ICML). 2007.
[0161] 4、Andriy Mnih&Geoffrey Hinton. A scalable hierarchical distributed language model. The Conference on Neural Information Processing Systems(NIPS) (pp. 1081 - 1088). 2008. 阳 16引 5、Mikolov Toma家.Statistical Language Models based on Neural Networks. PhD thesis,Brno University of Technology. 2012.
[0163] 6、Turian Joseph, Lev Ratinov, and Yoshua Bengio. Word representations: a simple and general method for semi-supervised learning. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). 2010. [0164] 7、Eric Huang,民ichard Socher, Christopher Manning and Andrew Ng. Improving word representations via global context and multiple word prototypes. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1.2012.
[016己] 8、Mikolov, Tomas, Wen-tau Yih, and Geoffrey Zweig. Linguistic regularities in continuous space word representations. Proceedings of NAACL-HLT. 2013.
[016糾 9、Wang Yi. Distributed Gibbs Sampling of Latent Topic Models:The Gritty Details Technical report,2005.
【主权项】
1. 一种用于获得用户的属性信息的获取装置,所述获取装置包括: 第一信息获取单元,其基于用户的用户简档中的结构化信息获得所述用户的第一属性 信息;以及 第二信息获取单元,其基于所述用户发布的内容中的非结构化信息获得所述用户的第 二属性信息, 其中,所述第二信息获取单元被配置为在所述用户发布的内容中搜索与至少一个关键 词相似的近似词,以获得所述用户的第二属性信息, 其中,所述关键词是通过下述迭代过程获得的:在给定语料中搜索与预设触发词相似 的近似词,作为新的触发词,再在给定语料中搜索与新的触发词相似的近似词,重复上述迭 代过程,直到达到预设的迭代停止条件为止,并将所有得到的近似词连同预设触发词一起 作为所述关键词。2. 如权利要求1所述的获取装置,其中, 在给定语料中搜索与触发词相似的近似词包括:利用权重为浮点数的词向量表示给定 语料中的词汇以及触发词,并通过计算相应的词向量之间的距离来计算给定语料中的词汇 与触发词之间的相似度。3. 如权利要求1所述的获取装置,其中, 所述用户简档包括标签文本,并且所述第一信息获取单元被配置为利用权重为浮点数 的词向量表示所述标签文本,以获得所述用户的第一属性信息。4. 如权利要求3所述的获取装置,其中, 所述用户简档包括多个标签文本,并且所述第一信息获取单元进一步被配置为在获得 所述多个标签文本的、权重为浮点数的词向量之后,计算所获得的词向量的平均值,以获得 所述用户的第一属性信息。5. 如权利要求1所述的获取装置,其中, 所述第二信息获取单元还被配置为利用文档主题生成模型获取表示所述用户发布的 内容中的话题的N维向量,以获得所述用户的第二属性信息,其中N为自然数。6. 如权利要求5所述的获取装置,其中, 所述文档主题生成模型是通过利用给定语料进行训练获得的隐含狄利克雷分布LDA 模型。7. -种对用户属性模型进行训练的训练装置,包括: 第一信息获取单元,其基于用户样本的用户简档中的结构化信息获得所述用户样本的 第一属性信息; 第二信息获取单元,其基于所述用户样本的发布内容中的非结构化信息获得所述用户 样本的第二属性信息, 其中,所述第二信息获取单元被配置为在所述用户样本的发布内容中搜索与至少一个 训练关键词相似的训练近似词,以获得所述用户样本的第二属性信息, 其中,所述训练关键词是通过下述迭代过程获得的:在给定训练语料中搜索与预设训 练触发词相似的训练近似词,作为新的训练触发词,再在给定训练语料中搜索与新的训练 触发词相似的训练近似词,重复上述迭代过程,直到达到预设的训练迭代停止条件为止,并 将所有得到的训练近似词连同预设训练触发词一起作为所述训练关键词;以及 模型训练单元,其利用所获得的第一属性信息和第二属性信息,对用户属性模型进行 训练。8. -种通过如权利要求7所述的训练装置训练得到的用户属性模型来对用户的属性 进行检测的检测装置,包括: 第一信息获取单元,其基于用户的用户简档中的结构化信息获得所述用户的第一属性 信息; 第二信息获取单元,其基于所述用户发布的内容中的非结构化信息获得所述用户的第 二属性信息, 其中,该第二信息获取单元被配置为在所述用户发布的内容中搜索与至少一个检测关 键词相似的检测近似词,以获得所述用户的第二属性信息, 其中,所述检测关键词是通过下述迭代过程获得的:在给定检测语料中搜索与预设检 测触发词相似的检测近似词,作为新的检测触发词,再在给定检测语料中搜索与新的检测 触发词相似的检测近似词,重复上述迭代过程,直到达到预设的检测迭代停止条件为止,并 将所有得到的检测近似词连同预设检测触发词一起作为所述检测关键词;以及 属性检测单元,其利用所获得的所述用户的第一属性信息和第二属性信息,基于所述 用户属性模型,检测所述用户的属性, 其中,所获得的所述用户的第一属性信息和第二属性信息与在训练所述用户属性模型 时获得的用户样本的第一属性信息和第二属性信息是对应的。9. 如权利要求8所述的检测装置,其中, 在给定检测语料中搜索与检测触发词相似的近似词包括:利用权重为浮点数的词向量 表示给定检测语料中的词汇以及检测触发词,并通过计算相应的词向量之间的距离来计算 给定检测语料中的词汇与检测触发词之间的相似度。10. 如权利要求8所述的检测装置,其中, 所述用户的用户简档包括标签文本,并且所述检测装置的第一信息获取单元被配置为 利用权重为浮点数的词向量表示所述标签文本,以获得所述用户的第一属性信息。
【文档编号】G06F17/30GK105989047SQ201510060916
【公开日】2016年10月5日
【申请日】2015年2月5日
【发明人】张姝, 孟遥
【申请人】富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1