用于对社交媒体的用户分类的方法、计算机程序和计算机的制作方法_3

文档序号：9620900阅读：来源：国知局

理。
[0049] 图7是用来解释计算机1的功能模块的框图。计算机1包括存储模块100、训练集群映射生成模块101、第一简档特征向量生成模块102、第二简档特征向量生成模块103和发帖（posting)集群映射生成模块104。
[0050] 以下是各个模块的输入和输出数据。训练用户的简档和内容以及操作用户的简档，从通信接口 15输入到存储模块100。训练用户的内容，从存储模块100输出到训练集群映射生成模块101，训练用户的简档被输出到第一简档特征向量生成模块102,操作用户的简档被输出到第二简档特征向量生成模块103。来自训练用户的内容，从存储模块100输入到训练群集映射生成模块101。训练用户的群集映射从训练群集映射生成模块101输出到第一简档特征向量生成模块102。训练用户的群集映射是从训练群集映射生成模块101输入的，训练用户的简档是从存储模块100输入到第一简档特征向量生成模块102的。第一简档特征向量是从第一简档特征向量生成模块102输出到操作集群映射生成模块104的。操作用户的简档从存储模块100输入到第二简档特征向量生成模块103。第二简档特征向量从第二简档特征向量生成模块103输出到操作集群映射生成模块104。来自第一简档特征向量生成模块102的第一简档特征向量和来自第二简档特征向量生成模块103的第二简档特征向量被输入到操作集群映射生成模块104。操作用户的集群映射从操作集群映射生成模块104输出到显示器18。
[0051] 图8是用来解释计算机1执行的处理的流程图。图9是用来解释计算机1执行的聚类过程的示意图。以下参照图9说明图8所示的流程图。
[0052] 首先，从计算机1向微博服务器2发送数据请求（S10)。然后，从服务器接收对应于该请求的数据（S20)。这里，从服务器2发往计算机1的数据，包括与训练用户（一些用户）相关联的内容（见图4(a))、以及与训练用户和操作用户（其他用户）相关联的简档 (见图4 (c))。通常，从微博服务器2获取数据的API请求的数量以及每次请求可获得的数据量是有限度的。因此，步骤S10和S20被重复执行，直到获得了必要的数据。所获得的数据被存储在存储模块100中。
[0053] 训练用户（箭头A)的数量远小于操作用户（箭头D)的数量。例如，可以将一万个微博用户作为训练用户，将一百万个微博用户作为操作用户。此外，简档信息的量远小于内容信息的量。各个用户关联一个简档，而与单一用户关联的内容段（消息、帖子等）的数量可能数以千计。例如，可以将单一用户最近发布的一千个帖子作为与该用户相关联的内容。
[0054] 下一步，根据与训练用户相关联的内容生成内容特征向量（S30)。更具体来说，训练群集映射生成模块101从与训练用户相关联的内容（多个）提取一个名词，并用作为一个元素的该单词出现的次数（该单词在其中出现的内容段的个数）生成特征向量。可以用任何自然语言处理技术来提取该名词。可以把该名词的出现次数看作该名词的重要性程度的指标。可以事先准备好重要性程度高的名词候选。除了名词或连同名词（alongwith nouns)，还可以用自然语言处理技术来提取不是名词的措辞（expressions)，诸如动词和相关措舌辛（dependentexpressions) 〇
[0055] 下一步，根据内容特征向量生成多个集群与训练用户的映射（S40，S50)。更具体来说，训练群集映射生成模块101把（训练用户，训练用户对应的内容特征向量）对集（sets ofpairs)插入一个聚类算法，得到群集的映射和各个训练用户的群集。这里的聚类算法可以是用内容特征向量之间的相似程度来确定训练用户之间的相似程度的任何算法。例如，在把名词用作单词时可以采用以下方式。首先，对与所有的训练用户相关联的所有的内容应用潜在狄利克雷分配（LDA)，将可能被用在同一话题中的名词聚类。结果，可能被用在 IT相关的话题中各组名词（网站、Android等）、可能被用在抚养孩子的话题中的各组名词 (孩子、儿子等）、以及可能被用在韩国流行音乐相关的话题中的各组名词（韩国，Semi)，被划入相同的群集。下一步，按照公式（1)，把聚类内容中的名词的结果用于按照公式（1)把训练用户划归入各个群集（例如群集A-C)(箭头B)。
[0056] 公式 1
[0057]
[0058] 假设
[0059] cu:用户u所属的群集
[0060] C:全部群集
[0061] K:群集总数
[0062] Neu:用户u的内容中属于群集c的名词的个数
[0063] Nu:用户u的内容中的名词的总数
[0064] α:平滑系数
[0065] 接下来，根据与训练用户相关联的简档为各个群集生成第一简档特征向量（S60)。换言之，将集群的特征向量从内容切换到简档。第一简档特征向量的生成对应于各个集群中的训练用户的简档中的措辞的整合。更具体地说，第一简档特征向量生成模块102为各个群集生成第一简档特征向量，该第一简档特征向量用被聚类在各个群集中的训练用户的简档中出现的名词（简档措辞）表征该各个群集。例如，根据各个群集中的训练用户的简档段中出现的名词（简档措辞）获得一个tficf评分。这里，tficf评分是一个标志，其被与其他集群比较，以获得在某群集中的训练用户的简档中可能出现的措辞。tficf评分是用公式（2)计算的。tTficf评分中的最通用的T个措辞（T-mostcommonexpressions)是群集中典型的简档措辞，这些典型的简档措辞被用作一个元素来生成第一简档特征向量。在这个例子中，"工程师"，"IT"和"开发"是对应于群集A的典型的简档措辞。
[0066] 公式 2
[0067] _8」假议
[0069] w:简档措辞
[0070]Mw。：划归入群集c中的、简档中包括w的用户的个数 [0071]Uc:划归入群集c中的用户的个数
[0072] 接下来，根据与操作用户相关联的简档生成第二简档特征向量（S70)。更具体来说，第二简档特征向量生成模块103从与单一操作用户相关联的（单一）简档提取一个名词，并用出现的次数作为元素生成特征向量。可以用任何自然语言处理技术来提取名词。除了名词或连同名词，还可以用自然语言处理技术来提取不是名词的措辞，诸如动词和相关措辞。
[0073] 接下来，根据第一简档特征向量和第二简档特征向量把各个操作用户划归入多个集群（S80)。换句话说，操作群集映射生成模块104比较对应于单一操作用户的第二简档特征向量与每个第一简档特征向量，把该操作用户划归入对应于最相似的特征向量的群集。这样，就可以根据至多一个简档段中的文本把操作用户划归入适当的集群，而不需要采集和分析与用户相关的内容。例如，在本例中，对应于群集A的典型简档措辞是"工程师"， "IT"和"开发"，所以将在简档段中用接近这些简档措辞的措辞（如"发布关于开发的益建议"和"基于web的研讨会"）来描述自己的操作用户划归入群集A。给定的措辞是否接近另一个措辞，可以用现有的语言处理技术确定，如在下文的改进例子中所述的那样。
[0074] 改进的例子1
[0075] 可以把将最典型的T个简档措辞中的来自tficf评分中的集群的任何简档措辞包括在简档中的操作用户划归入该集群。这里，可以将一个操作用户划归入多个群集。
[0076] 改进的例子2
[0077]可以准备接收第一简档特征向量和输出群集的任何分类器（classifier)，且可以在步骤S60中获知该分类器。这里，第二简档特征向量可以输入到分类器，输出的群集可以是分类结果。
[0078] 在所有的情况（上述例子，改进的例子1和改进的例子2)中，由此产生的操作用户的结果群集可以输出到显示器18 (S80)。
[0079] 本发明可以用硬件单元、软件单元或硬件

完整全部详细技术资料下载

当前第3页1 2 3 4