用于对社交媒体的用户分类的方法、计算机程序和计算机的制作方法_4

文档序号:9620900阅读:来源:国知局
单元与软件单元二者的组合来体现。本 发明不限于上述的优选实施例。本发明可以在包括固件、常驻软件、微码、解析微代码的软 件中实现。
[0080] 本发明还可以采取由计算机或任何其它指令执行系统使用的或与计算机或任何 其它指令执行系统相关联的程序代码中的计算机程序的形式,以及计算机可读介质的形 式。就目前的说明而言,计算机可读介质可以是任何能够控制、存储、传达、传输或传播由任 何指令执行系统使用的或与任何指令执行系统或设备相关联的程序。更具体来说,上述的 解析控制模块指的是指令执行系统或"计算机"。
[0081] 计算机可读介质可以是电子、磁性、光学、电磁、红外或半导体系统(或设备)或 传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、磁盘、可移动电脑软 盘、随机存取存储器(RAM)、只读存储器(ROM),硬磁盘和光盘。目前,光盘包括只读光盘 (CD-ROM)、读写光盘(CD-R/W)和DVD。
[0082] 用于存储和/或执行程序代码的数据处理系统包括至少一个通过系统总线直接 或间接连接到存储器单元的处理器。存储器单元包括在编程代码的实际执行过程中使用的 本地存储器、海量存储设备、以及为减少在执行过程中需要从海量存储设备中读取程序代 码的次数而提供的用来临时存储至少一些程序代码的高速缓冲存储器。
[0083] 输入/输出(I/O)设备(包括但不限于键盘、鼠标和指点设备)可以通过中间的 I/0控制器直接或间接地连接到系统。
[0084] 此外,网络适配器可以连接到系统,数据处理系统可以通过中间的专用或公共网 络连接到另一个数据处理系统、远程打印机、或存储设备。调制解调器、电缆调制解调器或 以太网Φ卡代表一小部分目前可用的网络适配器。
[0085] 附图标记列表
[0086] 1 :个人电脑
[0087] 11:CPU(算术和控制单元)
[0088] 12 :RAM(随机访问存储器:存储设备)
[0089] 13 :R0M(只读存储器:存储设备)
[0090] 14 :HDD(硬盘:存储设备)
[0091] 15:通信接口
[0092] 16:输入/输出接口
[0093] 17:鼠标
[0094] 18 :平板显示器(显示设备)
[0095] 2 :微博服务器
[0096] 20、21 :硬盘设备
[0097] 31 :智能手机
[0098] 32 :平板电脑
[0099] 33 :(笔记本型)个人电脑
[0100] 1〇〇 :存储模块
[0101] 101 :训练群集映射生成模块
[0102] 102 :第一简档特征向量生成模块
[0103] 103 :第二简档特征向量生成模块
[0104] 104 :操作群集映射生成模块
【主权项】
1. 一种用计算机把社交媒体中的多个用户划归入多个群集的方法,该多个用户中的各 个用户与文本简档和文本内容相关联,该方法包含下述步骤: 根据与一部分用户相关联的内容,为该部分用户的各个用户生成内容特征向量; 根据所述内容特征向量,生成多个群集并且映射该多个群集与该部分用户; 根据与映射到各个群集的该部分用户相关联的简档为该多个群集的各个群集生成第 一简档特征向量;和 根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量,把其他用户 中的各个用户划归入多个群集。2. 按照权利要求1的方法,其中,社交媒体是微博,内容是各个用户发布到微博的多个 帖子。3. 按照权利要求2的方法,其中,内容特征向量用多个帖子中的单词作为元素。4. 按照权利要求3的方法,其中,内容特征向量用多个帖子中的单词的出现频率或重 要程度作为元素。5. 按照权利要求1的方法,其中,在生成多个群集的步骤中,通过对与该部分用户相关 联的内容应用潜在狄利克雷分配模型以及聚类在相同话题上可能使用的单词而生成该多 个群集。6. 按照权利要求5的方法,其中,在映射该多个群集与该部分用户的步骤中,用与该部 分用户相关联的内容中的聚类结果把该部分用户映射到各个群集。7. 按照权利要求1的方法,其中,在生成第一简档特征向量的步骤中,根据与映射到各 个群集的部分用户相关联的简档中的单词生成第一简档特征向量。8. 按照权利要求7的方法,其中,根据该单词与映射到其他群集的部分用户相关联的 简档中的单词相比而言是否可能出现而生成第一简档特征向量。9. 按照权利要求7的方法,其中,该单词是与映射到其他群集的部分用户相关联的简 档中的单词相比而言第T最可能出现的单词中的任何单词(T是自然数)。10. 按照权利要求9的方法,其中,在把其他用户的各个用户划归入多个类别的步骤 中,根据第T最可能出现的单词是否出现在与其他用户相关联的简档中而把其他用户的各 个用户划归入多个类别。11. 按照权利要求1的方法,进一步包含根据与除该部分用户以外的其他用户相关联 的简档而为其他用户的各个用户生成第二简档特征向量的步骤; 在把其他用户的各个用户划归入多个类别的步骤中,根据第一简档特征向量和第二简 档特征向量而把其他用户的各个用户划归入多个类别。12. 按照权利要求11的方法,其中,根据第一简档特征向量和第二简档特征向量之间 的相似度把一个用户划归入对应于具有最高相似度的第一简档特征向量的群集。13. 按照权利要求1的方法,其中,在把其他用户的各个用户划归该多个群集中的步骤 中,允许把一个用户划归入多个群集。14. 按照权利要求1的方法,其中,在把其他用户的各个用户划归该多个群集中的步骤 中,不使用与其他用户相关联的内容。15. 按照权利要求1的方法,其中,该部分用户的数目小于其他用户的数目,并且,简档 中的信息量少于内容中的信息量。16. 按照权利要求1的方法,进一步包含通过网络连接托管社交媒体的服务器与把多 个用户划归入多个群集的计算机的步骤,该计算机接收该服务器响应于该计算机的请求而 发送的信息。17. 按照权利要求16的方法,其中,信息量被限为单位时间的信息量。18. 按照权利要求17的方法,进一步包含通过重复其中该计算机接收托管计算机发送 的信息的步骤而在该计算机的存储装置中存储与该部分用户相关联的内容和简档以及与 其他用户相关联的简档的步骤。19. 一种由计算机执行以实现权利要求1至18的任何一项的方法的计算机程序。20. -种把各个用户与一文本简档和文本内容相关联的社交媒体中的多个用户划归入 多个群集的计算机,该计算机包含: 用于根据与一部分用户相关联的内容、为该部分用户的各个用户生成一个内容特征向 量的装置; 用于根据特征向量,生成多个群集并且映射该多个群集和该部分用户的装置; 用于根据与映射到各个群集的该部分用户相关联的简档为该多个群集各个群集生成 一个第一简档特征向量的装置;和 用于根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量、把其他 用户的各个用户划归入多个群集的装置。
【专利摘要】为了无需获取所有用户的内容就能根据内容相似性分类,提供一种用于聚类社交媒体中的多个用户的方法,其中将各个用户与一文本简档和文本内容相关联,该方法包含以下步骤:根据与一部分用户相关联的内容,为该部分用户的各个用户生成一个内容特征向量;根据内容特征向量,生成多个群集并且映射该多个群集与该部分用户;根据与映射到每个群集的该部分用户相关联的简档为该多个群集的各个群集生成第一简档特征向量;和根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量,把其他用户的各个用户划归入多个群集。
【IPC分类】G06F17/30
【公开号】CN105378717
【申请号】CN201480012959
【发明人】西山莉纱, 吉田一星
【申请人】国际商业机器公司
【公开日】2016年3月2日
【申请日】2014年3月5日
【公告号】US20160063098, WO2014141976A1
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1