一种社交消息的监测方法及装置的制造方法_4

文档序号:9375616阅读:来源:国知局
,在每一个消息类中选择预设的时间内和预设的 地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不 相同;
[0141] 或者,将每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到 所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代 表消息的主题概率向量匹配的代表消息,若有新的社交消息加入所述消息类,需要重新加 权平均计算所述消息类的代表消息的主题概率向量。其中,加权平均的权值可以根据时间, 空间,用户数量决定,例如:越近上传的社交消息权值越高;离发生地越近的地方的社交消 息权值越高;用户数量(包括上传用户、转发用户、关注用户)越多的社交消息权值越高。
[0142] 可选的,聚类操作模块305还用于:
[0143] 对任意一个消息类中的社交消息进行查找、插入、删除操作。
[0144] 其中,运营商可以对社交网服务器中存储的社交消息进行查找、插入、删除操作。 这样,提供了一种人工输入和输出社交消息或删除社交消息的方法,使社交消息的监测更 加灵活。
[0145] 具体的,接收输入指令(查找、插入、删除指令),响应这个指令,对相应的消息类 中的社交消息进行查找、插入、删除操作。若输入指令为查找指令,则输出相应的社交消息; 若输入指令为插入指令,则将社交消息插入相应的消息类中;若输入指令为删除指令,则删 除相应的消息类或相应的消息类中删除指令指定的社交消息。
[0146] 可选的,图7中,社交网服务器3还包括:
[0147] 用户相似性测量模块306,用于对比社交消息的用户与每个代表消息的用户得到 社交消息与每个代表.消息的用户相似性。
[0148] 相似性获取模块302,包括:
[0149] 主题相似性测量单元302-1,用于计算社交消息的主题概率向量与每个代表消息 的主题概率向量的相对熵,得到社交消息与每个代表消息的主题消息相似性。
[0150] 相似性获取单元302-2,用于对所述主题相似性获取模块302-1得到的主题消息 相似性和所述用户相似性模块306得到的用户相似性进行加权求和,得到所述社交消息与 所述代表消息的相似性。
[0151] 可选的,参照图8所示,该社交网服务器3还包括:
[0152] 过滤模块307,用于获取社交消息所属的领域,若社交消息所属的领域不属于预设 的领域,则剔除所述社交消息,得到过滤后的社交消息。社交网服务器可以对过滤后的所述 社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
[0153] 例如:预设的领域包括:政治、社会热点、灾难、金融。若接收到的社交消息的所属 领域为娱乐,则过滤掉该社交消息。
[0154] 在上述实施例中,社交网服务器接收社交消息,根据社交消息与每个代表消息的 相似性,将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中,当任一消 息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交 消息主题一致时,向社交网客户端输出该消息类,由于社交网服务器能够主动向社交网客 户端输出消息类,实现了对社交消息的实时监测,使得社交网客户端能主动发现聚类的社 交事件。
[0155] 本发明的实施例提供一种社交网服务器4,用于监测社交消息,参照图9所示,包 括:处理器401、通信接口 402、存储器403和总线404,其中处理器401、通信接口 402、存储 器403通过总线404连接,存储器403用于存储处理器处理的数据。
[0156] 总线 404 可以是 ISA(Industry Standard Architecture,工业标准体系结构) 总线、PCI (Peripheral Component,外部设备互连)总线或 EISA (Extended Industry Standard Architecture,扩展工业标准体系结构)总线等。该总线404可以分为地址总线、 数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线 或一种类型的总线。其中:
[0157] 存储器403用于存储可执行程序代码,该程序代码包括计算机操作指令。存储器 403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例 如至少一个磁盘存储器。
[0158] 处理器401可能是一个中央处理器(Central Processing Unit,简称为CPU),或 者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被 配置成实施本发明实施例的一个或多个集成电路。
[0159] 处理器401,用于通过通信接口 402接收社交消息,并对所述社交消息进行主题建 模分析,得到所述社交消息的主题概率向量。
[0160] 具体的,处理器401,用于通过通信接口 402接收社交消息,获取社交消息的内容 参数、社交消息的时间参数、社交消息的空间参数。
[0161] 处理器401,用于利用隐含狄利克雷分布LDA算法对社交消息的内容参数、社交消 息的时间参数、社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向 量。
[0162] 进一步的,处理器401,还用于将所述社交消息的主题概率向量与每个代表消息的 主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述 每个代表消息的相似性。
[0163] 其中,所述代表消息为一个消息类中具有代表性的社交消息。
[0164] 得到主题相似性之后,还可以结合其他的相似性参数得到更精确的社交消息与每 个代表消息的相似性。
[0165] 可选的,处理器401还用于对比社交消息的用户与每个代表消息的用户得到社交 消息与每个代表消息的用户相似性。
[0166] 进一步的,处理器401,用于计算社交消息的主题概率向量与每个代表消息的主题 概率向量的相对熵,得到所述社交消息与每个代表消息的主题消息相似性。
[0167] 处理器401,用于对所述主题消息相似性和用户相似性进行加权求和,得到所述社 交消息与所述代表消息的相似性。
[0168] 其中,处理器401,还用于从所有的消息类中选取代表消息。
[0169] 具体的,以下提供四种选取方式:
[0170] 在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消 息类中预设的时间可以不相同;
[0171] 或者,在每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同 的消息类中预设的地点可以不相同;或者,在每一个消息类中选择预设的时间内和预设的 地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不 相同;
[0172] 或者,将每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到 所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的 代表消息的主题概率向量匹配的社交消息作为代表消息,若有新的社交消息加入所述消息 类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。其中,加权平均的权值 可以根据时间,空间,用户数量决定,例如:越近上传的社交消息权值越高;离发生地越近 的地方的社交消息权值越高;用户数量(包括上传用户的数量、转发用户的数量、关注用户 的数量)越多的社交消息权值越高。
[0173] 进一步的,处理器401,还用于当所述消息类中的社交消息的数量达到第一阈值 或所述消息类中的社交消息主题一致时,通过通信接口 402向社交网客户端输出所述消息 类。
[0174] 当任一个消息类中的社交消息的数量达到第一阈值时,说明该消息类中的社交消 息的数量足够多,满足输出的第一条件。
[0175] 或者,当所述消息类中所述所有社交消息间的相似性中,超过预设的第二相似性 阈值的社交消息间的相似性的数量,达到第二阈值时,则满足主题一致性,输出该消息类。 其中,第二阈值也可以为一个比例,即超过预设的第二相似性阈值的社交消息间的相似性 的数量达到总数量的一定比例时,满足主题一致性。
[0176] 可选的,处理器401还用于:
[0177] 对存储器403中存储的任意一个消息类中的社交消息进行查找、插入、删除操作。
[0178] 其中,运营商可以对社交网服务器中存储的社交消息进行查找、插入、删除操作。 这样,提供了一种人工输入和输出社交消息或删除社交消息的方法,使社交消息的监测更 加灵活。
[0179] 具体的,接收输入指令(查找、插入、删除指令),响应这个指令,对相应的消息类 中的社交消息进行查找、插入、删除操作。若输入指令为查找指令,则输出相应的社交消息; 若输入指令为插入指令,则将社交消息插入相应的消息类中;若输入指令为删除指令,则删 除相应的消息类或相应的消息类中删除指令指定的社交消息。
[0180] 可选的,处理器401还用于:
[0181] 获取社交消息所属的领域,若社交消息所属的领域不属于预设的领域,则剔除所 述社交消息,得到过滤后的社交消息。社交网服务器可以对过滤后的所述社交消息进行主 题建模分
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1