一种社交消息的监测方法及装置的制造方法_3

文档序号：9375616阅读：来源：国知局

。
[0097] 具体的，以下提供四种选取方式：
[0098] 在每一个消息类中选择预设的时间内的社交消息作为代表消息，其中，不同的消息类中预设的时间可以不相同；
[0099] 或者，在每一个消息类中选择预设的地点内的社交消息作为代表消息，其中，不同的消息类中预设的地点可以不相同；或者，在每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息，其中，不同的消息类中预设的时间和预设的地点可以不相同；
[0100] 或者，将每一个消息类中的所有的社交消息的主题概率向量进行加权平均，得到所述每一个消息类的代表消息的主题概率向量，在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息，若有新的社交消息加入所述消息类，重新进行加权平均计算所述消息类的代表消息的主题概率向量。其中，加权平均的权值可以根据时间，空间，用户数量决定，例如：越近上传的社交消息权值越高；离发生地越近的地方的社交消息权值越高；用户数量（包括上传用户的数量、转发用户的数量、关注用户的数量）越多的社交消息权值越高。
[0101] 204、计算社交消息的主题概率向量与每个代表消息的主题概率向量的相对熵，得到所述社交消息与每个代表消息的主题消息相似性。
[0102] 其中，主题的数量为n，社交消息P的主题概率向量P (1，2,……，η)和代表消息Q 的主题概率向量Q(l，2,……，n)的相对熵计算公式为：
[0103]
[0104] 其中，Dkl (P I |Q)代表 P 和 Q 的相对熵（Kullback - Leibler divergence,表示为 D1J, P(i)为社交消息P的主题概率向量P(l，2,……，n)中的第i项，Q(i)为代表消息Q 的主题概率向量Q(1，2,......，η)中的第i项。
[0105] 205、对比社交消息的用户与每个代表消息的用户得到社交消息与每个代表消息的用户相似性。
[0106] 其中，社交消息P的用户为：P = <pl，p2,……，？1>，其中，？1，？2,……，pi为社交消息P的全部用户（上传用户、转发用户、回复用户），代表消息Q的用户为：Q = <ql，q2,… …，qn>，其中，ql, q2,......, qn为代表消息Q的全部用户。社交消息与代表消息用户相似性计算公式为：
[0107]
[0108] 其中，LCS(P, Q)为社交消息P和代表消息Q最长公共子串（Longest Common Substring，简称LCS)，这里，最长公共子串为最长公共用户串。若i = 0或j = 0时，社交消息P或代表消息Q为空用户，所以用户相似性为〇。若P1 = qy社交消息P和代表消息 Q的最后一个用户相等，则用户相似性为社交消息P的前i-Ι个用户和代表消息Q的前j-1 个用户的最长公共用户串再加上1 (相等的最后一个用户）。若P1古qy社交消息P和代表消息Q的最后一个用户不相等，则用户相似性为社交消息P的用户和代表消息Q的前j-1 个用户的最长公共用户串与社交消息P的前i-1个用户和代表消息Q的用户的最长公共用户串中的较大值。
[0109] 206、对所述主题消息相似性和用户相似性进行加权求和，得到所述社交消息与所述代表消息的相似性。
[0110] 社交消息P和代表消息Q的相似性公式为：
[0111] D(P，Q) = CODkl(P| |Q) + (l-〇J)LCS(P，Q)
[0112] 其中，D(P，Q)为社交消息P和代表消息Q的相似性，ω为社交消息P与代表消息 Q的主题相似性的权值；l-ω为社交消息P与代表消息Q的用户相似性的权值。
[0113] 207、将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中，若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值，则新建一个消息类，将所述社交消息存入所述新建的消息类。
[0114] 其中，可以基于哈希数据结构来存储社交消息，参照图4所示，"排序事件类"存储每个消息类（图3中，消息类用E表示，第一个消息类为E 1，第二个消息类为E2,……，第i 个消息类为E1 ;消息类E1中的社交消息用hku、hkl2、……、hkin表示）的哈希地址，而"哈希字典"存储指向存储社交消息的硬盘存储块。消息类中的代表消息的地址存储在每个消息类的属性中，消息类支持快速索引及查找。该哈希数据结构支持社交消息的动态存储及删除。由于社交消息数据量极大，该哈希数据结构只存储最近一个时间段的社交消息，例如一个小时。
[0115] 208、当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，输出所述消息类。
[0116] 具体的，参照步骤104,这里就不再赘述。
[0117] 可选的，还可以对任意一个消息类中的社交消息进行查找、插入、删除操作。
[0118] 参照图5所示，提供一个与所有消息类相连的查找、插入、删除接口，用于对社交消息进行查找、插入、删除操作。接收输入指令（查找、插入、删除指令），响应这个指令，对相应的消息类中的社交消息进行查找、插入、删除操作。若输入指令为查找指令，则输出相应的社交消息；若输入指令为插入指令，则将社交消息插入相应的消息类中；若输入指令为删除指令，则删除相应的消息类或相应的消息类中删除指令指定的社交消息。
[0119] 这样，提供了一种人工输入和输出社交消息的方法，使社交消息的监测更加灵活。
[0120] 在上述实施例中，社交网服务器接收社交消息，根据社交消息与每个代表消息的相似性，将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中，当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出该消息类，由于社交网服务器能够主动向社交网客户端输出消息类，实现了对社交消息的实时监测，使得社交网客户端能主动发现聚类的社交事件。
[0121] 本发明的实施例提供一种社交网服务器3,用于监测社交消息，参照图6所示，包括：
[0122] 主题建模模块301，用于接收社交消息，并对社交消息进行主题建模分析，得到社交消息的主题概率向量。
[0123] 对于接收到的每一条社交消息，首先都进行主题建模分析，得到该社交消息的主题概率向量，并且该社交消息的主题概率向量与该社交消息始终保持对应存在的关系。
[0124] 可选的，参照图7所示，主题建模模块301包括：
[0125] 参数收集单元301-1，用于接收社交消息，获取社交消息的内容参数、社交消息的时间参数、社交消息的空间参数；
[0126] 向量获取单元301-2,用于利用LDA算法对社交消息的内容参数、社交消息的时间参数、社交消息的空间参数进行主题建模分析，得到社交消息的主题概率向量。
[0127] 进一步的，所述社交网服务器3包括：
[0128] 相似性获取模块302,用于将所述主题建模模块接收的社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性，并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性。
[0129] 其中，所述代表消息为一个消息类中具有代表性的社交消息。得到主题相似性之后，还可以结合其他的相似性参数得到更精确的社交消息与每个代表消息的相似性。
[0130] 进一步的，社交网服务器3,还包括：
[0131] 聚类模块303,用于将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中，若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值，则新建一个消息类，将所述社交消息存入所述新建的消息类。
[0132] 聚类分析模块304,用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时，向社交网客户端输出所述消息类。
[0133] 当任一个消息类中的社交消息的数量达到第一阈值时，说明该消息类中的社交消息的数量足够多，满足输出的第一条件。
[0134] 或者，当所述消息类中所述所有社交消息间的相似性中，超过预设的第二相似性阈值的社交消息间的相似性的数量，达到第二阈值时，则满足主题一致性，输出该消息类。其中，第二阈值也可以为一个比例，即超过预设的第二相似性阈值的社交消息间的相似性的数量达到总数量的一定比例时，满足主题一致性。
[0135] 进一步可选的，参照图7所示，社交网服务器3,还包括：
[0136] 聚类操作模块305,用于从所有的消息类中选取代表消息。
[0137] 其中，代表消息为一个消息类中具有代表性的社交消息。其中，聚类操作模块储存消息类。
[0138] 具体的，聚类操作模块305用于：
[0139] 在每一个消息类中选择预设的时间内的社交消息作为代表消息，其中，不同的消息类中预设的时间可以不相同；
[0140] 或者，在每一个消息类中选择预设的地点内的社交消息作为代表消息，其中，不同的消息类中预设的地点可以不相同；或者

完整全部详细技术资料下载

当前第3页1 2 3 4 5