1.一种微博用户关联信息筛选方法,其特征在于,包括:
根据预设的递归深度,获取当前用户的关联用户集合;
对所述关联用户集合中的每一个关联用户的设定数目的信息内容提取特征项,并统计每一个特征项的频次,生成对应的特征向量;
根据所述关联用户集合中的所有关联用户的关联关系,确定所述关联用户集合中的社区结构,以及确定每一个社区结构对应的主题;
根据所述每一个关联用户对应的特征向量中的每一个特征项和所述每一个社区结构对应的主题,得到用户主题分布;
根据所述用户主题分布,筛选出当前用户的目标关联用户。
2.如权利要求1所述的方法,其特征在于,根据预设的递归深度,获取当前用户的关联用户集合,包括:
获取所述当前用户的直接关联用户;
将与所述直接关联用户直接关联的用户作为递归深度为1的关联用户;以及将与所述递归深度为1的关联用户直接关联的用户作为递归深度为2的关联用户,直至得到递归深度为预设的递归深度的关联用户;
对小于或等于所述预设的递归深度的所有关联用户进行消重处理,并将消重处理后的所有所述关联用户作为关联用户集合。
3.如权利要求1所述的方法,其特征在于,对所述关联用户集合中的任意一个关联用户的任意一个信息内容提取特征项,并统计每一个特征项的频次,包括:
判定所述任意一个信息内容中有词语时,对所述任意一个信息内容进行分词处理,将每一个词语作为一个特征项,并统计每一个词语对应的频次;
判定所述任意一个信息内容有转发地址ID时,将所述转发ID作为特征项,并统计所述转发ID对应的频次。
4.如权利要求3所述的方法,其特征在于,对所述关联用户集合中的任 意一个关联用户的设定数目的信息内容提取特征项,并统计每一个特征项的频次,生成对应的特征向量,包括:
将所述任意一个关联用户的设定数目的信息内容中每一个特征项和对应的频次作为所述任意一个关联用户对应的特征向量。
5.如权利要求1所述的方法,其特征在于,根据所述关联用户集合中的所有关联用户的关联关系,确定所述关联用户集合中的社区结构,包括:
将每一个关联用户作为节点,根据所述每一个关联用户的关联关系,将所述每一个关联用户、与所述每一个关联用户直接关联的关联用户相连接,生成关联网络;
根据所述关联网络中的节点,将所述关联网络分割为多个组;
在多个组中筛选出组内节点间的连接大于设定数目的组,作为社区结构。
6.如权利要求1所述的方法,其特征在于,根据所述每一个关联用户对应的特征向量中的每一个特征项和所述每一个社区结构对应的主题,得到用户主题分布,包括:
针对每一个关联用户对应的特征向量中的每一个特征项,在所有社区结构对应的主题中生成一个随机主题;对每一个关联用户的特征向量中的每一个特征项的主题进行采样,得到采样参数,并生成用户主题分布和特征项主题分布;
重新针对每一个关联用户对应的特征向量中的每一个特征项,在所有社区结构对应的主题除当前随机主题之外的主题中生成一个随机主题;根据上一次得到的采样参数、用户主题分布和特征项主题分布,对每一个关联用户的特征向量中的每一个特征项的主题进行采样,得到当前的采样参数,并生成当前的用户主题分布和特征项主题分布,重复采样预设的采样次数后,根据预设的采样总次数与所述预设的采样次数,对当前的用户主题分布进行均值处理,得到目标用户主题分布。
7.如权利要求6所述的方法,其特征在于,运用以下公式,得到采样参数:
其中,表示特征项i的主题为j的总个数,表示用户的特征向量k中包含主题j的总个数,α与β是预设的参数,L为所有特征向量中消重后的特征项数目,K为主题的数目。
8.如权利要求6所述的方法,其特征在于,运用以下公式,得到目标用户主题分布:
其中,表示用户的特征向量k中包含主题j的总个数,Q为预设的采样总次数,P为预设的采样次数。
9.如权利要求1-8任一项所述的方法,其特征在于,根据所述用户主题分布,筛选出当前用户的目标关联用户,包括:
对所述用户主题分布进行归一化处理,得到针对每一个主题的每一个关联用户的概率值;
分别针对每一个主题,对关联用户的概率值进行从大到小排序,选择前预设数目的概率值对应的关联用户作为目标关联用户。
10.一种微博用户关联信息筛选装置,其特征在于,包括:
获取单元,用于根据预设的递归深度,获取当前用户的关联用户集合;
生成单元,用于对所述关联用户集合中的每一个关联用户的设定数目的信息内容提取特征项,并统计每一个特征项的频次,生成对应的特征向量;
确定单元,用于根据所述关联用户集合中的所有关联用户的关联关系,确定所述关联用户集合中的社区结构,以及确定每一个社区结构对应的主题;
计算单元,用于根据所述每一个关联用户对应的特征向量中的每一个特征项和所述每一个社区结构对应的主题,得到用户主题分布;
筛选单元,用于根据所述用户主题分布,筛选出当前用户的目标关联用户。
11.如权利要求10所述的装置,其特征在于,所述获取单元根据预设的递归深度,获取当前用户的关联用户集合,包括:
获取所述当前用户的直接关联用户;
将与所述直接关联用户直接关联的用户作为递归深度为1的关联用户;以及将与所述递归深度为1的关联用户直接关联的用户作为递归深度为2的关联用户,直至得到递归深度为预设的递归深度的关联用户;
对小于或等于所述预设的递归深度的所有关联用户进行消重处理,并将消重处理后的所有所述关联用户作为关联用户集合。
12.如权利要求10所述的装置,其特征在于,所述生成单元对所述关联用户集合中的任意一个关联用户的任意一个信息内容提取特征项,并统计每一个特征项的频次,包括:
判定所述任意一个信息内容中有词语时,对所述任意一个信息内容进行分词处理,将每一个词语作为一个特征项,并统计每一个词语对应的频次;
判定所述任意一个信息内容有转发地址ID时,将所述转发ID作为特征项,并统计所述转发ID对应的频次。
13.如权利要求12所述的装置,其特征在于,所述生成单元对所述关联用户集合中的任意一个关联用户的设定数目的信息内容提取特征项,并统计每一个特征项的频次,生成对应的特征向量,包括:
将所述任意一个关联用户的设定数目的信息内容中每一个特征项和对应的频次作为所述任意一个关联用户对应的特征向量。
14.如权利要求10所述的装置,其特征在于,所述确定单元根据所述关联用户集合中的所有关联用户的关联关系,确定所述关联用户集合中的社区结构,包括:
将每一个关联用户作为节点,根据所述每一个关联用户的关联关系,将所述每一个关联用户、与所述每一个关联用户直接关联的关联用户相连接,生成关联网络;
根据所述关联网络中的节点,将所述关联网络分割为多个组;
在多个组中筛选出组内节点间的连接大于设定数目的组,作为社区结构。
15.如权利要求10所述的装置,其特征在于,所述计算单元根据所述每一个关联用户对应的特征向量中的每一个特征项和所述每一个社区结构对应的主题,得到用户主题分布,包括:
针对每一个关联用户对应的特征向量中的每一个特征项,在所有社区结构对应的主题中生成一个随机主题;对每一个关联用户的特征向量中的每一个特征项的主题进行采样,得到采样参数,并生成用户主题分布和特征项主题分布;
重新针对每一个关联用户对应的特征向量中的每一个特征项,在所有社区结构对应的主题除当前随机主题之外的主题中生成一个随机主题;根据上一次得到的采样参数、用户主题分布和特征项主题分布,对每一个关联用户的特征向量中的每一个特征项的主题进行采样,得到当前的采样参数,并生成当前的用户主题分布和特征项主题分布,重复采样预设的采样次数后,根据预设的采样总次数与所述预设的采样次数,对当前的用户主题分布进行均值处理,得到目标用户主题分布。
16.如权利要求15所述的装置,其特征在于,所述计算单元运用以下公式,得到采样参数:
其中,表示特征项i的主题为j的总个数,表示用户的特征向量k中包含主题j的总个数,α与β是预设的参数,L为所有特征向量中消重后的特征项数目,K为主题的数目。
17.如权利要求15所述的装置,其特征在于,所述计算单元运用以下公式,得到目标用户主题分布:
其中,表示用户的特征向量k中包含主题j的总个数,Q为预设的采样总次数,P为预设的采样次数。
18.如权利要求10-17任一项所述的装置,其特征在于,所述筛选单元根据所述用户主题分布,筛选出当前用户的目标关联用户,包括:
对所述用户主题分布进行归一化处理,得到针对每一个主题的每一个关联用户的概率值;
分别针对每一个主题,对关联用户的概率值进行从大到小排序,选择前预设数目的概率值对应的关联用户作为目标关联用户。