一种用于微博的热点话题检测方法及装置与流程

文档序号：12363751阅读：来源：国知局

技术特征：

1.一种用于微博的热点话题检测方法，其特征在于，包括：

提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；

根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；

根据所述合并程度指示参数确定热点话题。

2.根据权利要求1所述的方法，其特征在于，对所述有意义串进行热度分析包括：

根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析。

3.根据权利要求1所述的方法，其特征在于，所述根据信息瓶颈理论对所述热点特征进行特征合并包括：

确定所述热点特征与文档、作者之间的对应关系；

分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布，所述热点特征与所述文档的联合概率分布，以及所述热点特征与所述作者的联合概率分布；

分别计算所述热点特征与所述文档的互信息，以及所述热点特征与所述作者的互信息；

从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小，其中，所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。

4.根据权利要求3所述的方法，其特征在于，

所述合并代价为：

ΔI(F_i，F_j)＝λ{(P(F_i)+P(F_j))*D_JS[P(D|F_i),P(D|F_j)]}

+(1-λ){(P(F_i)+P(F_j))*D_JS[P(A|F_i),P(A|F_j)]}

其中，D_JS是指Jensen-Shannon(JS)距离，计算方法为：

$<mrow> <msub> <mi>D</mi> <mi>JS</mi> </msub> <mo>[</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>]</mo> <mo>=</mo> <msub> <mi>π</mi> <mi>i</mi> </msub> <msub> <mi>D</mi> <mi>KL</mi> </msub> <mo>[</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <mover> <mi>p</mi> <mo>^</mo> </mover> <mo>]</mo> <mo>+</mo> <msub> <mi>π</mi> <mi>j</mi> </msub> <msub> <mi>D</mi> <mi>KL</mi> </msub> <mo>[</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> <mover> <mi>p</mi> <mo>^</mo> </mover> <mo>]</mo> </mrow>$

$<mfenced open='{' close=''> <mtable> <mtr> <mtd> <mo>{</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>}</mo> <mo>=</mo> <mo>{</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mtd> </mtr> <mtr> <mtd> <mo>{</mo> <msub> <mi>π</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>π</mi> <mi>j</mi> </msub> <mo>}</mo> <mo>=</mo> <mo>{</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>*</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>*</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>}</mo> </mtd> </mtr> <mtr> <mtd> <mover> <mi>p</mi> <mo>^</mo> </mover> <mo>=</mo> <msub> <mi>π</mi> <mi>i</mi> </msub> <mi>p</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>π</mi> <mi>j</mi> </msub> <mi>p</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>$

其中，F_i和F_j分别为两个不同的热点特征集合，F*为F_i和F_j合并后的热点特征集合，D表示文档，A表示作者；

D_KL表示是KL距离，是相对熵，计算如下：

$<mrow> <msub> <mi>D</mi> <mi>KL</mi> </msub> <mo>[</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>]</mo> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>$

5.根据权利要求3所述的方法，其特征在于，所述从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小包括：

分别计算两两热点特征集合之间的合并代价；

选择合并代价最小的两个特征集合进行特征合并形成新特征集合；

计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并，直到将所有特征集合合并为一个特征集合。

6.一种用于微博的热点话题检测装置，其特征在于，包括：

热度分析单元，用于提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；

特征合并单元，用于根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；

确定单元，用于根据所述合并程度指示参数确定热点话题。

7.根据权利要求6所述的装置，其特征在于，所述热度分析单元，具体用于根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析。

8.根据权利要求6所述的装置，其特征在于，所述特征合并单元包括：

关系确定模块，用于确定所述热点特征与文档、作者之间的对应关系；

概率确定模块，用于分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布，所述热点特征与所述文档的联合概率分布，以及所述热点特征与所述作者的联合概率分布；

计算模块，用于分别计算所述热点特征与所述文档的互信息，以及所述热点特征与所述作者的互信息；

合并模块，用于从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小，其中，所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。

9.根据权利要求8所述的装置，其特征在于，