1.一种有争议性新闻线索自动发现的方法,其特征在于,该方法包括:
步骤1,利用预设的初始文本对一文本集进行检索,获得多个检索文本,其中该文本集包括一微博平台中的多个微博消息;
步骤2,对该多个检索文本进行聚类,对每一类的检索文本分别执行摘要提取算法,以获得该类的线索文本;
步骤3,利用每类的该线索文本进行检索,继续在该文本集中进行检索,获得每类的多个扩充文本;
步骤4,利用每类的该多个扩充文本进行特征提取,基于一预设的打分模型对提取得到的每类的特征进行打分,分数高于一阈值的类所对应的线索文本为有争议的新闻线索。
2.如权利要求1所述的方法,其特征在于,该初始文本具有争议性言论的表达模式。
3.如权利要求1所述的方法,其特征在于,步骤1与步骤2之间进一步包括:
步骤11,对该检索文本进行分词操作,并过滤特定词性的词语;
步骤12,利用词袋模型将经过过滤的该检索文本转换为词集形式,利用该词集形式的检索文本执行步骤2的聚类。
4.如权利要求3所述的方法,其特征在于,该特定词性包括连词、介词、虚词中的一个或多个。
5.如权利要求1所述的方法,其特征在于,该步骤2使用Jaccara相似性系数公式以实现该聚类。
6.如权利要求1所述的方法,其特征在于,该步骤4所提取的特征包括:
在每类的所有扩充文本中,该类的检索文本所占的比例a;
每类的所有扩充文本的平均字数b;
所有检索文本的平均字数c;
所有检索文本的平均字数与每类的所有扩充文本的平均字数之比c/b;
在每类的所有扩充文本中,被转发的扩充文本所占的比例d;
在所有检索文本中,被转发的检索文本所占的比例e;
在每类的所有扩充文本中,平均每个扩充文本所包含的超链接地址数f;
在所有检索文本中,平均每个检索文本所包含的超链接地址数g;
在每类的所有扩充文本中,平均每个扩充文本所包含的话题数h;
在所有检索文本中,平均每个检索文本所包含的话题数i;
在每类的所有扩充文本中,平均每个扩充文本所包含的@数j;和/或
在所有检索文本中,平均每个检索文本所包含的@数k。
7.如权利要求1所述的方法,其特征在于,步骤4之后还包括:
步骤5,利用步骤4所获得的该分数高于一阈值的类,进行基于词语出现规律统计模型的计算,获得共现频率高的词语组合,经筛选后作为该初始文本,继续执行步骤1。
8.如权利要求7所述的方法,其特征在于,该词语出现规律统计模型为2gram语言模型。
9.一种有争议性新闻线索自动发现的系统,其特征在于,该系统包括:
初始检索单元,用于利用预设的初始文本对一文本集进行检索,获得多个检索文本,其中该文本集包括一微博平台中的多个微博消息;
聚类单元,用于对该多个检索文本进行聚类,对每一类的检索文本分别执行摘要提取算法,以获得该类的线索文本;
扩充检索单元,用于利用每类的该线索文本进行检索,继续在该文本集中进行检索,获得每类的多个扩充文本;
打分单元,用于利用每类的该多个扩充文本进行特征提取,基于一预设的打分模型对提取得到的每类的特征进行打分,分数高于一阈值的类所对应的线索文本为有争议的新闻线索。