一种有争议性新闻线索自动发现的方法及系统与流程

文档序号:18923171发布日期:2019-10-19 03:46阅读:来源:国知局

技术特征:

1.一种有争议性新闻线索自动发现的方法,其特征在于,该方法包括:

步骤1,利用预设的初始文本对一文本集进行检索,获得多个检索文本,其中该文本集包括一微博平台中的多个微博消息;

步骤2,对该多个检索文本进行聚类,对每一类的检索文本分别执行摘要提取算法,以获得该类的线索文本;

步骤3,利用每类的该线索文本进行检索,继续在该文本集中进行检索,获得每类的多个扩充文本;

步骤4,利用每类的该多个扩充文本进行特征提取,基于一预设的打分模型对提取得到的每类的特征进行打分,分数高于一阈值的类所对应的线索文本为有争议的新闻线索。

2.如权利要求1所述的方法,其特征在于,该初始文本具有争议性言论的表达模式。

3.如权利要求1所述的方法,其特征在于,步骤1与步骤2之间进一步包括:

步骤11,对该检索文本进行分词操作,并过滤特定词性的词语;

步骤12,利用词袋模型将经过过滤的该检索文本转换为词集形式,利用该词集形式的检索文本执行步骤2的聚类。

4.如权利要求3所述的方法,其特征在于,该特定词性包括连词、介词、虚词中的一个或多个。

5.如权利要求1所述的方法,其特征在于,该步骤2使用Jaccara相似性系数公式以实现该聚类。

6.如权利要求1所述的方法,其特征在于,该步骤4所提取的特征包括:

在每类的所有扩充文本中,该类的检索文本所占的比例a;

每类的所有扩充文本的平均字数b;

所有检索文本的平均字数c;

所有检索文本的平均字数与每类的所有扩充文本的平均字数之比c/b;

在每类的所有扩充文本中,被转发的扩充文本所占的比例d;

在所有检索文本中,被转发的检索文本所占的比例e;

在每类的所有扩充文本中,平均每个扩充文本所包含的超链接地址数f;

在所有检索文本中,平均每个检索文本所包含的超链接地址数g;

在每类的所有扩充文本中,平均每个扩充文本所包含的话题数h;

在所有检索文本中,平均每个检索文本所包含的话题数i;

在每类的所有扩充文本中,平均每个扩充文本所包含的@数j;和/或

在所有检索文本中,平均每个检索文本所包含的@数k。

7.如权利要求1所述的方法,其特征在于,步骤4之后还包括:

步骤5,利用步骤4所获得的该分数高于一阈值的类,进行基于词语出现规律统计模型的计算,获得共现频率高的词语组合,经筛选后作为该初始文本,继续执行步骤1。

8.如权利要求7所述的方法,其特征在于,该词语出现规律统计模型为2gram语言模型。

9.一种有争议性新闻线索自动发现的系统,其特征在于,该系统包括:

初始检索单元,用于利用预设的初始文本对一文本集进行检索,获得多个检索文本,其中该文本集包括一微博平台中的多个微博消息;

聚类单元,用于对该多个检索文本进行聚类,对每一类的检索文本分别执行摘要提取算法,以获得该类的线索文本;

扩充检索单元,用于利用每类的该线索文本进行检索,继续在该文本集中进行检索,获得每类的多个扩充文本;

打分单元,用于利用每类的该多个扩充文本进行特征提取,基于一预设的打分模型对提取得到的每类的特征进行打分,分数高于一阈值的类所对应的线索文本为有争议的新闻线索。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1