一种有争议性新闻线索自动发现的方法及系统与流程

文档序号：18923171发布日期：2019-10-19 03:46阅读：来源：国知局

技术特征：

1.一种有争议性新闻线索自动发现的方法，其特征在于，该方法包括：

步骤1，利用预设的初始文本对一文本集进行检索，获得多个检索文本，其中该文本集包括一微博平台中的多个微博消息；

步骤2，对该多个检索文本进行聚类，对每一类的检索文本分别执行摘要提取算法，以获得该类的线索文本；

步骤3，利用每类的该线索文本进行检索，继续在该文本集中进行检索，获得每类的多个扩充文本；

步骤4，利用每类的该多个扩充文本进行特征提取，基于一预设的打分模型对提取得到的每类的特征进行打分，分数高于一阈值的类所对应的线索文本为有争议的新闻线索。

2.如权利要求1所述的方法，其特征在于，该初始文本具有争议性言论的表达模式。

3.如权利要求1所述的方法，其特征在于，步骤1与步骤2之间进一步包括：

步骤11，对该检索文本进行分词操作，并过滤特定词性的词语；

步骤12，利用词袋模型将经过过滤的该检索文本转换为词集形式，利用该词集形式的检索文本执行步骤2的聚类。

4.如权利要求3所述的方法，其特征在于，该特定词性包括连词、介词、虚词中的一个或多个。

5.如权利要求1所述的方法，其特征在于，该步骤2使用Jaccara相似性系数公式以实现该聚类。

6.如权利要求1所述的方法，其特征在于，该步骤4所提取的特征包括：

在每类的所有扩充文本中，该类的检索文本所占的比例a；

每类的所有扩充文本的平均字数b；

所有检索文本的平均字数c；

所有检索文本的平均字数与每类的所有扩充文本的平均字数之比c/b；

在每类的所有扩充文本中，被转发的扩充文本所占的比例d；

在所有检索文本中，被转发的检索文本所占的比例e；

在每类的所有扩充文本中，平均每个扩充文本所包含的超链接地址数f；

在所有检索文本中，平均每个检索文本所包含的超链接地址数g；

在每类的所有扩充文本中，平均每个扩充文本所包含的话题数h；

在所有检索文本中，平均每个检索文本所包含的话题数i；

在每类的所有扩充文本中，平均每个扩充文本所包含的@数j；和/或

在所有检索文本中，平均每个检索文本所包含的@数k。

7.如权利要求1所述的方法，其特征在于，步骤4之后还包括：

步骤5，利用步骤4所获得的该分数高于一阈值的类，进行基于词语出现规律统计模型的计算，获得共现频率高的词语组合，经筛选后作为该初始文本，继续执行步骤1。

8.如权利要求7所述的方法，其特征在于，该词语出现规律统计模型为2gram语言模型。

9.一种有争议性新闻线索自动发现的系统，其特征在于，该系统包括：

初始检索单元，用于利用预设的初始文本对一文本集进行检索，获得多个检索文本，其中该文本集包括一微博平台中的多个微博消息；

聚类单元，用于对该多个检索文本进行聚类，对每一类的检索文本分别执行摘要提取算法，以获得该类的线索文本；

扩充检索单元，用于利用每类的该线索文本进行检索，继续在该文本集中进行检索，获得每类的多个扩充文本；

打分单元，用于利用每类的该多个扩充文本进行特征提取，基于一预设的打分模型对提取得到的每类的特征进行打分，分数高于一阈值的类所对应的线索文本为有争议的新闻线索。

完整全部详细技术资料下载

当前第2页1 2 3