一种融合话题特征的新闻内容在线抽取方法及系统与流程

文档序号：15347236发布日期：2018-09-04 22:54阅读：172来源：国知局

本发明涉及通信数据处理技术领域，具体涉及一种融合话题特征的新闻内容在线抽取方法及系统。

背景技术：

随着互联网的发展，互联网成为人们获取新闻的主要渠道之一，每天有大量新闻在网上产生。新闻内容抽取是对新闻信息进行分析、管理、检索等应用的必须步骤，舆情和情报分析等相关系统都需要进行新闻信息的抽取。目前在线实时的新闻内容信息抽取方法主要是使用嵌套文本的标签特征进行新闻内容抽取。cepf(软件学报，27(3):714-735)是一种基于dom树上标签路径特征的方法，首先获取dom树上所有带文本的标签节点，然后对所有带文本的节点计算节点路径深度、文本长度、文本方差等比值特征，然后使用乘法融合特征值，使用高斯平滑提高短文本特征值，最后进行阈值分割获取高特征值的正文节点。在线的实时计算意味着抽取算法不需要对网页进行预处理，也不需要对网页进行离线的学习；同时抽取方法需要具有较高的鲁棒性，能在异构性高的不同网页上都有较好的抽取效果。

然而，现有在线实时的新闻内容抽取方法，基本上没有考虑新闻内容阐述的话题，导致容易将排版和样式与正文相似的噪音文本识别为正文，比如带有大段文字并且文本方差大的推荐文本，cepf方法容易将该类噪音文本识别为正文，从而导致内容抽取准确率的降低。

技术实现要素：

本发明的目的在于提供一种融合话题特征的新闻内容在线抽取方法及系统，通过增加话题特征，提高正文文本的识别准确率，将不具有新闻话题的长文本噪音更好地排除，适用于各种高度异构新闻网站内容的在线快速抽取。

为达到上述目的，本发明采用如下技术方案：

一种融合话题特征的新闻内容在线抽取方法，步骤包括：

将新闻页面的html转化为dom树，将所有文本节点按照先序遍历的顺序排列；

对每一个文本节点的文本进行分词，去除停用词，获取关键词；

基于上述关键词，生成局部最大相容类，获得整个页面产生的全部话题，计算每个话题权重特征；

将包含上述权重特征的话题特征以及非内容特征量化成证据的形式，使用ds证据理论进行特征融合，获得文本节点是正文的概率；

将上述概率进行平滑处理，使用otsu算法计算使得类间方差最大的分割阈值，获得高特征值的文本节点并将其作为新闻正文。

进一步地，对文本进行分词后的处理还包括词根还原、去除常用词。

进一步地，使用textrank算法获取关键词。

进一步地，所述话题特征还包括文本节点与兄弟节点文本方差、文本长度总和、节点在dom树上的高度。

进一步地，所述非内容特征包括超链接占比、文本长度、节点深度。

进一步地，使用贪心算法生成局部最大相容类。相容类是一种特殊集合，当中两两关键词之间都具有相容关系(一种自反对称关系)，当该相容类不能被更大相容类覆盖时，这些相容类就是局部最大相容类，这些局部最大相容类就是html中的所有话题。

具体为：首先要找到自反和对称的相容关系，本方法将相容关系定义在文本节点中共现过两次以上的关键词。局部最大相容类的定义如下：令u为所有关键词的集合，对于任意x,y∈w，都具有相容关系xry，则w为相容类；若没有任何k∈u-w能加入到相容类w中，则w为局部最大相容类。算法如下：

算法1局部最大相容类贪心算法-话题生成；

输入：关键词集合k；

输出：局部最大相容类集合c；

在算法1中c为收集到的所有局部最大相容类，k是所有的关键词集合；relate(word)方法返回所有与当前的word具有相容关系的关键词；pair(relatewords,word)表示将生成相容类后剩下的所有与word有相容关系的词两两配对，加入相容类c。该算法只扫描一次所有关键词，每次扫描都将当前关键词合并到已有的相容类中，最后得到所有的局部最大相容类。

进一步地，由于话题有正文话题和非正文话题的区别，因此将局部最大相容类中任意两个关键词的共现次数的总和作为话题的权重，计算话题(topic)权重的公式如下所示：

tw(topic)＝∑{cooc(x,y)|x,y∈topic}

其中，tw(topic)为topic的权重，cooc(x,y)为x和y共现的次数，topic为一个局部最大相容类。

进一步地，采用ds证据理论作为融合方法，其是进行不确定推理的方法，对于不确定的、不清楚的信息提供了非常有效的合成方法，步骤包括：

将话题特征和非内容特征的特征值标准化到0～1之间的数之后，在识别框架上θ＝{news,～news,uncertainty}进行概率分配；

当特征是用于描述节点文本属于新闻正文的，比如话题特征，拥有权重越大的话题越有可能是正文，则按照如下公式进行概率分配：

其中，topic(text)是当前text包含的所有话题，topics是整个html中的话题；

当特征是用于描述节点文本不属于新闻正文，比如节点深度，样式越复杂的文本越可能是噪音，节点深度越深，则按照如下公式进行概率分配：

其中，depth()方法用于计算节点的深度，textnodes为html中所有文本节点；

然后用ds证据理论(公式如下)进行特征的融合，获取融合后文本分配在正文上的概率，

其中，

进一步地，对所述先序顺序排列的所有文本节点正文概率(news)用高斯平滑进行平滑处理，距离越近的文本特征值影响越大。参考cetr(proceedingsofthe19thinternationalconferenceonworldwideweb,acm(2010)971-980)，使用一种实现在一维离散特征值上的gaussian平滑。设r为滑动窗口的半径，窗口大小为2r+1，高斯核函数如下：

将上式的ki标准化后得到：

将高斯核ki'与按先序遍历顺序排列的文本特征值t进行卷积计算得到：

在对文本节点的正文概率(即：特征值)进行平滑之后，可以将一些低特征值的文本节点进行提升，并且降低噪音文本的特征值。然后使用otsu算法进行文本节点的阈值分割，获取所有高特征的文本识别为正文内容。otsu算法计算的是最大类间方差，设当前选择的阈值为t，w0为特征值大于t的话题所占比例，w1为特征值小于t的话题所占比例，u0为大于t的特征值平均值，u1为小于t的特征值平均值，全局平均值为μ，阈值分割的目标函数如下所示：

g＝w0(u0-μ)²+w1(u1-μ)²

其中，全局平均值：

μ＝w0×u0+w1×u1

目标函数g越大，分割的阈值t的效果就越好。本文的特征值使用概率表示，值域在0～1之间，使用0.01为步长计算g在t为0～1上的取值，取让g最大的t作为分割阈值。

一种融合话题特征的新闻内容在线抽取系统，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述方法中各步骤的指令。

本发明方法具有以下优点：

本方法不需要配置模板和规则，自动计算分割阈值，在线的环境下自动将正文的文本抽取出来，解决了新闻抽取过程中需要大量人工进行模板配置的问题，而且人工配置抽取模板的维护成本非常高，任何页面的变动都可能引起抽取规则失效，在高度异构的各网站上都能保持高的抽取准确率，节约了大量的人力成本。本方法用一种高效的方式快速生成新闻话题，融合了新闻话题特征，使得不具备新闻话题的长文本噪音的特征值降低，提高了新闻正文文本的识别准确率。本方法可以在多种语言的文本上进行抽取，在不同语言的页面上进行抽取，只需要替换分词的算法便可以进行操作。

本方法不需要进行离线训练、也不需要对网页做任何的预处理，只要将网页输入到方法中就能在线实时的进行抽取，方法高效简单，运用方便，具有较高的实用价值。经抽取实验验证，中文网站的平均识别召回率为94.69％，准确率为92.23％，f1值为93.44％；英文网站的平均识别召回率为95.32％，准确率为88.74％，f1值为91.91％，效果显著。

附图说明

图1为实施例1中的一种融合话题特征的新闻内容在线抽取方法流程图。

图2为使用局部最大相容类算法生成话题的流程图。

图3为html页面中话题的表现形式示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

实施例1

本实施例公开一种融合话题特征的新闻内容在线抽取方法，在中文网站进行新闻内容抽取，如图1所示(实线框部分为新闻内容)。在中文网站进行抽取前，需要将方法中的分词方法配置成中文分词和中文停用词字典。该方法步骤如下：

1)导入中文新闻网站的url。

2)解析url中的html文件为dom树。

3)将dom树上的文本节点按先序顺序排列。

4)将文本节点中的文本进行分词，去除停用词，使用textrank算法得到关键词，然后通过贪心算法一次扫描生成局部最大相容类(如图2所示)，使用局部最大相容类生成话题，计算话题的权重特征。

5)计算文本节点与兄弟节点文本方差、文本长度总和、节点在dom树上的高度等特征。

6)将上述全部特征和非内容特征(包括超链接占比、文本长度、节点深度等)标准化后套入证据的形式，使用ds证据理论进行融合，获得文本节点是正文的概率。具体步骤包括：将话题特征和非内容特征的特征值标准化到0～1之间的数之后，在识别框架上θ＝{news,～news,uncertainty}进行概率分配；当特征是用于描述节点文本属于新闻正文的，比如话题特征，拥有权重越大的话题越有可能是正文；当特征是用于描述节点文本不属于新闻正文，比如节点深度，样式越复杂的文本越可能是噪音，节点深度越深；分别按照相应公式进行概率分配；然后用ds证据理论进行特征的融合，获取融合后文本分配在正文上的概率。新闻话题和噪音话题如图3所示。

7)将节点为正文的概率进行高斯平滑。

8)使用otsu算法计算计算使得类间方差最大的分割阈值，获取高特征值的节点为新闻正文。

根据本实施例的抽取方法在新华网、人民网、凤凰网、163新闻、腾讯新闻、新浪新闻六个中文新闻网站进行抽取实验，中文网站的平均识别召回率为94.69％，平均识别的准确率为92.23％，f1值为93.44％。

实施例2

本实施例公开一种融合话题特征的新闻内容在线抽取方法，在英文网站进行新闻内容抽取。英文网站的自动化抽取，由于语言上的区别，需要将分词方法进行替换。由于英文只需要按照空格分词，所以不需要复杂的分词方法，但是需要在分词方法后面配置一个词根还原的算法。该方法步骤如下：

1)导入英文新闻网站的url。

2)解析url中的html文件为dom树。

3)将dom树上的文本节点按先序顺序排列。

4)将文本节点中的文本按照空格进行分词，词根还原，去除停用词，使用textrank算法得到关键词，然后通过贪心算法一次扫描生成局部最大相容类，使用局部最大相容类生成话题，计算话题的权重特征。

5)计算文本节点与兄弟节点文本方差、文本长度总和、节点在dom树上的高度等特征。

6)将上述全部特征和非内容特征(包括超链接占比、文本长度、节点深度等)标准化后套入证据的形式，使用ds证据理论进行合成，获得文本节点是正文的概率。

7)将节点为正文的概率进行高斯平滑。

8)使用otsu算法计算使得类间方差最大的分割阈值，获取高特征值的节点为新闻正文。

根据本实施例的抽取方法在cnn、bbc、nypost、yahoo！news、freep、nytimes六个英文网站进行内容的抽取实验，获得平均识别的召回率为95.32％，平均识别的准确率为88.74％，f1值为91.91％。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谭建龙;张闯;陈小军;张恺航
技术所有人：中国科学院信息工程研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。