一种抽取新闻网页内容的方法、装置及存储介质与流程

文档序号:16737808发布日期:2019-01-28 12:45阅读:187来源:国知局
本发明涉及新闻网页内容抽取
技术领域
:,尤其涉及一种抽取新闻网页内容的方法、装置及存储介质。
背景技术
::在新闻领域,新闻网页内容的提取是其中核心的步骤,其中新闻正文、发布时间和标题提取的准确性直接关系着新闻搜索的质量和用户体验。另外,在金融领域,新闻网页的准确提取也是进行量化交易的关键。基于自然语言处理技术对新闻内容进行分析处理,处理结果用于经济行为分析。因此,如何抽取新闻网页内容成为了本发明研究的关键问题。目前,新闻网页内容提取的方法多种多样,主要分为以下两大类方法,基于模板规则的新闻网页提取和基于非模板的新闻网页提取。在基于模板规则的新闻网页提取中,发现各大网站新闻的正文所在html标签的位置(网页布局)是不同的,即使相同的网站下不同的网址新闻正文所在的位置有时也会有所差异。因此,不用的网站需要编写不同的模板,构建模板的工作量巨大。基于非模板的新闻网页提取有基于分块、基于标记窗的和基于逻辑行与最大接纳距离的。然而这些算法规则复杂,性能低,不适合大规模网站的新闻网页提取。因此,需要一种通用的、性能高效、准确率高的提取新闻网页的方法。技术实现要素:本发明提供一种抽取新闻网页内容的方法、装置及存储介质,解决不同的网站需要不同的规则模板去抽取新闻内容问题。为了实现上述目的,本发明提出一种抽取新闻网页内容的方法,包括以下步骤:对目标新闻网页html源代码进行线性重构;从html源代码中抽取文本段落进行过滤划分原始数据集;聚类正文段落;吸收伪噪声段落;生成正文脉络段落。优选地,所述的对目标新闻网页html源代码进行线性重构步骤之前,还包括获取网页html源代码。优选地,所述的对目标新闻网页html源代码进行线性重构步骤与从html源代码中抽取文本段落进行过滤划分原始数据集步骤之间,还包括:对线性重构后的html源代码进行去噪处理。优选地,所述的对目标新闻网页html源代码进行线性重构,具体为:将目标新闻网页源代码中的<body>与<div>标签去除网页的嵌套,进行线性重构,获得线性重构的网页html源代码。优选地,所述的从html源代码中抽取文本段落进行过滤划分原始数据集,具体为:按段落顺序抽取文本段落;根据所抽取的文本段落中的标点符号个数,确定所属集合。优选地,所述的根据所抽取的文本段落中的标点符号个数,确定所属集合,具体为:若文本段落的标点符号个数大于等于阈值,则划分进聚类段落集合;若文本段落的标点符号个数小于阈值,则划分进吸收段落集合。优选地,所述的聚类正文段落,具体为:将聚类段落集合中的每个段落看成一个独立的单元,根据网页标签进行聚类。优选地,所述的吸收伪噪声段落,具体为:根据设定的标点符号个数阈值及与吸收段落首段之间的距离阈值,分别吸取位于正文之前、之中和之后的噪声段落。本发明还提出一种抽取新闻网页内容的装置,包括:处理器;存储器,耦合至所述的处理器并存储有指令,所述的指令在由所述处理器执行实现所述的抽取新闻网页内容的方法步骤。本发明还提出一种计算机可读取存储介质,所述计算机可读取存储介质存储有抽取新闻网页内容的方法的应用程序,所述应用程序实现如所述的抽取新闻网页内容的方法步骤。本发明提出一种抽取新闻网页内容的方法、装置及存储介质,通过网页标点符号和网页标签聚类实现提取新闻网页内容,包括:获取网页html代码、网页html线性重构、html噪声标签去除、数据集过滤划分、吸收伪噪声段落、生成正文段落;其中,网页html线性重构将相互嵌套的呈树状div标签进行线性化,处理线性结构方便定位当个div标签,消除嵌套标签对后续步骤影响;html噪声标签去除将减少噪声文字对段落聚类的影响;数据集过滤划分进一步降低噪声对正文段落的影响;吸收伪噪声段落提高了正文段落的召回率。该方法克服了特定网站特定抓取的缺陷,增强了抽取新闻网页内容的通用性;对比已有技术,能够准确高效地抽取新闻内容,具有良好的效果。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本发明一种实施例中抽取新闻网页内容的方法流程图;图2为本发明一种实施例中线性重构流程图;图3为本发明一种实施例中过滤划分原始数据集流程示意图;图4为本发明一种实施例中抽取新闻网页内容的装置结构示意图;图5为本发明一种实施例中计算机可读取存储介质结构示意图;本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。本发明提出一种抽取新闻网页内容的方法;本发明一种优选实施例中,如图1所示,包括以下步骤:s00、获取网页html源代码;本发明实施例中,网页源代码是由html标记语言组成,新闻正文就是被html标记而组成。在浏览网页新闻时,通常是向web服务器发出请求,浏览器会得到服务器的响应。通过程序语言自动化采集时,获取的是网页html代码;如何自动化采集网页html代码对于本领域技术人员是公知的,因此在此不进行详细描述。s10、对目标新闻网页html源代码进行线性重构;本发明实施例中,为了更好地进行网页正文提取,将网页源代码中的<body>与<div>标签去除网页的嵌套,进行线性重构,获得线性重构的网页html源代码。具体思路为:如图2中所示,图中p1,p2,p3为网页内容;网页html源代码初始状态如图2中第一个框图;s101、遇到开始标签<div>,就在紧靠它的前面加上结束标签</div>;遇到结束标签</div>,就在紧靠它的后面加上开始标签<div>,如图2中第二个框图;具体实施过程可以使用htmlparser,正则等工具进行操作。s102、删除第一个结束标签和最后一个开始标签,如图2中第三个框图;s20、对线性重构后的html源代码进行去噪处理;本发明实施例中,根据所获线性html源代码经过html去除噪声得去噪html源代码,具体实施过程可以使用htmlparser,正则等工具进行操作。该步骤可以减少噪声文字对新闻正文的影响。删除的html的标签主要有<script>、<style>、<iframe>、<aside>、<nav>、<footer>等。根据网页写法规范,<script>标签用于定义客户端脚本;<style>标签用于为html文档定义样式信息;<iframe>标签会创建包含另外一个文档的内联框架(即行内框架);<aside>标签定义其所处内容之外的内容;<nav>标签定义导航链接的部分;<footer>标签定义文档或节的页脚。s30、从html源代码中抽取文本段落进行过滤划分原始数据集;本发明实施例中,过滤划分原始数据集,将页面中的文本段落按照<div>和<table>为单元进行析取与存储。对所获得的各个文本段落进行简单过滤;将按照中文标点字符集所包含的标点字符的个数分成两个段落集合,聚类段落集合和吸收段落集合。如图3所示,具体思路为:s301、按照正则表达式(<div>.*?</div>)按段落顺序抽取p1、p2、p3;s302、若文本段落的标点符号个数大于等于阈值,则划分进聚类段落集合;这里取阈值为6。s303、若文本段落的标点符号个数小于阈值,则划分进吸收段落集合。s40、聚类正文段落;本发明实施例中,聚类正文段落,广告信息,网友评论,网站申明只要不包含在网页正文中,都将其定义为噪声。为了去除噪声段落,采用聚类技术生成网页正文。首先,html语言中一些常用的段落分隔标签<form>等标签对网页正文和广告信息起到了明显的分隔标志,利用这些标签将脉络段落集划分成更小的段落集合。其次,自底向上聚类分析,将正文段落集合中的每个段落看成一个独立的单元进行聚类;将段落标点符号最多的段落当作聚类中心,无监督学习出该段落的标签与标签属性;例如,中心段落中的第一个标签为<p>和属性为<pstyle=text-indert:2em>;那么该段组成的向量(<p>,<pstyle=text-indert:2em>);根据该特征,分别向中心段落的前后聚类含有该特征的段落。s50、吸收伪噪声段落;本发明实施例中,根据设定的阈值(这里阈值有两个参数,标点符号个数与距离吸收段落的首段的距离)分别吸取位于正文之前、之中、之后的噪声段落。具体说明如下,首先,获取聚类正文段落的首段落的开始索引a与尾段落的结束索引b;其次,吸取噪声段落中小于开始索引a的段落入栈,依次取栈顶段落,如果段落的标点符号个数大于等于3,并且与索引a的距离小于5,进入聚类后的正文脉络,并且更新开始索引a。然后,吸取噪声段落中大于开始索引a与小于结束索引b的段落入队列,依次取队列段落,如果段落的标点符号个数大于等于3,进入聚类后的正文脉络。最后,吸取噪声段落中大于结束索引b的段落入队列,依次取队列段落,如果段落的标点符号个数大于等于3,并且与索引b的距离小于5,进入聚类后的正文脉络,并且更新结束索引b。s60、生成正文脉络段落,完成新闻正文的提取。本发明还提出一种抽取新闻网页内容的装置;本发明一种优选实施例中,如图4所示;包括:处理器;存储器,耦合至所述的处理器并存储有指令,所述的指令在由所述处理器执行实现所述的抽取新闻网页内容的方法的步骤,例如,s00、获取网页html源代码;s10、对目标新闻网页html源代码进行线性重构;s20、对线性重构后的html源代码进行去噪处理;s30、从html源代码中抽取文本段落进行过滤划分原始数据集;s40、聚类正文段落;s50、吸收伪噪声段落;s60、生成正文脉络段落,完成新闻正文的提取。步骤内的具体细节,上文中已经详细阐述,此处不再复述;本发明实施例中,所述的抽取新闻网页内容装置内置处理器,可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件,通过运行或执行存储在存储器内的程序或者单元,以及调用存储在存储器内的数据,以执行抽取新闻网页内容的各种功能和处理数据;存储器用于存储程序代码和各种数据,安装在抽取新闻网页内容装置中,并在运行过程中实现高速、自动地完成程序或数据的存取。所述存储器包括只读存储器(read-onlymemory,rom)、随机存储器(randomaccessmemory,ram)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子擦除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。本发明还提出一种计算机可读取存储介质;本发明一种优选实施例中,如图5所示;所述计算机可读取存储介质存储有抽取新闻网页内容的方法的应用程序,所述应用程序实现如所述的抽取新闻网页内容的方法的步骤,例如,s00、获取网页html源代码;s10、对目标新闻网页html源代码进行线性重构;s20、对线性重构后的html源代码进行去噪处理;s30、从html源代码中抽取文本段落进行过滤划分原始数据集;s40、聚类正文段落;s50、吸收伪噪声段落;s60、生成正文脉络段落,完成新闻正文的提取。步骤内的具体细节,上文中已经详细阐述,此处不再复述;在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属
技术领域
:的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的
技术领域
:均包括在本发明的专利保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1