一种基于逻辑链接块的网页正文抽取方法与流程

文档序号:17643116发布日期:2019-05-11 00:48阅读:212来源:国知局
本发明属于计算机
技术领域
:,涉及一种网页正文抽取方法,具体涉及一种应用于各类新闻、博客或具有类似结构的基于逻辑链接块的网页正文抽取模板的抽取方法(contentextractionbasedonlogicallinkblocks,cellb)。
背景技术
::网页信息抽取是指根据具体的分析和应用需求,从网页中抽取特定的信息内容。这些特定的信息内容既包括直接来自于网页中的某些浅层内容,也包括基于网页的特定分析而形成的深层内容。网页正文抽取是该研究的主要方向之一,其研究历史较长,相关方法众多。文献1将网页的抽取方法总结为基于wrapper、模板、机器学习、视觉布局特征、html特征等五类,其中wrapper和模板法的通用性一般认为较差,且一般需要人工参与,并需要更新维护,极为耗时费力,鉴于此,无需模板支持或人工监督的wrapper算法([文献2-4])被提出来,并取得了较好的效果;机器学习的方法需要借助合适的训练集和适量的特征([文献5-6]),且难以完全脱离人工监督;利用视觉布局特征的方法的典型代表即vips及类似方法([文献7-9]),该方法虽然准确率较高,但是对网页的解析要求过于精细,计算消耗大,面对大量非规范化的网页时其健壮性难以保证,且在当前普遍采用css([文献10])来控制各页面标签的视觉呈现效果的情况下,还需要另行解析相关css,最终导致解析任务量大,程序健壮性欠缺;基于html特征的相关方法大多偏向一些启发式规则([文献11-15])或一些统计规律,通用性有待提高,且各种抽取规则的制作也较为耗时费力。此外,也有研究者提出了其他的一些方法,例如利用模糊神经网络实现页面分块的方法([文献16]),mss页面分块方法([文献17])等,此外也有将上述方法进行一些融合的方法,例如文献18-19。文献20不仅对各类抽取方法进行了分类,并对其应用也做了较为全面的总结。虽然相关抽取方法多种多样,各有特点,然而经过分析总结可以发现:目前关于网页信息抽取的相关方法基本都是基于标签树([文献12-13,18,21-23]),而dom([文献24])是一种构建标签树最为常见的方式,xpath则经常基于dom进行内容分析及抽取([文献19]);其他方法也基本都以html标签树或dom为基础([文献25-26])。这类方法都对html的规范性提出了较高的要求。另外,在基于解析html的dom的方法中,常需结合文本或链接密度([文献27-30])、标签比率([文献31-32])、标签路径([文献33])信息等进行正文抽取,这些方法在处理正文很短的页面时一般效果欠佳,因此短正文的情况已获得研究人员的关注并取得一些成果([文献28])。在网页信息抽取相关研究中,有相当一部分研究基本仅仅针对块级层次的html标签,例如div、table、tr、td、p等,其中由于table标签功能丰富([文献34]),早期网页布局、修饰和内容组织几乎对table不可或缺,相应的,部分文献也仅考虑了针对table布局的网页,且未能很好的区分用于布局的table和用于内容组织的table。son([文献22])专门研究了基于table设计的网页,对table标签的两种作用做了区分并分别识别,实验证明了所提出方法的先进性。但仅针对table的处理方式局限性太大,目前的网页设计基本都是table和div共存,uzun[文献23]同时考虑了这两种情况,先根据div和td获得网页内的分块信息,其次结合决策树生成抽取规则,取得了良好的效果,特别是在抽取速度上获得了和手工规则相当的性能;wang[文献14]则提出了bsu概念,并基于此采用聚类和启发式规则两种方法实现页面信息抽取,比采用基于div和table的方法结果更好。为了解决网页正文自动化提取问题,同域网页具有相似结构这一特点受到了较为广泛的关注,目前已有不少基于网页相似性特征的研究成果。tex([文献35])方法分为抽取和过滤两个主要步骤,其核心思想在于分析并利用两个网页的不同之处进而确立网页的模板部分和内容部分。杨柳青([文献36])等则通过html的dom节点相似度来实现相同节点的删除和内容部分的提取。王一洲([文献37])等将网页以dom树中块节点的路径为特征进行表达,并基于该特征计算网页之间的相似度实现相似网页的聚类,最后利用节点密度特征等实现正文内容的确定。现有的网页信息抽取相关方法,尤其是基于标签树的各种方法需要网页遵从较好的规范,这种规范既包括html、xhtml等标签语法规范(如标签的配对关系),也包括语义设计方面的规范(如通过浏览器渲染后在视觉上呈现块状的内容在实际的代码中往往也会通过块级元素div、table等来呈现,视觉上的标题通过h1、h2等标签来呈现等)。但实际上,海量的web页面中,有相当数量的网页并不遵从html等标签语法规范和语义设计规范。虽然html标签语法上的不规范性可以通过一些现有的或自行设计的网页规范化程序进行矫正,但并不能很好的保证正确率;语义设计规范问题的矫正难度则更大。此外,基于dom的分析还受css、背景图、flash等的影响([文献38])。这就决定了基于标签树或dom的各种方法仅能在设计规范或易于矫正的网页中获得良好的效果,在非规范化网页中则显得捉襟见肘。而且基于对html标签属性的精细解析这一要求,决定了这些方法在面对海量网页的自动化应用中存在诸多的麻烦。现有的基于文本密度等信息的网页正文抽取方法,无法很好地处理正文很短的页面,对于正文中插入视频或广告页面的提取准确率也不是太高。文献39提出了逻辑链接块的概念及其识别方法。该方法中逻辑链接块的判别规则简单,无需复杂计算,在对web页面进行一次扫描即可完成,在完成页面链接块识别的同时,也避免了链接块识别过程中不可或缺的标签树解析或者dom解析过程,不仅节约了大量的标签精细解析时间,也更好的适应了纷繁复杂且缺乏规范的html代码。本发明正是基于上述文献39进行的进一步研究。[文献1]al-ghuribism,alshomranis.acomprehensivesurveyonwebcontentextractionalgorithmsandtechniques[c]//2013internationalconferenceoninformationscienceandapplications(icisa).ieee,2013:1–5.[文献2]wangjf,hexf,wangc,etal.newsarticleextractionwithtemplate-independentwrapper[c]//proceedingsofthe18thinternationalconferenceonworldwideweb.newyork,usa:acmpress,2009:1085.[文献3]wangjf,chenc,wangc,etal.canwelearnatemplate-independentwrapperfornewsarticleextractionfromasingletrainingsite?[c]//proceedingsofthe15thacmsigkddinternationalconferenceonknowledgediscoveryanddatamining.newyork,usa:acmpress,2009:1345–1353.[文献4]hej,guyq,liuhy,etal.scalableandnoisetolerantwebknowledgeextractionforsearchtasksimplification[j].decisionsupportsystems,2013,56:156–167.[文献5]petersm,lecocqd.contentextractionusingdiversefeaturesets[c]//proceedingwww’13companionproceedingsofthe22ndinternationalconferenceonworldwidewebcompanion.geneva,switzerland:2013:89–90.[文献6]hassana.sleiman,rafaelcorchuelo.aclassofneural-network-basedtransducersforwebinformationextraction[j].neurocomputing,2014,135:61-68.[文献7]caid,yusp,wenjr,etal.vips:avision-basedpagesegmentationalgorithm,microsofttechnicalreport,msr-tr-2003-79,2003.[文献8]michaelcormier,karynmoffatt,robincohen,etal.purelyvision-basedsegmentationofwebpagesforassistivetechnology[j].computervisionandimageunderstanding,2016,148:46-66.[文献9]janzeleny,radekburget,jaroslavzendulka.boxclusteringsegmentation:anewmethodforvision-basedwebpagepreprocessing[j].informationprocessingandmanagement,2017,53:735–750.[文献10]w3c.cascadingstylesheets(css)snapshot2010[s/ol].[2018-10-08].http://www.w3.org/tr/css/.[文献11]xuey,huy,xing,etal.webpagetitleextractionanditsapplication[j].informationprocessing&management,2007,43(5):1332–1347.[文献12]ahmadih,kongj.user-centricadaptationofwebinformationforsmallscreens[j].journalofvisuallanguages&computing,2012,23(1):13–28.[文献13]jixw,zengjp,zhangsy,etal.tagtreetemplateforwebinformationandschemaextraction[j].expertsystemswithapplications,2010,37(12):8492–8498.[文献14]wangjq,chenqc,wangxl,etal.basicsemanticunitsbasedwebpagecontentextraction[c]//2008ieeeinternationalconferenceonsystems,manandcybernetics.ieee,2008:1489–1494.[文献15]patriciajiménez,rafaelcorchuelo.onlearningwebinformationextractionruleswithtango[j].informationsystems,2016,62:74-103.[文献16]caponettil,castielloc,p.documentpagesegmentationusingneuro-fuzzyapproach[j].appliedsoftcomputing,2008,8(1):118–126.[文献17]pasternackj,rothd.extractingarticletextfromthewebwithmaximumsubsequencesegmentation[c]//proceedingsofthe18thinternationalconferenceonworldwideweb.newyork,usa:acmpress,2009:971–980.[文献18]王海艳,曹攀.基于节点属性与正文内容的海量web信息抽取方法[j].通信学报,2016,37(10):9-17.[文献19]leandroneivalopesfigueiredo,guilhermetavaresdeassis,andersona.ferreira.derin:adataextractionmethodbasedonrenderinginformationandn-gram.informationprocessingandmanagement,2017,53:1120–1138.[文献20]emilioferrara,pasqualedemeo,giacomofiumara,etal.webdataextraction,applicationsandtechniques:asurvey[j].knowledge-basedsystems,2014,70:301-323.[文献21]wongtl,lamw.anunsupervisedmethodforjointinformationextractionandfeatureminingacrossdifferentwebsites[j].data&knowledgeengineering,2009,68(1):107–125.[文献22]sonj-w,parks-b.webtablediscriminationwithcompositionofrichstructuralandcontentinformation[j].appliedsoftcomputing,2013,13(1):47–57.[文献23]uzune,agunhv,yerlikayat.ahybridapproachforextractinginformativecontentfromwebpages[j].informationprocessing&management,2013,49(4):928–944.[文献24]w3c.documentobjectmodel(dom)[s/ol].[2018-10-08].http://www.w3.org/dom/.[文献25]m,pana,raposoj,etal.extractinglistsofdatarecordsfromsemi-structuredwebpages[j].data&knowledgeengineering,2008,64(2):491–509.[文献26]李志文,沈之锐.基于自然标注的网页信息抽取研究[j].情报学报,2013,32(8):853–859.[文献27]刘鹏程,胡骏,吴共庆.基于文本块密度和标签路径覆盖率的网页正文抽取[j].计算机应用研究,2018,35(6):1645-1650.[文献28]郗家贞,郭岩,黎强,等.一种短正文网页的正文自动化抽取方法[j].中文信息学报,2016,30(1):8-15.[文献29]廖建军.基于标签样式和密度模型的网页正文自动抽取[j].情报科学,2018,36(7):123-129.[文献30]朱泽德,李淼,张健,等.基于文本密度模型的web正文抽取[j].模式识别与人工智能,2013,26(7):667-672.[文献31]davidinsa,josepsilva,salvadortamarit.usingthewords/leafsratiointhedomtreeforcontentextraction[j].thejournaloflogicandalgebraicprogramming,2013,82(8):311-325.[文献32]yu-chiehwu.languageindependentwebnewsextractionsystembasedontextdetectionframework[j].informationsciences,2016,342:132–149.[文献33]wugong-qing,lilei,lili,wuxindong.webnewsextractionviatagpathfeaturefusionusingdstheory[j].journalofcomputerscienceandtechnology,2016,31(4):661–672.[文献34]cafarellamj,halevya,wangdz,etal.webtables:exploringthepoweroftablesontheweb[c]//proceedingsofthevldbendowment.auckland,newzealand:2008:538–549.[文献35]hassana.sleiman,rafaelcorchuelo.tex:anefficientandeffectiveunsupervisedwebinformationextractor[j].knowledge-basedsystems,2013,39:109-123.[文献36]杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[j].计算机应用研究,2015,32(9):2581-2586.[文献37]王一洲,陈星,戴远飞.基于网页聚类的正文信息提取方法[j].小型微型计算机系统,2018,39(1):111-115.[文献38]ahmetselmanbozkir,ebruakcapinarsezer.layout-basedcomputationofwebpagesimilarityranks[j].internationaljournalofhuman-computerstudies,2018,110:95-114.[文献39]wang,x.m.,wu,z.d.,huang,y.n.,gu,q.anewrecognitionapproachforlogicallinkblocksinwebpages.journalofdigitalinformationmanagement,2015,13(2):76-85.技术实现要素:针对当前基于html标签树一类方法对html规范性要求较高,以及基于文本密度等信息的方法无法很好处理网页正文较短等问题,本发明提出了一种基于逻辑链接块的新闻、博客等网页正文抽取模板的抽取方法(contentextractionbasedonlogicallinkblocks,cellb)。本发明所采用的技术方案是:一种基于逻辑链接块的网页正文抽取方法,其特征在于,包括以下步骤:步骤1:生成网页正文抽取模板;步骤1.1:输入待生成模板的网址url0;步骤1.2:获取网址url0所对应网页的源代码html0,并提取其中所有的同域网址(即与url0属同一个二级域名下的网址),记为urllist;步骤1.3:利用网址相似度规则ruleurl,从urllist中优选与url0相似度高的前s个网址(若可供选择的实际网址数不足s个,则s的值取实际的网址数即可),并形成相似网址列表,记为urls;步骤1.4:获取相似网址列表urls中各网址源代码,记为html1、html2、…、htmls,它们构成htmllist0;步骤1.5:识别并去除htmllist0中所有源代码的逻辑链接块,形成新的源代码列表,记为htmllist,同时对其中各网页执行网页元素化操作;若是针对压缩过的网页,则对其执行网页原子化操作;步骤1.6:按模糊正文区域识别规则ruletext识别htmllist中各网页的模糊正文区域a1、a2、…、as,记为a={a1,a2,…,as};进而获取各模糊正文区域中的文本长度lt1、lt2、…、lts,记为lt={lt1,lt2,…,lts};步骤1.7:利用相似网址计分规则rulescore对相似网址列表urls进行优选,取其排名前c的c个网址构成候选链接urlc(若c>s,则c取和s相同的值);步骤1.8:根据模糊正文区域a及候选链接urlc中各页面元素化后的结果,分别求解各页面模糊正文之前元素和之后元素的交集eitrs,first,eitrs,last;步骤1.9:根据首元素判别规则rulefirst确定模板首元素efirst,根据尾元素判别规则rulelast确定模板尾元素elast;步骤1.10:根据需求选用合适算法,生成url0的指纹urlfinger,从而确定url0所对应网页的正文抽取模板(urlfinger,efirst,elast),对抽取的模板进行存储;步骤2:利用正文抽取模板,完成对网页正文的抽取。相对于现有技术,本发明的优点为:1)本发明具备极高的召回率;召回率极高说明本发明在抽取正文时,要么基本完全抽取正确,要么抽取范围偏大使得正文成为抽取文本的一部分,但基本不会出现遗漏正文的情况。其原因在于:采用本发明进行抽取时,若模板提取正确,则基本能准确的提取出正文,此时不会丢失正文;即使模板提取不准,一般所提取的文本区域都是比真实的正文区域大,也不会丢失正文。需要特别交代的是,模板提取时,一般基本不会出现提取不到首尾元素的问题。这是因为,对于任意模糊正文区域(无论该模糊正文区域是否识别正确),在后续利用唯一性及与模糊正文区域的距离最小这两项特征确立首元素和尾元素时,在“最差”的情况下,以模糊正文区域为基准往“上”延伸,一般会得到构件“</head>”或“<body>”;以模糊正文区域为基准往“下”延伸,一般会得到构件“</body>”或“</html>”。此时由它们界定的区域虽然过于宽泛,但是却不会遗漏正文,正文成为抽取文本的一个子区域,此时虽然精确率不一定高,但召回率却为100%,这正是本发明能取得极高召回率的根本原因。2)本发明对网页html代码的规范性要求较常规的基于标签树的方法更低,因而一般效率更高;由于本发明无需解析html标签树,对html的处理较为粗略,因此很多网页中的标签不配对,标签配对交错,标签缺失等问题都不会影响本发明方法的执行。3)本发明可以较好的处理正文较短网页中内容的提取。传统的基于文本密度等信息的方法无法正确处理这一类页面,因为正文太短时,该区域的文本密度很低,很容易误判。本发明则不直接抽取当前页面,而是优选出当前页面中的相关链接,优选时采用的相似网址计分规则可以确保这些优选出的网页一般不会出现正文很短的情况,通过这种方式实现了对较短正文网页内容的正确抽取。附图说明图1为本发明实施例的生成网页正文抽取模板流程图;图2为本发明实施例的利用正文抽取模板,完成对网页正文的抽取流程图。具体实施方式为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。一般地,几乎绝大多数的网站,例如新闻、博客等类型网站,其具体的内容详情页面中,除了网页中部主要用于展示该页的主要内容,在主要内容的周围(一般是在主要内容的下部或右侧),还会有大量的相关链接,这些相关链接既有网站推荐系统或自动匹配程序所匹配出来的相关页面链接(例如可能被称为“相关新闻”、“为您推荐”、“猜您喜欢”等),也有其他依靠人工或排名系统而推荐出的某一个或多个类别的网页链接(例如可能被称为“编辑推荐”、“热点新闻”、“精华推荐”)等等。这些各类相关链接的页面,对当前页面而言,既有隶属于同一栏目的,也可能有属于不同栏目的。同一网站或栏目的网页,往往具有相同的结构模式,非同一栏目的网页,也可能具有相同的结构模式。相同的结构模式为模板的自动化抽取提供了理论上的可行性。事实上,几乎绝大多数的网站都采取了静态化技术,静态化前的页面往往来自于少数的动态网页,网站中相当多的页面正是由少数动态页面与来自于数据库中结构化的数据构成,其中,动态页面承担着容器的角色,待抽取的模板正是蕴含于此,来自于数据库中的最为重要的一项内容即待提取的正文。同域网页中的相同或相似度极高的部分蕴藏着模板,相异部分则蕴藏着待抽取的正文内容。从上述分析不难得出,模板分析的关键点如下:1)相似网址的识别;相似网址的识别通过网址相似度规则ruleurl进行,其目的在于获取s个与当前待提取正文的网址最为相似的网址,以供后续相关计算使用。2)网页元素化;在常规的未压缩或压缩及其有限的情况下,网页元素化的划分标记采用回车换行符即可;但若面向的是严重压缩的网页,则应先执行网页原子化或元素化操作。3)定位模糊正文区域;模糊正文区域定位,即识别出正文区域的特定子区域,而不必准确的识别出整个正文文本块。这也是本发明不同于以及优于其他基于文本密度来提取正文这一类方法的关键之处。4)c个候选链接确定;利用相似网址计分规则计算各相似网址得分,并按得分降序排列后,确定参与首元素和尾元素分析计算的前c个候选链接。5)确定首元素和尾元素;利用首元素和尾元素规则,识别出正文区域之前和之后的标识性复合构件,即首元素和尾元素,从而确定该网页的正文抽取模板。6)利用前述由首元素和尾元素所构成的网页正文抽取模板,即可完成对网页正文的抽取。本发明提供的一种基于逻辑链接块的网页正文抽取方法,包括以下步骤:步骤1:生成网页正文抽取模板;请见图1,具体实现包括以下子步骤:步骤1.1:输入待生成模板的网址url0;步骤1.2:获取网址url0所对应网页的源代码html0,并提取其中所有的同域网址(即与url0属同一个二级域名下的网址),记为urllist;步骤1.3:利用网址相似度规则ruleurl,从urllist中优选与url0相似度高的前s个网址(若可供选择的实际网址数不足s个,则s的值取实际的网址数即可),并形成相似网址列表urls;网址也是一项极为有用的资源,尤其在一些初步筛选场合,例如网页或链接分类及高相似度网页的筛选,仅仅利用网址即可进行,这可以减少不必要的页面下载等过程。为减少整个程序处理时间,因此本发明中利用url进行初筛。设当前处理网页的网址为参考网址,记为url,从该网页提取的同域网址为url={url1,url2,…,urld},其中d表示url对应网页中的同域网址数,则第i个网址与参考网址url的相似度为:其中,lcs()表示计算最长公共子字符串,len()表示计算字符串长度。网页中的网址链接数很多,有些网址是链向其他网站,有些网址与当前网址隶属于同一网站但却分属于不同的子栏目,有些网址则和当前网址隶属于同一子栏目,显然它们在网页模板提取过程中的作用是不同的。相似网址数s是指根据网址相似度规则对url计算排序后,从中优选的高相似度网址数,相应的网址则构成相似网址列表,记为:urls={url1,url2,…,urls},s为相似网址数。相似网址的优选有利于减少后续模糊正文区域识别的计算量,提升后续处理的速度。步骤1.4:获取相似网址列表urls中各网址的源代码,记为html1、html2、…、htmls,它们构成htmllist0;步骤1.5:识别并去除htmllist0中所有源代码的逻辑链接块,形成新的源代码列表,记为htmllist,同时对其中各网页执行网页元素化操作;若是针对压缩过的网页,则对其执行网页原子化操作;步骤1.5.1:网页原子化;html构件是指构成html的基本要素,构件也称为原子,记为ei,e表示构件,i表示构件的序号。构件具体分为html标签构件、内容构件,其中开始标签和结束标签都被认为是独立的html构件,不涉及到html标签配对和嵌套问题。如html代码片段“<imgsrc=’logo.jpg’><br><palign=’left’>内容1<br>内容2</p>”中,包含七个构件,分别为:“<imgsrc=’logo.jpg’>”、“<br>”、“<palign=’left’>”、“内容1”、“<br>”、“内容2”、“</p>”。网页原子化是指将网页代码转换为html构件(原子)表达的过程。html原子化的表达记为:h={e1,e2,…,ef},h表示网页,f=card(h)为网页构件集合中构件总数,card()表示计算集合中元素个数。例如上述代码片段经html原子化后的表达为:h={“<imgsrc=’logo.jpg’>”,“<br>”,“<palign=’left’>”,“内容1”,“<br>”,“内容2”,“</p>”}。网页原子化的过程仅需对html代码进行一次扫描即可完成,和常规的html标签树、页面视觉等解析相比,其实现更为快捷简单,对html的规范化要求也更低,因此程序也将更为健壮,在面向海量网页的自动化处理中,这一点显得格外重要。步骤1.5.2:网页元素化;复合构件是由若干邻接的构件复合而成,也将其称为元素。如上文中的“<br><palign=’left’>”即是一个复合构件。复合构件记为ei={ep,…,eq},q≥p;e表示构件,i表示复合构件的序号。显然,当p=q时,复合构件退化为构件;当p=1,q=f时(此处f表示网页在原子化表达下的构件总数,如上文),复合构件即整个网页。网页元素化是指将网页代码转换为复合构件(元素)表达的过程。元素化后的表达记为:h={e1,e2,…,em},h表示网页,m为网页html代码按照某种划分规则划分后的复合构件数。此处划分规则很灵活,基本不涉及什么特别的技术问题。例如若是仅针对本发明,则元素化时的划分规则就是:凡是遇到换行符则进行划分。若是出于其他应用需求,则划分规则就可能不一样了。例如在识别网页正文(不同于本发明的网页正文抽取)或识别网页中链接块时,则划分规则可以是:在遇到块级元素标签时进行划分。如此等等,应用场景不同,划分规则可能会不同。很显然,划分规则不一样,将得到不同的元素化表达,相应的,元素数m也有可能不同。一般地,在绝大多数的网页中,网页元素化的划分标记采用回车换行符,即利用网页html代码中的回车换行符即可将网页元素化,此时html中的每一行即称为行元素。其好处在于充分利用了网站开发者对网页的某种程度的语义划分,因而效果极佳。与网页原子化类似,网页元素化过程一般也只需要对html代码进行一次扫描即可完成,其实现较网页原子化更为快捷简单,对html的规范化要求也更低,因而也更加实用。另外需要交代的是,在本发明方法体系中,处理绝大多数的网页是不必进行网页原子化的,因为在未压缩或者压缩率不高的网页中,存在着自带的且绝佳的划分标记,即回车换行符。正因为如此,也就意味着本发明基本无需做任何前置性的预处理,大幅提高了处理效率。网页原子化仅仅在处理压缩程度高的网页过程中才是必须的,因为高压缩率的网页中,各构件间没有空格、回车换行等用于格式化的标记,因而也就无法很好对网页进行元素化,此时对网页进行原子化是最佳选择之一。步骤1.6:按模糊正文区域识别规则ruletext识别htmllist中各网页的模糊正文区域a1、a2、…、as,记为a={a1,a2,…,as};进而获取各区域中的文本长度lt1、lt2、…、lts,记为lt={lt1,lt2,…,lts};一般地,网页仅需进行元素化即可,元素化后得到h={e1,e2,…,em},对各复合构件依次进行文本抽取得到t={t1,t2,…,tm},其中ei表示网页元素化后的第i个复合构件,ti表明由ei抽取而得到的文本,但<script>和</script>、<style>和</style>等构件之间的构件不作抽取处理。则模糊正文区域为:即模糊正文区域是通过识别包含最长文本的构件行序号来表达的。另外,之所以此处称为“模糊正文”,是因为此处所得到的a并非完整的网页正文区域,真正的完整正文区域是在下文的首元素判别规则rulefirst和尾元素判别规则rulelast下确定的。模糊正文长度即模糊正文区域对应的文本长度,记为lt=len(ta)。当网页需要原子化时,执行网页原子化得到h={e1,e2,…,ef},此时处理方式同上,只是此时是针对各个构件进行文本抽取。并且此时的抽取简化为构件类型的判断:所有构件要么为文本内容构件,要么为html标签构件。步骤1.7:利用相似网址计分规则rulescore完成对相似网址列表urls进行优选,取其排名前c的c个网址构成候选链接urlc;网页中往往包含大量的相关链接,对于一个待提取正文的网页而言,这些链接对正文提取的作用是不一样的。相似网址计分规则用于对相关网址按照一定的规则进行计分,以便从这些相似链接中优选出有利于网页正文抽取的网页链接。记待提取页面的网址为url,按网址相似度规则及相似网址数s从当前网页中优选得到相似网址列表urls,它们与url的最长公共子字符串为lcs={lcs1,lcs2,…,lcss},最长公共子字符串的长度为l={l1,l2,…,ls},即li=len(lcsi),此处lcsi表示第i个最长公共子串,li表示lcsi的长度。各网页模糊正文长度为lt={lt1,lt2,…,lts}。则第i个网址urli的得分为:其中,∝∈[0,1]为权重调整因子,用于调整网址相似性及模糊正文长度在网址计分中的贡献程度。候选链接是指参与网页中首元素和尾元素分析抽取的链接,候选链接的数量即候选链接数,将其记为c。利用上述网址评分规则对相似网址urls进行评分并倒序排列,然后通过候选链接数c取其前c项即得到候选链接urlc。显然,当候选链接数c=2时,意味着只需要2个与之相似度最高的额外链接即可完成正文和模板抽取。步骤1.8:根据模糊正文区域a及候选链接urlc中各页面元素化后的结果,分别求解各页面模糊正文区域之前元素和之后元素的交集eitrs,first,eitrs,last;itrs为intersection的简写,表示交集;first表示元素处于模糊正文区域之前且是为了计算首元素;last表示元素处于模糊正文区域之后且是为了计算尾元素。步骤1.9:根据首元素判别规则rulefirst确定模板首元素efirst,根据尾元素判别规则rulelast确定模板尾元素elast;首元素是指eitrs,first中具有唯一性且距离模糊正文区域a最近的复合构件,尾元素是指eitrs,last中具有唯一性且距离模糊正文区域a最近的复合构件;首元素和尾元素是网页中具备标识性、且往往也具有一定通用性的复合性构件,网页正文抽取模板正是依赖于首元素和尾元素而构成。首元素和尾元素的识别是基于c个候选链接对应的页面进行的。这些页面记为h1,h2,…,hc,第i个页面元素化或原子化表达为im=card(hi)表第i个页面中的复合构件数,第i个页面的模糊正文区域为ai,利用ai可以将hi分为两个部分,分别记为和将各页面切分后的前后两个部分分别求交集,分别得到:其中,i表示数据集中网页的序号,u=card(eitrs,first),v=card(eitrs,last),分别表示模糊正文区域前后复合构件集合交集的元素数。需要注意,求交集后各元素的顺序维持其原有的顺序不变。正文区域的首元素efirst为:其中,j表示复合构件的序号,count(i,ej,first)表示在第i个页面中所包含构件ej,first的数目,必须大于0。从表达式可见,构件ej,first出现的次数越少,亦即上式分母越小,越靠近模糊正文区域,亦即分母越大,上述表达式的值越大。通过该首元素判别规则,将获取网页中唯一性强而又尽可能靠近正文区域的复合构件:首元素。正文区域的尾元素elast为:其中,j表示复合构件的序号,count(i,ej,last)表示在第i个页面中所包含构件ej,last的数目,必须大于0。由于尾元素在正文区域之后,因此j值越小,对应的构件离正文越近。通过该尾元素判别规则,将获取网页中唯一性强而又尽可能靠近正文区域的复合构件:尾元素。步骤1.10:根据需求选用合适算法(本实施例采用的是md5算法),生成url0的指纹urlfinger,从而确定url0所对应网页的正文抽取模板(urlfinger,efirst,elast),对抽取的模板进行存储;步骤2:利用正文抽取模板,完成对网页正文的抽取;请见图2,具体实现包括以下子步骤:步骤2.1:输入待抽取正文的网址url0;步骤2.2:根据指纹算法计算url0的指纹;步骤2.3:判断url0的指纹是否存在;若否,则执行下述步骤2.4;若是,则执行下述步骤2.6;步骤2.4:分析正文抽取模板;步骤2.5:判断是否分析出正文抽取模板;若是,则执行下述步骤2.7;若否,则输出失败信息,本流程结束;步骤2.6:根据url0的指纹返回正文抽取模板;步骤2.7:根据正文抽取模板对url0对应的页面进行正文抽取;步骤2.8:判断是否抽取到正文;若是,则输出抽取到的正文,本流程结束;若否,则输出失败信息,本流程结束。需要说明的是,若网址指纹的算法唯一性强,则每个网页对应一个模板;若网址指纹算法唯一性不强,例如若将具有相同模板的网址映射到同一个指纹,则可以实现模板的重用,这往往可以应用到同一个栏目或同一个域名下的网页。以下通过实施例对本发明做进一步的阐述:本实施例的实验数据采用搜狗实验室提供的全网新闻数据。另外由于上述数据发布于2012年,相当大一部分网页中的链接网页都已无法打开,因此也自行采集了若干国内较为知名的一些网站,得到一些最新的网页数据。最终合计20个网站,每个网站200个网页。由于早年的网页被网站运营方删除的可能性极大,因此为了尽可能保证第三方对该方法的验证,因此下文解说时将主要采用新采集的网页。为了使得所采集的网页,覆盖一个网站的尽可能多的频道或栏目,因此自行采集时,首先提取网站首页中的链接网址,去除其中的索引型页面、视频型页面等,然后从剩余的链接中按照三级域名进行随机抽取,即在保证对三级域名尽可能多的覆盖下进行随机抽取。实验相关参数设置如下:(1)网页元素化的划分标记采用回车换行符。(2)相似网址数s=30。(3)权重调整因子∝=0.8。(4)候选链接数c=2。另外,为了和基于密度的方法(contentextractionbasedondensity,简记为ced)进行比较,采用文献29中的密度方法及参数设置,针对同样的数据进行了抽取实验。利用本发明所提的方法和基于密度的提取方法,针对如上数据的实验结果如下表1所示。其中p表精确率,r表召回率。表1实验数据及结果本实施例中,针对某单一网页的评价标准采用常规的精确率(pi)、召回率(ri)、f1值进行评价。分别定义如下:其中,i表示数据集中网页的序号,同时也为了和下文整个数据集的三个指标区分,因此将i作为单一网页评价指标的下标或上标。表示针对第i个网页的手工抽取文本,表示针对第i个网页的自动抽取文本。针对某个数据集的抽取结果,同样采用精确率p、召回率r、f1值三项指标,只是此处p、r两项指标是相应数据集中各网页抽取精确率和召回率的算术平均值。定义如下:其中,n表示数据集大小,即数据集中网页数,i表明数据集中第i个页面。从上表1可见,本发明的准确率平均值为95.02%,召回率98.23%,表现良好,其中召回率表现尤其突出,近一半网站的召回率为100%。从三个评价指标平均值来看,都较基于密度的方法(ced)稍好。从具体站点来看,本发明在新民网、北青网、温州网、环球网等站点表现突出,但在腾讯网、新华网、中国网等站点的表现有待进一步提升。不过整体而言,在多数站点上,本发明优于基于密度的方法。总体而言,本发明在测试数据集上表现良好,抽取过程中无需人工参与。结合对具体页面的抽取结果的分析可知,本发明与基于文本密度的方法主要异同点体现在如下几个方面。(1)当处理正文极短页面时,相对而言,本发明具有非常好的效果,这正是常规基于文本密度抽取方法的短板。基于文本密度的方法极其容易受到其他非正文纯文本的影响,尤其是在处理正文较短网页时,错误率更高。例如http://ent.163.com/17/1110/13/d2sq8tg500038fo9.html。(2)当处理正文文本较长页面时,两个方法效果基本相当。(3)当待抽取页面中不存在相关链接时,本发明无法正常抽取,例如http://sports.xinhuanet.com/c/2017-11/14/c_1121950475.htm。(4)由于本发明下的正文抽取是在当前待处理网页中相关链接分析的基础上进行的,这也决定了本发明受制于网络状况。在无网络时无法执行抽取操作,在网络慢时,抽取速度较慢。其中,关于实验参数的探讨如下:(1)相似网址数s;一般而言,相似网址数越多越好,不过相似网址数越多,则意味着后续的计算量越大。一般情况下,由于相似网址已经通过网址相似度进行了筛选,而低相似度的网址链接对网页正文抽取并没有帮助,因此不必将该值设置的过大。不过显然该值也不宜设置过小,否则将影响后续候选链接的优选。(2)权重调整因子∝;权重调整因子用于调整网址相似度和模糊正文长度在候选链接优选时的贡献大小。显然,只有在高相似度的网址下,才有进行模糊正文区域识别的必要,低相似度网址是无助于正文抽取的。因此,对相似链接进行评分时,一般应该将权重调整因子向网址相似度倾斜,即∝>0.5。另外,由于网址相似度计算比模糊正文区域计算消耗更小,因此整个过程中,是先计算网址相似度,然后才计算模糊正文区域。(3)候选链接数c;理论上来说,候选链接数c越大,抽取的模板在该域下的通用性越强,结果也应该越精准。但事实上却不一定如此,其原因在于:c越大,候选链接数越多,分析时纳入的链接越多,遭遇各种不利因素的可能性越大。例如有些网页虽然隶属于同一个域,但却采用了不同的模板;或者网页中所包含的合适链接数不够,为了达到候选链接数c的要求,不得不纳入其他相似性过低的链接,无论是前述哪种情形,都将导致模板抽取失败或者由于模板过于宽泛从而抽取出现“尾巴”,因此该参数阈值一般不宜过大。经验值表明,一般该参数设置为2或3即可。本发明在抽取网页模板及正文的过程中,仅仅只依赖于当前网页自身,无需启发式规则支持,这决定了该方法具有良好的通用性;该方法对网页模板的抽取过程,无需人工干预,自动化程度高;且分析过程简单,甚至无需对网页进行任何标签解析,因而分析速度快,抗干扰性强,能更好的适应设计不规范的web页面;对于正文内容很短的页面也具有较好的提取效果;最后该方法抽取的模板形式简单,容易使用。这就决定了该方法在web页面正文抽取方面有着潜在的应用价值,可以用于各类新闻、博客或具有类似结构的网页正文抽取,在其他对链接块精细粒度要求不高的web信息处理和挖掘领域中也具有广泛的应用前景。应当理解的是,本说明书未详细阐述的部分均属于现有技术。应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1