网页正文的提取方法和装置的制造方法_3

文档序号:9579270阅读:来源:国知局
0,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,15,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,6,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,729,179,19,-10,-10,-10,5,-10,-10,-10,98,-10,-10,-10,-10,5,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,11,8,9,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,9,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-1ο,-ιο,-ιο...]
[0119]利用F(n) =F(n-l)+a[n]计算包含每一个数组元素的最大连续和,计算结果存储于第二数组中,具体如下:
[0120][15,5,-5,-10,-10, -10, -10, -10, -10, -10, -10, -10, -10, -10, -10, -10, -10, -10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,22,12,2,-8,-10,19,9,-1,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,729,908,927,917,907, 897,902, 892,882,980, 970, 960, 950, 940, 945,935,925,915,905, 895,885,875,865,855,845,835,825,836,844,853,843,833,823,813,803,793,783,773,763,753,743,733,723,713,703,693,683,673,663,653,643,633,623,613,603,593,583,573,563,553,543,533,523,513,503,493,483,473,463,453,443, 433,423,413,403, 393,383,373,363,353,343,333,323,313,303,293,283,273,263,272,262,252,242,232,222,212,202,192,182,172,162,152,142,132,122,112,102,92,82,72,62,52,42,32,22,12,2,-8,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10,-10...]
[0121]由以上数据可知,第二数组中的最大连续和的最大值为980,对应的行数为144行。则第144行为网页正文的终止行。根据第一数组中的数据可知,最大连续和的最大值980 为第 135-144 行文字个数:729,179,19,-10,-10,-10,5,-10,-10,-10,98 之和,由此可知,最大数980由第135行的729开始起算,因此网页正文的起始行为第135行。
[0122]提取第135行至第144行的文字作为网页正文。
[0123]在本发明中,对空行中的文字个数进行处理时,必须将空行的文字个数设置为负数。同时通过将空行的文字个数设置为不同的负数值还可适应网页中正文内容的分散程度。
[0124]本发明中,网页中正文内容的分散程度是指网页正文的前几行和后几行文字与正文中部内容之间间隔的空行数。当网页正文中的前几行和后几行文字与正文中部内容之间的空行数大于预定数目行时,定义为网页正文的分散程度较高;当网页正文中的前几行和后几行文字与正文中部内容之间的空行数小于或者等于上述预定数目行时,定义为网页正文的分散程度较低。
[0125]当网页正文的分散程度较高,即网页正文在页面中分布较为分散时,空行的文字个数替换为[-10,-1]中的任一负整数。由于空行的文字个数替换为较大的负整数,网页正文的前几行选择区间和后几行选择区间的范围均增大,网页正文的前几行文字和后几行文字不会被剔除,从而尽量将正文内容的文字部分都包含在内。
[0126]当网页正文的分散程度较低,即网页正文在页面中分布较为集中时,空行的文字个数替换为小于-10的负整数。由于空行的文字个数替换为较小的负整数,网页正文的前几行选择区间和后几行选择区间的范围减小,从而尽量将正文内容最大程度地将正文内容和其他内容区别开。
[0127]作为另一优选实施例,利用每一行的行号以及对应行内的文字个数确定网页正文还可采用如下方法实现。具体步骤包括:
[0128]确定网页行号范围X,X = 1?j,j是正整数;
[0129]计算前η行的文字个数总和F (η),其中η = 1?X ;
[0130]根据F(n),得到多个连续的正文区间,其中η = 1?X;
[0131]从连续的正文区间中选择一个或多个正文区间的文字作为网页正文。
[0132]其中,所述得到多个连续的正文区间的步骤包括:
[0133]确定最大行号j ;
[0134]确定初始行号i,i = 1?j ;
[0135]设置当前行号n = i;
[0136]比较F(n)和F(n+1),如果F(n) = F(η+1),确定正文区间为F⑴到F(n),结束F(n)的计算,或转确定初始行号i的步骤继续判断;
[0137]如果F(n)古 F(n+1),使 η = η+1 ;
[0138]比较η和j,如果η = j,结束F(n)的计算;如果η古j,转比较F(η)和F(η+1)的步骤继续判断。
[0139]由以上可知,该方案在网页的多行内容中,找出不存在空行的连续行文字,并统计连续行文字的个数,通过选择文字个数最多的一段或者大于预定数值的多段文字作为网页正文。
[0140]作为再一优选实施例,利用每一行的行号以及对应行内的文字个数确定网页正文还可采用如下方法实现。具体步骤包括:
[0141]确定网页行号范围X,X = 1?j,j是正整数;
[0142]逐次计算第η行与第n+h行之间的文字个数之和F(n),其中,n= 1?X_h,h为大于1小于j的自然数;
[0143]将F(l)?F(n)中最大值对应的行数与该行之后h行的文字作为网页正文。
[0144]由以上各实施例中方案可知,本发明中网页正文提取方法具有如下有益效果:
[0145]1、不依赖浏览器环境。由于本发明中网页数据的提取来源不受存储介质的限制,即使浏览器未打开,本方法可在浏览器存储数据的存储装置中将网页数据下载到本地服务器中进行网页正文的提取,因此,本发明不用依赖于浏览器环境。
[0146]2、不依赖页面结构。由于本发
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1