本发明数据处理领域,尤其涉及一种基于网络爬虫的文本信息爬取方法。
背景技术
现代社会是信息爆炸的社会,互联网上存在着海量的数据。
现有技术中,用户可能根据一个文本的内容从网络的海量数据中进行比较的需求,例如出版社收到一份投稿之后,需要比对一下该稿件是否为抄袭的稿件,比如从大量信息中获取所需要信息。
现有技术中的比较方法一般是由人工将稿件阅读完后总结出该稿件的核心思想,然后归纳出关键词,使用这些关键词在互联网上进行爬取,但是,如果稿件中的信息量较大,阅读需要花费大量的时间,影响了工作效率。
因此,现有技术有待于进一步的改进。
技术实现要素:
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种基于网络爬虫的文本信息爬取方法,克服现有技术中从网络的海量数据中获取信息效率低的缺陷。
本发明公开了一种基于网络爬虫的文本信息爬取方法,其中,所述方法包括:
服务器获取网络爬虫任务的配置文件和第一文本;所述配置文件含有的任务为:获取网络中与第一文本所含内容相似度超出预定第一阈值的信息;
所述服务器根据所述配置文件开启网络url信息爬取,并将爬取的信息整合为待处理信息;
所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;
所述服务器计算第一文本与第二文本之间的相似度,若相似度低于第二预设阈值,则重新根据所述配置文件开启网络url信息爬取,若相似度超出第二预设阈值,则输出第二文本。
可选的,所述服务器计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行对比得出相似度。
可选的,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
可选的,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
可选的,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
可选的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
可选的,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,s(vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,in(vi)是存在指向目标网页的链接的网页集合。out(vj)是网页j中的链接存在的链接指向的网页集合,out(vj)取绝对值是用以表示该网页集合中元素的个数,s(vj)是网页j的重要性分数。
可选的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
可选的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
可选的,使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
有益效果,本发明提供了一种基于网络爬虫的文本信息爬取方法,通过服务器获取网络爬虫任务的配置文件和第一文本;所述服务器根据所述配置文件开启网络url信息爬取,并将爬取的信息整合为待处理信息;所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;所述服务器计算第一文本与第二文本之间的相似度,若相似度超出预设阈值,则输出第二文本。本发明基于网络爬虫进行信息获取,并针对第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,提高了信息爬取的效率。
附图说明
图1为本发明所公开的一种基于网络爬虫的文本信息爬取方法的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种基于网络爬虫的文本信息爬取方法,如图1所示,所述方法包括:
步骤s101、服务器获取网络爬虫任务的配置文件和第一文本;所述配置文件含有的任务为:获取网络中与第一文本所含内容相似度超出预定第一阈值的信息。
本步骤中为从网络中爬取与第一文本内容相似的信息,做预先的设置。具体的,在服务器中设置配置文件,所述配置文件含有爬取信息的任务,也即基于第一文本的内容从网络中获取相似的内容。所述配置文件在具体实施时,可以通过页面脚本的方式,进行运行。
步骤s102、所述服务器根据所述配置文件开启网络url信息爬取,并将爬取的信息整合为待处理信息。
服务器根据上述步骤s101中设置的配置文件开启网络url信息爬取,并将爬取到的信息整合为待处理信息。本步骤可以首先将爬取到的信息存储在服务器中,为了得到更有效的信息,先将爬取到的信息进行存储,可以分布存储。
步骤s103、所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本。
对上述步骤s102中获取到的待处理信息进行处理,查找出其中重复的部分,并将其中重复内容删除掉,得到删减后的第二文本。
步骤s104、所述服务器计算第一文本与第二文本之间的相似度,若相似度低于第二预设阈值,则重新根据所述配置文件开启网络url信息爬取,若相似度超出第二预设阈值,则输出第二文本。
所述服务器计算第一文本与第二文本之间的相似度,若两者之间的相似度低于第二预设阈值,则判定当前获取到的第二文本不符合要求,则返回步骤s101重新爬取信息。
在具体实施时,在进行信息的重新爬取之前,还可以对配置文件进行修改,以使得获取到更适合的信息。
具体的,为了得到更准确的第一文本与第二文本之间的相似度值,所述将第一文本与第二文本之间的相似度值判定为所述待检测论文的检测相似值的步骤还包括:
服务器对所述第一文本进行拆解得到若干候选句子;其中,对第一文本进行拆分的方法为:按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比,并将比对出的相似度值判定为所述第一文本与第二文本之间的相似度值。
进一步的,由于各个候选句子中可能包含不同属性的信息,也即是候选句子可能含有中文句子或者网页链接地址,所以在进行重要性分数的计算之前,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
例如,有一篇论文中含有以下内容:
今天xx协会在北京召开了工作会议,天气不错,大概有30摄氏度,没有下雨,交通情况也良好,在工作会议上,张会长对xx协会去年的工作进行了总结,还表彰了xx协会的优秀员工。
候选句子包括:
a、今天xx协会在北京召开了工作会议;
b、天气不错;
c、大概有30摄氏度;
d、没有下雨;
e、交通情况也良好;
f、在工作会议上;
g、张会长对xx协会去年的工作进行了总结;
h、还表彰了xx协会的优秀员工。
拆解得到的词组包括:
今天:出现1次,权值为1
xx协会:出现3次,权值为3
北京:1次,权值为1
召开:1次,权值为1
工作会议:2次,权值为2
天气:1次,权值为1
30摄氏度:1次,权值为1
下雨:1次,权值为1
交通情况:1次,权值为1
张会长:1次,权值为1
去年的工作:1次,权值为1
总结:1次,权值为1
表彰:1次,权值为1
优秀员工:1次,权值为1
则上面的候选句子的重要性分数分别为:a号8分,b号1分,c号1分,d号1分,e号1分,f号2分,g号6分,h号5分。
假设预设值为2分,则目标句子为a号,f号,g号和h号,最后的关键信息为:今天xx协会在北京召开了工作会议;在工作会议上;张会长对xx协会去年的工作进行了总结;还表彰了xx协会的优秀员工。
进一步的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,s(vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,in(vi)是存在指向目标网页的链接的网页集合。out(vj)是网页j中的链接存在的链接指向的网页集合,out(vj)取绝对值是用以表示该网页集合中元素的个数,s(vj)是网页j的重要性分数。
具体的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
具体的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
例如:
第一句子为:今天协会在北京召开会议。
第二句子为:协会在北京召开了普法会议。
则第一序列a为(1,1,1,1,0,1),第二序列b为(0,1,1,1,1,1)。
较佳的,本方法步骤中使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
例如,上述两个句子计算的结果为:
最终的计算结果为:0.8。
本发明提供的一种基于网络爬虫的文本信息爬取方法,利用服务器对待爬取信息的第一文本进行拆解得到若干候选句子,然后确定各候选句子的重要性分数,并提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息,再用关键信息之间的对比实现文本之间的对比,从而获取到更准确的相关信息,该过程可以由服务器自行完成,无需人工进行信息比对,所以提高了信息爬取的工作效率。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。