一种搜索引擎评估系统以及管理的制作方法

文档序号:13760937阅读:155来源:国知局

本发明涉及搜索引擎评估技术领域,尤其涉及一种搜索引擎评估系统以及管理。



背景技术:

随着互联网络的不断发展,人们在网络上从事的交易、考试和学习越来越多,对交易的结果或学习状态评价审核不一,由于网络管理部规范,任务发布人员或答题人员,对网络答题的筛选评价没有相应的管理,容易出现作弊灯情况出现,为了保障网络交易的评价、考试和学习的真实性和效率,提出一种搜索引擎评估系统以及管理。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种搜索引擎评估系统以及管理。

为了实现上述目的,本发明采用了如下技术方案:

一种搜索引擎评估系统,其特征在于:包括由测试管理模块、抓取模块、解析模块、Mola数据库、任务切分模块、MySql数据库、评估模块、任务分发模块、任务池、答题监控模块和结果导出模块组成的搜索引擎评估系统,所述测试管理模块分别与抓取模块、MySql数据库和任务切分模块连接,所述抓取模块分别与MySql数据库和解析模块连接,所述解析模块与Mola数据库连接,所述MySql数据库分别与任务切分模块、任务分发模块、任务池、答题监控模块、评估模块和结果导出模块连接,所述任务池分别与任务分发模块和答题监控模块连接;所述测试管理模块用于接收任务发布人员的创建测试,并创建测试的名称、测试的内容(一般是query、url、text等)、对可以做测试人的要求、参加测试的人数、每个测试包中题目的数量、以及抓取的相关信息等,所述抓取模块用于抓取所需要的网页数据,包括抓取的出口,抓取的内容、抓取的配置、是否做解析,所述解析模块用于在抓取的网页中嵌入一些打分项,所述Mola数据库用于储存抓取好的网页,所述任务切分模块将整个测试切分成创建测试时设置的小包,并输入测试题目,所述评估模块用于监控众包人员做题的效果,防止作弊人员,所述任务分发模块会根据创建测试人的要求选择合适的众包答题人员,并且将测试题目发送至答题人的任务池中,所述任务池用于众包答题人员在登录后领取任务,所述答题监控模块用于实时的保存做题的结果,所述结果导出模块用于导出测试的结果,所述MySql数据库用于存储测试管理模块发送的信息、测试题目和测试的结果。

一种搜索引擎评估系统管理,其特征在于:包括S1创建测试和测试管理、S2抓取网页和抓取统计、S3任务切分和任务分发、S4评估和准确率计算、S5标注结果保存、S6众包人员等级控制和S7易错题反馈,其步骤为:

S1、任务发布者在前端页面填入必须填写的信息,如上面功能需求所述,然后点击保存,后台程序验证任务发布者权限、验证填写内容是否合法后,将测试必须的信息写入数据库中。返回给任务发布者可以查看测试信息配置页面,如果任务发布者确认无误可以点击返回进入测试管理页面,如果任务发布者需要修改测试信息,则点击修改按钮进入修改页面进行修改测试的相关信息,如果测试已经发布,则一些信息无法修改,只能修改与发布任务后无关的信息。修改完成后点击保存,保存测试的配置信息。

S2、在一个测试创建成功后,首先要进行的任务就是抓取测试中的所有页面,把一个测试中的所有url从query表中选取出来,经过拼接,将url和query_id封装成json串发送给抓取服务提供端,等待抓取服务抓取完毕后,会回调评估系统,通知评估系统哪些题目已经抓取好,哪些没有抓取好,评估系统会发送邮件给测试发布人,测试发布人登录系统,如果认为抓取的效果可以接受则进入任务发布阶段,如果认为抓取结果不可接受,可以点击重抓,评估系统会将所有的抓取失败的url和query_id重新封装成json串发送给抓取服务提供端。让抓取服务端进行抓取;网页抓取的监控,是对抓取系统服务性能的衡量,是评估系统的保证,网页抓取监控模块每周回发送一份周报,统计一周内抓取网页的总数、成功率、平均抓取时间等信息。

S3、抓取完成后,系统会调用任务切分模块,任务切分模块会选择所有抓取成功的题目,将这些题目打散和监控题目混合在一起,然后从数据库中读取测试发布者对任务切分的配置,将所有的任务切分成小块。每次众包评估者在任务池中只领取一个小包的任务,完成后继续认领其他小包的任务,同一个众包评估者只能认领同一个小包任务一次。待所有小包任务都收回后,系统通过任务发布者提供的脚本统计出最终的结果。

S4、在任务切分的过程中,如果选择了插入监控的方式,会在切分成小任务包后随机插入一些监控题目,监控题目来自监控题库,监控题目的数量占小包任务数的10%。在众包标注者标注小包题目提交后,系统会运行准确率检查程序,计算众包标注者对小包中的监控题目和监控题目标注答案的差异,通过计算一致率来计算出众包标注者对本次标注的标注质量,标注的准确率会记录在标注人和小包关联的表中;自动监控是指不需要人工插入监控答案,通过评估全部众包标注者对小包题目的标注来评估每个标注人对小包标注的质量。在标注人数大于一般的时候众包标注者每次提交标注答案都会运行评估脚本,评估脚本的目的是评估所有参与此次小包标注的人的标注质量以及小包的题目最终统计答案的可靠程度。对标注质量差的人的答案,采取删除的策略,对可靠程度低的题目会发回任务池进行重新标注,评估脚本运行后也会产生每个标注者的正确率,这个正确率也会被记录在标注人和小包关联的表中。

S5、接受到前端的保存请求时,进行基本的权限判断,是否是授权用户,授权用户即谁有权限可以标注打分——众包评估人员、答案提供人员,如果不是,返回并且提示非法授权用户,如果是,继续保存。如果用户对打分结果进行修改的话,首先要清除用户以前的打分记录,如果是提供标准答案的标注人的数据,还要删除这个评估题目之前的打分结果,使标注答案标准化。

S6、把外包人员分为高中初3个等级,监控人员可以设定多个或更少的等级,系统根据外包评测人员上一周期的准确率分配等级,升降级限制:无跨级升降,即,当某一等级下完成的任务平均准确率大大高于或低于临近等级头时,只做临近头衔的升级或降级,准确率计算:每完成一定的任务量后计算一次周期准确率,用于调整评估者头衔。

S7、外包用户登录系统后,若是上周曾经做过监控任务(带有全部正确答案),则在每周的周一至周三看以查看监控任务中打分错误的题目,周三之后则不能查看,周四至周日,则不统计上周是否有错题,即便有错题,也不予以显示。

优选的,所述任务分发模块进行了进一步的优化,将标注一致率超过半数以上的题目收回,不在发布到任务池。

本发明的有益效果:通过设计的搜索引擎评估系统以及管理,提高了网络交易评价、考试过程和结果以及学习状况检验的真实性,防止作弊现象的发生,及时筛选控制任务的数量和难度,控制交易评价者、考试和学习人员的进度,防止交易评价者多次重复评价、考试和学习人员多领取题目,恶意抢题现象时有发生,保证评价、考试和学习的质量。

附图说明

图1为本发明提出的一种搜索引擎评估系统以及管理的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

参照图1,一种搜索引擎评估系统,其特征在于:包括由测试管理模块、抓取模块、解析模块、Mola数据库、任务切分模块、MySql数据库、评估模块、任务分发模块、任务池、答题监控模块和结果导出模块组成的搜索引擎评估系统,所述测试管理模块分别与抓取模块、MySql数据库和任务切分模块连接,所述抓取模块分别与MySql数据库和解析模块连接,所述解析模块与Mola数据库连接,所述MySql数据库分别与任务切分模块、任务分发模块、任务池、答题监控模块、评估模块和结果导出模块连接,所述任务池分别与任务分发模块和答题监控模块连接;所述测试管理模块用于接收任务发布人员的创建测试,并创建测试的名称、测试的内容(一般是query、url、text等)、对可以做测试人的要求、参加测试的人数、每个测试包中题目的数量、以及抓取的相关信息等,所述抓取模块用于抓取所需要的网页数据,包括抓取的出口,抓取的内容、抓取的配置、是否做解析,所述解析模块用于在抓取的网页中嵌入一些打分项,所述Mola数据库用于储存抓取好的网页,所述任务切分模块将整个测试切分成创建测试时设置的小包,并输入测试题目,所述评估模块用于监控众包人员做题的效果,防止作弊人员,所述任务分发模块会根据创建测试人的要求选择合适的众包答题人员,并且将测试题目发送至答题人的任务池中,所述任务分发模块进行了进一步的优化,将标注一致率超过半数以上的题目收回,不在发布到任务池,所述任务池用于众包答题人员在登录后领取任务,所述答题监控模块用于实时的保存做题的结果,所述结果导出模块用于导出测试的结果,所述MySql数据库用于存储测试管理模块发送的信息、测试题目和测试的结果。

一种搜索引擎评估系统管理,其特征在于:包括S1创建测试和测试管理、S2抓取网页和抓取统计、S3任务切分和任务分发、S4评估和准确率计算、S5标注结果保存、S6众包人员等级控制和S7易错题反馈,其步骤为:

S1、任务发布者在前端页面填入必须填写的信息,如上面功能需求所述,然后点击保存,后台程序验证任务发布者权限、验证填写内容是否合法后,将测试必须的信息写入数据库中。返回给任务发布者可以查看测试信息配置页面,如果任务发布者确认无误可以点击返回进入测试管理页面,如果任务发布者需要修改测试信息,则点击修改按钮进入修改页面进行修改测试的相关信息,如果测试已经发布,则一些信息无法修改,只能修改与发布任务后无关的信息。修改完成后点击保存,保存测试的配置信息。

S2、在一个测试创建成功后,首先要进行的任务就是抓取测试中的所有页面,把一个测试中的所有url从query表中选取出来,经过拼接,将url和query_id封装成json串发送给抓取服务提供端,等待抓取服务抓取完毕后,会回调评估系统,通知评估系统哪些题目已经抓取好,哪些没有抓取好,评估系统会发送邮件给测试发布人,测试发布人登录系统,如果认为抓取的效果可以接受则进入任务发布阶段,如果认为抓取结果不可接受,可以点击重抓,评估系统会将所有的抓取失败的url和query_id重新封装成json串发送给抓取服务提供端。让抓取服务端进行抓取;网页抓取的监控,是对抓取系统服务性能的衡量,是评估系统的保证,网页抓取监控模块每周回发送一份周报,统计一周内抓取网页的总数、成功率、平均抓取时间等信息。

S3、抓取完成后,系统会调用任务切分模块,任务切分模块会选择所有抓取成功的题目,将这些题目打散和监控题目混合在一起,然后从数据库中读取测试发布者对任务切分的配置,将所有的任务切分成小块。每次众包评估者在任务池中只领取一个小包的任务,完成后继续认领其他小包的任务,同一个众包评估者只能认领同一个小包任务一次。待所有小包任务都收回后,系统通过任务发布者提供的脚本统计出最终的结果。

S4、在任务切分的过程中,如果选择了插入监控的方式,会在切分成小任务包后随机插入一些监控题目,监控题目来自监控题库,监控题目的数量占小包任务数的10%。在众包标注者标注小包题目提交后,系统会运行准确率检查程序,计算众包标注者对小包中的监控题目和监控题目标注答案的差异,通过计算一致率来计算出众包标注者对本次标注的标注质量,标注的准确率会记录在标注人和小包关联的表中;自动监控是指不需要人工插入监控答案,通过评估全部众包标注者对小包题目的标注来评估每个标注人对小包标注的质量。在标注人数大于一般的时候众包标注者每次提交标注答案都会运行评估脚本,评估脚本的目的是评估所有参与此次小包标注的人的标注质量以及小包的题目最终统计答案的可靠程度。对标注质量差的人的答案,采取删除的策略,对可靠程度低的题目会发回任务池进行重新标注,评估脚本运行后也会产生每个标注者的正确率,这个正确率也会被记录在标注人和小包关联的表中。

S5、接受到前端的保存请求时,进行基本的权限判断,是否是授权用户,授权用户即谁有权限可以标注打分——众包评估人员、答案提供人员,如果不是,返回并且提示非法授权用户,如果是,继续保存。如果用户对打分结果进行修改的话,首先要清除用户以前的打分记录,如果是提供标准答案的标注人的数据,还要删除这个评估题目之前的打分结果,使标注答案标准化。

S6、把外包人员分为高中初3个等级,监控人员可以设定多个或更少的等级,系统根据外包评测人员上一周期的准确率分配等级,升降级限制:无跨级升降,即,当某一等级下完成的任务平均准确率大大高于或低于临近等级头时,只做临近头衔的升级或降级,准确率计算:每完成一定的任务量后计算一次周期准确率,用于调整评估者头衔。

S7、外包用户登录系统后,若是上周曾经做过监控任务(带有全部正确答案),则在每周的周一至周三看以查看监控任务中打分错误的题目,周三之后则不能查看,周四至周日,则不统计上周是否有错题,即便有错题,也不予以显示。

本发明中,通过设计的搜索引擎评估系统以及管理,提高了网络交易评价、考试过程和结果以及学习状况检验的真实性,防止作弊现象的发生,及时筛选控制任务的数量和难度,控制交易评价者、考试和学习人员的进度,防止交易评价者多次重复评价、考试和学习人员多领取题目,恶意抢题现象时有发生,保证评价、考试和学习的质量。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1