一种网页信息标注及提取系统的制作方法

文档序号:27081152发布日期:2021-10-24 12:38阅读:101来源:国知局
一种网页信息标注及提取系统的制作方法

1.本发明涉及网络信息提取技术领域,具体涉及一种网页信息标注及提取系统。


背景技术:

2.目前,随着互联网技术的发展,可以运用大数据、云计算实现互联网互联互通以及信息共享,避免出现“信息孤岛”和“协同不足”的问题。比如说,随着电子招投标不断探索发展,电子招投标平台和其他系统也实现了互通互联,资源共享,提高了信息的流通性,增加了企业招投标活动的便利性。故而,电子招投标平台能让信息开放,吸引更多的投标人投标,使得招标人寻找意向投标人时有更多的选择。
3.虽然,招投标模式电子化与互联网大数据融合已成必然趋势,但是电子招投标的现状仍有不足的地方,电子招投标行业发展也伴随着各种困难。随着全国各地电子招投标的日益成熟,平台之间实现连接,业内可以建立一体化的信息共享体系。比如说,按照相关要求,为工程招标和企业采购搭建的第三方交易平台,充分实现招投标活动的电子化和互联网化,能够实现在线、异地电子化招标、投标和电子化评标等交易过程,并开放数据接口,可选、实时、有限地对有关招标、投标数据信息进行编辑、生成、对接、交换和发布。
4.对于不同的用户群体来说,他们对于招标、投标的了解程度、熟悉程度可能存在差异性,而目前的用于工程招标和企业采购的第三方交易平台,并未充分考虑用户的个体化差异,故而,不能为用户提供个性化服务,用户不能根据自己的实际需求,并结合自己的偏好、习惯及熟悉程度自主选择需要标记的数据类型;同时,也不能快速地对网页信息进行识别、抽取,也不便于多人协同处理网页信息。


技术实现要素:

5.本发明提供一种网页信息标注及提取系统,解决了现有技术不能快速地对网页信息进行识别、抽取,也不便于多人协同处理网页信息的技术问题。
6.本发明提供的基础方案为:一种网页信息标注及提取系统,包括:
7.用户端和后台管理端;
8.后台管理端包括用户创建模块、项目创建模块、数据创建模块和兼职创建模块;其中,用户创建模块,用于创建用户;项目创建模块,用于创建项目和项目配置,项目储存项目基本信息的model,项目配置关联项目并储存项目详细信息的model;数据创建模块,用于导入数据集并关联项目,存储数据类型和标题,并关联标记数据;兼职创建模块,用于创建兼职信息和兼职结算,兼职信息储存用户兼职相关的信息并关联用户,兼职结算储存用户兼职时的收益信息并关联用户和兼职信息;
9.用户端包括数据标注模块、数据训练模块和数据调用模块;其中,数据标注模块,用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,得到标记数据;数据训练模块,用于对标记数据进行训练,得到提取网页信息的调用模型;数据调用模块,用于通过调用模型对网页信息进行识别、提取,并输出识别结果。
10.本发明的工作原理及优点在于:首先,根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,对特定的网页信息进行实体、分类或是其它类型的标记,得到标记数据;随后,对标记数据进行训练,得到提取网页信息的调用模型;最后,通过调用模型对网页信息进行识别、提取,并输出识别结果。通过这样的方式,经过标记,提高了用于训练得到调用模型的标记数据的质量,可将未通过标注的数据备注并退回到任务池;调用模型包含了用户的偏好、习惯及熟悉程度的相关信息,充分考虑了用户的个体特点,即使用户为兼职人员而不是专业人员,也能够很好地开展工作,提高了用户的工作体验;在满足用户的偏好、习惯及熟悉程度的个性化的工作体验的同时,极大的提高了训练模型所需的训练数据的质量和标记效率,同时也提高了个体或企业提取网页关键信息的速度,避免出错。
11.本发明可以快速对网页信息快速识别、抽取,提高了训练数据的质量、数量以及处理效率,也便于多人协同处理网页信息。
12.进一步,数据训练模块还用于,对标记数据进行训练之前,按照预设比例将标记数据分为训练源数据、验证源数据和测试源数据;数据训练模块用于采用机器学习算法对训练源数据进行训练得到调用模型,并将验证源数据和测试源数据代入调用模型中进行计算和调试,在调用模型训练的准确率达到预设阈值后,根据验证源数据和测试源数据进行调用模型的准确率验证和测试。
13.有益效果在于:将标记数据分为训练源数据、验证源数据和测试源数据,可充分利用标记数据进行训练、验证和测试,提高训练准确率。
14.进一步,数据训练模块按照预设比例6:2:2将标记数据分为训练源数据、验证源数据和测试源数据。
15.有益效果在于:按照这样的预设比例,训练、验证、测试的效果好,易于划分、便于实现。
16.进一步,数据训练模块分批次对标记数据进行训练,每批次用于训练的标记数据的数量为30条。
17.有益效果在于:分批次对标记数据进行训练,可以提高训练效率、减少训练时间,同时避免卡顿。
18.进一步,数据训练模块对标记数据进行训练,每训练一次就验证、测试一次。
19.有益效果在于:训练一次就立刻验证、测试一次,可以及时发现错误并进行纠正,防止出现累积误差;达到指定的训练步数或批次进行一次验证,完成一轮训练进行一次测试,通过这样的模型对比,可在迭代时对比前后两个模型在信息提取上的准确度以及差异性。
20.进一步,数据训练模块还用于,使用bioes编码对标记数据进行编码,对带有标记信息的html数据去标签。
21.有益效果在于:去掉带有标记信息的html数据的标签,可以减少对标记数据进行编码的运算量,提高编码效率。
22.进一步,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,将外文格式的标记数据转换为中文格式的标记数据。
23.有益效果在于:将外文格式的标记数据转换为中文格式的标记数据,既便于统一数据格式,又便于用户查阅。
24.进一步,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,对标记数据进行切割,切割后的标记数据最长不超过200个字符。
25.有益效果在于:对标记数据进行切割,确保切割后的标记数据短于200个字符,便于后面进行训练,提高训练效率。
26.进一步,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,对标记数据进行jieba分词,去除停用词。
27.有益效果在于:标记数据进行jieba分词去除停用词,不会丢失标记数据的含义,但是可以减少训练的数据量,减少运算时间。
附图说明
28.图1为本发明一种网页信息标注及提取系统实施例1的系统结构框图。
具体实施方式
29.下面通过具体实施方式进一步详细的说明:
30.实施例1
31.实施例基本如附图1所示,包括:
32.用户端和后台管理端;
33.后台管理端包括用户创建模块、项目创建模块、数据创建模块和兼职创建模块;其中,用户创建模块,用于创建用户;项目创建模块,用于创建项目和项目配置,项目储存项目基本信息的model,项目配置关联项目并储存项目详细信息的model;数据创建模块,用于导入数据集并关联项目,存储数据类型和标题,并关联标记数据;兼职创建模块,用于创建兼职信息和兼职结算,兼职信息储存用户兼职相关的信息并关联用户,兼职结算储存用户兼职时的收益信息并关联用户和兼职信息;
34.用户端包括数据标注模块、数据训练模块和数据调用模块;其中,数据标注模块,用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,得到标记数据;数据训练模块,用于对标记数据进行训练,得到提取网页信息的调用模型;数据调用模块,用于通过调用模型对网页信息进行识别、提取,并输出识别结果。
35.在本实施例中,后台管理端采用台式服务器,用户创建模块、项目创建模块、数据创建模块和兼职创建模块均集成在台式服务器上;用户端采用平板电脑等可移动智能终端,数据标注模块、数据训练模块和数据调用模块均集成在可移动智能终端上。
36.具体实施过程如下:
37.首先,管理员通过用户创建模块创建用户,通过项目创建模块创建项目和项目配置,其中,项目储存项目基本信息的model,项目配置关联项目,并储存项目详细信息的model,每个model就是储存数据的一个表,比如用户的信息存储在users表(也即model);管理员通过数据创建模块导入数据集并关联项目,存储数据类型和标题,并关联标记数据;以及,管理员通过兼职创建模块创建兼职信息和兼职结算,兼职信息储存用户兼职相关的信息并关联用户,兼职结算储存用户兼职时的收益信息表信息并关联用户和兼职信息。
38.也就是说,在本实施例中,后台管理端包括用户创建模块、项目创建模块、数据创建模块和兼职创建模块;其中,用户创建模块用于创建和管理系统中的管理员和兼职用户;
项目创建模块用于对项目的管理和创建、对项目的基本配置、对项目多数据集的管理以及对标记数据的集中管理;数据创建模块用于导入待标记的网页数据,关联着项目信息;兼职创建模块用于创建兼职信息和兼职结算,兼职信息储存用户兼职相关的信息并关联用户,兼职结算储存用户兼职时的收益信息并关联用户和兼职信息。
39.管理员的具体操作步骤如下:第一步,通过用户模块创建用户,所创建的用户用于兼职人员登录用户端进行数据标记;第二步,通过项目模块创建项目并对项目进行基础配置和添加多类型的数据集,方便管理标记数据;第三步,通过数据创建模块导入用于训练的网页信息,也即待标记数据;第四步,通过兼职创建模块选择兼职人员和要标记的数据类型并创建兼职信息;第五步,发放账号给兼职人员,以进行标记。
40.然后,数据标注模块根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,也即,根据用户的偏好、习惯及熟悉程度对待提取的特定的网页信息进行实体、分类或是其它类型的标记,得到标记数据。也就是说,数据标注模块是在数据训练之前,对特定的网页信息进行某种如实体、分类的标记,这些标记后的标记数据就是数据训练模块在训练时所需要的基础数据。在本实施例中,兼职人员登录用户端,通过数据标注模块根据自己的偏好、习惯及熟悉程度选择某一类型的兼职,并充分考虑大部分人的使用习惯和多人同时对某一类型的兼职进行标记的场景,比如说,在招投标领域对实体信息,如对业主、代理机构和报名截止时间等信息进行提取,多个兼职的用户可通过数据标注模块的标记功能协同对这一类网页信息中的实体进行标注;在标记界面,左边部分为网页原文信息,右边部分为实体标记结果,中间部分为实体类别菜单,用户亦可通过顶部的信息提示查看某条数据未通过审核的原因。
41.接着,数据训练模块使用bioes编码对标记数据进行编码。在本实施例中,在使用bioes编码对标记数据进行编码之前,数据训练模块还对带有标记信息的html数据去标签,减少对标记数据进行编码的运算量,提高编码效率。
42.再接着,数据训练模块对标记数据进行训练,得到提取网页信息的调用模型。比如说,训练是分几轮分批次的对训练集进行训练,后续的验证和测试也都是通过程序自动完成。对于验证来说,在训练达到指定批次或步数后,调用验证源数据进行当前训练的调用模型的准确度测试;对于测试来说,每完成一轮训练之后,就调用测试源数据进行测试。在本实施例中,具体步骤如下:
43.第一步,按照预设比例将标记数据分为训练源数据、验证源数据和测试源数据。比如说,预设比例为6:2:2,也即,训练源数据、验证源数据和测试源数据的比例为6:2:2,这样可充分利用标记数据进行训练、验证和测试,提高训练准确率。
44.第二步,对训练源数据进行训练得到调用模型,并在训练准确率达到预设阈值后,根据验证源数据和测试源数据进行调用模型的准确率验证和测试。也即,采用机器学习算法对训练源数据进行训练得到调用模型,并将验证源数据和测试源数据代入调用模型中进行计算和调试,不断改变调用模型的系数,使训练准确率达到预设阈值,得到最终用于验证和测试的调用模型;在调用模型训练的准确率达到预设阈值后,根据验证源数据和测试源数据进行调用模型的准确率验证和测试。比如说,分批次对标记数据进行训练,每批次用于训练的标记数据的数量为30条,这样可以提高训练效率、减少训练时间,同时避免卡顿;对标记数据进行训练,每训练完一次,立刻就验证、测试一次,这样可以及时发现错误并进行
纠正,防止出现累积误差。
45.最后,数据调用模块通过训练得到的调用模型,对网页信息进行识别、提取,并输出识别结果。
46.可见,在本方案中,根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,对特定的网页信息进行实体、分类或者是其它类型的标记,得到标记数据;随后,对标记数据进行训练,得到提取网页信息的调用模型;最后,通过调用模型对网页信息进行识别、提取,并输出识别结果。经过本方案中的标记方式的标记,提高了用于训练得到调用模型的标记数据的质量,系统会自动将审核未通过标注的数据备注,并退回到任务池;该种标记方式,充分考虑了用户的个体特点,即使用户为兼职人员而不是专业人员,也能够很好地开展工作,提高了用户的工作体验。
47.实施例2
48.与实施例1不同之处仅在于,在使用bioes编码(标签列表如下:b,即begin,表示开始;i,即intermediate,表示中间;e,即end,表示结尾;s,即single,表示单个字符;o,即other,表示其他,用于标记无关字符)对标记数据进行编码之前,数据训练模块还对带有标记信息的html数据去标签,减少对标记数据进行编码的运算量,提高编码效率;还将外文格式的标记数据转换为中文格式的标记数据,便于统一数据格式以及用户查阅;还对标记数据进行切割,切割后的标记数据最长不超过200个字符,确保切割后的标记数据短于200个字符,便于后面进行训练,提高训练效率;还对标记数据进行jieba分词(一种现有的分词算法),以去除停用词,不会丢失标记数据的含义,但是可以减少训练的数据量,减少运算时间。
49.以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本技术给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本技术的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1