本发明属于浏览器插件和医学ai文献预处理领域,尤其是涉及一种基于ai的医学语料预处理方法及装置。
背景技术:
1、在医学领域的生成式人工智能领域,需要提供大量语料数据用于人工智能学习,现有方式是医学专业人员过滤资源信息后通过it专业人员编写python脚本从互联网上获取资源信息用于ai学习,但是医学专业人员和it专业人员的跨界导致医学专业人员和it专业人员沟通成本过高。
技术实现思路
1、本实施例的目的在于提供一种基于ai的医学语料预处理方法及装置,解决了医学专业人员和it专业人员的跨界导致医学专业人员和it专业人员沟通成本过高问题。
2、一种基于ai的医学语料预处理方法,包括:
3、获取目标网站dom元素列表,创建语料采集队列,所述dom元素列表由浏览器插件脚本获取;
4、根据所述dom元素列表获取语料控件标识;
5、根据所述语料控件标识创建语料执行动作指令;
6、执行所述语料执行动作指令插入所述语料采集队列操作;
7、判断所述语料采集队列是否为空,如果不为空,根据所述语料采集队列获取语料执行动作,包括遍历所述语料采集队列获取所述语料控件标识和所述执行动作指令;
8、根据所述控件标识和执行动作指令获取目标网站医学语料文本内容为ai学习语料;
9、根据所述ai学习语料上载第三方存储服务器;
10、判断分页控件是否激活状态,如果分页控件是激活状态,模拟执行分页控件的click事件,执行获取下一页医学语料数据。
11、进一步的,语料控件标识包括医学标题控件标识、医学内容控件标识、分页控件标识。
12、进一步的,执行动作指令包括标题执行动作、内容执行动作、分页执行动作。
13、进一步的,标题执行动作包括获取标题控件的文本内容。
14、进一步的,内容执行动作包括获取内容控件的文本内容。
15、进一步的,分页执行动作包括执行点击事件,所述点击事件包括分页点击事件。
16、进一步的,分页点击事件包括由浏览器插件脚本模拟按钮点击事件。
17、进一步的,还包括所述目标网站元素装载完成后如果所述语料采集指令队列不为空,根据所述语料采集指令队列执行所述执行动作指令。
18、本发明还提供一种基于ai的医学语料预处理装置,其特征在于,
19、包括:
20、语料指令队列生成模块,用于人工建立语料采集指令队列并标记执行动作指令,包括,获取目标网站dom元素列表,所述dom元素列表由浏览器插件脚本获取;根据所述dom元素列表分别获取所述目标网站的医学标题控件标识、医学内容控件标识、分页控件标识;执行所述医学标题控件标识添加到所述语料采集指令队列并标记为标题执行动作,所述标题执行动作包括获取标题控件的文本内容;执行所述医学内容控件标识添加到所述语料采集指令队列并标记为内容执行动作,所述内容执行动作包括获取内容控件的文本内容;执行所述分页控件标识添加到所述语料采集指令队列并标记为分页执行动作,所述分页执行动作包括执行点击事件,所述点击事件包括分页点击事件;
21、语料采集执行模块,用于根据所述所述语料采集队列执行对应的动作指令获取语料采集结果,包括,遍历所述语料采集队列获取控件标识和执行动作指令,其中所述控件标识包括所述医学标题控件标识、所述医学内容控件标识、所述分页控件标识,执行动作包括所述标题执行动作、所述内容执行动作、所述分页执行动作;所述语料采集执行模块还包括,所述目标网站加载完成后判断所述语料采集队列是否为空,如果不为空,执行所述所述语料采集队列的所述指令序列;所述语料采集执行模块还包括,执行获取所述标题控件的文本内容和所述内容控件的文本内容上载第三方服务器;
22、语料存储模块,用于存储所述语料采集队列的指令序列和存储指令序列的动作执行结果,所述语料存储模块包括服务器存储和本地存储,所述的服务器存储由浏览器插件脚本通过接口实现远程存储,所述服务器存储用于所述语料采集结果存储,所述本地存储由浏览器本地存储实现,其中本地存储用于所述语料采集队列存储。
23、进一步的,语料指令队列生成模块还包括,鼠标点击所述目标网站dom元素弹出交互对话框,用于选择创建指令类型,根据人工选择所述指令类型并创建采集指令添加到所述语料采集队列,其中所述人工选择所述目标网站dom元素列表包括响应列表控件的change事件指令并在change事件中执行所述语料采集指令创建,所述语料采集指令包括所述获取标题控件的文本内容、包括所述获取内容控件的文本内容和所述分页点击事件。
24、本发明提供的一种基于ai的医学语料预处理方法及装置,解决了医学专业人员和it专业人员的跨界致使语料数据的采集理解偏差导致人员沟通成本过高问题。
25、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种基于ai的医学语料预处理方法,其特征在于,包括:
2.根据权利要求1所述的基于ai的医学语料预处理方法,其特征在于,所述语料控件标识包括医学标题控件标识、医学内容控件标识、分页控件标识。
3.根据权利要求1所述的基于ai的医学语料预处理方法,其特征在于,所述执行动作指令包括标题执行动作、内容执行动作、分页执行动作。
4.根据权利要求3所述的基于ai的医学语料预处理方法,其特征在于,所述标题执行动作包括获取标题控件的文本内容。
5.根据权利要求3所述的基于ai的医学语料预处理方法,其特征在于,所述内容执行动作包括获取内容控件的文本内容。
6.根据权利要求3所述的基于ai的医学语料预处理方法,其特征在于,所述分页执行动作包括执行点击事件,所述点击事件包括分页点击事件。
7.根据权利要求6所述的基于ai的医学语料预处理方法,其特征在于,所述分页点击事件包括由浏览器插件脚本模拟按钮点击事件。
8.根据权利要求1所述的基于ai的医学语料预处理方法,其特征在于,还包括所述目标网站元素装载完成后如果所述语料采集指令队列不为空,根据所述语料采集指令队列执行所述执行动作指令。
9.一种基于ai的医学语料预处理装置,其特征在于,包括:
10.根据权利要求9所述的基于ai的医学语料预处理方法,其特征在于,所述语料指令队列生成模块还包括,鼠标点击所述目标网站dom元素弹出交互对话框,用于选择创建指令类型,根据人工选择所述指令类型并创建采集指令添加到所述语料采集队列,其中所述人工选择所述目标网站dom元素列表包括响应列表控件的change事件指令并在change事件中执行所述语料采集指令创建,所述语料采集指令包括所述获取标题控件的文本内容、包括所述获取内容控件的文本内容和所述分页点击事件。