基于语言模型的早教内容批量生成系统及质量控制方法与流程

文档序号:36200998发布日期:2023-11-30 03:07阅读:59来源:国知局
基于语言模型的早教内容批量生成系统及质量控制方法与流程

本发明涉及利用大规模语言模型生成早教内容的系统,尤其涉及一种基于语言模型的早教内容批量生成系统及质量控制方法。


背景技术:

1、现有早教系统中的内容主要通过人工编写生成,其更改、更新也通过人工进行完善,相关专利方法请参见公开号为cn108197205a的中国专利公开文献,其中记载了:

2、“早教内容更新方法包括:获取用户的特征信息,并将所述特征信息保存;当检测到用户的操作后,将所述特征信息上传至网络侧;获取所述网络侧反馈的与所述特征信息匹配的内容”;

3、此类解决方案是以人工方式对特征信息进行更新,不仅操作效率低下,而且生成内容的质量参差不齐,会直接影响早教质量和效果。


技术实现思路

1、本发明要解决的技术问题在于,针对现有技术的不足,提供一种可提升内容产出效率,能控制内容质量,有助于优化早教服务的基于语言模型的早教内容批量生成系统及质量控制方法。

2、为解决上述技术问题,本发明采用如下技术方案。

3、一种基于语言模型的早教内容批量生成系统,其包括有:登录系统,供于用户从预设的多模态素材库中圈选素材,并提交生产任务至下游的数据预处理模块;预处理模块,用于将所圈选的素材统一转换为结构化文本数据;数据清洗模块,用于对所述预处理模块输出的结构化文本数据进行数据清洗,将清洗后的结构化文本数据存入预设的d4早教内容资源库;任务编排模块,用于从d4早教内容资源库选择所述数据清洗模块清洗后的数据集,并从预设的d5模板库选择或上传内容批量生成控制模板,创建任务;llm初始化模块,用于接收任务执行指令,并根据任务的需求创建多个llm-generator实例,再根据模板分别初始化每个llm-generator实例;内容自动化生成模块,用于解析模板和任务资源,自动化创建内容并生成prompt数据集投递给llm-generator实例,再将llm-generator实例生成的内容逐条插入所述d4早教内容资源库;内容质量判别模块,对所述内容自动化生成模块生成的内容逐条打分,如果打分低于系统设定的阈值,则生成1至n条更优的备选内容重新投递给所述内容质量判别模块并重新打分,如果打分大于或等于所述阈值,则更新或插入数据至所述d4早教内容资源库。

4、优选地,所述数据清洗模块的数据清洗功能包括:歧义词修正、特殊字符清洗、广告信息过滤、版权信息归一化处理以及标题正文去重。

5、优选地,所述llm初始化模块的初始化过程包括提供一组few shot prompt指令集,进而控制llm-generator实例的内容输出结构和内容质量。

6、优选地,所述多模态素材库中的非结构化数据包括视频、图片、音频、文本、html、pdf及excel文件。

7、优选地,所述内容自动化生成模块包括1个控制器及多个llm-generator实例,所述llm-generator实例封装有大规模预训练语言模型。

8、优选地,所述llm-generator实例是根据私有数据集训练的本地模型,或是基于公开预训练模型微调的本地模型,或是由第三方提供的云端llm服务。

9、一种基于语言模型的早教内容生成质量控制方法,该早教内容生成质量控制方法基于一早教内容批量生成系统实现,所述早教内容批量生成系统包括登录系统、预处理模块、数据清洗模块、任务编排模块、llm初始化模块、内容自动化生成模块和内容质量判别模块,所述方法包括如下步骤:步骤s1,用户进入登录系统后从预设的多模态素材库中圈选素材,并提交生产任务至下游的数据预处理模块;步骤s2,所述预处理模块将所圈选的素材统一转换为结构化文本数据;步骤s3,所述数据清洗模块对所述预处理模块输出的结构化文本数据进行数据清洗,将清洗后的结构化文本数据存入预设的d4早教内容资源库;步骤s4,所述任务编排模块从d4早教内容资源库选择所述数据清洗模块清洗后的数据集,并从预设的d5模板库选择或上传内容批量生成控制模板,创建任务;步骤s5,所述llm初始化模块接收任务执行指令,并根据任务的需求创建多个llm-generator实例,再根据模板分别初始化每个llm-generator实例;步骤s6,所述内容自动化生成模块解析模板和任务资源,自动化创建内容并生成prompt数据集投递给llm-generator实例,再将llm-generator实例生成的内容逐条插入所述d4早教内容资源库;步骤s7,所述内容质量判别模块对所述内容自动化生成模块生成的内容逐条打分,如果打分低于系统设定的阈值,则生成1至n条更优的备选内容重新投递给所述内容质量判别模块并重新打分,如果打分大于或等于所述阈值,则更新或插入数据至所述d4早教内容资源库。

10、优选地,所述步骤s1中,用户通过所述登录系统登录与所述早教内容批量生成系统建立连接的gui界面,或者通过预设的api接口调用所述早教内容批量生成系统的应用程序接口。

11、优选地,所述步骤s7中,所述内容质量判别模块的运行流程包括:步骤s70,对所述内容自动化生成模块所生成的内容逐条进行质量评分,评分标准为系统预设的质量阈值;步骤s71,若某条生成内容的质量评分低于预设质量阈值,则将该内容判定为质量不达标;步骤s72,对于质量不达标的生成内容,所述内容质量判别模块使用预封装的llm模型生成1至n条新的备选内容;步骤s73,将生成的新备选内容再次输入至所述内容质量判别模块进行质量评分;步骤s74,当备选内容的评分结果大于或等于预设质量阈值时,则判定其质量达标,将备选内容更新或插入到所述d4早教内容资源库中进行存储;重复步骤s72~步骤s74,直到全部生成内容都满足质量阈值要求。

12、优选地,所述llm-generator实例用于调用预封装的llm模型,对生成内容进行质量打分,以及对生成内容进行评价并产生评价语句。

13、本发明公开的基于语言模型的早教内容批量生成系统中,首先构建一个包含多模态素材库、模板库、语言模型等的早教内容生成平台,再设计一个流程,包含数据预处理、内容生成、质量评价等模块,同时构建一个数据预处理模块,对输入的多媒体素材进行结构化处理,具体应用时,用户编排内容生成任务,选择素材和模板,调用语言模型批量生成内容,质量评价模块基于语言模型对生成内容逐条进行评分,不达标的内容将激发模型生成新的替代内容。当全部生成内容满足质量要求后,保存内容至数据库。基于上述过程,本发明得到了由登录系统、预处理模块、数据清洗模块、任务编排模块、llm初始化模块、内容自动化生成模块和内容质量判别模块组成的早教内容批量生成系统,基于该系统,本发明融合了领域知识与语言模型,提供了自动批量生成与质量控制的流程方案,不仅提升了内容产出效率,而且能控制内容质量,有助于优化早教服务。



技术特征:

1.一种基于语言模型的早教内容批量生成系统,其特征在于,包括有:

2.如权利要求1所述的基于语言模型的早教内容批量生成系统,其特征在于,所述数据清洗模块(3)的数据清洗功能包括:歧义词修正、特殊字符清洗、广告信息过滤、版权信息归一化处理以及标题正文去重。

3.如权利要求1所述的基于语言模型的早教内容批量生成系统,其特征在于,所述llm初始化模块(5)的初始化过程包括提供一组few shot prompt指令集,进而控制llm-generator实例的内容输出结构和内容质量。

4.如权利要求1所述的基于语言模型的早教内容批量生成系统,其特征在于,所述多模态素材库中的非结构化数据包括视频、图片、音频、文本、html、pdf及excel文件。

5.如权利要求1所述的基于语言模型的早教内容批量生成系统,其特征在于,所述内容自动化生成模块(6)包括1个控制器及多个llm-generator实例,所述llm-generator实例封装有大规模预训练语言模型。

6.如权利要求5所述的基于语言模型的早教内容批量生成系统,其特征在于,所述llm-generator实例是根据私有数据集训练的本地模型,或是基于公开预训练模型微调的本地模型,或是由第三方提供的云端llm服务。

7.一种基于语言模型的早教内容生成质量控制方法,其特征在于,该早教内容生成质量控制方法基于一早教内容批量生成系统实现,所述早教内容批量生成系统包括登录系统(1)、预处理模块(2)、数据清洗模块(3)、任务编排模块(4)、llm初始化模块(5)、内容自动化生成模块(6)和内容质量判别模块(7),所述方法包括如下步骤:

8.如权利要求7所述的基于语言模型的早教内容生成质量控制方法,其特征在于,所述步骤s1中,用户通过所述登录系统(1)登录与所述早教内容批量生成系统建立连接的gui界面,或者通过预设的api接口调用所述早教内容批量生成系统的应用程序接口。

9.如权利要求7所述的基于语言模型的早教内容生成质量控制方法,其特征在于,所述步骤s7中,所述内容质量判别模块(7)的运行流程包括:

10.如权利要求7所述的基于语言模型的早教内容生成质量控制方法,其特征在于,所述llm-generator实例用于调用预封装的llm模型,对生成内容进行质量打分,以及对生成内容进行评价并产生评价语句。


技术总结
本发明公开了一种基于语言模型的早教内容批量生成系统及质量控制方法,其构建一个包含多模态素材库、模板库、语言模型等的早教内容生成平台,再设计一个流程,包含数据预处理、内容生成、质量评价等模块,同时构建一个数据预处理模块,对输入的多媒体素材进行结构化处理,用户编排内容生成任务,选择素材和模板,调用语言模型批量生成内容,质量评价模块基于语言模型对生成内容逐条进行评分,不达标的内容将激发模型生成新的替代内容。当全部生成内容满足质量要求后,保存内容至数据库。基于该系统,本发明融合领域知识与语言模型,提供了自动批量生成与质量控制的流程方案,不仅提升了内容产出效率,而且能控制内容质量,有助于优化早教服务。

技术研发人员:李鑫
受保护的技术使用者:深圳市火火兔智慧科技有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1