一种具备分析训练性能的自然语言处理系统

文档序号:37009416发布日期:2024-02-09 12:57阅读:14来源:国知局
一种具备分析训练性能的自然语言处理系统

本发明涉及自然语言处理,具体为一种具备分析训练性能的自然语言处理系统。


背景技术:

1、现有的自然语言处理系统在理解语义时可能存在误差,尤其是对于复杂的句子结构和上下文的理解,系统可能无法正确解析含有歧义、隐喻或多义词的句子,导致错误的理解和处理结果。

2、中国专利cn108197105b公开了一种自然语言处理方法、装置、存储介质及电子设备。该方法包括:获取用户输入的自然语言信息,以及与所述自然语言信息相关联的相关信息;根据所述自然语言信息得到多个语义解析信息;将所述多个语义解析信息和所述相关信息输入预测模型,所述预测模型根据所述相关信息得到对应所述多个语义解析信息的多个概率值;从所述多个概率值中确定概率值最大的语义解析信息为目标语义解析信息。不再仅仅针对自然语言信息本身进行解析识别,在预测模型中,通过相关信息对自然语言信息进行辅助识别,提高了对自然语言信息解析识别的准确度;

3、该自然语言处理方法虽然可以通过预测模型结合大量数据去训练和预测,但是通常只会从多个结果中获取可能性最大的结果,但是可能性最大的结果,不一定就是正确结构,依旧存在较大的错误概率;且由于自然语言处理系统的训练数据通常是从现实世界中收集的,其中可能存在偏见和歧视,一些常见网络用词还会与原有含义偏离甚至完全相反,这些误差可能会被系统学习和复制,导致系统在进行一些语义识别翻译,或人工智能对话方面运用时,会表现出无法正确识别语义或识别的语义误差较大的行为。


技术实现思路

1、针对现有技术的不足,本发明提供了一种具备分析训练性能的自然语言处理系统,解决了的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:一种具备分析训练性能的自然语言处理系统,包括处理系统和云数据库,所述处理系统从云数据库获取数据并将处理结果数据上传至云数据库,所述处理系统包括:

3、所述语句词汇拆分标记单元,用于将待处理语句拆分为小单元并分别标记标签,标签按排序;

4、所述数据对比标记单元,用于从云数据库或上下文中同类型文案获取与对应词汇相关的特征,按排序标记,其中标签与特征按照下标对应;

5、所述训练模型,将特征和对应的标签输入训练模型使用机器学习算法进行训练,训练过程中,模型会学习特征与标签之间的关系,得出若干类整合的语句的释义,并预测释义的置信度概率标记为;

6、所述置信度处理分析单元,用于对若干组置信度概率进行排序并与设定阈值对比,依据对比结果直接获得最终释义或再次训练后获得最终释义。

7、优选的,所述置信度处理分析单元对若干组置信度概率按从大到小顺序重新排序,并标记为,然后通过与的对应关系重新与释义绑定记录,并将与置信度概率阈值进行对比:

8、;

9、其中,若有则输出对应的释义为最终释义;若无,则保留阈值之间的对应的释义;若所有,则判定所有释义置信度均为低置信度,反馈信号重新训练,重新训练的云数据库数据通过爬虫程序从网络上重新爬取新的数据补充原有库存数据,单次爬取内容条数达到设定值后停止爬取,并将该数据转入训练模型再次训练;

10、所述上下文推理插件,对于的情形,反馈信号至数据对比标记单元从上下文重新获取相关的特征,将阈值之间的与特征再次输入训练模型训练,获取再次训练的最大值对应的释义。

11、优选的,所述人工管理模块,用于人工查看上下文推理插件选取的上下文内容和待重复训练语句,或置信度处理分析单元分析出的结果,并由人工选择正确释义;

12、所述语义输出模块,用于输出置信度处理分析单元直接得到的唯一释义,或再次训练得到唯一释义,或人工管理模块直接确定的正确释义,并将训练结果上传至云数据库保存。

13、优选的,所述数据对比标记单元获取的特征包括词汇、词性、句法结构、上下文关系,以辅助训练模型理解语义。

14、优选的,所述语句词汇拆分标记单元包括语句词汇拆分模块和拆分词汇标记模块,所述语句词汇拆分模块将完整语句拆分为词语、词组、分句、从句,拆分词汇标记模块对拆分出的语句单元标记标签。

15、优选的,所述云数据库内的数据资料按照类别进行分类,并提取关键词标记,其加载有爬虫程序以从网络上爬取资料,爬取的数据仅保留与待处理语言相关的数据,去除多余无关数据,筛选规则人工设定。

16、优选的,所述数据对比标记单元包括:

17、所述上下文数据输入模块,输入待训练语句的上下文内容,用于再次训练使用;

18、所述数据库数据提取模块,用于从云数据库中获取需要的资料数据,获取方式通过关键词或类别从云数据库内获取对应数据;

19、所述数据对比筛选模块,用于对数据库数据提取模块获取的数据,对比语句词汇拆分标记单元拆分的小单元语句,筛选对应有用的数据;

20、所述筛选数据标记模块,用于对数据对比筛选模块筛选出的数据进行标记。

21、优选的,所述置信度处理分析单元包括:

22、所述置信度阈值设定模块,用于人工设定置信度阈值,且;

23、所述置信度对比排列模块,用于将训练获取的置信度概率值相互对比排序,以及与置信度阈值进行对比。

24、优选的,通过所述人工管理模块选择的释义具有优先权。

25、优选的,所述置信度处理分析单元内设定循环训练次数,为非0自然数,再次循环训练一次,直至有,次数达到次数上限后,无论是否出现,均输出最大值对应的释义为最终释义。

26、本发明提供了一种具备分析训练性能的自然语言处理系统。与现有技术相比具备以下有益效果:

27、1、该具备分析训练性能的自然语言处理系统,通过采用训练模型可自动将待处理语言对比大数据分析获取多种释义并获取对应的置信度概率,相对于现有技术直接获取最大值的方式,本技术采用阈值对比方式将置信度概率分为三个批次,在概率较大的情况下可直接获取最大值对应的释义,而置信度概率中等时,可结合上下文内容再次训练来进一步筛分,获得更高的置信度,而在所有置信度概率均较低时,即表示系统判定目前的置信度均较低,则还可从网络上再次爬取数据作为对比依据,反复进行训练,直至获取合格的置信度概率,采用此方式有效的避免了单一选择导致的误差值,提高了获取正确释义的准确度。

28、2、该具备分析训练性能的自然语言处理系统,通过设置人工管理模块,提供了人工参与的窗口,对于翻译等自然语言处理时,可通过具有优先权的人工选择方式直接确定,在先机器处理缩小范围后,由人工进行选择,可进一步提高准确度,为系统处理自然语言的方式增加了人力因素,更为精准的同时也不会有较大的工作量。

29、3、该具备分析训练性能的自然语言处理系统,通过设置规则对爬虫程序爬取的数据进行筛选精简,可在冗杂的网络大数据中获取精简有效的通过记录循环的次数并设置上限,在循环若干次后若依旧没有足够大的置信度概率,则选择最大概率的释义,此方式在保证较大的置信度概率的基础上,可保证系统不会有过大的数据处理工作量,避免处理时间过长影响效率。

30、4、该具备分析训练性能的自然语言处理系统,采用多种类型的机器学习算法,为系统提供了多种选择,应用于不同自然语言处理的运用场合,选择合适的机器学习算法,可提高效率并提高适配性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1