配方文件识别方法及装置、电子设备、存储介质与流程

文档序号:20875992发布日期:2020-05-26 16:32阅读:来源:国知局

技术特征:

1.一种配方文件识别方法,其特征在于,包括:

获取待识别文件;

从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;

根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;

利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

获取多个样本文件与所述样本文件的文件类型,所述文件类型包括配方文件与非配方文件;

根据所述样本文件的配方关键词得到所述样本文件的样本特征张量;

利用所述样本特征张量与所述文件类型训练机器学习模型,得到所述配方文件识别模型。

3.根据权利要求2所述的方法,其特征在于,在获取多个样本文件后,所述方法还包括:

对所述样本文件的文本进行分词,根据分词的结果构建样本词库;

将所述样本文件的文本中的词组添加到所述样本词库中,得到完整的所述样本词库;

所述从所述待识别文件中提取出配方关键词包括:

从所述待识别文件中提取出与数值相邻的词或词组,将所述词或词组与所述样本词库进行匹配,并将匹配成功的词或词组确定为所述待识别文件的配方关键词。

4.根据权利要求3所述的方法,其特征在于,在得到完整的所述样本词库后,所述方法还包括:

通过所述样本词库提取所述样本文件的配方关键词,得到配方词库;

对所述配方词库中的配方关键词进行独热编码,得到所述配方关键词的独热向量;

所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:

根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量。

5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量包括:

将所述待识别文件的全部配方关键词的独热向量相加,得到所述待识别文件的特征向量。

6.根据权利要求2所述的方法,其特征在于,在获取待识别文件后,所述方法还包括:

提取所述待识别文件的路径名;

所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:

根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量。

7.根据权利要求6所述的方法,其特征在于,在获取多个样本文件后,所述方法还包括:

提取所述样本文件的路径名,并对所述样本文件的路径名进行分词,根据分词的结果构建路径词库;

对所述路径词库中的路径词进行独热编码,得到所述路径词的独热向量;

所述根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量包括:

根据所述待识别文件的配方关键词得到所述待识别文件的第一特征向量;

根据所述路径词库将所述待识别文件的路径名拆分为路径词,并根据所述待识别文件的路径词的独热向量得到所述待识别文件的第二特征向量;

根据所述第一特征向量与所述第二特征向量生成所述待识别文件的特征张量。

8.根据权利要求2所述的方法,其特征在于,在获取待识别文件后,所述方法还包括:

提取所述待识别文件的文件名;

所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:

根据所述待识别文件的配方关键词与所述待识别文件的文件名得到所述特征张量。

9.根据权利要求8所述的方法,其特征在于,在获取多个样本文件后,所述方法还包括:

提取所述样本文件的文件名,并对所述样本文件的文件名进行分词,根据分词的结果构建文件名词库;

对所述文件名词库中的文件名词进行独热编码,得到所述文件名词的独热向量;

所述根据所述待识别文件的配方关键词与所述待识别文件的文件名得到所述特征张量包括:

根据所述待识别文件的配方关键词得到所述待识别文件的第一特征向量;

根据所述文件名词库将所述待识别文件的文件名拆分为文件名词,并根据所述待识别文件的文件名词的独热向量得到所述待识别文件的第三特征向量;

根据所述第一特征向量与所述第三特征向量生成所述待识别文件的特征张量。

10.根据权利要求2所述的方法,其特征在于,所述机器学习模型包括神经网络模型。

11.根据权利要求10所述的方法,其特征在于,所述神经网络模型包括1个输入层、5个中间层与1个输出层。

12.根据权利要求1所述的方法,其特征在于,所述从所述待识别文件中提取出配方关键词包括:

对所述待识别文件的文本进行分词,并根据分词的结果提取出所述待识别文件的配方关键词。

13.根据权利要求12所述的方法,其特征在于,在对所述待识别文件的文本进行分词之前,所述方法还包括:

对所述待识别文件的文本进行预处理,所述预处理包括以下处理中的任意一种或多种:删除无用字符、大小写转换、词干提取与词形还原。

14.一种配方文件识别装置,其特征在于,包括:

文件获取模块,用于获取待识别文件;

关键词提取模块,用于从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;

张量转换模块,用于根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;

模型处理模块,用于利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。

15.一种电子设备,其特征在于,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-13所述的方法。

16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-13所述的方法。


技术总结
本公开提供了一种配方文件识别方法及装置、电子设备、计算机可读存储介质,属于人工智能技术领域。该方法包括:获取待识别文件;从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。本公开可以较为充分的提取出文件中的特征信息,提高识别文件是否为配方文件的结果的准确度,并减少需要处理的关键词数量,提高识别效率。

技术研发人员:陈予郎
受保护的技术使用者:长鑫存储技术有限公司
技术研发日:2018.11.16
技术公布日:2020.05.26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1