技术信息文档语义单元构建方法及系统与流程

文档序号:34106956发布日期:2023-05-10 20:34阅读:来源:国知局

技术特征:

1.一种技术信息文档语义单元构建方法,其特征在于,所述技术信息文档语义单元构建方法包括,

2.根据权利要求1所述的技术信息文档语义单元构建方法,其特征在于,在步骤s1中,若获取的原始的技术信息为图像或视频或音频,将其转换为文本格式的技术文档。

3.根据权利要求1所述的技术信息文档语义单元构建方法,其特征在于,在步骤s1中,将词汇集中词汇与企业知识库内术语集进行语义相似度匹配计算包括关系义原描述相似度或关系符号描述相似度,并将企业知识库内术语集中的同义词对词汇集中词汇进行替换。

4.根据权利要求1所述的技术信息文档语义单元构建方法,其特征在于,在步骤s2中,通过word2vec或anything2vec将名词集映射至高维实向量空间。

5.根据权利要求1-4任意一项所述的技术信息文档语义单元构建方法,其特征在于,在高维实向量空间抽取标准名词过程中采用包括mixmatch数据增强,并于谓词集形成标准的xml格式文本。

6.一种用于如权利要求1-5任意一项所述的技术信息文档语义单元构建方法的系统,其特征在于,所述系统包括,

7.根据权利要求6所述的系统,其特征在于,所述获取单元包括数据预处理模块,用于若获取的原始的技术信息为图像或视频或音频,将其转换为文本格式的技术文档。

8.根据权利要求6-7任意一项所述的系统,其特征在于,所述抽取单元包括数据增强模块,用于在高维实向量空间抽取标准名词过程中采用包括mixmatch数据增强,并于谓词集形成标准的xml格式文本。

9.一种电子设备,其特征在于,包括存储器和处理器:所述存储器,用于存储计算机程序;所述处理器,用于当执行计算机程序时,实现如权利要求1-5中任意一项所述的方法。

10.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请权利要求1-5中任意一项所述的方法。


技术总结
本发明涉及数字化技术领域,提供一种技术信息文档语义单元构建方法,采用词袋模型获取技术文档中词汇集,将词汇集中词汇与企业知识库内术语集进行相似度匹配计算,获取对应的名词集和谓语集;再将名词集映射至高维实向量空间,从高维实向量空间抽取标准名词,与谓语集组合形成具有标签的xml格式文本;由标准的xml格式文本重构形成技术信息语义单元。本发明公开的方法和系统将词汇集中词汇与企业知识库内术语集进行相似度匹配计算则是标准化描述技术文档内容,剔除多余描述噪声,从高维实向量空间对文本语义、词序关系进行重构,进而再形成具有标签的xml格式文本的技术信息语义单元,用于机器识别或技术文档生成发布用于技术人员的解读。

技术研发人员:邵文佳,金勇华,朱朔勇,张涛
受保护的技术使用者:上海美嘉林软件科技股份有限公司
技术研发日:
技术公布日:2024/1/12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1