技术信息文档语义单元构建方法及系统与流程

文档序号:34106956发布日期:2023-05-10 20:34阅读:32来源:国知局
技术信息文档语义单元构建方法及系统与流程

本发明涉及数字化,特别涉及一种技术信息文档语义单元构建方法及系统。


背景技术:

1、技术文档(technical documentation,td)是指任何类型描述技术产品或在研产品或用途的操作、功能和架构的文档。分为两类,一类研发文档,文档中详细记录产品的研发目的,开发阶段,研发时限等,阅读对象一般为了解项目,有一定基础的工程师;文档作为项目执行的参考,为项目的如期完成,项目质量跟踪,以及项目的后续发展等问题提供了可依据的文字上的依据;另一类是客户文档,文档详细解释产品的具体使用方法,安全提示,客户服务信息等,阅读对象一般为用户,技术支持工程师,售后服务人员。技术文档是对产品涉及的技术进行专业性阐述的文字材料,其具有很强的技术性,在工程各行各业均具有广泛的使用。

2、cn113822024a公开了一种支持多人在线编辑财务文档及校验真伪的方法和装置,包括如下步骤:步骤s1:向云服务器创建并提交财物初始文档协同编辑任务;步骤s2:协作编撰平台将初始文档按照财物人员配比进行拆分成若干个章节,并构建章节树;步骤s3:具有操作权限的用户确认接受分配到的初始文档协同编辑任务;步骤s4:用户从模板库中选取合适的word xml模板,在word xml底层文件流中生成具有若干个编辑分区的协同编辑文档;步骤s5:在对至少一个编辑分区分发对应的权限后提交协同编辑文档;步骤s6:发布协同编辑文档,且在权限范围内对应的编辑分区进行文档编辑,完成对协同编辑文档的协同编辑;步骤s7:将协同编辑的文档进行合并,并对合成的word文件进行校验;步骤s8:使用dom进行解析,追踪合并文档中的错误位置,并进行高亮显示;步骤s9:管理人员对文档高亮处进行修改或发送至对应编辑用户进行修改,完成文档的同步在线编辑。

3、cn115374760a公开了一种文档编辑方法、装置、设备、计算机可读介质和程序产品,包括:响应于检测到作用于系统登录界面中登录控件的登录选择操作,获取目标用户的用户信息,其中,所述用户信息包括用户标识和用户登录类型,所述用户登录类型为以下中的一项:内网登录、外网登录;响应于检测到作用于公共文档界面中显示的打开文档控件的打开选择操作,获取对应所述打开选择操作的目标文档的文档属性信息,其中,所述文档属性信息包括权限信息和文档创建用户标识,所述权限信息包括协同权限用户标识集;确定所述文档属性信息包括的文档创建用户标识是否与所述用户信息包括的用户标识相匹配;响应于确定所述文档属性信息包括的文档创建用户标识与所述用户信息包括的用户标识未匹配,根据所述文档属性信息包括的权限信息,确定是否显示所述目标文档;响应于确定显示所述目标文档,根据所述用户登录类型和所述权限信息,确定所述目标文档的显示模式,其中,所述显示模式为以下中的一项:协同编辑模式、只读模式;响应于确定所述目标文档的显示模式为所述协同编辑模式,在所述公共文档界面中以所述协同编辑模式显示所述目标文档,以供所述目标用户编辑所述目标文档。

4、现有技术中,由于技术文档包含技术信息内容繁多,简单地采用文本生成(textgeneration,tg)往往造成大部分技术信息的丢失,且在语义上难以进行机器识别或人为理解。


技术实现思路

1、经过长期实践发现,由于原始技术文档存在的形式多样,描述的方式更是千差万别,结构化标签混乱等,现有技术直接采用文本生成获取的技术文档难以用作机器识别,且更难以直接用于技术人员的解读。

2、有鉴于此,本发明旨在提出一种技术信息文档语义单元构建方法,所述技术信息文档语义单元构建方法包括,

3、步骤s1,采用词袋模型获取技术文档中词汇集,将词汇集中词汇与企业知识库内术语集进行相似度匹配计算,获取对应的名词集和谓语集;

4、步骤s2,将名词集映射至高维实向量空间,

5、

6、其中,a(x)为x个元素的名词集,wnm为高维实向量空间中一个维度;

7、步骤s3,从高维实向量空间抽取标准名词,与谓语集组合形成具有标签的xml格式文本;

8、步骤s4,由标准的xml格式文本重构形成技术信息语义单元。

9、优选地,在步骤s1中,若获取的原始的技术信息为图像或视频或音频,将其转换为文本格式的技术文档。

10、优选地,在步骤s1中,将词汇集中词汇与企业知识库内术语集进行语义相似度匹配计算包括关系义原描述相似度或关系符号描述相似度,并将企业知识库内术语集中的同义词对词汇集中词汇进行替换。

11、优选地,在步骤s2中,通过word2vec或anything2vec将名词集映射至高维实向量空间。

12、优选地,在高维实向量空间抽取标准名词过程中采用包括mixmatch数据增强,并于谓词集形成标准的xml格式文本。

13、本发明还公开了一种用于上述的技术信息文档语义单元构建方法的系统,其特征在于,所述系统包括,

14、获取单元,用于采用词袋模型获取技术文档中词汇集,将词汇集中词汇与企业知识库内术语集进行相似度匹配计算,获取对应的名词集和谓语集;

15、映射单元,用于将名词集映射至高维实向量空间,

16、

17、其中,a(x)为x个元素的名词集,wnm为高维实向量空间中一个维度;

18、抽取单元,用于从高维实向量空间抽取标准名词,与谓语集组合形成具有标签的xml格式文本;

19、生成单元,用于由标准的xml格式文本重构形成技术信息语义单元。

20、优选地,所述获取单元包括数据预处理模块,用于若获取的原始的技术信息为图像或视频或音频,将其转换为文本格式的技术文档。

21、优选地,所述抽取单元包括数据增强模块,用于在高维实向量空间抽取标准名词过程中采用包括mixmatch数据增强,并于谓词集形成标准的xml格式文本。

22、本发明公开了一种电子设备,包括存储器和处理器:所述存储器,用于存储计算机程序;所述处理器,用于当执行计算机程序时,实现上述方法。

23、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明提供的方法。

24、相对于现有技术,本发明提供的技术信息文档语义单元构建方法,采用词袋模型获取技术文档中词汇集,将词汇集中词汇与企业知识库内术语集进行相似度匹配计算,获取对应的名词集和谓语集;再将名词集映射至高维实向量空间,从高维实向量空间抽取标准名词,与谓语集组合形成具有标签的xml格式文本;由标准的xml格式文本重构形成技术信息语义单元。本发明还公开了一种用于上述方法的系统,该方法和系统采用词袋模型保留了原始技术信息中的所有可能的描述内容,并将词汇集中词汇与企业知识库内术语集进行相似度匹配计算则是标准化描述技术文档内容,剔除多余描述噪声,从高维实向量空间对文本语义、词序关系进行重构,进而再形成具有标签的xml格式文本的技术信息语义单元,用于机器识别或技术文档生成发布用于技术人员的解读。

25、本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1