文本转换方法、装置及可读存储介质与流程

文档序号:21459168发布日期:2020-07-10 17:56阅读:来源:国知局

技术特征:

1.一种文本转换方法,其特征在于,包括:

获取待转换的参考文献文本;

利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;

根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的xml文件。

2.根据权利要求1所述的文本转换方法,其特征在于,所述正则表达式组包括第一正则表达式和第二正则表达式;

相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以确定参考文献中的与每个类型的正则表达式相应的元素信息,包括:

利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;

利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。

3.根据权利要求1所述的文本转换方法,其特征在于,所述获取待转换的参考文献文本之前,还包括:

根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;

相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,包括:

按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。

4.根据权利要求1-3任一项所述的文本转换方法,其特征在于,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。

5.一种文本转换装置,其特征在于,包括:

通信模块,用于获取待转换的参考文献文本;

元素提取模块,用于利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;

输出模块,用于根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的xml文件。

6.根据权利要求5所述的文本转换装置,其特征在于,所述正则表达式组包括第一正则表达式和第二正则表达式;

所述元素提取模块,具体用于:

利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。

7.根据权利要求5所述的文本转换装置,其特征在于,还包括:架构模块;

所述架构模块具体用于在获取待转换的参考文献文本之前根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;

所述元素提取模块具体用于:按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。

8.根据权利要求5-7任一项所述的文本转换装置,其特征在于,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。

9.一种文本转换装置,其特征在于,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,

所述处理器运行所述计算机程序时执行权利要求1-4任一项所述的方法。

10.一种可读存储介质,其特征在于,包括程序,当其在终端上运行时,使得终端执行权利要求1-4任一项所述的方法。


技术总结
本发明提供了一种文本转换方法、装置及可读存储介质,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。

技术研发人员:殷延伟;殷梦丹;陈巍
受保护的技术使用者:北大方正集团有限公司;北京北大方正电子有限公司
技术研发日:2018.12.28
技术公布日:2020.07.10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1