一种参考文献格式检查方法

文档序号:10471085阅读:1958来源:国知局
一种参考文献格式检查方法
【专利摘要】本发明提供一种参考文献格式检查方法,包括:步骤1、将参考文献著录项格式规则采用Schema进行表述,其中所述参考文献著录项格式中包括以下的至少一个著录项:责任者、题名、参考文献类型、出版者、出版日期、页码;步骤2、读取各条参考文献,进行著录项切分;步骤3、识别参考文献著录项,并将识别出的著录项提取成为XML节点;其中所述著录项包括以下的至少一种:责任者、题名、出版地、出版者、出版日期等;同时,判断该参考文献著录项中是否包括文献类型标志,如果没有则根据著录项添加该参考文献的文献类型标志;步骤4、利用所述参考文献著录项格式规则对著录项进行验证。
【专利说明】
-种参考文献格式检查方法
技术领域
[0001] 本发明设及属于文本处理技术领域,特别是指一种参考文献格式检查方法。
【背景技术】
[0002] 在各种论文中都不可避免的要引述在先公开的参考文献W帮助阅读者理解论文 的背景知识。一般引述参考文献时需要提供参考文献的作者(author)、标题(title)、出版 者(publisher,即该著作在何处公开发表,)、出版页码(publish page)、出版日期(publish year)。但是在会议文集、大型期刊等论文很集中的文件中,每一篇论文都会引述大量参考 文献,运样很难保证每一篇论文都W相同的格式引述参考文献。
[0003] 现有都是依靠审稿人在对论文进行审稿的同时审核格式要求,然后再由编辑再次 审核;但是运种纯依靠人工进行审核的方式很难确保不出现遗漏。

【发明内容】

[0004] 针对现有技术中采用人工审核参考文献格式的方式很容易出现遗漏,无法确保文 集或期刊中每一篇论文都采用相同的规则引述参考文献的问题,本发明要解决的技术问题 是提供一种能够自动对电子版的论文中的参考文献引述是否符合预设规则进行审核的参 考文献格式检查方法和系统,确保参考文献格式的规范性且提高效率、防止出现遗漏。
[0005] 为了解决上述问题,本发明实施例提出了一种参考文献格式检查方法,包括:
[0006] 步骤1、将参考文献著录项格式规则采用Schema进行表述,其中所述参考文献著录 项格式中包括W下的至少一个著录项:著录者、题名、参考文献类型、出版者、出版日期、页 码;
[0007] 步骤2、读取各条参考文献,进行著录项切分;
[000引步骤3、识别参考文献著录项,并将识别出的著录项提取成为XML节点;其中所述著 录项包括W下的至少一种:责任者、题名、出版地、出版者、出版日期等;同时,判断该参考文 献著录项中是否包括文献类型标志,如果没有则根据著录项添加该参考文献的文献类型标 志;
[0009] 步骤4、利用所述参考文献著录项格式规则对著录项进行验证。
[0010] 其中,所述方法还包括:
[0011] 步骤5、当参考文献著录项存在错误时,对著录项进行修改;具体包括;
[0012] 当错误为缺项时,补全著录项并加上标点符号重组形成格式规范的参考文献;
[0013] 当错误为多项时,删除该著录项并加上标点符号重组形成格式规范的参考文献;
[0014] 当错误为错项时,按照规范的格式进行修改后加上标点符号重组形成格式规范的 参考文献。
[001引其中,所述步骤2包括:
[0016] 步骤21、利用Apache P0I对文档进行识别W提取参考文献内容;。
[0017] 步骤22、对提取出的参考文献内容进行切分W得到著录项,包括:
[0018] 对参考文献中的符号进行识别,W判断参考文献中是否包括非半角符号,如果包 括则将其替换为相应的半角符号;
[0019] 根据著录用符号对著录项进行切分。
[0020] 其中,所述步骤3包括:利用预设的著录项识别模型对论文文字中所引述的参考文 献进行识别W提取所述参考文献的著录项,其中所述著录项识别模型为根据预设语料库进 行学习获得的;具体包括:
[0021] 步骤31、提取语料库;
[0022] 步骤32、采用预设的语料库,利用肥R算法进行训练W获得著录项识别模型;
[0023] 步骤33、判断参考文献中是否包括参考文献类型参数,如果不包括则利用参考文 献的著录项判断所述参考文献的类型。
[0024] 其中,所述步骤33包括:
[0025] 步骤331:构建出著录项的决策树;具体包括:
[00%] 通过W下公式计算基尼指数Gini,赌化tropy,错误率化rror):
[0029] Error = l-max{p(i) I i in[l,n]}
[0030] 并计算信息增益Gain和信息增益率GainRate [0031 ] Gain(U, V) =E;nt;ropy(U)-Ent;ropy 化,V))
[0032] GainRate 化,ν) =Gain 化,V)/E;nt;ropy(V)
[0033] W确定决策树的根节点和最佳分组变量;
[0034] 步骤332,对数据进行预处理,具体骤包括:对所述参考文献的著录项完整性进行 检查,W将非数字型、非名称型的数据转化为数字型、名称型;查找参考文献中是否具有缺 少的著录项,如果有则根据参考文献中相关的著录项对空缺值进行填充;根据著录项的相 关性,删除其中可忽略的著录项;对数据进行概化表述;
[0035] 步骤333、利用参考文献的决策树和预处理后的数据进行类型判定。在本发明实施 例中,采用WEKA平台进行类型判定。
[0036] 其中,所述步骤333具体包括:
[0037] 步骤3331、导入要测试的数据集;
[0038] 步骤3332、获取步骤332进行预处理后的待测数据;
[0039] 步骤3333、将处理后的数据集置于不同的学习方案中进行学习并建立预测模型来 预测未知的实例;
[0040] 步骤3334、对预测的结果进行评估。
[0041] 本发明的上述技术方案的有益效果如下:
[0042] 随着科技论文的大量涌现,国家有关部口推行了学术期刊的标准化和规范化,其 中参考文献的格式标准已被作为广大作者和编辑工作人员所必须遵守的规则。作者在撰写 学术论文过程中要学习标准规范才能高质量地完成论文,而编辑工作人员同样需要学习标 准规范才能高效率地完成论文的核对工作。因此,作者和编辑工作人员都需要一种方便的 工具进行参考文献格式规范性的检测。由于不同类型的参考文献有不同的格式,同一种参 考文献有很多著录项,所W作者在编写过程中难免会出错,因此在学术论文的参考文献中 仍存在大量不规范的现象,运给编辑工作人员增加了核对的难度。本课题主要解决参考文 献格式规范性问题,具有较高的实用价值。
[0043] 1)运项研究可W使参考文献格式检查工作更加智能化,减少参考文献著录差错, 提高参考文献格式检查工作的效率。
[0044] 2)对参考文献各个著录项进行正确理解,利于日后为参考文献的进一步发掘利用 (如分析引用和被引信息,评估学术著作的研究水平,W及梳理相关作者的研究成果等)。
[0045] 本发明实施例可W对参考文献格式规范性进行检测,具体定位到错误的位置,并 提示如何改正,为研究者提供了方便。本课题的研究成果对于提高数字出版质量、促进文档 信息的高效传播利用、节省排版的人工成本等具有重要的价值。
【附图说明】
[0046] 图1为本发明实施例的流程示意图;
[0047] 图2为Word文件中基于XML的00XML结构的代码;
[004引图3为Word文档元素层次关系示意图;
[0049] 图4为作为例子的10条格式规范的参考文献;
[0050] 图5为本发明实施例的参考文献决策树的结构示意图;
[0051 ]图6为ARFF文件中部分记录的示意图;
[0052] 图7为本发明实施例中的转化的示意图;
[0053] 图8为作为例子的10条待测参考文献;
[0054] 图9为参考文献著录项识别的部分结果;
[0055] 图10是图8中待测参考文献的检测结果;
[0化6]图11为检测过程中生成的XML文件。
【具体实施方式】
[0057]为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具 体实施例进行详细描述。
[005引本发明实施例提出了一种参考文献格式检查方法,包括:
[0059] 步骤1、使用Schema定义标准格式模板。目的是为了验证由参考文献各著录项所生 成的XML文件的正确性。
[0060] 步骤2、读取各条参考文献,进行著录项切分。使用著录项的切分目的是使识别的 类别尽可能单一,为下一步识别参考文献著录项打下基础,只有准确地切分了各著录项才 能提高著录项识别的准确性。
[0061] 步骤3、识别参考文献著录项。在步骤2参考文献著录项的切分方法基础上进行参 考文献各著录项的识别,著录包括责任者,题名,出版地,出版者和出版日期等。
[0062] 步骤4、将识别出的著录项提取成为XML节点。
[0063] 步骤5、判断文献类型标志。在GB/T 7714-2005中规定的文献类型标志如下:普通 图书(M),汇编(G),标准(S),期刊(J),计算机程序(CP),学位论文(D),报告(R),专利(P),数 据库(DB),电子公告化B),磁带(MT),磁盘(DK),会议录(C),光盘(CD),报纸(N),联机网络 (0L)。在步骤4)中识别后的题名著录项中查找是否含有GB/T 7714-2005中所规定的文献类 型标志。
[0064] 步骤6、基于步骤1中所述的标准格式模板进行验证。如果含有文献类型标志,则调 用相应文献类型的Schema标准格式模板进行验证,如果未含有文献类型标志,则先判断文 献类型,然后再调用相应文献类型的Schema标准格式模板进行验证。如果通过了验证,说明 参考文献的格式正确,如果没有参考验证,则说明参考文献的格式错误。
[0065] 步骤7、判断出错误的著录项并进行修改。包括检查著录项的顺序,最终生成正确 的XML实例。具体设计思路如下:XML文件未通过Schema验证时,提取出XML文件中具体未通 过验证的著录项,对于未通过验证的著录项可归纳为Ξ种情况,一种情况是缺项,一种情况 是多项,另外是错项。对于缺项的情况,补全著录项并加上标点符号重组形成格式规范的参 考文献。对于多项的情况,删除该著录项并加上标点符号重组形成格式规范的参考文献。对 于错项的情况,按照规范的格式进行修改后加上标点符号重组形成格式规范的参考文献。
[0066] 下面对本发明实施例的每一步骤进行详细的说明。
[0067] 步骤1、将参考文献著录项格式规则采用代码进行表述,其中所述参考文献著录项 格式中包括W下的至少一个著录项:著录者、题名、参考文献类型、出版者、出版日期、页码。
[0068] 在本发明实施例中,可W通过XML Schema语言来对进行表述,其中所述参考文献 著录项格式中包括W下的至少一个著录项:著录者、题名、参考文献类型、出版者、出版日 期、页码;
[0069] W下为采用XML Schema语言表述的参考文献著录项格式规则的一个实例,是W XML Schema表述的会议论文集
[0070] (l)<?xml version = "l .0"encoding = "GB2312"?>
[0071 ] (2)<xs:schemaxmlns:xs = "http://www.w3.org/2001/XMLSchema"
[0072] (3)xmlns = "http://www.wSschoo1. com.cn"
[0073] (4)targetNamespace = http://www.w3school. com. cn"
[0074] (5)elementF'o;rmDefault = "qualified"〉
[0075] (6)<xs:element name = "reference"〉
[0076] (7)<xs:complexType)
[0077] (8)<xs: sequence)
[0078] (9)<xs:element name = "author"type = "xs:string"/〉
[0079] (lOXxs:element name = "title"type = "xs:string"/〉
[0080] (11)<xs:element name = "type"type = "xs:string"/〉
[0081 ] (12)<xs:element name = "publish"type = "xs:string"min0ccirs = "0"/〉
[0082] (13)<xs:element name = "publisher"type = "xs:string"/〉
[0083] (14)<xs:element name = "publish_year"type = "xs:string"/〉
[0084] (15)<xs:element name = "page_number"minOccirs = "0"/〉
[00 化](16)<xs:simpleType〉
[0086] (17)<xs:restriction base = "xs:string"〉
[0087] (18)<xs:pattem value = "(\d{l ,4}-)?\d{l ,4}"/〉
[0088] (19)</xs:restriction)
[0089] (2〇X/xs: simpleType)
[0090] (21)</xs:element)
[0091] (22)</xs: sequence)
[0092] (23)</xs:complexType)
[0093] (24)</xs:element)
[0094] (25)</xs: schema)
[0095] 步骤2、利用预设文库提取文字中引述的参考文献,并提取其中的著录项;所述步 骤2包括参考文献内容提取和参考文献著录项提取两部分内容。因此步骤2具体包括:
[0096] 步骤21、利用Apache P0I对文档进行识别W提取参考文献内容。
[0097] 由于现有的文档大多都是用Microsoft Word格式或是兼容Word的格式来进行存 储的。在Microsoft Word文档中,信息W基于XML的00XML (Open Office XML)格式进行存 储。因此可W采用Apache P0I 3.13对文档进行识别。
[0098] W下本申请W举例对00XML结构的含义进行说明。在Microsoft Word2013中编辑 两段文字,分别为"中文参考文献著录项识别"和"论文",其对应的XML代码如图2所示。
[0099] 在代码中,<w: document〉元素为文档的根元素,其他所有的元素都是它的子元素。 元素后面通过属性定义了若干个命名空间。
[0100] <w: body〉元素是文档内容所在的元素,是唯一必须的元素。其下包含许多子元素, 具体参见00XML标准。在众多的子元素中,最基本的元素有Ξ个,分别为<¥: P〉元素,<w: r>元 素和<w: t>元素。其中,<w:P〉元素代表一个段落,用于定义一个开始于新行的内容;<w:r〉元 素表示句层的内容,可W是句、数学内容、智能标记和用户自定义标记等,句是可W设置式 样的最小单元;<w:t>元素表示句内的具体文本内容。运些元素的层级关系示意图如图3所 /J、- 〇
[0101] 由于参考文献的位置是固定的,在了解了基于XML的00XML(化en Office XML)格 式的信息之后,就可W利用Apache P0I 3.13对文档进行识别,W提取其中的参考文献的内 容。
[0102 ]步骤22、从所述参考文献内容中提取著录项。
[0103] 由于参考文献由若干著录项组成,因此需要先将著录项进行切分,然后才能进行 识别。具体包括:
[0104] 符号规范化步骤:对参考文献中的符号进行识别,W判断参考文献中费否包括非 半角符号,如果包括则将其替换为相应的半角符号;
[0105] 切分步骤:根据参考文献国标GB/T 7714-2005中规定的著录用符号对著录项进行 切分。
[0106] 在参考文献国标GB/T 7714-2005中,所有的著录用符号都作为前置符。比如参考 文献中第一个著录项的责任者前不使用任何标志符号;用于题名项和析出文献题名项 等的前置符等。通过对GB/T 7714-2005的分析,将不同的前置符作为分隔点进行著录项的 切分。
[0107] 在对一些毕业生学位论文进行抽样分析过程中发现,格式错误的种类形式各异, 可W利用统计方法计算得出书写错误的概率模型。例如如果在一条参考文献中含有则 此条参考文献中基本不会出现V'作为著录项之间的分隔符;如果在一条参考文献中含有 作为著录项之间的分隔符,则此条参考文献中基本不会出现V'作为著录项之间的分隔 符。
[0108] 步骤3、利用预设的著录项识别模型对论文文字中所引述的参考文献进行识别W 提取所述参考文献的著录项,其中所述著录项识别模型为根据预设语料库进行学习获得 的。
[0109] 在本发明实施例中,采用基于条件随机场的斯坦福大学命名实体识别方法 (Stanford Named Entity Recognizer,肥R)。肥R可W按照类别将实体进行标记,例如人 名,公司名,地区,基因和蛋白质的名字等。肥R配备了精屯、设计的特征提取器对命名实体进 行识别,经过训练即可得到训练模型。理论上用于训练的数据,即大量人工标记好的文本越 多,肥R识别效果越好。为了满足新的需求要重新训练模型。
[0110] 因此步骤3中具体包括;
[0111] 步骤31、提取语料库;具体的语料库采用抽取的1998年1月份《人民日报》标注语料 库和2015年北大版《中文核屯、期刊要目总览》。
[0112] 其中;
[0113] 1、抽取的1998年1月份《人民日报》标注语料:由于《人民日报》语料中人名,地名等 名词所占比例较多,因此可W作为很好的训练语料库。
[0114] 2、2015年北大版《中文核屯、期刊要目总览》;由于除了人名、地名之外,通常论文中 希望能够更好地识别出常用的期刊名称W及一些论文标题中常用的关键词,因此采用《中 文核屯、期刊要目总览》配合《人民日报》。
[0115] 比如毕业论文的题目或期刊的题目中常含有"基于"一词,所W在《人民日报》语料 的基础上增加了2015年北大版《中文核屯、期刊要目总览》中出现的期刊名称及统计出的标 题中常用的关键词,最终将运几部分组合在一起共同作为本实验的系统训练集,将其保存 在testda化.tsv文件中,并用于系统的封闭测试。
[0116] 另外,2015年北大版《中文核屯、期刊要目总览》为抽取的本校毕业论文中的文后参 考文献,将其组成测试集用于系统的开放测试。
[0117] 其中,提取出的参考文献内容可W如图4所示的。
[0118] 步骤32、采用预设的语料库,利用肥R算法进行训练W获得著录项识别模型。
[0119] 肥財是供了两种训练模型的方式,分别为命令行方式及配置文件方式。
[0120] 在本发明实施例中,可W采用配置文件的方式。
[0121 ] 具体的,在Stanford肥R中配置文件名称为austen.prop,利用如下表1所示的修 改其参数
[0122] 表1 austen. prop修改参数表
[0123]
[0124] 其中,trainFile指定用于训练的数据集,serial izeTo指定训练后输出的模型名 称。将修改后的配置文件保存,并与训练数据集testdata.tsv共同放在程序的根目录下,执 行命令W下命令:
[0125] java-cp Stanford-ner.jaredu. Stanford.nip.ie. erf.CRF Classifier-prop 曰 listen, prop"
[01 %]当执行成功后,在目录下生成ner-model. ser. gz,即为训练数据得到的模型。
[0127] 在获得了著录项识别模型之后,可W通过著录项识别模型对步骤2中的著录项进 行识别。
[0128] 由于参考文献中信息有可能是不完整的,有可能会缺失参考文献类型,而参考文 献类型是否准确对后续的参考文献格式检查有重要影响,因此本发明实施例中可W进一步 包括:
[0129] 步骤33、判断参考文献中是否包括参考文献类型参数,如果不包括则利用参考文 献的著录项判断所述参考文献的类型。
[0130] 具体的,步骤33包括:
[0131] 步骤331:构建出著录项的决策树。
[0132] 还是W如图4所示的参考文献内容为例,其包括10条格式规范。由图4可知,每条参 考文献由很多著录项组成,不同类型的参考文献其著录项的组成各不相同。通过对10条参 考文献的分析,归纳其参考文献的著录项及其属性值描述,如表2所示。
[0133] 表2参考文献的著录项及其属性值描述
[0134]
[0135] 经数据变换后得到的图4中各条参考文献的信息模型如表3所示:[0136] 表3图4中各条参考文献的信息模型
[0139]因此可W根据表3构建出如图5所示的著录项决策树。根据图5中的决策树可W对 未知类型的文献进行预测,比如现有一条参考文献如下:
[0137]
[013 引
[0140] 朱刚.新型流体有限元法及叶轮机械正反混合问题.北京:清华大学,1996.
[0141] 根据如图5所示的决策树可W预测它属于学位论文。
[0142] 要生成如图5所示的决策树,其中有两个关键问题:
[0143] -是如何从众多的输入变量中选择一个当前最佳的分组变量?比如为什么要把出 版者类型作为决策树的根节点?为什么选择著者类型作为下层的子节点而不是其它著录 项?
[0144] 二是如何从分组变量的众多取值中找到一个最佳的分割点?比如出版者类型为名 称类型,其属性包括"期刊"、"教育机樹V'其它'、"出版社',为什么选择"教育机樹'作为分 割点?解决了运两个关键问题即可W容易地构造出决策树。
[0145] 决策树中需要引入"纯度"概念。常用的衡量纯度方法有Ξ种,分别为基尼指数 (Gini),赌化ntropy),错误率化;rror);本发明实施例中可W通过W下公式计算基尼指数 (Gini),赌化ntropy),错误率化rror):
[0146] 假定著录项的属性具有η类不同的属性值ia = l,2,…,η),每类属性值所占的比 例p(i)=第i类属性值的数量/该属性值总数量,p(i)的取值范围为[0,1]。
[0149] Error = l-max{p(i) I i in[l,n]}
[0150] 上面Ξ纯度的公式1-3均为值越大,表示越"不纯",越小表示越"纯"。实践证明Ξ 种公式的选择对最终分类准确率的影响并不大。在本发明实施例中还使用赌公式,由赌公 式引申出两个常用的属性选择变量,分别为如公式4的信息增益(Gain)和如公式5的信息增 益率(GainRate)。
[0151 ] Gain(U,V) =E;nt;ropy(U)-Entropy 化,ν))
[0152] GainRate 化,ν) =Gain 化,V)/E;nt;ropy(V)
[0153] 在信息论中,信息传递过程看作是一个由信源、信道和信宿组成的传递系统实现 的,信源是信息的发送端,信宿是信息的接收端。W上面参考文献类型标志预测为例,将著 者类型(T1),报告号(T2),专利号(T3),出版者类型(T4),年卷期标志(T5),页码(T6)作为输 入变量,参考文献类型标志为输出变量。决策树将输出变量(参考文献类型标志)看作信源 发出的信息U,输入变量看作信宿接收到的一系列信息V。
[0154] Gain(U,V) =E;nt;ropy(U)-Ent;ropy 化,ν))
[01 巧]GainRate 化,ν) =Gain 化,V)/E;nt;ropy(V)
[0156] 采用信息增益率(GainRate)对上述两个关键问题分别进行计算,计算过程如下:
[0157] W著者类型T1为例:分别计算E;n1:;ropy(U)、Ent;ropy化 I T1)、Gains化,ΤΙ)、GainsR (U,T1),其中期刊、学位论文和图书类型文献各2条,报告、会议集、专利和标准类型文献各1 条。
[0158] 假定著录项具有Μ个不同类型的属性,属性值m(i = l,2,…,M),每类属性值所占 的比例为P(Ui),著者类型T1具有N个不同属性值tij(j = l,2,…,N)。
[0161 ] Gain化,ΤΙ) =E;nt;ropy(U)-Ent;ropy化 I ΤΙ) =0.553
[0162] GainRate 化,ΤΙ) =Gains(U, ΤΙ)/Entropy (V) =0.628
[0163] 即得到著者类型(ΤΙ)的信息增益率为0.628, W相同的方式计算其它各著录项,最 终得到T4信息增益率值最大为1.275,因此应选择T4作为最佳分组变量,即为决策树的根节 点。
[0164] 在出版者类型中有4个属性,分别为"期刊"、"教育机构"、巧它"、"出版社",那么 如何选择分割点,计算过程与上面类似,经计算得到"教育机构"的信息增益率值最大为 3.948,因此应选择"教育机构"作为最佳分组变量。
[0165] 由上述分析可W看出,本发明实施例的决策树是一种直观的决策分析方法,其优 点显而易见。决策树模型可读性好,具有一定的描述性,有助于人工分析;并且执行效率高, 只需要一次构建就可W反复使用,可W很自然地嵌入专家的先验知识。
[0166] 由于该参考文献的著录项中可能出现数据不一致、数据重复、数据含有噪声、数据 维度高等问题。因此在对著录项进行分类之前,需要对数据进行预处理。即,所述步骤33还 包括:
[0167] 步骤332,对数据进行预处理。
[0168] 具体的,数据预处理步骤包括:
[0169] 步骤3321、对所述参考文献的著录项完整性进行检查。
[0170] 由于决策树的变量有两种类型:数字型、名称型;所W在构造决策树前需要做的主 要预处理工作为将非数字型和非名称型的数据转化为数字型或者名称型。
[0171] 在数据挖掘中从原始数据里选取合适的属性作为数据挖掘属性,所采用的数据原 则为:尽可能将属性名和属性值赋予明确的含义、去除重复的数据、去除可忽略字段、合理 选择关联字段。下面具体介绍进行预处理的过程。
[0172] 原始数据为提取出的参考文献,然后将参考文献各著录项进行拆分,每个拆分后 的著录项可W看作每条记录的属性,如下的表4为从原始数据中选取的一个片断。
[0173] 表4原始数据记录
[0174]
[0175] 从上表中可W看出,将一条参考文献拆分后,某些字段值空缺,某些字段可W忽 略,因此步骤332可W包括W下Ξ个子步骤:
[0176] 步骤3322、查找参考文献中是否具有缺少的著录项,如果有则根据参考文献中相 关的著录项对空缺值进行填充。
[0177] 例如表4中的的"专利国别","专利号","报告编号',然后将所选的数据所有空缺 值进行填补。空缺值的填补原则为遵从该字段已存在的值的类型,比如在已存在的记录中 某个字段的部分值为数字型,那么该字段的其它空缺值的填补值也将为数字型值,如果该 字段的部分值为名称型,则该字段的其它空缺值的填补值也为名称型值。
[0178] 步骤3323、根据著录项的相关性,删除其中可忽略的著录项。例如图4所示的参考 文献内容,其中的序列编号(即前面的1、2、3……10)对结果预测没有任何作用,反而会增加 计算的复杂性,因此可W删除。比如出版地字段,无论出版地是哪里都将不会影响最终参考 文献的类型,所W对于"出版地"字段可将其忽略。
[0179] 步骤3323、对数据进行概化表述。运是由于在原始记录的数据,每一字段都可W被 概括为数个类。例如:对于"责任者"字段来说,"责任者"字段的值可W概括为两类,一类是 具体的人名,另一类是组织机构名称。通过"责任者"字段是人名还是组织机构名来对文献 的类型进行预测,而与具体的人是什么名字W及与组织机构是什么名字无关。因此,可W将 "责任者"字段进行数据概化为人名和组织机构名两类。依此类推,将所有类似情况的数据 都将进行概化。
[0180] 经过上述的步骤之后可W得到如表5所示的经过预处理后的数据。
[0181] 表5预处理后的数据
[0182]
[0183] 从表5中可W看到预处理的字段及字段值都为英文,当然运只是本发明实施例的 一种方式,还可W采取其他任何形式的来表达经过预处理的字段及字段值。由于本发明实 施例中是采用WEKA系统来进行参考文献类型来进行类型判定,因此采用英文的字段和字段 值可W获得更好的计算效果。
[0184] W表5的例子来对本发明实施例每一字段的字段值来举例说明:
[01化]"责任者"字段值为阳R. Individual和阳R. Group,其中阳R指文献中提及的个人或 人群,P邸.Individua巧日阳R.Group为阳R的子类,分别指个人,人群或组织。
[01化]。题目特征标记"字段值为title_D_tag,title_C_tag等,比如t i t le_C_tag是 指会议论文集的题目中含有"会议集"特征标记,报告的题目一般会含有"报告"特征标记; 其它类型没有特征标记的值记为no。
[0187] 。出版社"字段值为 PUB. Press, PUB Journal, PUB. School, PUB. Institution 和 NUL,分别指非学校类的出版社,期刊,学校类出版社和研究院所,NUL指缺项。
[0188] 在步骤33中,通过步骤331构建了决策树,并通过步骤332进行了数据预处理后,需 要对参考文献进行类型判定。即所述方法还包括:
[0189] 步骤333、利用参考文献的决策树和预处理后的数据进行类型判定。在本发明实施 例中,采用WEKA平台进行类型判定。
[0190] WEKA平台中进行数据挖掘的过程如下:
[0191] 1)导入要测试的数据集;
[0192] 2)对待测数据进行预处理(步骤332已经完成);
[0193] 3)将处理后的数据集置于不同的学习方案中进行学习并建立预测模型来预测未 知的实例;
[0194] 4)对预测的结果进行评估并可视化。下面针对上述四个步骤进行具体介绍。
[01巧]因此步骤333具体包括:
[0196] 步骤3331、导入要测试的数据集。
[0197] 由于肥KA平台下能处理的数据格式为CSV和ARFF文件,但是最理想的格式为ARFF 文件,所W运里使用ARFF格式文件,需要先将文件的格式进行转换后再导入要测试的数据 集。原始数据存储在EXC化文件中,先将其转换为CSV文件,再转换为ARFF文件。其中ARFF文 件中部分记录如图6所示。
[0198] 步骤3332、获取步骤332的预处理后的数据。
[0199] 步骤3333、选择具体的分类算法用于训练和测试分类。在WEKA系统的分类模块中, 集成了约50种的分类算法,本发明实施例中选用了巧中经典分类算法NativeBays,J48(决策 树)和ZeroR对测试集进行分类测试。
[0200] 第四步对不同分类算法的结果进行评估。评估分类精度的方法很多,主要有交叉 法(cross-validation)、保持法(holdout)、留一法(leave-one-out)、回代法(back- substitution)。交叉法和保持法最为常用。留一法可W看作交叉法的一种特例。回代法由 于它评估过度拟合导致了分类精度偏高,一般不使用。结果的可视化既可W对一次分类的 结果进行可视化,也可W对一个数据集的结果进行可视化。其中数据集的可视化显示的是 关于每对属性的一个二维散点图,某一次分类的输出结果可视化显示的是分类误差、树、成 本曲线、R0C曲线等,用来评估各学习方案的性能。
[0201] -些算法对文献类型标志的判定虽然准确率相对较高,但是不可能达到100%的 准确率,运将影响到最终的文献格式错误检测的准确率。
[0202] 为了尽量减小预测误差,本发明实施例中采用了特征标记的方法。即在决策树进 行文献类型标志判定后再根据特征标记来进行判定,若二者判定结果相同则将其作为最终 结果,若二者判定不相同则W根据特征标记来判定的结果为准。表6列出了各类特征标记与 参考文献类型的对应关系。
[0203] 表6特征标记与文献类型的关系表
[0204]
[0205]
[0206] 步骤4、利用所述参考文献著录项格式规则代码,对识别出的所述参考文献的著录 项进行检查。具体包括:将识别后的各著录项根据参考文献类型标志生成相应的XML文档, 然后使用Schema进行验证;如果通过验证则说明该条文献格式正确,否则说明该条文献的 格式存在错误。
[0207] 在本发明实施例中,其中生成的期刊类型的XML文档如下
[0208] (l)<?xmlversion = "1.0"encoding = "GB2312"standalone = "no"?〉
[0209] (2)〈reference xmlns = "http: //www/w3school. com. cn"
[0210] (3)xmlns:xsi二"http://www.w3.org/2001/XMLSchema_instance"
[0211] (4)xsi : schemaLocation = "http: //www.wSschool. com. cn J_pre. xsd"〉
[0212] (5)<author authorLoc二"1"〉陈路瑶</au化or〉
[0213] (6)<title titleLoc二"2"〉信息文档结构信任模式的提取及逻猜描述〈/title〉
[0214] (7)<type typeLoc二"2"〉J_pre</type〉
[0215] (8)<publish publisliLoc二"3"〉北京〈/publish〉
[0216] (9)<publisher publisherLoc二"4"〉计算机应用研究〈/publisher〉
[0217] (10)<publish_yea:rpublish_yearLoc = "5"〉2015</publish_year〉
[0218] (ll)〈volumn_markvolumn_markLoc="6"〉27〈/volumn_mark〉
[0219] (12)<page_numberoage_numberLoc 二"7"〉4624-4629</page_number〉
[0220] (13)〈/reference〉
[0221] 在通过Schema模板进行验证后,未通过编译器验证将返回错误信息。错误信息包 括错误类型和错误描述,通过错误类型可W大致判断出现的问题,若想具体定位错误需要 结合错误描述。下面归纳了 Ξ种常见的错误类型;
[0222] (1 )cvc-complex-type · 3 · 1D这种错误类型是XML中属性值与Schema中定义的属性 值不匹配,比如标签之间的顺序颠倒。
[0223] (2)cvc-complex-type · 2 · 4 .a。这种错误类型是XML文件中的逻猜结构不符合 Schema规范,比如出现了 Schema规范中未定义的元素 D
[0224] (3)cvc-compleχ-type.2.4.bD这种错误类型是XML文件的内容不完整,比如缺项D
[0225] 在参考文献中出现的格式错误类型都可W归结为上述兰类错误的一种或几种。错 误检测的过程见表7所示。
[0226] 表7参考文献格式错误检测算法
[0227]
[0228] 在表7的算法中,R是待测参考文献集合,r是R集合中的一条参考文献。ERRORS为 XML Schema验证参考文献未通过的错误类型集合,化是一条参考文献对应的错误类型。在 检测后,为了解决错误项的定位问题,需要将编译器提供的错误描述信息转化为相应的位 置信息,下面通过一个例子来说明如何进行转化,见图7所示。
[0229] 由图7可W看出,著录项错误包括Ξ种情况:多项、缺项和乱序。每种情况对应的位 置编号变化各不相同,因此,根据位置编号及著录项内容设计算法2,见表8所示。
[0230] 表8参考文献错误项定位算法
[0231]
[0232]
[0233] 经算法分析后,下面W图8中的10条待测参考文献为例,使用本系统对10条参考文 献进行规范性检测,检测的结果如图9和图10所示。
[0234] 本专利应用于文后参考文献的格式检查,对有误的参考文献格式进行校正。本发 明中的参考文献信息提取采用从Microsoft Word文档中提取,同样适用于从文本文件中提 取参考文献。W下通过例子进行描述。
[0235] 图9是参考文献著录项识别的部分结果,W图8中第一条参考文献为例,图9中前8 行为第一条参考文献的识别结果。其中第一行"J_pre"表示第一条文献缺少文献类型标志, 通过文献类型标志的判定将其预测为期刊类型;第二行表示将"陈路瑶"识别为作者;第Ξ 行表示将"信息文档结构信任模式的提取及逻辑描述"识别为题名;第四行表示将"北京"识 别为出版地;第五行表示将"计算机应用研究"识别为期刊类型的出版者;第六行表示将 "2010"识别为出版年;第村于表示将"27"识别为卷;第八行表示将"4624-4629"识别为页 码。
[0236] 图10是10条参考文献的检测结果,对于格式不规范的参考文献提示具体错误位置 信息并给出修改建议,W方便修改。图11为检测过程中生成的XML文件。
[0237] 本发明具有W下有益效果:
[0238] 随着科技论文的大量涌现,国家有关部口推行了学术期刊的标准化和规范化,其 中参考文献的格式标准已被作为广大作者和编辑工作人员所必须遵守的规则。作者在撰写 学术论文过程中要学习标准规范才能高质量地完成论文,而编辑工作人员同样需要学习标 准规范才能高效率地完成论文的核对工作。因此,作者和编辑工作人员都需要一种方便的 工具进行参考文献格式规范性的检测。由于不同类型的参考文献有不同的格式,同一种参 考文献有很多著录项,所W作者在编写过程中难免会出错,因此在学术论文的参考文献中 仍存在大量不规范的现象,运给编辑工作人员增加了核对的难度。本课题主要解决参考文 献格式规范性问题,具有较高的实用价值。
[0239] 1)运项研究可W使参考文献格式检查工作更加智能化,减少参考文献著录差错, 提高参考文献格式检查工作的效率。
[0240] 2)对参考文献各个著录项进行正确理解,利于日后为参考文献的进一步发掘利用 (如分析引用和被引信息,评估学术著作的研究水平,W及梳理相关作者的研究成果等)。
[0241] 本发明实施例可W对参考文献格式规范性进行检测,具体定位到错误的位置,并 提示如何改正,为研究者提供了方便。本课题的研究成果对于提高数字出版质量、促进文档 信息的高效传播利用、节省排版的人工成本等具有重要的价值。
[0242] W上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员 来说,在不脱离本发明所述原理的前提下,还可W作出若干改进和润饰,运些改进和润饰也 应视为本发明的保护范围。
【主权项】
1. 一种参考文献格式检查方法,其特征在于,包括: 步骤1、将参考文献著录项格式规则采用Schema进行表述,其中所述参考文献著录项格 式中包括以下的至少一个著录项:责任者、题名、参考文献类型、出版者、出版日期、页码; 步骤2、读取各条参考文献,进行著录项切分; 步骤3、识别参考文献著录项,并将识别出的著录项提取成为XML节点;其中所述著录项 包括以下的至少一种:责任者、题名、出版地、出版者、出版日期等;同时,判断该参考文献著 录项中是否包括文献类型标志,如果没有则根据著录项添加该参考文献的文献类型标志; 步骤4、利用所述参考文献著录项格式规则对著录项进行验证。2. 根据权利要求1所述的参考文献格式检查方法,其特征在于,所述方法还包括: 步骤5、当参考文献著录项存在错误时,对著录项进行修改;具体包括; 当错误为缺项时,补全著录项并加上标点符号重组形成格式规范的参考文献; 当错误为多项时,删除该著录项并加上标点符号重组形成格式规范的参考文献; 当错误为错项时,按照规范的格式进行修改后加上标点符号重组形成格式规范的参考 文献。3. 根据权利要求1所述的参考文献格式检查方法,其特征在于,所述步骤2包括: 步骤21、利用Apache POI对文档进行识别以提取参考文献内容; 步骤22、对提取出的参考文献内容进行切分以得到著录项,包括: 对参考文献中的符号进行识别,以判断参考文献中是否包括非半角符号,如果包括则 将其替换为相应的半角符号; 根据著录用符号对著录项进行切分。4. 根据权利要求1所述的参考文献格式检查方法,其特征在于,所述步骤3包括:利用预 设的著录项识别模型对论文文字中所引述的参考文献进行识别以提取所述参考文献的著 录项,其中所述著录项识别模型为根据预设语料库进行学习获得的;具体包括: 步骤31、提取语料库; 步骤32、采用预设的语料库,利用NER算法进行训练以获得著录项识别模型; 步骤33、判断参考文献中是否包括参考文献类型参数,如果不包括则利用参考文献的 著录项判断所述参考文献的类型。5. 根据权利要求4所述的参考文献格式检查方法,其特征在于,所述步骤33包括: 步骤331:构建出著录项的决策树;具体包括: 通过以下公式计算基尼指数Gini,熵Entropy,错误率(Error):Error =l-max{p(i) | i in[ 1 ,η]} 并计算信息增益Gain和信息增益率GainRate Gain(U,V)=Entropy(U)-Entropy(U,V)) GainRate(U,V)=Gain(U,V)/Entropy(V) 以确定决策树的根节点和最佳分组变量; 步骤332,对数据进行预处理,具体骤包括:对所述参考文献的著录项完整性进行检查, 以将非数字型、非名称型的数据转化为数字型、名称型;查找参考文献中是否具有缺少的著 录项,如果有则根据参考文献中相关的著录项对空缺值进行填充;根据著录项的相关性,删 除其中可忽略的著录项;对数据进行概化; 步骤333、利用参考文献的决策树和预处理后的数据进行类型判定。在本发明实施例 中,采用WEKA平台进行类型判定。6.根据权利要求5所述的参考文献格式检查方法,其特征在于,所述步骤333具体包括: 步骤3331、导入要测试的数据集; 步骤3332、获取步骤332进行预处理后的待测数据; 步骤3333、将处理后的数据集置于不同的学习方案中进行学习并建立预测模型来预测 未知的实例; 步骤3334、对预测的结果进行评估。
【文档编号】G06F17/22GK105824791SQ201610153946
【公开日】2016年8月3日
【申请日】2016年3月17日
【发明人】李宁, 侯霞, 赵琳, 田英爱
【申请人】北京信息科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1