一种语料结构化的方法及装置的制作方法

文档序号:6432421阅读:219来源:国知局
专利名称:一种语料结构化的方法及装置的制作方法
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语料结构化的方法及装置。
背景技术
在目前的信息发布领域,很多信息都是通过纸质媒介发布后,对已出版文件的存档一般最小存储单位是一篇文档。使得再版或者需要对某一文档的特定内容进行搜索时,必须逐行逐字的查询。无法满足对一篇文档内部特定内容(如正文、注文、专有名词等)的高级检索要求,无法满足对古籍中某些内容的深度加工,例如,根据考古发现修改或扩展古籍的注文;另外,此种出版方式留下的古籍语料文件的特点是古籍的内容与样式混合在同一个语料文件中,仅考虑浏览需要使用不同的颜色、下划线等样式区分了古籍中的不同类,等同于一个带样式的字符序列;此种出版方式古籍内容组成无结构化,导致再次出版时,若需要改动特定内容的样式(如将注文的颜色由深红改为深蓝),则必须重新对每篇古籍做整体修改;由于每篇古籍语料篇幅长,特定内容在古籍中出现次数很多,例如一篇3万字的古籍,专有名词可能出现几千次,因此手工从古籍语料文件中抽取特定内容效率低下,容易出错。综上所述,在古籍采用印刷出版方式发布信息的领域中,数字资源的再利用率低,不能直接应用于古籍高级检索,不便于信息的深度加工,不便于快速再版,并且手工从数字资源中提取内容效率低下。

发明内容
本发明提供一种语料结构化的方法及装置,用于解决现有技术中预料文件的存储方式导致从数字资源中提取内容效率低下的问题。本发明实施例提供一种语料结构化的方法,包括获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。根据该方法本发明实施例还提供一种语料结构化的装置,包括中间文件生成模块,用于获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;字符信息提取模块,用于根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;
结构化模块,用于根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。应用本发明实施例提供的方法和装置,对于以整篇文档为存储单位的语料文件,按照将语料文件各个部分的划分将语料文件分成多个独立的组成部分。在搜索文档中的某个部分或标题内容时候,能够灵活、迅速的获取到。


图1为本发明实施例一种语料结构化的方法的流程图;图2为本发明实施例一种语料结构化的装置的结构图。
具体实施例方式本发明实施例提供一种语料结构化的方法,该方法包括获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中设定的字体属性信息与特定内容的对应关系,从所述中间文件提取与所述特定内容对应的字符信息;根据所述自动结构化规则中设定的不同特定内容的层次关系将提取的字符信息组合后上传到服务器,使服务器存储结构化的语料文件。如图1所示,本发明实施例提供一种语料结构化的方法,具体包括步骤步骤101,获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;每一篇语料文件的不同特定内容包括正文、注文、专有名词等;在每一篇语料文件中可能不同部分的字体的大小、字体的样式、字体颜色等会不相同,从而起到区分不同部分的效果。步骤102,根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;为了提高所述自动结构化规则和所述中间文件的对各种设备的兼容性,本发明实施例中的自动结构化规则和所述中间文件可应用可扩展标记语言XML来编写。步骤103,根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。为了实现对存储的语料文件进行更新,本发明实施例还包括步骤104,服务器接收信息更新请求,并根据接收的信息更新请求更新存储的语料文件。其中,所述更新存储的语料文件的操作包括更改、扩展、删除等。更新服务器中存储的数据文件的具体实现方式可以是服务器在存储所述结构化的语料文件时,为每篇语料文件动态生成唯一的标识ID 服务器获取信息更新请求中的语料文件名称和语料文件标识ID,确定待更新的语料文件后,更新语料文件中的相应字符信息。另外,为了提高语料文件的安全性,服务器在根据接收的信息更新请求更新存储的信息之前,还对发送信息更新请求的设备进行身份验证,并在验证通过后,根据接收的信息更新请求更新存储的语料文件。在具体的应用中,由于古籍语料篇幅长,特定内容在古籍中出现次数很多;古籍语料文件中,古籍的文字内容与样式混合在同一个语料文件中等特点。本发明实施例对古籍语料进行结构化时,具体的实现方式可以是古籍语料文件中保存古籍语料的内容和样式,一个语料文件一般只含有一篇古籍语料,每一篇古籍语料的不同特定内容(如正文、注文、专有名词等)都以不同的样式排版(如颜色、下划线、波浪线等),除字体属性信息外不同特定内容之间没有明显的区分(如换行、换段等)。因此,本发明实施例中,基于自动结构化装置对语料语料文件进行自动信息提取以及确定层次关系,保存到服务器中。首先,选定古籍语料文件,根据语料文件中的字体属性信息(如字体颜色、下划线样式等),从语料文件生成带有显式字体属性信息描述的中间文件,一个具体示例如下
<body>
〈font style="font-family:宋体;font-size:18.0pt;color:#7030A0”>
<b>漢書卷五十一 </b>
</font>
</p>
〈font style="font-family:宋体;font-size:18.0pt;color:#008000”>
<b>賈鄒枚路傳第二十一 </b>
</font></p>
〈font style="font-family:宋体;font-size: 16.0pt;color:#92D050">
<b> [賈山]</b>
</font>
</p>
〈font style="font-family:宋体;font-size: 12.0pt;color:#000000">
<u class="line'’>賈山</u><u class='’line">潁川 </u>人也。祖父 (祛),故 <u class=”line”>魏王</u>時博士弟子也。〔一〕<u class="line”>山</u> 受學(祛),所言涉狼書記,不能爲醇儒。〔二〕嘗給事<u class="line">|M陰侯</u> 爲騎。〔三〕</font>
</p>
〈font style="font-family:宋体;font-size:10.5pt;color:#800000">
〔一〕<u class="line"> 師古 </u> 曰「<u class="line"> 六國 </u> 時 <u class="linen>魏</u>也。」</font>
</p>
〈font style="font-family:宋体;font-size:10.5pt;color:#800000"> 〔二〕<u class=”line”>師古</u>曰「涉若涉水,獵若獵獸,言歷覽之不專精也。
醇者,不雜也。」</font>
</p>
〈font style="font-family:宋体;font-size:10.5pt;color:#800000"> 〔三〕<u c,lass="line”>師古</u>曰「爲騎者,常騎馬而從也。」</font>
</p>
</body>以上内容中,由〈P〉节点包含古籍的一段内容,〈font〉节点中的color属性里以“#”开头的值就是特定内容对应的颜色,由〈U〉和<b>节点包含的分别是古籍中有下划线和加粗的内容。可见原来古籍语料文件中只能用肉眼识别的字体属性信息在中间文件中显式表示出来。其次,对古籍语料文件进行分析,确定自动结构化的规则,该规则中包括的信息有古籍语料文件不同特定内容对应的字体属性信息、古籍语料文件不同特定内容的层次关系。在确定自动结构化规则时,应根据用户的应用要求确定,例如某本古籍图书确定的规则的一个示例如下所示
权利要求
1.一种语料结构化的方法,其特征在于,包括 获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件; 根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息; 根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。
2.如权利要求I所述的方法,其特征在于,所述自动结构化规则和所述中间文件通过可扩展标记语言XML实现。
3.如权利要求I所述的方法,其特征在于,更新服务器保存的结构化的语料文件包括 服务器接收信息更新请求,并根据接收的信息更新请求更新存储的结构化的语料文件。
4.如权利要求3所述的方法,其特征在于,所述更新存储的语料文件的操作包括更改、扩展、删除操作。
5.如权利要求3 4任一权项所述的方法,其特征在于,服务器在根据接收的信息更新请求更新存储的语料文件之前,进一步包括 对发送信息更新请求的设备进行身份验证,并在验证通过后,根据接收的信息更新请求更新存储的信息。
6.如权利要求3所述的方法,其特征在于,服务器在存储所述结构化的语料文件时,为每篇语料文件动态生成唯一的标识,则服务器根据接收的信息更新请求更新存储的信息包括 服务器获取信息更新请求中的语料文件名称和语料文件标识,确定待更新的语料文件后,更新语料文件中的相应字符信息。
7.一种语料结构化的装置,其特征在于,包括 中间文件生成模块,用于获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件; 字符信息提取模块,用于根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息; 结构化模块,用于根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。
8.如权利要求7所述的装置,其特征在于,该装置包括 更新模块,用于接收信息更新请求,并根据接收的信息更新请求更新服务器存储的结构化的语料文件。
9.如权利要求7所述的装置,其特征在于,该装置还包括 验证模块,用于对发送信息更新请求的设备进行身份验证,并在验证通过后,根据接收的信息更新请求更新存储的语料文件。
10.如权利要求7所述的装置,其特征在于,所述更新模块还用于获取信息更新请求中的语料文件名称和语料文件标识,确定待更新的语料文件后,更新语料文件中的相应字符信息。
全文摘要
本发明公开了一种语料结构化的方法及装置,应用于信息处理技术领域。该方法包括获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。应用本发明提供的方法和装置将语料文件进行结构化,从而能够满足精确检索的要求。
文档编号G06F17/30GK102982036SQ20111026037
公开日2013年3月20日 申请日期2011年9月5日 优先权日2011年9月5日
发明者李凯, 翟因为, 黄冶 申请人:北大方正集团有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1