一种数字化语法连续创建的方法

文档序号:6580137阅读:209来源:国知局
专利名称:一种数字化语法连续创建的方法
卩A^W —种数字化语法连续创建的方法 技木领域
本发明属于IT领域,它提供一种数字化语法连续创建的方法,使得数字化内容在语 法上是连续的。
本发明特点数字化加工单位通过本发明提供的文本语法连续标记方法、多行小字语 法连续标记方法、着重词语法连续标记方法,在加工一种文献之前先分析文献行与行之间、 页与页之间、多行小字行与行之间、着重词跨行跨页语法连续规律,在加工完成后先通过 语法连续生成模块生成格式规范的含有语法连续知识的文件,再通过语法连续内容获取模 块提取一种文献连续的内容。
背景技术
随着现代计算机通讯、网络技术的迅猛发展,以内容革命为核心的第二次信息革命正 在世界各国全面铺开,信息资源数字化成为当代信息社会的必需。读者可以通过网络获取 大量的知识,但是对大量历史文献,因为版面格式复杂,数字化内容语法连续出现较大差 错,通常都是将不该连接的句子连在一起,用户检索时产生错误。海量数据检索后,检索 出的数据量很大,其中又有一大部分是错误信息。
数字化内容正确分段、正确的文献内容上下文语法连接对于内容研究人员尤其重要。

发明内容
本发明为一种数字化语法连续创建的方法,包括标记语法连续的方法、语法连续生成 模块、语法连续内容获取模块。 一、标记语法连续的方法
1.文本语法连续标记方法
(1) 连续标识连续标识为非负整数或一对非负整数,标识该文本与其它文本的语 法连续关系。
连续标识=0:表示该文本与其它文本无语法连续关系; 连续标识=1:表示该文本与其它文本语法连续;
连续标识=2:表示该文本中的空格符是用于版式,空格前后的字在语法上是连续 的;
(2) 连续关系编号连续关系编号为整数或一对整数,给文本编号,通过编号连接 连续的文本。
连续关系编号=0:表示该文本与下一行的连续关系;
3连续关系编号>1:表示该文本后与连续编号为负,绝对值相等的文本的语法连续; 连续关系编号<1:表示该文本前与连续编号为正,绝对值相等的文本的语法连续。
2. 多行小字语法连续标记方法
连续标识标识所有多行小字行与行之间语法连续关系。 连续标识=0:不连续; 连续标识=1:连续
3. 着重词语法连续标记方法
(1) 连续标识表示两个着重词之间的语法连续关系。 连续标识=0:表示该着重词与其它着重词无语法连续关系; 连续标识=1:表示该着重词与其它着重词语法连续;
(2) 连续关系编号连续关系编号为整数或一对整数,给着重词编号,通过编号连 接连续的着重词。
连续关系编号>1:表示该着重词后与连续编号为负,绝对值相等的着重词的语法 连续;
连续关系编号<1:表示该着重词前与连续编号为正,绝对值相等的着重词的语法 连续。
二、 语法连续生成模块 不同数字化加工单位加工完成的原始数据是离散的,通常是存在数据库和数据文件
中,格式不统一,通过本发明提供的语法连续生成模块,将原始数据格式化,便于生成语 法连续的内容。
1. 文本语法连续生成模块将文本语法连续原始数据生成规范格式数据。
2. 多行小字语法连续生成模块将多行小字语法连续原始数据生成规范格式数据。
3. 着重词语法连续生成模块将着重词语法连续原始数据生成规范格式数据。
三、 语法连续内容获取模块
连续内容提取模块判断格式规范的数据中的连续标记,提取一种文献连续的内容。


图1:标记语法连续的方法。 图2:语法连续生成模块。 图3:语法连续内容获取模块。
具体实施例方式
下面通过示例给出本发明的应用方法
以生成XML规范格式为例,创建文本语法连续标记为text_unite,多行小字语法连 续标记为multi_text—unite。
1. 两个连接着的文本(前后两个含内容的文本)
(1) 找出语法连续规律若后一个文本縮进属性值为0,则两个文本语法连续; 若后一个文本縮进属性值不为0,则两个文本语法不连续。
(2) 生成规范格式数据(生成XML格式为例) 例1 :
<text—unite id=T num="0"><text reverse="reverse">rt*/text><text_unite/> <text—unite id二"1 "xtext:H吾法连续々textxtext—unite/>
例2:
<text_unite id="0"><text>国朝</text><text—unite/> <text_unite id="0"><text indent 6'、李濤々textxtext一unite/〉
(3) 提取连续的内容
例3:例1提取的连续内容="内容语法连续" 例2提取的连续内容="国朝""李濤"
2. 多行小字
(1) 找出语法连续规律各行之间语法不连续,与前后文本语法皆不连续,多 行小字前后文本语法连续。
(2) 生成规范格式数据(生成XML格式为例)
例4:
<text—unite id="1" num="1000"xtexb明李宗祀〈/textxtext—unite/> <multi_text—unite id="0"> <multi_text> <!—多行小字标签—>
〈text〉德州人質直廉々text〉 々ext〉潔嘉靖年任々tex^ </multi—text> <multi」ext_unite/>
<text—unite id="1" num="-1 OOO"xtexb酉己...</text><text—unite/>
5(3)提取连续的内容 例5:例4提取的连续内容="明李宗祀配...""德州人質直廉""潔嘉靖年任"。 3.行与行之间
(1) 找出语法连续规律设文本行最后一个字与文本区底端的距离为Do下
一文本行第一个字与文本区顶端的距离为D2, 0号字字号为S (若没有0 号字,则S=36),若D^S女2+S/8,并且D2<=S*2+S/8,则认为该文本 行与下一文本行语法连续,否则不连续。
(2) 生成规范格式数据(生成XML格式为例)
例6:
<font id="0" size="287> <text_unite id=T>
〈textindent 60'、給之徒勞擾耳爲今之計樊之法或可行也識之於此惟〈/text〉 <text—unite/> <text—unite id=T>
<text indent二"60"〉福民者留意焉〈/text〉 <text—unite/> <text_unite id="0">
<text indent 60'、長夫之起舊所未聞自乙巳年偶一僉憲赴々text〉 <t6xt_unit6/> <text—unite id="0">
^ext〉京考績案行本州取車二輛輛銀一"h两長夫八名名</text> <t6xt_unit6/>
(3) 提取连续的内容
例7:例6提取的连续内容="給之徒勞擾耳爲今之計樊之法或可行也識之於 此惟福民者留意焉""長夫之起舊所未聞自乙巳年偶一僉憲赴""京考績 案行本州取車二輛輛銀一十两長夫八名名"。
权利要求
1.一种数字化语法连续创建的方法,包括标记语法连续的方法、语法连续生成模块、语法连续内容获取模块。
2. 如权利要求1所述的标记语法连续的方法,包括文本语法连续标记方法、多行小字语法连 续标记方法、着重词语法连续标记方法。
3. 如权利要求2所述的文本语法连续标记方法,包括(1) 文本语法连续标记创建文本语法连续标记符;(2) 连续标识属性连续标识为非负整数或一对非负整数,标识该文本与其它文本的语 法连续关系。(3) 连续关系编号属性连续关系编号为整数或一对整数,给文本编号,通过编号连接 连续的文本。
4. 如权利要求2所述的多行小字语法连续标记方法,包括(1) 多行小字语法连续标记创建多行小字语法连续标记符;(2) 连续标识属性标识所有多行小字行与行之间语法连续关系。
5. 如权利要求2所述的着重词语法连续标记方法,包括(1)着重词语法连续标记创建着重词语法连续标记符; (2 )连续标识属性表示两个着重词之间的语法连续关系。(3) 连续关系编号属性迕续关系编号为整数或一对整数,给着重词编号,通过编号连 接连续的着重词。
6. 如权利要求1所述的语法连续生成模块,包括 文本语法连续生成模块将文本语法连续原始数据生成规范格式数据。 多行小字语法连续生成模块将多行小字语法连续原始数据生成规范格式数据。 着重词语法连续生成模块将着重词语法连续原始数据生成规范格式数据。
7. 如权利要求1所述的语法连续内容获取模块,包括连续内容提取模块判断格式规范的数据中的连续标记,提取一种文献连续的内容。
全文摘要
本发明提供一种数字化语法连续创建的方法,使得数字化内容在语法上是连续的。本发明特点数字化加工单位通过本发明提供的文本语法连续标记方法、多行小字语法连续标记方法、着重词语法连续标记方法,在加工一种文献之前先分析文献行与行之间、页与页之间、多行小字行与行之间、着重词跨行跨页语法连续规律,在加工完成后先通过语法连续生成模块生成格式规范的含有语法连续知识的文件,再通过语法连续内容获取模块提取一种文献连续的内容。
文档编号G06F17/22GK101650707SQ20091016982
公开日2010年2月17日 申请日期2009年9月4日 优先权日2009年9月4日
发明者朱人杰, 蒋贤春, 蓝德康, 谢术清, 珑 郑 申请人:北京中易中标电子信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1