一种信息提取方法及装置的制作方法

文档序号:6585246阅读:159来源:国知局
专利名称:一种信息提取方法及装置的制作方法
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种信息提取方法及装置。
背景技术
随着互联网和信息技术的快速发展,报纸出版业的数字化工程也竞相开展。在报 纸出版业的数字化信息过程中,报纸资源的数字化信息已经成为报社核心的数字资产。所 述报纸资源的数字化信息包括稿件信息,如报纸版面上文章(正文、段落和标题等)、表 格中的文字和图片内容等;版面信息,包括报纸版次、版面名称、日期、稿件的位置信息(如 坐标信息)、标题及正文的字体、字号等格式信息,文章与图片、图片与文字说明的关联信息寸。为了将所述报纸资源的数字化信息作为历史资料被完整准确的保存下来以备将 来查询,或者通过多种数字媒体技术实时准确的进行跨媒体发布,如通过新闻网站、数字报 刊和光盘出版等,则可以通过标引软件从报纸的版面信息反解出来版面文件即所述的报纸 资源的数字化信息;然后,再将所述反解出来的报纸数字化信息进行标引、修改以及校对。但是,在实现本发明的过程中,发明人发现现有的技术中至少存在如下问题现有 的技术中所采用的计算机自动标引无法从所述报纸的版面文字块信息和稿件文字块信息 中提取出预设文字块信息,例如校对员名称,版式设计员名称、作者姓名,编辑员名称等 数据信息,这样就需要标引员手工进行一一标引,使得标引人员的工作量较大,且准确率较 低。

发明内容
本发明实施例提供了一种信息提取方法及装置,以实现从所述报纸的版面文字块 信息和稿件文字块信息中自动提取出预设文字块信息。为达到上述目的,本发明的实施例采用如下技术方案—方面,本发明实施例提供了一种信息提取方法,包括从版面文件中提取文字块信息,其中,所述文字块信息包括版面文字块信息和稿 件文字块信息;判断所述文字块信息中的预设版面文字块信息是否被提取;如果所述的预设版面文字块信息未被提取,则提取所述预设版面文字块信息;如果所述的预设版面文字块信息已被提取,则提取预设稿件文字块信息。另一方面,本发明实施例提供了一种信息提取装置,包括文字块信息提取单元,用于从版面文件中提取文字块信息,其中,所述文字块信息 包括版面文字块信息和稿件文字块信息;判断单元,用于判断所述文字块信息中的预设版面文字块信息是否被提取;预设版面提取单元,用于如果所述的预设版面文字块信息未被提取,则提取所述 预设版面文字块信息;
预设稿件提取单元,用于如果所述的预设版面文字块信息已被提取,则提取预设 稿件文字块信息。本发明实施例提供的一种信息提取方法及装置,通过判断所述文字块信息中的预 设版面文字块信息是否被提取,可以防止同一预设版面文字块信息重复被提取;如果所述 的预设版面文字块信息未被提取,则提取所述预设版面文字块信息,从而实现了预设版面 文字块信息的自动提取;如果所述的预设版面文字块信息已被提取,则提取预设稿件文字 块信息,从而实现了预设稿件文字块信息的自动提取。


图1为本发明实施例提供的一种信息提取方法流程图;图2为本发明实施例提供的一种信息提取方法具体实现流程图;图3为本发明实施例提供的一种信息提取装置结构示意图。
具体实施例方式下面结合附图对本发明实施例提供的一种信息提取方法及装置进行详细的说明。如图1所示,为本发明实施例提供的一种信息提取方法,该方法,具体实现过程如 下101 从版面文件中提取文字块信息,其中,所述文字块信息包括版面文字块信 息和稿件文字块信息;其中,所述版面文件可以理解为报纸的某个版面通过标引软件所反 解出来的数字化信息。所述从版面文件中提取文字块信息就是从所述报纸版面的数字化信 息中提取文字块信息。102 判断所述文字块信息中的预设版面文字块信息是否被提取;103 如果所述的预设版面文字块信息未被提取,则提取所述预设版面文字块信 息;104 如果所述的预设版面文字块信息已被提取,则提取预设稿件文字块信息。本发明实施例提供的一种信息提取方法及装置,通过判断所述文字块信息中的预 设版面文字块信息是否被提取,可以防止同一预设版面文字块信息重复被提取;如果所述 的预设版面文字块信息未被提取,则提取所述预设版面文字块信息,从而实现了预设版面 文字块信息的自动提取;如果所述的预设版面文字块信息已被提取,则提取预设稿件文字 块信息,从而实现了预设稿件文字块信息的自动提取。基于以上实施例,如图2所示,为本发明实施例提供的一种信息提取方法具体实 现流程图。当需要提取某种预设版面文字块信息和预设稿件文字块信息时,则需要进行如 下流程201 设置所述预设版面文字块信息的正则表达式匹配规则、所述预设稿件文字 块信息的正则表达式匹配规则以及所述预设稿件文字块信息的特征信息;其中,所述预设 版面文字块信息的正则表达式匹配规则和所述预设稿件文字块信息的正则表达式匹配规 则可以通过正则表达式的形式进行表示;所述的预设稿件文字块信息的特征信息则可以包 括字体信息和位置信息。通过所述预设版面文字块信息的正则表达式匹配规则可以从文 字块信息中提取到所述预设版面文字块信息;通过所述预设稿件文字块信息的正则表达式匹配规则可以从文字块信息中提取到所述预设稿件文字块信息;为了更加准确的获取到所 述预设稿件文字块信息可以首先通过所述预设稿件文字块信息的特征信息缩小获取所述 预设稿件文字块信息的匹配范围,然后在所述范围中再进行预设稿件文字块信息的匹配。202 从版面文件中提取文字块信息,其中,所述文字块信息包括版面文字块信 息和稿件文字块信息;203 判断所述文字块信息中的预设版面文字块信息是否被提取;204 如果所述的预设版面文字块信息未被提取,则提取所述预设版面文字块信 息;其具体的实现过程如下Sll 所述如果所述的预设版面文字块信息未被提取,获取所述预设版面文字块信 息的正则表达式匹配规则;根据所述预设版面文字块信息的正则表达式匹配规则从所述版 面文字块信息中提取所述预设版面文字块信息;其中,所述的预设版面文字块信息可以为 版面信息中的编辑名称、校对员名称、版式设计员名称等等;所述的预设版面文字块信息的 正则表达式匹配规则可以根据所述具体需要进行提取的版面文字块信息进行设置。S12 将所述预设版面文字块信息的提取标识设置为已提取状态。需要注意的是,为了保证所述预设版面文字块信息提取的准确性,还可以对所述 提取到的预设版面文字块信息进行如下操作。S13 校验所述预设版面文字块信息,并给出校验结果;具体的校验过程为设所 述预设版面文字块信息为所述版面文字块信息中的编辑名称;可以通过将所述提取到的编 辑名称与预先存储的编辑名称库中的名称进行匹配,如果所述编辑名称库中存在该编辑名 称,则认为所述提取的预设版面文字块信息正确,即校验结果为100%正确;如果所述提取 到的编辑名称与预先存储的编辑名称库中的名称部分匹配,或者完全不匹配,则根据匹配 状态给出正确率,即校验结果为50%正确,或者0%正确。S14 根据所述校验结果,标识所述校验的预设版面文字块信息。例如将100%正 确的预设版面文字块信息标识为白色;将50%正确的预设版面文字块信息标识为黄色;将 0%正确的预设版面文字块信息标识为红色。205 如果所述的预设版面文字块信息已被提取,则提取预设稿件文字块信息;其 具体的实现过程可以为如果所述的预设版面文字块信息已被提取,获取所述预设稿件文字块信息的正则 表达式匹配规则;根据所述预设稿件文字块信息的正则表达式匹配规则从所述版面文字块 信息中提取所述预设稿件文字块信息。为了更加准确的提取到所述预设版面文字块信息,本发明实施例提取预设稿件文 字块信息的过程还可以通过如下过程实现设以下提取的预设稿件文字块信息为作者姓 名;S21 当所述预设稿件文字块信息的特征信息包括字体信息时,如果所述的预设 版面文字块信息已被提取,根据所述预设稿件文字块信息的字体信息获取所述预设稿件文 字块信息集合。例如设字体信息为黑体;则如果所述的预设版面文字块信息已被提取, 就将所述稿件文字块信息中所有字体为黑体的文字块信息都提取出来,将所述提取出来的 信息组合为预设稿件文字块信息集合{T}。为了进一步准确的获取到所述预设稿件文字块信息,本发明实施例还可以通过设置特征信息中包括位置信息来进一步缩小获取所述预设稿件文字块信息的范围;当获取 到预设稿件文字块信息集合IT}后,继续进行如下操作S22 当所述预设稿件文字块信息的特征信息还包括位置信息时,对所述预设稿 件文字块信息集合进行预处理,分别获取得到所述预设稿件文字块信息集合{Ts}及所述 预设稿件文字块信息集合{Te};例如设位置信息为所述预设稿件文字块信息集合内容 的开头到第一个出现参考符的位置I3S ;和/或,所述预设稿件文字块信息集合内容的结尾 到最后一个出现参考符的位置Pe。对所述预设稿件文字块信息集合{T}进行预处理的过程具体可以包括所述预设 稿件文字块信息集合IT}中可能存在字体描述不一致的问题所导致的待提取内容T中存在 括号不一致的问题。S23 按照所述位置信息,从所述预设稿件文字块信息集合{T}中提取所述预设稿 件文字块信息的子集{A};具体的讲,就是可以首先按照所述位置信息1^,从所述预设稿件 文字块信息集合{Ts}提取相应的信息al,如果提取到al,则将al作为子集{A};如果未提 取到al,则再按照所述位置信息Pe,从所述预设稿件文字块信息集合{Te}提取相应的信息 a2,将a2作为子集{A}。S24 根据所述设置的预设稿件文字块信息的正则表达式匹配规则,从所述预设稿 件文字块信息的子集中提取所述预设稿件文字块信息;设所述预设稿件文字块信息的正则 表达式匹配规则的匹配级别数量为4 ;其中,所述匹配级别1的正则表达式匹配规则数量为 3,所述匹配级别2的正则表达式匹配规则数量为3,所述匹配级别3的正则表达式匹配规则 数量为2,所述匹配级别4的正则表达式匹配规则数量为1 ;间隔符为逗号或分号;所述各 个匹配级别的正则表达式匹配规则组成一个匹配集;该步骤具体可以包括按照匹配级别依次从所述匹配集中获取所述匹配级别对应的正则表达式匹配规 则;所述正则表达式匹配规则描述方式为正则表达式。该步骤具体为首先,从匹配集中获取匹配级别1所对应的3个正则表达式匹配规则;该规则如 下规则ι可以为Λ (. * ?(记者I记者组I作者I实习生I通讯员I文V摄I V 摄I文V图I插图I漫画I制图I实习记者I V文I评论员I点评).* \)/g;上述正则表达式表示全文匹配“(”,并且匹配“非回车符”零到无限次,并且匹配 “记者”或“记者组”或“作者”或“实习生”或“通讯员”或“文/摄”或“/摄”或“文/图” 或“插图”或“漫画”或“制图”或“实习记者”或“/文”或“评论员”或“点评”,并且匹配“非 回车符”零到无限次,并且匹配“)”。规则2可以为Λ (\s*([\u4e00-\u9fa5]{2,5}\s+[\u4e00-\u9fa5]{2, 5}\s*)+\s*\)/g ;上述正则表达式表示全文匹配“(”,并且匹配“空白字符”零到无限次,并且匹配2 个到5个中文字符,并且匹配一个“空白字符”,并且匹配2个到5个中文字符,并且匹配“空 白字符”零到无限次,并且匹配“空白字符”零到无限次,并且匹配“)”。规则3可以为/(记者I记者组I作者I实习生I通讯员I实习记者I评论员 制图 I 漫画 I 插图 I 撰稿)(|\s V)*[\u4e00-\U9fa5]{2,6}\S*( = ($ | \n V 摄 | V 文I发自I综合报道I文V摄I V画I文并摄I摄影报道I V绘图I整理I摘录整合I摄[\u4e00-\u9fa5] {2,5}专电 | 摄影 | 文 V 图 | 报道 | 采写 \ (本报[\u4e00_\u9fa5]* 电 \) I 本版[\u4e00-\u9fa5]*))/g ;上述正则表达式“(记者ι记者组ι作者ι实习生ι通讯员ι实习记者I评论员 制图I漫画I插图I撰稿)”表示匹配“记者”或“记者组”或“作者”或“实习生”或“通
讯员,,或“实习记者”或“评论员,,或“制图”或“漫画”或“插图”或“撰稿”;上述正则表达式“(|\s|V )*[\u4e00-\u9fa5] {2,6} \s*” 表示匹配“”或“空 白字符”或“/”零到无限次,并且匹配2个到6个中文字符,并且匹配“空白字符”零到无限 次;上述正则表达式“(?=”表示断言要匹配的文本的后缀;上述正则表达式“($ ι \η ι V摄I V文I发自I综合报道I文V摄I V画I文并摄 摄影报道I V绘图I整理I摘录整合I摄I [\u4e00-\u9fa5] {2,5}专电|摄影|文V图 报道I采写\ (本报[\u4e00-\u9fa5]*电\) |本版[\u4e00_\u9fa5] *) ”为后缀内容,即
匹配位置后面紧跟是字符串结尾或一个“回车符”,或匹配如下任一字符串“/摄”、“/文”、 “发自”、“综合报道”、“文/摄”、“/画”、“文并摄”、“摄影报道”、“/绘图”、“整理”、“摘录整 合”、“摄”、“摄影” “文/图” “报道” “采写”或匹配“本报”后面紧跟一个以上中文字符并 最后紧跟“电”或匹配“本版”后面紧跟一个以上中文字符;上述“/g”表示全文查找出现的所有匹配字符。其次,从匹配集中获取匹配级别2所对应的3个正则表达式匹配规则;该规则如 下规则1 :/(\. |,|\ I! ri\r|\n| V摄 I 文V摄 I V画 I 文并摄 I V 绘图 I 文V 图 V文字整理 V实习生 V文)\s*[\u4e00-\u9fa5] {2,4}\s*( ?=((摄[\n$]) V 文ι文ν摄ι ν画ι文并摄ι ν绘图ι摄影ι文ν图ι ν文字整理ι ν实习生))/g;上述正则表达式“(\. |,|\ ? |! ri\r|\n| V摄I文V摄I V画I文并摄I V 绘图I文V图ι V文字整理ι V实习生ι V文)”表示匹配“.”或“,”或“?”或“! ”或 “\r”或“\n”或“/摄”或“文/摄”或“/画”或“文并摄”或“/绘图”或“文/图”或“/文 字整理”或“/实习生”或“/文”;上述正则表达式“S*[\Me00-\u9fa5] {2,4} \s*”表示匹配“空白字符”零到无限 次,并且匹配2个到4个中文字符,并且匹配“空白字符”零到无限次;上述正则表达式“(?=”表示断言要匹配的文本的后缀;上述正则表达式“((摄[\n$]) I V文ι文V摄ι V画ι文并摄ι V绘图ι摄影 文ν图ι ν文字整理ι ν实习生)”表示后缀内容,即匹配“/摄”后面紧跟换行符或后面是 字符串结尾或“/文”或“文/摄”或“/画”或“文并摄”或“/绘图”或“摄影”或“文/图” 或“/文字整理”或“/实习生”;最后紧跟的“)”表示后缀结束;上述“/g”表示全文查找出现的所有匹配字符。规则2:/(记者I记者组I作者I实习生I通讯员I实习记者I评论员) (\s*| V )+[\u4e00-\u9fa5]{2,4}(\s+[\u4e00-\u9fa5]{2,6}){1, }\s*( ? = ($|\n| V 摄I发自I综合报道I文V摄I V画I文并摄I摄影报道I报道摄影I V绘图I整理I摄 {2,5}专电|摄影|文V图|报道|采写))/g ;上述正则表达式“(记者ι记者组ι作者ι实习生ι通讯员ι实习记者I评论员)”意思是匹配字符串“记者”或“记者组”或“作者”或“实习生”或“通讯员”或“实习记者” 或“评论员”;上述正则表达式“(\s*| V ) ”表示匹配“空白字符”零次或更多次,或匹配“/”;其 中“ + ”表示并且匹配“(\s* V)” 一次以上;上述正则表达式“ [\Me00_\u9fa5] {2,4},,表示匹配2个到4个中文字符;上述正则表达式“(\S+[\u4e00-\u9fa5] {2,6}) {1,} ” 表示如下,“ (\s+[\u4e00-\ u9fa5] {2,6},,表示重复匹配“空白字符” 一次以上,匹配2个大到6个中文字符。“ {1,},, 表示重复匹配“ (\s+[\u4e00-\u9fa5] {2,6}”一次以上;上述正则表达式“\s*”表示重复匹配“空白字符”零次或更多次;上述正则表达式“(?=”表示断言要匹配的文本的后缀;上述正则表达式“($|\n I V摄I发自I综合报道I文V摄I V画I文并摄I摄 影报道I报道摄影I V绘图I整理I摄I [\Me00-\u9fa5] {2,5}专电|摄影|文V图|报 道I采写I)”为上面所述后缀内容,表示匹配位置紧跟是字符串结尾或回车符或“/摄”或 “发自,,或“综合报道”或“文/摄”或“/画”或“文并摄”或“摄影报道”或“道摄影”或“/ 绘图”或“整理”或“摄”或2个到5个中文字符后面跟着“专电”或“摄影”或“文/图”或 “报道I ”或“采写”;最后紧跟的“)”表示后缀结束;上述“/g”表示全文查找出现的所有匹配字符。规则3:/( I · I □ I €))\S*.*( = ($|\r|\n))/g;上述正则表达式“( I · I □ I ◎ )\”表示字符串匹配“ ”或“·”或“□”或 “◎”;上述正则表达式“ \s*. *”表示重复匹配空白字符零次或更多次,重复匹配非换行 符零次或更多次;上述正则表达式“(?=”表示断言要匹配的文本的后缀;上述正则表达式“($ I \r|\n) ”表示后缀内容,匹配字符串结尾或回车换行符最后 紧跟的“)”表示后缀结束;上述“/g”表示全文查找出现的所有匹配字符。再次,从匹配集中获取匹配级别3所对应的2个正则表达式匹配规则;该规则如 下规则1 Λ (\s*[\u4e00_\u9fa5] {2,4} (\s+[\u4e00-\u9fa5] {2,6}) {1,}\s*\)/ g ;上述正则表达式“\S*[\u4e00-\u9fa5] {2,4} ”表示重复匹配“空白字符”零次或 更多次,匹配2个到4个中文字符;上述正则表达式“(\S+[\u4e00-\u9fa5] {2,6}) ”表示匹配“空白字符”一次以上, 匹配2个到6个中文字符;上述正则表达式“{1,}”表示匹配“(\s+[\u4e00-\u9fa5] {2,6})” 一次以上;上述正则表达式“\s*”表示重复匹配“空白字符”零次或更多次;上述“/g”表示全文查找出现的所有匹配字符;规贝丨J2 :re =A (\s* [\u4e00-\u9fa5] {2,4} \s*\) /g ;上述正则表达式表示重复匹配“空白字符”零次或更多次,匹配2个到4个中文字符,重复匹配“空白字符”零次或更多次;其中“/g”表示全文查找出现的所有匹配字符;最后,从匹配集中获取匹配级别4所对应的1个正则表达式匹配规则;该规则如 下规则1 /(\s+1 “ I \ ? I \· I ! ) [\u4e00-\u9fa5] {2,4} \s* ( ?=((摄[\n$]) | V 摄ι ν文ι文ν摄ι ν画ι文并摄|\8摄ι ν绘图ι摄影ι文ν图ι ν文字整理ι ν实习 生))/g;上述正则表达式“(\s+n\ V I !)”表示匹配“空白字符”一次以上或是字 符串开头位置或匹配“ ?”或“.”或“ !”;上述正则表达式“ [\u4e00_\u9fa5] {2,4} \s*”表示匹配2个到4个中文字符,重
复匹配“空白字符”零次或更多次;上述正则表达式“(?=”表示断言要匹配的文本的后缀;上述正则表达式“((摄[\n$]) I V摄I V文I文V摄I V画I文并摄|\8摄I V 绘图I摄影I文ν图ι ν文字整理ι ν实习生)”表示匹配“摄”后紧跟换行符或后面是字 符串结尾,或匹配“/摄”或“/文”或“文”或“文并摄”或后面紧跟一个空白字符及“摄”或 “/绘图”或“摄影”或“文/图”或“/文字整理”或“/实习生”;最后紧跟的“)”表示后缀 结束;其中“/g”表示全文查找出现的所有匹配字符。根据所述获取到的正则表达式匹配规则,对所述预设稿件文字块信息的子集中的 内容进行内容匹配,给出匹配结果;例如根据所述匹配级别1的3个正则表达式匹配规则 与所述预设稿件文字块信息的子集中的内容进行匹配,从而可以提取出来“作者,王一”,并 将其加入到集合{B},然后继续获取匹配级别2的3个正则表达式匹配规则与所述预设稿件 文字块信息的子集中的内容进行匹配,未提取出任何信息;接着,获取匹配级别3的2个正 则表达式匹配规则与所述预设稿件文字块信息的子集中的内容进行匹配,提取出来“通讯 员,赵二”,并将其加入到集合{B};最后,获取匹配级别4的1个正则表达式匹配规则与所 述预设稿件文字块信息的子集中的内容进行匹配,提取出来“编辑张三”,并将其加入到集 合{B};所述集合{B}为{作者,王一,通讯员,赵二,编辑张三}。在获取到所述集合{B}为{作者,王一,通讯员,赵二,编辑张三}时,还可以根据 相应的过滤规则对匹配结果进行关键词过滤,得到作者姓名“王一”,将所述姓名提取到作 者集{Bi}中;依次将所述通讯员姓名“赵二”提取到通讯员姓名集{BW中;将所述编辑姓 名“张三”提取到编辑姓名集{B3}中。关键词过滤过程完成关键词去除过程,关键词如“作 者”、“编辑”、“通讯员”等。需要说明的是,由于通过关键词过滤得到的结果中可能存在多个由特定标点符号 (如逗号,分号)间隔的结果,如{王一,赵二,张三},因此需要对结果集进行再提取。以特 定标点符号为间隔符,切割字符串得到多个结果,如将“王一”加入结果集{Al};将“赵二” 加入结果集{A2};将“张三”加入结果集{A3},。需要注意的是,匹配级别可以根据实验统计获得最佳值。正则表达式匹配规则都是以正则表达式的方式表达,由多个关键词组合而成。具 体看相关参数描述,也可以根据具体不同实例配置。每个正则表达式匹配规则对应一个关键词替代规则。多级别的规则设置能最大程度的提取到所有作者;其中,所述包括记者姓 名、通讯员姓名、摄影姓名、采编姓名、实习生姓名、文字整理姓名、评论员姓名等。S25 将所述预设稿件文字块信息的子集进行信息再处理;该步骤的具体实现过 程可以包括所述将所述结果集{Al}、{A2}、{A3}.. . {An}合并到结果集{A};然后,再将所 述结果集{A}进行消重和漏处理的关键词二次过滤。具体的讲就是将结果集{A}中内容相 同的信息项去除,并将对所述结果集{A}进行再次关键词过滤。S26:从所述再处理后的所述预设稿件文字块信息的子集中提取所述预设稿件文
字块信息。需要注意的是,该方法还包括S27 校验所述预设稿件文字块信息,并给出校验结果;其具体的校验过程可以利 用预先存储的的字典信息验证提取所述预设稿件文字块信息即作者姓名集{A}的正确率, 步骤如下步骤1 依次获取作者A,对比已建好的作者名字典,查看是否都存在,存在,则标 识此作者集{A}正确率为100%。对某些部分匹配,或是完全不匹配,对作者集{A}分别标 识60%,0的正确率。步骤2 设置好覆盖率为95%中文姓氏字典,对正确率为不是100%的作者集进行 二次正确率计算,获取作者字符串的第一个字符,对比姓氏字典,如果存在,则提升正确率。 如不存在,获取作者字符串的前两个字符,对比姓氏字典,如果存在,则提升正确率,否则降 低。S28 根据所述校验结果,标识所述校验的预设稿件文字块信息。如图3所示,为本发明实施例提供的一种信息提取装置,该装置包括文字块信息提取单元301,用于从版面文件中提取文字块信息,其中,所述文字块 信息包括版面文字块信息和稿件文字块信息;判断单元302,用于判断所述文字块信息中的预设版面文字块信息是否被提取;预设版面提取单元303,用于如果所述的预设版面文字块信息未被提取,则提取所 述预设版面文字块信息;预设稿件提取单元304,用于如果所述的预设版面文字块信息已被提取,则提取预 设稿件文字块信息。需要注意的是,该装置还包括设置单元,用于设置所述预设版面文字块信息的正则表达式匹配规则、所述预设 稿件文字块信息的正则表达式匹配规则以及所述预设稿件文字块信息的特征信息。需要注意的是,所述预设版面提取单元303,包括规则获取子单元,用于获取所述预设版面文字块信息的正则表达式匹配规则;预设版面提取子单元,用于根据所述预设版面文字块信息的正则表达式匹配规则 从所述版面文字块信息中提取所述预设版面文字块信息;标识设置子单元,用于将所述预设版面文字块信息的提取标识设置为已提取状 态。还需要注意的是,所述预设版面提取单元303,还包括校验子单元,用于校验所述预设版面文字块信息,并给出校验结果;
标识子单元,用于根据所述校验结果,标识所述校验的预设版面文字块信息。还需要注意的是,所述预设稿件提取单元304,还用于获取所述预设稿件文字块信 息的正则表达式匹配规则,根据所述预设稿件文字块信息的正则表达式匹配规则从所述版 面文字块信息中提取所述预设稿件文字块信息;或者,当所述预设稿件文字块信息的特征信息包括字体信息和所述位置信息时,所述 预设稿件提取单元304,还用于根据所述预设稿件文字块信息的字体信息获取所述预设稿 件文字块信息集合,根据所述预设稿件文字块信息的字体信息,获取所述预设稿件文字块 信息集合;对所述预设稿件文字块信息集合进行预处理;按照所述位置信息,从所述预设 稿件文字块信息集合中提取所述预设稿件文字块信息的子集;根据所述设置的预设稿件文 字块信息的正则表达式匹配规则,从所述预设稿件文字块信息的子集中提取所述预设稿件 文字块信息。还需要注意的是,所述预设稿件提取单元304,包括信息再处理子单元,用于将所述预设稿件文字块信息的子集进行信息再处理;预设稿件提取子单元,用于从所述再处理后的所述预设稿件文字块信息的子集中 提取所述预设稿件文字块信息。还需要注意的是,所述预设稿件提取单元304,还包括校验子单元,用于校验所述预设稿件文字块信息,并给出校验结果;标识子单元,用于根据所述校验结果,标识所述校验的预设稿件文字块信息。本发明实施例提供的一种信息提取方法及装置,通过判断所述文字块信息中的预 设版面文字块信息是否被提取,可以防止同一预设版面文字块信息重复被提取;如果所述 的预设版面文字块信息未被提取,则提取所述预设版面文字块信息,从而实现了预设版面 文字块信息的自动提取;如果所述的预设版面文字块信息已被提取,则提取预设稿件文字 块信息,从而实现了预设稿件文字块信息的自动提取。与现有技术相比,本发明实施例不但 可以自动的提取到的预设版面文字块信息和预设稿件文字块信息,还可以进一步通过预先 存储的库信息与所述提取到的预设版面文字块信息和预设稿件文字块信息进行比较,从而 提高所述提取预设版面文字块信息和预设稿件文字块信息的准确性,从而大大降低了标引 人员的工作量,提高了提取的准确率。其中,所述提取预设稿件文字块信息的过程本发明还 通过特征信息将提取所述预设稿件文字块信息的范围缩小,进一步提高了提取所述预设稿 件文字块信息准确率。通过以上的实施方式的描述,本领域普通技术人员可以理解实现上述实施例方 法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于 一计算机可读取存储介质中,该程序在执行时,包括如上述方法实施例的步骤,所述的存储 介质,如R0M/RAM、磁碟、光盘等。以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
权利要求
1.一种信息提取方法,其特征在于,包括从版面文件中提取文字块信息,其中,所述文字块信息包括版面文字块信息和稿件文 字块信息;判断所述文字块信息中的预设版面文字块信息是否被提取;如果所述的预设版面文字块信息未被提取,则提取所述预设版面文字块信息;如果所述的预设版面文字块信息已被提取,则提取预设稿件文字块信息。
2.根据权利要求1所述的信息提取方法,其特征在于,该方法,还包括设置所述预设版面文字块信息的正则表达式匹配规则、所述预设稿件文字块信息的正 则表达式匹配规则以及所述预设稿件文字块信息的特征信息。
3.根据权利要求2所述的信息提取方法,其特征在于,所述提取所述预设版面文字块 信息的步骤,包括获取所述预设版面文字块信息的正则表达式匹配规则;根据所述预设版面文字块信息的正则表达式匹配规则从所述版面文字块信息中提取 所述预设版面文字块信息;将所述预设版面文字块信息的提取标识设置为已提取状态。
4.根据权利要求3所述的信息提取方法,其特征在于,提取所述预设版面文字块信息 的步骤,还包括校验所述预设版面文字块信息,并给出校验结果;根据所述校验结果,标识所述校验的预设版面文字块信息。
5.根据权利要求2至4中任意一项所述的信息提取方法,其特征在于,所述提取预设稿 件文字块信息的步骤,包括获取所述预设稿件文字块信息的正则表达式匹配规则;根据所述预设稿件文字块信息的正则表达式匹配规则从所述版面文字块信息中提取 所述预设稿件文字块信息。
6.根据权利要求2至4中任意一项所述的信息提取方法,其特征在于,当所述预设稿件 文字块信息的特征信息包括字体信息时,所述提取预设稿件文字块信息的步骤,还包括根据所述预设稿件文字块信息的字体信息获取所述预设稿件文字块信息集合。
7.根据权利要求6所述的信息提取方法,其特征在于,当所述预设稿件文字块信息的 特征信息还包括位置信息时,所述提取预设稿件文字块信息的步骤,还包括对所述预设稿件文字块信息集合进行预处理;按照所述位置信息,从所述预设稿件文字块信息集合中提取所述预设稿件文字块信息 的子集;根据所述预设稿件文字块信息的正则表达式匹配规则,从所述预设稿件文字块信息的 子集中提取所述预设稿件文字块信息。
8.根据权利要求7所述的信息提取方法,其特征在于,所述根据所述预设稿件文字块 信息的正则表达式匹配规则,从所述预设稿件文字块信息的子集中提取所述预设稿件文字 块信息的步骤,包括将所述预设稿件文字块信息的子集进行信息再处理;从所述再处理后的所述预设稿件文字块信息的子集中提取所述预设稿件文字块信息。
9.根据权利要求8所述的信息提取方法,其特征在于,所述提取预设稿件文字块信息 的步骤,还包括校验所述预设稿件文字块信息,并给出校验结果; 根据所述校验结果,标识所述校验的预设稿件文字块信息。
10.一种信息提取装置,其特征在于,包括文字块信息提取单元,用于从版面文件中提取文字块信息,其中,所述文字块信息包 括版面文字块信息和稿件文字块信息;判断单元,用于判断所述文字块信息中的预设版面文字块信息是否被提取; 预设版面提取单元,用于如果所述的预设版面文字块信息未被提取,则提取所述预设 版面文字块信息;预设稿件提取单元,用于如果所述的预设版面文字块信息已被提取,则提取预设稿件 文字块信息。
11.根据权利要求10所述的信息提取装置,其特征在于,该装置,还包括设置单元,用于设置所述预设版面文字块信息的正则表达式匹配规则、所述预设稿件 文字块信息的正则表达式匹配规则以及所述预设稿件文字块信息的特征信息。
12.根据权利要求11所述的信息提取装置,其特征在于,所述预设版面提取单元,包括规则获取子单元,用于获取所述预设版面文字块信息的正则表达式匹配规则; 预设版面提取子单元,用于根据所述预设版面文字块信息的正则表达式匹配规则从所 述版面文字块信息中提取所述预设版面文字块信息;标识设置子单元,用于将所述预设版面文字块信息的提取标识设置为已提取状态。
13.根据权利要求12所述的信息提取装置,其特征在于,所述预设版面提取单元,还包括校验子单元,用于校验所述预设版面文字块信息,并给出校验结果; 标识子单元,用于根据所述校验结果,标识所述校验的预设版面文字块信息。
14.根据权利要求11至13中任意一项所述的信息提取装置,其特征在于,所述预设稿件提取单元,还用于获取所述预设稿件文字块信息的正则表达式匹配规 则,根据所述预设稿件文字块信息的正则表达式匹配规则从所述版面文字块信息中提取所 述预设稿件文字块信息;或者,当所述预设稿件文字块信息的特征信息包括字体信息和位置信息时,所述预设稿件 提取单元,还用于根据所述预设稿件文字块信息的字体信息获取所述预设稿件文字块信息 集合,对所述预设稿件文字块信息集合进行预处理;按照所述位置信息,从所述预设稿件文 字块信息集合中提取所述预设稿件文字块信息的子集;根据所述设置的预设稿件文字块信 息的正则表达式匹配规则,从所述预设稿件文字块信息的子集中提取所述预设稿件文字块 fn息ο
15.根据权利要求14所述的信息提取装置,其特征在于,所述预设稿件提取单元,包括信息再处理子单元,用于将所述预设稿件文字块信息的子集进行信息再处理; 预设稿件提取子单元,用于从所述再处理后的所述预设稿件文字块信息的子集中提取所述预设稿件文字块信息。
16.根据权利要求15所述的信息提取装置,其特征在于,所述预设稿件提取单元,还包括校验子单元,用于校验所述预设稿件文字块信息,并给出校验结果; 标识子单元,用于根据所述校验结果,标识所述校验的预设稿件文字块信息。
全文摘要
本发明实施例公开了一种信息提取方法及装置,涉及信息抽取技术领域。为了解决现有技术中,所采用的计算机自动标引无法从所述报纸的版面信息和稿件信息中提取出预设文字块信息的问题而发明。本发明实施例提供的一种信息提取方法,包括从版面文件中提取文字块信息,其中,所述文字块信息包括版面文字块信息和稿件文字块信息;判断所述文字块信息中的预设版面文字块信息是否被提取;如果所述的预设版面文字块信息未被提取,则提取所述预设版面文字块信息;如果所述的预设版面文字块信息已被提取,则提取预设稿件文字块信息。采用本发明实施例可以降低标引人员的工作量,提高标引的准确率。
文档编号G06F17/30GK102103612SQ20091024304
公开日2011年6月22日 申请日期2009年12月22日 优先权日2009年12月22日
发明者徐剑波, 林欣欣, 王辉, 董宁 申请人:北京方正阿帕比技术有限公司, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1