专利电子回执文件分析系统及方法

文档序号:6587869阅读:411来源:国知局
专利名称:专利电子回执文件分析系统及方法
技术领域
本发明涉及一种电子文件管理系统及方法,特别是关于一种专利电子回执文件分 析系统及方法。
背景技术
随着E化进程的加快,世界上很多官方专利局,如美国专利商标局(United StatesPatent and Trademark Office)、中华人民共和国国家知识产权局(the StateIntellectual Property Office of the People' s Republic of China)、日本专利 局(the Japanese Patent Office)、欧洲专利局(European Patent Office)等,都相继推 出了专利电子送件。利用专利电子送件可以节省大量的人力和物力,非常快捷方便。在专利电子送件 完成后,官方专利局会返回一个或者多个专利电子送件的回执文件。电子回执文件中包含 有专利信息,例如专利的申请号、申请日、发明人及申请费用等,但是这些专利信息只能靠 人工操作的方式来识别。例如通过人工查看并对比内部存储有专利信息的数据库系统及电 子回执文件来保证是否内容一致。然而,这种人工查看专利电子回执文件的缺点是工作量 大、操作麻烦,而且对于一些细微错误很难检查出来。

发明内容
鉴于以上内容,有必要提供一种专利电子回执文件分析系统,能够及时、快速、批 量地处理专利电子回执文件,不仅可以节省工作人员时间,而且可以减少人工错误识别以 及错误操作带来的风险。此外,还有必要提供一种专利电子回执文件分析方法,能够及时、快速、批量地处 理专利电子回执文件,不仅可以节省工作人员时间,而且可以减少人工错误识别以及错误 操作带来的风险。一种专利电子回执文件分析系统,运行于服务器中,该服务器通过国际互联网与 专利局网站连接,并分别与数据库及客户端计算机连接。该专利电子回执文件分析系统包 括文件下载模块,用于根据用户从客户端计算机中输入的下载指令从专利局网站下载用 户所需的专利电子回执文件,以及根据官方来文代码识别专利电子回执文件的文件类型; 文件转换模块,用于根据文件转换函数将PDF格式的专利电子回执文件转换为TIF格式的 图像文件;文字识别模块,用于根据文字识别函数从TIF格式的图像文件中识别出图像文 字信息;容错处理模块,用于对识别出的图像文字信息进行容错处理;信息分析模块,用于 根据正则表达式从容错后的图像文字信息中获取专利信息,将获取的专利信息与存储在数 据库的专利基本信息进行比较分析来判断获取的专利信息是否正确,以及将比较分析结果 发送至客户端计算机。—种专利电子回执文件分析方法,通过服务器对专利电子回执文件进行比较分析 后将比较分析结果发送至客户端计算机上。该专利电子回执文件分析方法包括如下步骤(a)、根据用户从客户端计算机中输入的下载指令从专利局网站下载用户所需的专利电子 回执文件;(b)、根据官方来文代码识别专利电子回执文件的文件类型;(c)、利用文件转换 函数将PDF格式的专利电子回执文件转换为TIF格式的图像文件;(d)、利用文字识别函数 从TIF格式的图像文件中识别出图像文字信息;(e)、对图像文字信息进行容错处理;(f)、 根据正则表达式从容错后的图像文字信息中获取专利信息;(g)、将获取的专利信息与存储 在数据库的专利基本信息进行比较分析来判断获取的专利信息是否正确;(h)、将比较分析 结果发送至客户端计算机。相较于现有技术,本发明所述的专利电子回执文件分析系统及方法,其能够及时、 快速、批量地处理专利电子回执文件,不仅可以节省工作人员时间,而且可以减少人工错误 识别及错误操作带来的风险。


图1是本发明专利电子回执文件分析系统较佳实施例的运行环境示意图。图2是本发明专利电子回执文件分析系统的功能模块示意图。图3是本发明专利电子回执文件分析方法较佳实施例的流程图。图4是图3中步骤S32的子流程图。图5是图3中步骤S34的子流程图。主要元件符号说明
权利要求
1.一种专利电子回执文件分析系统,运行于服务器中,该服务器通过国际互联网与专 利局网站连接,并分别与数据库及客户端计算机连接,其特征在于,该专利电子回执文件分 析系统包括文件下载模块,用于根据用户从客户端计算机中输入的下载指令从专利局网站下载用 户所需的专利电子回执文件,以及根据官方来文代码识别专利电子回执文件的文件类型;文件转换模块,用于根据文件转换函数将PDF格式的专利电子回执文件转换为TIF格 式的图像文件;文字识别模块,用于根据文字识别函数从TIF格式的图像文件中识别出图像文字信息;容错处理模块,用于对识别出的图像文字信息进行容错处理;以及信息分析模块,用于根据正则表达式从容错后的图像文字信息中获取专利信息,将获 取的专利信息与存储在数据库的专利基本信息进行比较分析来判断获取的专利信息是否 正确,以及将比较分析结果发送至客户端计算机。
2.如权利要求1所述的专利电子回执文件分析系统,其特征在于,所述的客户端计算 机用于发送下载指令至服务器从专利局网站下载专利电子回执文件,以及接收服务器对专 利电子回执文件的比较分析结果。
3.如权利要求1所述的专利电子回执文件分析系统,其特征在于,所述的文件转换模 块通过以下步骤进行文件转换将PDF格式的专利电子回执文件各页的内容存入剪切板中;利用文件转换函数将剪切板中的图像内容存储成JPG格式的图像文件;以及将JPG格式的图像文件转换为TIF格式的图像文件。
4.如权利要求1所述的专利电子回执文件分析系统,其特征在于,所述的容错处理模 块通过以下步骤进行容错处理建立一个文字误差识别表单;将识别出的各种图像文字信息存入文字误差识别表单中;从数据库中读取专利基本信息,并将图像文字信息与其对应的专利基本信息分别进行 比较来判断图像文字信息是否存在错误;以及利用专利基本信息替换文字误差识别表单中的错误图像文字信息。
5.如权利要求1所述的专利电子回执文件分析系统,其特征在于,所述的正则表达式 是一种描述文本信息的文字匹配规则,所述的信息分析模块根据文字匹配规则从文本信息 中分解出所需的专利信息。
6.一种专利电子回执文件分析方法,通过服务器对专利电子回执文件进行比较分析后 将比较分析结果发送至客户端计算机上,其特征在于,该方法包括如下步骤(a)、根据用户从客户端计算机中输入的下载指令从专利局网站下载用户所需的专利 电子回执文件;(b)、根据官方来文代码识别专利电子回执文件的文件类型;(c)、利用文件转换函数将PDF格式的专利电子回执文件转换为TIF格式的图像文件;(d)、利用文字识别函数从TIF格式的图像文件中识别出图像文字信息;(e)、对图像文字信息进行容错处理;(f)、利用正则表达式从容错后的图像文字信息中获取专利信息;(g)、将获取的专利信息与存储在数据库的专利基本信息进行比较分析来判断获取的 专利信息是否正确;以及(h)、将比较分析结果发送至客户端计算机。
7.如权利要求6所述的专利电子回执文件分析方法,其特征在于,所述的步骤(c)包括 如下步骤将PDF格式的专利电子回执文件各页的内容存入剪切板中;利用文件转换函数将剪切板中的图像内容存储成JPG格式的图像文件;以及将JPG格式的图像文件转换为TIF格式的图像文件。
8.如权利要求6所述的专利电子回执文件分析方法,其特征在于,所述的步骤(e)包括 如下步骤建立一个文字误差识别表单;将识别出的各种图像文字信息存入文字误差识别表单中;从数据库中读取专利基本信息;将各种图像文字信息与其对应的专利基本信息分别进行比较来判断图像文字信息是 否存在错误;以及当图像文字信息存在错误时,识别出错误的图像文字信息,并利用专利基本信息替换 文字误差识别表单中的错误图像文字信息。
9.如权利要求6所述的专利电子回执文件分析方法,其特征在于,所述的文件转 换函数为Windows中的API SavePicture函数,所述的文字识别函数为Windows中的 DocumentCalss对象的OCR接口函数。
10.如权利要求6所述的专利电子回执文件分析方法,其特征在于,所述的正则表达式 是一种描述文本信息的文字匹配规则,用于根据该文字匹配规则从文本信息中分解出所需 的专利信息。
全文摘要
一种专利电子回执文件分析系统及方法,该方法包括步骤根据用户从客户端计算机中输入的下载指令从专利局网站下载专利电子回执文件;利用文件转换函数将PDF格式的专利电子回执文件转换为TIF格式的图像文件;利用文字识别函数从TIF格式的图像文件中识别出图像文字信息;对图像文字信息进行容错处理;利用正则表达式从容错后的图像文字信息中获取专利信息;将获取的专利信息与数据库的专利基本信息进行比较分析;将比较分析结果发送至客户端计算机。实施本发明,能够及时、快速、批量地处理专利电子回执文件,不仅可以节省工作人员时间,而且可以减少人工错误识别以及错误操作带来的风险。
文档编号G06Q50/00GK102117436SQ20091031280
公开日2011年7月6日 申请日期2009年12月30日 优先权日2009年12月30日
发明者朱正才, 李忠一, 林海洪, 谢德意, 陈海云, 陶帅军 申请人:鸿富锦精密工业(深圳)有限公司, 鸿海精密工业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1