符号提取方法、符号提取装置及程序的制作方法

文档序号:8449247阅读:744来源:国知局
符号提取方法、符号提取装置及程序的制作方法
【技术领域】
[0001]本发明涉及一种用于通过参考文档和对应于该文档的图来提取图中描述的符号的方法、装置和程序。
【背景技术】
[0002]如这种装置,申请人提交专利文献1,其中公开了涉及知识产权管理装置的发明。
[0003]知识产权管理装置包括:输入部分,该输入部分输入在包括说明书和图的专利申请文档中的说明书和图的数据;控制部分,该控制部分从图提取符号(以数字字符或者字母形成的字符串)并且从说明书提取对应于该符号的名称(通过多种语言表达的字符串);以及显示部分,该显示部分将由控制部分提取的名称与对应于该名称的符号一起显示在图上。
[0004]图5示出了在显示部分中显示的图的一个实例。
[0005]通常地,只有符号显示在专利申请文档的图中。然而,当使用上述的知识产权管理装置时,如图5所示,符号以及对应于该符号的名称显示在显示部分上。因此,当阅读说明书时,分别由符号标记的部件能够容易地通过参考图而理解。
[0006]引用列表
[0007]专利文献
[0008]专利文献1:JP-A-2013-92916

【发明内容】

[0009]技术问题
[0010]当读取在图中描述的符号时,在大多数情况下,使用一种(OCR:光学字符识别)装置。具体地,打印出的图由扫描器读取,图的内容被转变成数字数据并且光学字符识别装置用于从数字数据读取图中的符号。
[0011]然而,由于光学字符识别装置仅根据形式来决定待被识别的对象是否是符号,所以即使当对象不是符号时,如果它的形式与符号相似,则光学字符识别装置可能有时错误地将对象识别为符号。例如,例示了下述的情况。
[0012](I)当设置有穿过在图中描述的部件的通孔时,通孔的开口部利用在图上的椭圆形或者圆形来表示。在这种情况下,椭圆形或者圆形可能有时错误地识别为“O(零)”。
[0013](2)当纵线被描述为在图中的轮廓线时,如果轮廓线很短,则纵线可能有时错误地识别为“I”。
[0014](3)当在(2)中描述的两条短纵线平行地画出时,短纵线可能有时错误地识别为“11”。
[0015](4)当在⑴中描述的表示通孔的椭圆形或者圆形画于在(2)中描述的作为轮廓线的短纵线的右侧时,椭圆形或者圆形以及短纵线可能有时错误地识别为“10”。
[0016](5)当将字母用作符号时,“B”可能有时错误地识别为“3”。
[0017]如上所述,通常地,即使当使用光学字符识别装置时,也不能够经常准确地提取在图中的符号。
[0018]本发明通过考虑在普通的字符辨识中的上述问题而设计,并且本发明的目的是提供一种符号提取方法、符号提取装置及用于执行上述方法的程序,使得即使当使用光学符号辨识装置时,也能够精确地提取在图中的符号。
[0019]解决问题的方案
[0020]为了解决该问题,本发明提供一种用于提取在图中的符号的方法,该方法包括:
[0021]第一步骤,该第一步骤提取在文档中描述的符号;
[0022]第二步骤,该第二步骤提取在对应于所述文档的所述图中描述的符号;
[0023]第三步骤,该第三步骤将在所述第一步骤中提取的所述符号与在所述第二步骤中提取的所述符号相比较;以及
[0024]第四步骤,该第四步骤提取在所述第三步骤中分别互相对应的所述符号。
[0025]优选地,该方法还包括第五步骤,该第五步骤提取在所述第三步骤中未分别互相对应的所述符号。
[0026]此外,本发明提供了符号提取装置,该符号提取装置包括:输入单元、控制单元、存储单元和显示单元,其中
[0027]在所述存储单元中,记录通过所述输入单元输入的、示出文档和对应于所述文档的图的数据,并且
[0028]根据存储在所述存储单元的、示出所述文档和所述图的所述数据,所述控制单元提取分别在所述文档和所述图中描述的符号,所述控制单元将所述文档的所提取的所述符号与所述图的所提取的所述符号相比较,提取分别互相对应的所述符号,并且将所述被提取的符号显示在所述显示单元上。
[0029]优选地,控制单元将所述文档的所述被提取的符号与所述图的所述符号相比较,并且提取未分别互相对应的所述符号。
[0030]此外,本发明提供了程序,该程序允许计算机执行用于提取在文档和对应于所述文档的图中描述的符号的方法,该程序包括:
[0031]第一处理,该第一处理提取在所述文档中描述的所述符号;
[0032]第二处理,该第二处理提取在所述图中描述的所述符号;
[0033]第三处理,该第三处理将在所述第一处理中提取的所述符号与在所述第二处理中提取的所述符号相比较;以及
[0034]第四处理,该第四处理提取在所述第三处理中分别互相对应的所述符号。
[0035]优选地,该程序还包括第五处理,该第五处理提取在所述第三处理中未分别互相对应的所述符号。
[0036]发明的有益效果
[0037]根据本发明的符号提取方法、符号提取装置以及用于执行该符号提取方法的程序获得下述效果。
[0038]如上所述,通过使用光学字符识别装置而读取的图中的符号的数据包括如下符号的数据:实际上不是符号并被错误地识别为符号的数据。
[0039]如与其对比的,由于文档的内容的数据不是经由光学字符识别装置获取的,而是直接读取电子转化成数据的字符,所以文档的内容的数据不包括错误识别的符号,这不同于所读取的图中的符号的数据。
[0040]因此,与在文档中的符号相对应的图中的符号获取为正确的符号而不是被错误地识别的符号。
[0041]如上所述,根据本发明的符号提取装置和符号提取方法,由于从图读取的符号与在文档中的符号相比较,所以能够消除被错误地识别并读取的符号,并且只有正确的符号能够留在图的符号中。
【附图说明】
[0042]图1是根据本发明的第一实施例的符号提取装置的框图。
[0043]图2是根据本发明由所述符号提取装置执行的符号提取方法的流程图。
[0044]图3示出了作为根据第一实施例的所述符号提取装置的待被提取的对象的图。
[0045]图4(A)示出了在由控制单元提取的在说明书中的符号的列表的实例。
[0046]图4(B)示出了在由控制单元提取的在图中的符号的列表的一个实例。
[0047]图5示出了在传统的知识产权管理装置的显示部分中显示的图的一个实例。
[0048]参考标记列表
[0049]100……根据本发明的第一实施例的符号提取装置
[0050]110…输入单元
[0051]120…控制单元
[0052]130…存储单元
[0053]140…显示单元
【具体实施方式】
[0054](第一实施例)
[0055]图1是根据本发明的第一实施例的符号提取装置100的框图。
[0056]如图1所示,根据本实施例的符号提取装置100包括:输入单元110、控制单元120、存储单元130以及显示单元140。
[0057]例如,输入单元110形成有键盘或者鼠标。将所需的数据或者指令通过输入单元110输入到控制单元120。
[0058]控制单元120包括:中央处理单元(CPU) 121 ;形成有ROM的第一存储器122 ;形成有RAM的第二存储器123 ;输入接口 124,该输入接口 124将各种指令和数据输入到中央处理单元121 ;输出接口 125,该输出接口 125输出由中央处理单元121执行的处理的结果;以及总线126,该总线126将中央处理单元121连接到其他构成元件。
[0059]第一存储器122将由中央处理单元121执行的各种控制程序和其它固定数据存储于其中。第二存储器123存储各种数据和参数并且为中央处理单元121提供运行区域,即,存储中央处理单元121临时需要的以执行程序的数据。
[0060]中央处理单元121读取来自第一存储器122的程序并且执行该程序。即,中央处理单元121根据存储在第一存储器122中的程序运行。在本实施例中,在第一存储器122中,存储允许中央处理单元121执行用于提取在图中的符号的方法的程序。中央处理单元121根据如下描述的程序执行用于提取在图中的符号的方法。
[0061]存储单元130是对于控制单元120的外部存储器。存储单元130存储由控制单元120执行的计算结果和其它数据。
[0062]显示单元140形成有例如液晶显示器,以将由控制单元120执行的计算结果和其它数据显示在屏幕上。
[0063]图2是由根据本实施例的符号提取装置100执行的符号提取方法的流程图。
[0064]现在,参考图2和图3,下面将描述符号提取装置100的运行。
[0065]在下面描述的实例中,符号提取装置100参考用于提交专利申请的说明书和图,以提取作为待被提取的对象的图中的符号。
[0066]图3示出了作为待被提取的对象的图150。
[0067]在图150中的符号应该通过使用光学字符识别装置预先读取。所读取的数据应当通过输入单元I1输入到控制单元120,并且存储在第一存储器122中。如上所述,所读取的数据包括如下符号的数据:不是符号以及被错误地识别为符号的数据。
[0068]类似地,说明书的内容的数据也应当通过输入单元110输入到控制单元120,并且存储在第一存储器122中。由于说明书的内容的数据没有经由光学字符识别装置而获取,所以说明书的内容的数据不包括被错误地识别的符号,这不同于所读取的图150的符号的数据。
[0069]这些数据能够存储在存储单元130中,代替存储在第一存储器122中。
[0070]首先,控制单元120参考存储在第一存储器122中的数据,提取出现在说明书中的符号(步骤S110)并且进一步提取对应于该符号的名称。
[0071]具体地,从文本数据的开头,开始搜索数字字符或者字母(即,符号)以提取字符串作为一个名称,该字符串具有作为起始点的被检测的符号并且通过指定数量的空格定位在被检测的数字字符之前。以这样的方式,当通过将数字字符或者字母作为起始点来提取字符串时,能够检测到名称。此外,当检测到名称时,将名称以及对应于该名称的符号(即,紧接在作为名称提取的字符串之后的数字字符或者字母)互相调整,从而将该名称和该符号作为一个记录寄存。在寄存一个记录之后,获取位于被寄存的符号之后的文本数据作为待被搜索的对象以继续符号的搜索。随后,每次检测到符号时重复处理,寄存一个记录。然后,当所述处理到达文本数据的结尾时,符号的搜索操作完成。以这样的方式,准备了其中列举了对应于符号的名称的列表。
[0072]图4(A)示出了由控制单元120提取的在说明书中的符号的列表的实例。
[0073]如图4(A)所示,列表形成有两列。列表的左列是符号列,列表的右列是名称列。在该列表中,多个行在如下状态下列举:出现在说明书中的符号和对应于该符号的名称分别布置在一行中。在
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1