词汇表管理装置、词汇表管理系统和词汇表管理方法_2

文档序号:9708282阅读:来源:国知局
析,并从分析了的文本数据中抽取字符串。
[0043]用语匹配部7d进行所抽取出的字符串与公共词典的匹配。具体来说,用语匹配部7d判断所抽取出的字符串是否作为公共词典的关键词而存在。然后,在抽取出的字符串作为公共词典的关键词而存在的情况下,用语匹配部7d判断为匹配一致。
[0044]注册部7c将字符串和位置信息注册到本地词汇表5a中。该字符串是抽取出的字符串中分析部7c的分析结果符合条件的字符串,或者是与公共词典的匹配结果符合条件的字符串。位置信息是表示该字符串在源文档内的位置的信息。
[0045]通信部8与信息处理装置3的外部进行信息交换。
[0046]另外,在输出装置9是网络机器的情况下,该网络机器也可以兼用作通信部8。
[0047]上述是词汇表管理装置I的结构。
[0048](将词汇表管理装置作为图像形成装置来实现的结构)
[0049]接下来,对于将词汇表管理装置作为图像形成装置10来实现的结构进行说明。图2表示图像形成装置10的结构。
[0050]图像形成装置10具备:控制部11、图像读取部12、图像处理部13、图像存储器14、图像形成部15、操作部18、传真机通信部19和存储部21。控制部11具备:CPU(CentralProcessing Unit)、RAM (Random Access Memory)、ROM (Read Only Memory)和专用硬件电路等。控制部11负责图像形成装置10整体的动作控制。
[0051]控制部11与图像读取部12、图像处理部13、图像存储器14、图像形成部15、操作部18、传真机通信部19、网络接口部20、存储部21等连接。控制部11进行所连接的上述各部(模块)的动作控制以及在其与各模块之间收发信号或者数据。
[0052]控制部11按照来自使用者的任务执行指令,对上述各模块的驱动和处理进行控制,从而执行各功能(例如扫描仪功能、打印功能、复印机能和传真机收发功能等)。任务执行指令是使用者通过操作部18或者PC等输入的。PC等是网络连接的。
[0053]还有,控制部11进行在概要的项目中叙述了的处理。
[0054]还有,控制部11具有:0CR处理部11a、获得部11b、分析部11c、用语匹配部IId和注册部lie。
[0055]控制部11的各部(OCR处理部11a、获得部11b、分析部11c、用语匹配部Ild和注册部lie)分别相当于上述的控制部7的各部(OCR处理部7a、获得部7b、分析部7c、用语匹配部7d和注册部7e)。还有,控制部11的上述各部是通过从ROM等存储中加载到RAM的程序由CPU执行而实现功能的功能模块。
[0056]图像读取部12从原稿中读取图像。图像读取部12相当于上述的词汇表管理装置I的扫描仪2。
[0057]图像处理部13根据需要,对图像读取部12所读取的图像的图像数据进行图像处理。例如,图像处理部13为了提高图像读取部12所读取的图像在图像形成后的品质,进行图像处理(例如阴影校正)。
[0058]图像存储器14对数据进行临时存储。数据是图像读取部12所读取的原稿的图像数据,或者是成为图像形成部15中的打印对象的数据。
[0059]图像形成部15进行图像读取部12所读取的图像数据等的图像形成(例如打印输出)。图像形成部15相当于上述的词汇表管理装置I的输出装置9。
[0060]操作部18具备触控面板部和操作按键部。
[0061]触控面板部和操作按键部受理来自使用者的指示,该指示与图像形成装置10可执行的各种动作和处理有关。触控面板部具备显示部18a。例如,显示部18a是设置有触控面板的LCD(Liquid Crystal Display)。操作部18相当于上述的词汇表管理装置I的输入部6。
[0062]传真机通信部19具备:未图示的编码/解码部、调制解调部和NCU (NetworkControl Unit)。传真机通信部19进行使用公共电话网络的传真收发。
[0063]网络接口部20具备通信模块(例如网络适配器)。例如,网络接口部20与LAN连接。例如,网络接口部20通过LAN,与局域内的装置(服务器、PC等外部机器)进行各种数据的收发。网络接口部20相当于上述的词汇表管理装置I的通信部8。
[0064]存储部21对原稿图像和本地词汇表21a等进行存储。原稿图像是图像读取部12所读取的图像的数据。另外,本地词汇表21a相当于上述的词汇表管理装置I的本地词汇表5a。存储部21是大容量的存储装置(例如HDD (Hard Disk Drive))。
[0065]上述,对于将词汇表管理装置作为图像形成装置10来实现的结构进行了说明。
[0066](将词汇表管理装置作为客户端-服务器型的系统来实现的结构)
[0067]接下来,对于将词汇表管理装置作为以信息处理装置50为中心的客户端-服务器型的词汇表管理系统100来实现的结构进行说明。图3表示客户端-服务器型的词汇表管理系统100的结构。
[0068]词汇表管理系统100具备图像形成装置40和信息处理装置50。词汇表管理系统100是通过图像形成装置40和信息处理装置50经由网络进行通信而实现的。另外,词汇表管理系统100也可以使用外部的公共词典服务器60进行处理。还有,使用者利用的PC (Personal Computer,未图示)也可以连接在网络中。
[0069]图像形成装置40是在普通的图像形成装置中附加了功能部41的装置,功能部41用于收集要注册到本地词汇表中的字符串。例如,普通的图像形成装置具有对文档进行复印或者打印的处理部42。附加的功能部41含有收集部41a和发送部41b。收集部41a对要注册到本地词汇表中的字符串进行收集。具体来说,收集部41a在使用者使用图像形成装置40进行与字符串的收集没有关系的普通操作(例如文档的复印或者打印)时,从普通操作对象的文档中收集(即抽取)字符串。换句话说,收集部41a在处理部42进行处理后,从处理部42处理了的文档中对要注册到词汇表中的字符串进行收集。收集部41a相当于词汇表管理装置I的OCR处理部11a、获得部11b、分析部Ilc和用语匹配部lid。发送部41b将收集部41a收集的字符串发送到信息处理装置50。
[0070]信息处理装置50将从图像形成装置40送来的字符串注册到本地词汇表中。信息处理装置50具备:存储部51、接收部52和注册部53。存储部51可存储本地词汇表。接收部52接收从图像形成装置40送来的字符串。注册部53将接收部52接收的字符串注册到本地词汇表中。本地词汇表存储在存储部51中。存储部51和注册部53分别相当于词汇表管理装置I的存储部21和注册部lie。
[0071]公共词典服务器60具备任意数量的公共词典。公共词典在互联网等网络上有提供。还有,公共词典中收录有普通的用语。
[0072]信息处理装置50在将字符串注册到本地词汇表中之前,也可以检查该字符串是否在公共词典中。具体来说,信息处理装置50检查该字符串是否已在公共词典服务器60上。接下来,信息处理装置50在该字符串已在公共词典服务器60上的情况下,不将该字符串注册到本地词汇表中。还有,信息处理装置50在该字符串不在公共词典服务器60上的情况下,将该字符串注册到本地词汇表中。其结果,防止公共词典与本地词汇表之间的用语注册的重复。还有,抑制本地词汇表的容量大小。还有,本地词汇表成为符合其利用目的的词汇表。
[0073]还有,信息处理装置50为了检查即是公司内部文件又是日语的文档所含的字符串中以西文字母构成的字符串是否是固有名词,也可以利用公共词典。
[0074]例如,对于在面向公司内部的日语文档内含有字符串“Jupiter”的情况,是由于该字符串高概率地用作项目的名称或者新产品的代号。项目是在本公司进行的项目,新产品是本公司开发中的新产品。
[0075]另外,词汇表管理装置1、图像形成装置10和信息处理装置50也可以在自身装置内部具备公共词典。
[0076]上述,对于将词汇表管理装置作为以图像形成装置为中心的客户端-服务器型的词汇表管理系统100来实现的结构进行了说明。另外,公共词典服务器60与词汇表管理系统100组合使用,但不限定于这样的组合。例如,公共词典服务器60也可以与词汇表管理装置I或者图像形成装置10组合使用。
[0077][处理的流程]
[0078]接下来,对于词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表21a中为止的处理流程进行说明。图4表示词汇表管理装置从收集字
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1