词汇表管理装置、词汇表管理系统和词汇表管理方法

文档序号:9708282阅读:744来源:国知局
词汇表管理装置、词汇表管理系统和词汇表管理方法
【技术领域】
[0001]本发明涉及用于创建词汇表的词汇表管理装置、词汇表管理系统和词汇表管理方法。
【背景技术】
[0002]—直以来,对于本国语言或者外国语言的学习,大量阅读是有效方法之一。当前,为了学习,可以从互联网等地方获得大量的文章来进行阅读。
[0003]不过,从互联网上获得的文章等不是以特定水平的学习者为对象而创建的文章,因此直接使用的话并不适合于语言学习。
[0004]因此,例如,在有些技术中,按照英语的每个用语(例如,单词、熟语和措辞),如果该用语是使用者已掌握的,就在该用语上附上“掌握”的属性。还有,如果该用语是应该掌握的,就在该用语上附上“掌握中”的属性。于是,将获得的英语文章变换为简单的英语文章时,并在将获得的英语文章变换为以学习为目的的英语文章的情况下,使用属性为“掌握”或者“掌握中”的用语进行变换。还有,在将获得的英语文章变换为以内容理解为目的的英语文章的情况下,只使用属性为“掌握中”的用语进行变换。
[0005]不过,对于上述那样的技术,必须由人来进行收集英语的单词或熟语并注册到数据库中的操作,非常耗费时间和精力。

【发明内容】

[0006]鉴于以上那样的问题,本发明的目的是提供一种词汇表管理装置、词汇表管理系统和记录介质,能够减少对注册到词汇表的字符串进行收集的时间和精力,能够对符合词汇表使用目的的用语进行收集。
[0007]为了达到上述目的,本发明的一方式所涉及的词汇表管理装置具备:读取部和输出部中的至少一个、存储部、获得部、分析部、用语匹配部和注册部。所述读取部对文档进行读取。所述输出部对所述文档进行输出。所述存储部可存储根据从所述文档中抽取出的字符串而构成的词汇表。所述获得部从所述文档中获得文本数据。所述分析部对记述所述获得部获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串。所述用语匹配部将所述抽取出的字符串与注册了用语的公共词典进行匹配。所述注册部在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中。
[0008]为了达到上述目的,本发明的一方式所涉及的词汇表管理系统具备:图像形成装置和信息处理装置。所述信息处理装置通过网络与所述图像形成装置进行通信。所述图像形成装置具备:处理部、收集部和发送部。所述处理部对文档进行复印或者打印的处理。所述收集部从所述处理部处理的所述文档中,对要注册到根据从所述文档中抽取出的字符串而构成的词汇表中的字符串进行收集。所述发送部将所述收集部所收集的所述字符串发送给所述信息处理装置。所述信息处理装置具备:存储部、接收部和注册部。所述存储部对所述词汇表进行存储。所述接收部对从所述信息处理装置发送来的所述字符串进行接收。所述注册部将所述接收部接收的所述字符串注册到所述词汇表中。
[0009]为了达到上述目的,本发明的一方式所涉及的词汇表管理方法包含如下步骤:通过获得部,从文档中获得文本数据;通过分析部,对记述所获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串;通过用语匹配部,将所述抽取出的字符串与注册了用语的公共词典进行匹配;通过注册部,在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中。
[0010]〔发明效果〕
[0011]如上述那样,根据本发明,能够减少对注册到词汇表的字符串进行收集的时间和精力,能够对符合词汇表使用目的的用语进行收集。
【附图说明】
[0012]图1表不词汇表管理装置的结构。
[0013]图2表示图像形成装置的结构。
[0014]图3表示客户端-服务器型的词汇表管理系统的结构。
[0015]图4表示词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表中为止的处理工序。
[0016]图5表示字符串到本地词汇表的注册处理的具体内容。
【具体实施方式】
[0017]以下,参照附图,对本发明实施方式进行说明。
[0018][概要]
[0019]最开始,对本发明一实施方式所涉及的词汇表管理装置的概要进行说明。本发明的词汇表管理装置不需要使用者进行字符串的注册,而是对要注册的字符串进行收集而创建词汇表。对于本发明的词汇表管理装置,以使用者进行普通操作(例如,文档的复印或者打印等操作)作为前提,普通操作与要注册到词汇表中的字符串的收集没有关系。
[0020]然后,本发明的词汇表管理装置首先进行第一阶段的处理,即在使用者进行普通操作(例如,文档的复印或者打印等操作)时,从该普通操作对象的文档中收集(即抽取)要注册到词汇表中的字符串。普通操作是与要注册到词汇表中的字符串的收集没有关系的操作。
[0021]接下来,本发明的词汇表管理装置接着进行第二阶段的处理,即判断是否将所收集的字符串注册到词汇表中,并将判断为要注册的用语注册到词汇表中。
[0022]另外,在是否注册字符串的判断中,也可以利用该普通操作对象的文档是公司内部文件还是公司外部文件的信息。
[0023]还有,也可以将所收集的字符串中字符串的词性是名词或者动词的字符串注册到词汇表中。
[0024]还有,也可以基于下述的条件㈧和⑶来判断是否将抽取出的字符串注册到词汇表中。(A)所抽取字符串的源文档的语言是否是日语。(B)在该语言是日语的情况下,抽取出的字符串是否只由西文字母构成且是固有名词。
[0025]本发明的词汇表管理装置通过进行上述两个阶段的处理,能够适当地对为了注册到词汇表中而收集的字符串进行分类,并将词汇表构建为符合使用目的的词汇表。
[0026]还有,也能够减少使用者创建词汇表的时间和精力。
[0027]另外,对于收集用语而创建的词汇表,能够通过注册各用语的意思来提高所创建的词汇表的实用性。
[0028]另外,在以下的说明中,将词汇表管理装置所管理的词汇表记载为“本地词汇表”。还有,例如将互联网等网络上的词汇表或者词典等、且独立于本发明的词汇表管理装置而管理的词汇表或者词典等记载为“公共词典”。
[0029]上述,对本发明一实施方式所涉及的词汇表管理装置的概要进行了说明。
[0030][结构]
[0031]接下来,对本发明的词汇表管理装置的结构进行说明。另外,在下述中,最开始对词汇表管理装置的结构进行说明。然后,对于将词汇表管理装置作为一个图像形成装置(MFP、Multifunct1n Peripheral)来实现的结构进行说明。接着,对于将词汇表管理装置作为利用网络的客户端-服务器型的系统来实现的结构进行说明。
[0032](词汇表管理装置的结构)
[0033]图1表示词汇表管理装置I的结构。词汇表管理装置I具备:扫描仪2、信息处理装置3、输出装置9。
[0034]扫描仪2用于进行上述的普通操作,即用于在使用者对文档进行复印或者电子化时对原稿(即文档)进行读取。
[0035]输出装置9对文档进行输出(例如,显示输出、打印输出、发送输出)。该文档是数据,存储在信息处理装置3或输出装置9中。例如,输出装置9是显示装置(例如显示器)、打印装置(例如打印机)或者网络机器等。网络机器向网络上的外部机器发送数据。输出装置9用于进行上述的普通操作,即用于使用者进行文档内容的浏览、文档的复印或者打印、经由网络将文档发送到其它机器。
[0036]信息处理装置3能够使用计算机来实现。信息处理装置3具备:存储部5、输入部
6、控制部7和通信部8。
[0037]存储部5存储操作用的数据,并存储本地词汇表5a等。操作用的数据是控制部7在进行后面叙述的处理时所用的数据。本地词汇表5a是收集了用语的词汇表。
[0038]输入部6受理来自使用者的指示。
[0039]控制部7进行概要中所述的两个阶段的处理。该处理的具体内容在后面进行叙述。控制部7具有:OCR (Optical Character Recognit1n)处理部7a、获得部7b、分析部7c、用语匹配部7d和注册部7e。
[0040]OCR处理部7a从扫描仪2所读取的原稿的图像数据中识别出文字,生成电子文本数据。另外,扫描仪2和OCR处理部7a的组合相当于读取部。
[0041]获得部7b获得文档的文本数据。文本数据由OCR处理部7a生成,或者由通信部8接收。
[0042]分析部7c对获得部7b获得的文本数据的记述所用语言进行分
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1