文档分类装置及文档分类方法

文档序号:8269406阅读:250来源:国知局
文档分类装置及文档分类方法
【技术领域】
[0001] 本发明的实施方式涉及用于将电子化的大量文档根据其内容来进行分类的文档 分类装置及文档分类方法。
【背景技术】
[0002] 近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使 得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。作为用于 将这样的大量文档整理成容易利用的形式的技术,期待有文档的自动分类及聚类等技术。
[0003] 特别是如今企业等的活动的迅速国际化不断进展。在该状况下,需要高效地分类 不仅用1个语言而是用如日语、英语、中文这样的多个自然语言来记述的文档。
[0004] 例如有想要将在多个国家申请的专利文档无关于语言的不同而基于内容的相似 性进行分类来分析申请趋势的需求。此外,例如还有想要在各国的接待中心受理针对在多 个国家销售的产品的来自顾客的提问及投诉等信息并对该信息进行分类?分析的需求。此 夕卜,例如还有想要收集并分析在因特网上公开的用各种语言来记载的新闻报道、对产品?月艮 务等的评论?意见等信息的需求。
[0005] 作为将语言不同的的文档集合基于内容的相似性来跨语言地分类的方法之一,有 使用机械翻译技术的方法。这是如下的方法:翻译用母语以外的语言(例如在日语为母语 的情况下,为英语或中文)记述的文档,从而能够将全部文档作为1个语言(即母语)的文 档来处理,在此基础上,进行自动分类或聚类等。
[0006] 然而,该方法中,机械翻译的精度会影响到自动分类等处理的精度,存在如由于翻 译错误等原因而导致文档无法被恰当地分类这样的、精度的问题。此外,一般来讲,机械翻 译的处理用的计算成本很大,因此,在以大量文档为对象的情况下存在性能方面的问题。
[0007] 进而,在多个用户对文档进行分类来利用的情况下,可以想到文档的母语也互不 相同,要预先设想到该点而将大量文档翻译成多个语言是很困难的。
[0008] 作为将用多个语言记述的文档集合跨语言地进行分类的方法,有使用对译辞典 (或称作互译辞典)的方法。在此对译辞典是指,将用某个语言记述的单词或语句等的表述 与其他语言的相同意思的表述之间相互建立了对应的辞典或同义词词典(thesaurus)。以 下,为了简单起见,包括合成词及短语等在内,仅记作单词。
[0009] 作为使用对译辞典来实现跨语言分类的方法的例子,首先,在用多个语言记述的 文档集合当中,对用某个语言1记述的文档的部分集合进行分类来制作类目。然后,将表示 该各类目的特征的语言a的单词,例如通过单词向量的形式来求出。另一方面,关于另外的 语言b的文档,求出表示其特征的语言b的单词向量。
[0010] 在此,如果能够将语言a的各类目的单词向量的各维(换句话说语言a的单词)与 语言b的文档的单词向量的各维(换句话说语言b的单词)使用对译辞典建立对应的话, 就能够计算语言a的单词向量与语言b的单词向量的相似度。然后,基于该相似度,能够将 语言b的文档在语言a的类目当中分类到恰当的类目中。
[0011] 在使用这样的对译辞典的方法中,对译辞典的质和量很重要。但是,要全部通过手 动来制作的话需要劳力。于是,作为半自动地制作对译辞典的方法,有如下方法:对用某个 语言记述的单词,基于在各语言的语料库(corpus :收集了文例的数据库)中的单词的同现 频率和通用的对译辞典,来求出用恰当的其他的语言记述的单词,来作为其对译。
[0012] 该方法中,首先,作为用于制作对译辞典的对象的单词,例如需要指定专门用语 等,该专门用语的用一个语言进行的表述是已知的而用与该表述对应的另一个语言进行的 表述是未知的。然而,在对内容未知的文档进行分类的情况下,无法预先设想是要对什么样 的单词来制作对译辞典。
[0013] 因此,使用同现频率和对译辞典的方法不适于利用聚类等探索式的分类手法来对 未知内容的文档进行分类这样的目的。此外,在上述的方法中,相对于半自动地制作的对译 辞典,还需要另外制作通用的对译辞典。但是,根据作为对象的语言,有时无法预先充分地 准备其通用的对译辞典。
[0014] 此外,例如,相对于英语的单词"character"而言,日本的单词有"性格"、"特性"、 "人物"、"文字"等。因而,特别是在使用通用的对译辞典的情况下,需要与作为分类的对象 的文档集合相对应地选择恰当的对译词。
[0015] 此外,有使用通过上述方法制作的对译的同义词词典来对文档自动分类的方法。 在该方法中,在文档未被分类到恰当的类目中的情况下,通过由用户来修正与类目对应的 同义词词典的语义,能够应对分类的错误等。但是,该作业对于不习惯作为对象的语言的用 户来讲,特别需要劳力。
[0016] 先行技术文献
[0017] 专利文献
[0018] 专利文献1 :特开2001 - 331484号公报
[0019] 专利文献2 :特开2010 - 55298号公报
[0020] 专利文献3 :特开2005 - 107705号公报

【发明内容】

[0021] 发明要解决的课题
[0022] 本发明要解决的课题在于,提供一种文档分类装置及文档分类方法,能够高效地 制作用于将用不同的自然语言记述的大量文档基于内容的相似性来跨语言地进行分类的 分类构造。
[0023] 解决课题的手段
[0024] 根据实施方式,文档分类装置具有:文档存储部,存储语言不同的多个文档;文档 间对应关系存储部,存储文档存储部所存储的、语言不同的文档间的对应关系;以及类目存 储部,存储用于对文档存储部所存储的多个文档进行分类的类目。
[0025] 该文档分类装置具有单词抽取部,该单词抽取部从文档存储部所存储的文档抽取 单词。
[0026] 该文档分类装置具有单词间对应关系抽取部,该单词间对应关系抽取部使用文档 间对应关系存储部所存储的、用不同语言记述的文档间的对应关系,基于由单词抽取部抽 取的单词在存在对应关系的文档间同现地出现的频率,抽取该单词间的对应关系。
[0027] 该文档分类装置具有类目生成部,该类目生成部基于文档存储部所存储的语言相 同的文档间的、由单词抽取部抽取的单词在各文档中出现的频率的相似性,对用该语言记 述的多个文档进行聚类,由此,按照每个语言生成类目。
[0028] 该文档分类装置具有类目间对应关系抽取部,该类目间对应关系抽取部以由类目 生成部按照每个语言生成的类目为对象,基于在被分类到各类目中的文档中出现的单词的 频率、由单词间对应关系抽取部抽取到的用不同语言记述的单词间的对应关系,在被分类 到某个类目中的文档中出现的频率较多的单词与在被分类到其他类目中的文档中出现的 频率较多的单词之间,单词间的对应关系存在得越多则视为该类目间的相似度越高,由此, 抽取将用不同语言记述的文档进行了分类的类目间的对应关系。
【附图说明】
[0029] 图1是表示实施方式的多语言文档分类装置的结构例的框图。
[0030] 图2是表示实施方式的多语言文档分类装置的结构例的框图。
[0031] 图3是表示实施方式的多语言文档分类装置的结构例的框图。
[0032] 图4是表示实施方式的多语言文档分类装置的结构例的框图。
[0033] 图5是表示实施方式的多语言文档分类装置的结构例的框图。
[0034] 图6A是用表形式来表示文档存储部所存储的文档的一例的图。
[0035] 图6B是用表形式来表示文档存储部所存储的文档的一例的图。
[0036] 图6C是用表形式来表示文档存储部所存储的文档的一例的图。
[0037] 图7A是用表形式来表示类目存储部所存储的类目的一例的图。
[0038] 图7B是用表形式来表示类目存储部所存储的类目的一例的图。
[0039] 图7C是用表形式来表示类目存储部所存储的类目的一例的图。
[0040] 图7D是用表形式来表示类目存储部所存储的类目的一例的图。
[0041] 图8是用表形式来表示文档间对应关系存储部所存储的文档间的关系的一例的 图。
[0042] 图9是用表形式来表示辞典存储部所存储的辞典词的一例的图。
[0043] 图10是表示单词抽取部的处理步骤的一例的流程图。
[0044] 图11是表示单词间对应关系抽取部的处理步骤的一例的流程图。
[0045] 图12是表示由单词间对应关系抽取部抽取的单词间的关系的例的图。
[0046] 图13是表示类目生成部的处理步骤的一例的流程图。
[0047] 图14是表示用于生成类目的多个单词向量的处理步骤的一例的流程图。
[0048] 图15是表示类目间对应关系抽取部的处理步骤的一例的流程图。
[0049] 图16A是用表形式来表示由类目间对应关系抽取部抽取的类目间的关系的一例 的图。
[0050] 图16B是用表形式来表示由类目间对应关系抽取部抽取的类目间的关系的一例 的图。
[0051] 图17是表示事例基准文档分类部的处理步骤的一例的流程图。
[0052] 图18是表示类目特征词抽取部的处理步骤的一例的流程图。
[0053] 图19是表示类目特征词变换部的处理步骤的一例的流程图。
[0054] 图20是用表形式来表示由类目特征词抽取部抽取并由类目特征词变换部变换的 特征词的一例的图。
[0055] 图21是表示分类规则变换部的处理步骤的一例的流程图。
[0056] 图22A是用表形式来表示由分类规则变换部变换的类目的分类规则的一例的图。
[0057] 图22B是用表形式来表示由分类规则变换部变换的类目的分类规则的一例的图。
[0058] 图23是表示辞典变换部的处理步骤的一例的流程图。
[0059] 图24A是用表形式来表示由辞典变换部变换的辞典词的一例的图。
[0060] 图24B是用表形式来表示由辞典变换部变换的辞典词的一例的图。
【具体实施方式】
[0061] 以下,参照附图对实施方式进行说明。
[0062] 图1?图5是表示各实施方式的多语言文档分类装置的结构例的框图。在图1? 图5所示的各结构中,根据实现的功能而局部地设置不同的单元。但是,作为基本单元的文 档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5、单词间对 应关系抽取部6在各结构中是共同的单元。以下,主要使用代表性的结构的图1来进行说 明。
[0063] 图1中,文档存储部1存储由文档分类装置作为分类的对象的多个文档的数据。文 档存储部1例如通过非易失性存储器这样的存储装置来实现。该文档存储部1中,语言不 同的文档的数据被分别存储来管理。图1中,将该文档存储部用第一语言文档存储部、第二 语言文档存储部、……、第n语言文档存储部这样的形式来进行表示。具体地讲,用例如日 语、英语、中文这样的语言记述的文档被存储在各语言用的文档存储部中。
[0064] 单词抽取部2从文档的数据抽取单词。具体地讲,单词抽取部2如后述那样,通过 词素解析等抽取作为文档的分类等处理所必要的数据的单词,求出各单词在各文档中的出 现频率等。
[0065] 为了应对语言不同的文档,如图1所示,单词抽取部2由第一语言单词抽取部、第 二语言单词抽取部、……、第n语言单词抽取部这样的、各语言用的单元来构成。具体地 讲,单词抽取部2分别设置有用于以日语、英语、中文这样的语言为对象来进行词素解析等 处理的单元。
[0066] 类目存储部3存储对文档进行分类的类目的数据并进行管理。例如通过非易失性 存储器这样的存储装置来实现。一般来讲,类目存储部3中,通过构成层级构造的多个类目 来将文档根据内容进行分类。该类目存储部3中存储有分类到各类目中的文档的数据、类 目的层级构造中的类目间的母子关系等数据。
[0067] 类目操作部4受理用户对类目存储部3所存储的类目的数据进行阅览或编辑等操 作。
[0068] 该类目操作部4 一般来讲使用图形用户界面(⑶I)来实现。通过该类目操作部4, 用户能够进行以文档为对象的操作。
[0069] 该操作具体地讲为,以类目为对象的操作、使文档分类到类目中或将已分类到类 目中的文档移动到其他类目等操作。以类目为对象的操作为类目的制作、删除、移动(层级 构造中母子关系的调换)、复制、统合(将多个类目归为1个)等操作。
[0070] 文档间对应关系存储部5存储文档存储部1所存储的文档间的对应关系。该文档 间对应关系存储部5通过例如非易失性存储器这样的存储装置来实现。一般来讲,在文档 间对应关系存储部5中,存储有表示用不同语言记述的文档间的对应关系的数据并进行管 理。在以专利文档为分类对象的情况下,文档间的具体的对应关系例如能够列举出日本专 利与美国专利之间的基于优先权或国际专利申请的对应关系等。
[0071] 单词间对应关系抽取部6基于由单词抽取部2从用各语言记述的文档中抽取的单 词、以及文档间对应关系存储部5所存储的文档间的对应关
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1