文档分类装置及文档分类方法_2

文档序号:8269406阅读:来源:国知局
系,自动地抽取用不同语言记 述的单词间的对应关系。
[0072] 由单词间对应关系抽取部6抽取到的、用不同语言记述的单词间的具体的对应关 系例如为,日语的单词"文字"、英语的单词"character"、中文的单词"字符"之间的对应关 系等、接近对译的对应关系。
[0073] 图1所示的类目生成部7和类目间对应关系抽取部8实现图1的结构所固有的功 能。
[0074] 类目生成部7以用相同语言记述的多个文档为对象,基于由单词抽取部2从各文 档抽取到的单词的出现频率的相似性,对文档进行聚类,由此自动生成类目。
[0075] 类目间对应关系抽取部8 -般来讲,自动地抽取作为由类目生成部7生成的类目 的、用于对语言不同的文档群进行分类的多个类目间的对应关系。由这些单元生成的类目 及类目间的对应关系被存储在类目存储部3中。
[0076] 根据图1所示的实施方式,以用多个不同自然语言记述的多个文档为对象,按照 每个语言自动生成有对用各语言记述的文档进行分类的分类构造。此外,自动地抽取将用 不同语言记述的文档进行分类的类目间的对应关系。在图1所示的实施方式中,通过对获 得了对应关系的类目彼此进行统合,能够不依赖于语言地容易地制作对内容相似的文档进 行分类的类目。
[0077] 在图2所示的实施方式的结构中,多语言文档分类装置除了具有图1所示的文档 存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部及单词间对应 关系抽取部6之外,还具有用于实现图2的结构所固有的功能的事例基准文档分类部9。
[0078] 该事例基准文档分类部9进行自动分类的处理。具体地讲,事例基准文档分类部9 以类目存储部3所存储的1个或者多个类目为对象,基于已经分类到各类目中的1个或者 多个已分类文档,自动地决定是否应该将还未分类到该类目中的未分类文档分类到该类目 中。
[0079] 事例基准文档分类部9基于由单词抽取部2从各文档抽取到的单词、以及由单词 间对应关系抽取部6抽取到的单词间的对应关系,不仅以类目的与已分类文档用相同的语 言记述的未分类文档,还以用其他语言记述的未分类文档为对象,能够决定是否将其分类 到该类目中。
[0080] 根据图2所示的实施方式,多语言文档分类装置能够基于作为已经分类到某个类 目中的文档的、用某个语言记述的文档,将内容与该文档相似的用其他语言记述的文档自 动地分类到该类目中。由此,不需要将用全部语言记述的文档作为监督文档(日文原文"教 師文書")分类到类目中,仅将用内容容易被用户理解的语言记述的文档作为监督文档进行 分类即可,因此,能够容易地对文档进行分类。
[0081] 接下来,在图3所示的实施方式的结构中,多语言文档分类装置除了具有图1所示 的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5及单 词间对应关系抽取部6之外,还具有用于实现图3的结构所固有的功能的单元、即类目特征 词抽取部10和类目特征词变换部11。
[0082] 类目特征词抽取部10以类目存储部3所存储的1个或者多个类目为对象,抽取表 示已分类到各类目中的文档的内容的特征性单词。以下,根据需要,将特征性单词称作特征 。
[0083] 该特征词如后述那样是通过筛选由单词抽取部2从已分类到类目中的文档中抽 取到的单词当中的、较好地表达类目的特征的恰当的单词而抽取到的词。
[0084] 类目特征词变换部11基于由单词间对应关系抽取部6抽取到的用不同语言记述 的单词间的对应关系,将用某个语言记述且从类目中抽取到的特征词,变换为用其他语言 记述的特征词。
[0085] 根据图3所示的实施方式,多语言文档分类装置自动地抽取类目的特征词,进而 能够将该特征词变换成用户容易理解的语言来进行提示。由此,用户能够容易地理解已分 类到类目中的文档的内容。
[0086] 接下来,在图4所示的实施方式的结构中,多语言文档分类装置除了具有图1所示 的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5及单 词间对应关系抽取部6之外,还具有用于实现图4的结构所固有的功能的、规则基准文档分 类部12和分类规则变换部13。
[0087] 规则基准文档分类部12通过类目存储部3所存储的类目中设定的分类规则,决定 向该类目中分类的文档。一般来讲,各类目的分类规则被规定成,将由单词抽取部2从文档 抽取到的单词当中的1个或者多个单词出现的文档分类到该类目中。
[0088] 分类规则变换部13基于由单词间对应关系抽取部6抽取到的用不同语言记述的 单词间的对应关系,将用于对用某个语言记述的文档进行分类的分类规则,变换成用于对 用其他语言记述的文档进行分类的分类规则。
[0089] 根据图4所示的实施方式,多语言文档分类装置针对用于规定分类到类目中的文 档的分类规则,将用于对用某个语言记述的文档进行分类的分类规则,自动地变换为用于 对用其他语言记述的文档进行分类的分类规则。由此,能够减轻由用户来制作或维护分类 规则的作业。
[0090] 接下来,在图5所示的实施方式的结构中,多语言文档分类装置除了具有图1所示 的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5、单词 间对应关系抽取部6、类目生成部7及类目间对应关系抽取部8之外,还具有作为用于实现 图5的结构所固有的功能的单元的、辞典存储部14、辞典设定部15及辞典变换部16。图5 中示出了将这些辞典存储部14、辞典设定部15、辞典变换部16追加到图1所示的结构中的 例子。但是,这些辞典存储部14、辞典设定部15、辞典变换部16也可以是追加到图2?图 4所示的结构中来配设。
[0091] 即,辞典存储部14存储用于规定图1的类目生成部7、图2的事例基准文档分类部 9、或者图3的类目特征词抽取部10的处理中的单词的使用方法的辞典。辞典存储部14例 如通过非易失性存储器等存储装置来实现。
[0092] 根据图5所示的实施方式,多语言文档分类装置针对用于规定在类目的自动生 成、文档的自动分类的处理中使用的重要词、不需要词及同义词的辞典,能够将用某个语言 记述的辞典词自动地变换为用其他语言记述的辞典词。由此,能够减轻用户制作或维护辞 典的作业。
[0093] 如后述那样,在辞典存储部14所存储的辞典中,能够将文档的分类、类目的特征 词的抽取等处理中作为应该重视的单词的重要词、作为应该忽略的单词的不需要词、作为 应该视为相同的单词的组的同义词的某个或者多个,作为辞典词来设定。辞典设定部15将 这些辞典词设定在辞典中。
[0094] 辞典变换部16将用某个语言记述且设定于辞典中的辞典词,基于由单词间对应 关系抽取部6抽取到的用不同语言记述的单词间的对应关系,变换成用其他语言记述的辞 典词。
[0095] 图6A、图6B、图6C是以表形式来表示文档存储部1所存储的文档的数据的一例的 图。图6A、图6B、图6C所示的合计3个文档的数据的例子中,在图6A所示的行601中被赋 予独特的文档号码"djOl"。在图6B所示的行605中被赋予独特的文档号码"dj02"。在图 6C所示的行606中被赋予独特的文档号码"de03"。
[0096] 此外,作为记述文档的语言,在图6A所示的行602中记载有"日语",在图6C所示 的行607中记载有"英语"。在该例子是对专利的摘录数据的一部分进行了表示的例子。各 文档具有图6A的行603中的名称"r 夕;1/力7 7 "、行604中的摘要"撮像素子(乙A 〇 T 入力L fc......"这样的、文本的数据。一般来讲根据这些文本的内容来进行文档的分类,但 是,如图6A、图6B、图6C所示,各文档的文本是用不同语言来记述的。
[0097] 图7A、图7B、图7C、图7D是表示图1?图5的类目存储部所存储的类目的数据的 例子的图。
[0098] 如图7A、图7B、图7C、图7D所示,例如图7A的行701的类目号码"cOl"、图7B的 行706的类目号码"c02"等那样,各类目被赋予了独特的类目号码。各类目的数据中记载 了该类目与母类目之间的关系。由此,表述了多个类目所构成的层级构造。
[0099] 例如,图7A所示的类目的母类目为行702所示的"(无)"。因此,该类目为层级构 造的最上位,换句话说为根类目。
[0100] 此外,图7B的类目的母类目为行707所示的"C01"。因此,与图7A所示的类目号 码"cOl"对应的类目是该图7B所示的类目的母类目。
[0101] 在各类目中,如图7A的行703的"r 夕;1/力7歹"、图7B的行708的"顔一検出" 那样,记载有名称。这些名称有时由文档分类装置自动地赋予给类目,也有时由用户明示地 赋予。
[0102] 在各类目的数据中,对分类到该类目中的文档,以分类规则或者文档集合的形式 进行记载。例如在图7A所示的类目中,如行704所示,分类规则为"(无)",如行705所示, 文档集合为"(全部)"。因此,文档存储部1所存储的全部文档被分类到该类目中。
[0103] 在图7B所示的类目中,如行709所示,分类规则为"(无)",如行710所示,文档集 合中记载有"dj02"、"djl7"等文档号码。因此,与这些文档号码对应的文档被分类到该类 目中。
[0104] 在图7C的类目中,如行712所示,设有有分类规则"contains (摘要,"露光" 通过该分类规则,文档的"摘要"的文本中包含有"露光"这一单词的文档被分类到该类目 中。另外,在图7C所示的类目中,如行713所示,在文档集合中,不同于图7B中的行710所 示的例子,未明示地记载文档号码,而记为"(基于分类规则)"。基于该分类规则的文档集 合被分类到该类目中。
[0105] 通过分类规则对文档进行分类的处理是通过图4所示的规则基准文档分类部12 来执行的。但是,该处理一般来讲通过从数据库等存储单元中检索满足分类规则的文档来 执行。例如,在分类规则为图7C所示的行712中的分类规则"contains (摘要,"露光")" 的情况下,多语言文档分类装置在"摘要"的文本中全文检索含有"露光"这一单词的文档, 由此,能够求出分类到该类目中的文档。这样的处理能够通过现有技术来实现,因此省略详 细说明。
[0106] 图8是表示图1?图5的文档间对应关系存储部5所存储的文档间的对应关系的 数据的例子的图。
[0107] 通过图8所示的行801、行802的各行来一个一个地表示文档间的对应关系。例 如在行801中表示文档号码为"dj02"的文档与文档号码为"de03"的文档之间存在对应关 系。即,这是表示图6B所示的日语的文档与图6C所示的英语的文档之间的对应关系。
[0108] 同样,根据图8所示的行802,文档号码为"dj02"的日语的文档与文档号码为 "dc08"的中文的文档之间存在对应关系。此外,根据行803,文档号码为"de03"的英语的 文档与文档号码为"dc08"的中文的文档之间存在对应关系。作为结果而表示,文档号码为 "dj02"的文档、文档号码为"de03"的文档、文档号码为"dc08"的文档这3个文档全部存在 相互关系。
[0109] 此外,根据图8所示的行804和行805而表示,文档号码为"dj26"的日语的文档 与文档号码为"de33"的英语的文档及文档号码为"de51"的英语的文档这两方存在对应关 系。这样,也可以是,1个文档与相同语言(该情况为英语)的多个文档存在对应关系。 [0110]图9是表示图5所示的辞典存储部14所存储的辞典的数据的例子的图。在辞典 存储部14所存储的辞典中,通过图9所示的行901、行902这样的各行,各表示辞典的一个 辞典词。例如行901表示为"日语"的"重要词"且表达为"フ7ッシl"的辞典词。行903 表示为"日语"的"不需要词"且表达为"発明"的辞典词。行905表示为"日语"的"同义 词"且表达为" 7歹7シ1 "和"只卜口求"的辞典词。
[0111] 所谓重要词,是指在后述的文档的分类等处理中重视的单词。例如本实施方式那 样通过使用了单词向量的方法来进行文档的分类等处理的情况下,进行将单词向量中的重 要词的权重加重为例如2倍的处理。此外,所谓不需要词,是指在文档的分类等处理中忽略 的单词。在本实施方式中,进行例如从单词向量中除去不需要词、而不将其作为单词向量的 维的这样的处理。
[0112] 例如,在将专利文档作为分类对象的情况下,"発明"或"装置"这样的单词几乎不 表示专利的内容。因此,在本实施方式中,如图9所示那样,将这样的单词设为不需要词。此 夕卜,所谓同义词,是指在文档的分类等处理中视为相同的单词。在本实施方式中,例如即使 在单词向量中为不同表达,也作为相同的单词、即相同的维来处理。
[0113] 图10是表示图1?图5的单词抽取部2的处理的流程的的一例的流程图。
[0114] 首先,单词抽取部2从抽取单词的对象的文档中取得文本(S1001)。在图6A、图 6B、图6C所示的例子中,单词抽取部2取得图6A中的行603所示的作为文档的"名称"的 "r 夕;P力7 7 "、行604所示的作为"摘要"的"撮像素子(乙A 〇 T入
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1