文档分类装置及文档分类方法_6

文档序号:8269406阅读:来源:国知局
[0234] 如图9和图13的S1303等所说明的那样,通过使用重要词、不需要词、同义词等辞 典词,能够根据内容将文档恰当地分类。但是,在对语言不同的文档进行分类的情况下,存 在制作辞典的作业需要花费劳力的问题。于是,在图23的处理中,多语言文档分类装置将 用某个语言记述的辞典词自动地变换为用其他语言记述的辞典词,由此能够简单地制作用 各种语言记述的辞典。
[0235] 在图23所示的处理中,首先,辞典变换部16从图1?图5所示的单词间对应关系 抽取部6 (对应于图11的处理)取得语言k与语言1的单词间的对应关系(S2301)。接下 来,辞典变换部16针对作为变换对象的语言k的辞典词tk反复(S2302)执行以下的S2303 至S2306的处理。
[0236] 首先,辞典变换部16使用S2301中取得的单词间的对应关系,判断是否存在与辞 典词tk对应的语言1的单词tl (S2303)。如果存在单词tl (S2303为是),则辞典变换部 16将该单词tl设为辞典词。辞典变换部16将该辞典词的种类(重要词、不需要词、同义 词等)设为与辞典词tk相同的种类。进而,如果与1个辞典词tk对应的单词tl存在有多 个,则辞典变换部16将这些单词作为同义词(S2304)。
[0237] 图24A是表示将图9所示的日语的辞典变换为英语的辞典后的结果的例子的图。
[0238] 在图24A的行2401中,示出了图9的行901的日语的重要词"7歹7シ:x"被变 换为英语的重要词"flash"。
[0239] 在图24A的行2402中,示出了图9的行902的日语的重要词"露光"被变换为英 语的重要词"exposure"。
[0240] 在图24A的行2403中,示出了图9的行904的日语的不需要词"装置"被变换为 英语的2个单词"apparatus"和"device"。这些词如图24A的行2403所示,为不需要词及 同义词。
[0241 ] 如图24A的行2404所示,图9的行905的日语的同义词" 7歹7シ1 "和"只卜口 求"各自的单词(表达)被变换为英语的"flash"和"strobe"。因此,这些单词在英语中 也是图24A的行2404所示的同义词。
[0242] 另外,在对同义词进行变换后的结果而仅能得到1个以下的单词(变换目标的语 言中不存在对应的单词的情况,或者被变换为同一单词的情况)的情况下,作为同义词的 意义不再存在,因此,在变换目标的辞典中,辞典变换部16也可以删除该同义词。
[0243] 接下来,辞典变换部16进行对作为变换源的语言k的辞典的同义词进行扩展的处 理。该处理不是必须的。辞典变换部16使用S2301中取得的单词间的对应关系,判断是否 存在与语言1的单词tl对应的语言k的单词tk'(不同于tk的单词)(S2305)。如果存在 有单词tk'(S2305为是),则辞典变换部16将语言k的原本的单词tk和单词tk'设为同 义词(S2306)。
[0244] 例如对于图9的行902的重要词"露光",对应有图24A的行2402的英语的重要词 "exposure"。但是,该"exposure"如图12的行1202所示,还对应于日语的单词"露出"。 因此,作为结果,在日语的辞典中,如图24B的行2405所示,"露光"和"露出"成为重要词且 同义词。这样,多语言文档分类装置不仅能够变换例如日语的辞典来自动地制作英语的辞 典,还能够对日语的辞典也追加同义词。
[0245] 根据这样的结构,多语言文档分类装置能够根据例如以对日语的文档恰当地进行 分类的目的制作出的辞典,高效地制作适于对英语或中文的文档进行分类的辞典。
[0246] 在这些各实施方式中,仅使用作为分类对象的文档集合本身所包含的文档的、用 不同语言记述的文档间的对应关系,就能够实现以上那样的功能。由此,不需要预先准备对 译辞典等。进而,在使用了现有的通用的对译辞典的情况下,需要根据分类对象的文档选择 恰当的对译词。但是,在本实施方式中,使用从分类对象的文档本身抽取到的单词的对应关 系。由此,多语言文档分类装置不需要选择对译词。此外,多语言文档分类装置也不会使用 不恰当的对译词。
[0247] 作为其结果,多语言文档分类装置能够高精度地实现自动地抽取类目间的跨语言 的对应关系的处理、跨语言地对文档进行自动分类的处理。此外,在使用通用的对译辞典用 以往的方法对所述的分类规则或辞典词进行了变换的情况下,很少会出现制作出不恰当的 分类规则或辞典词的情况。在本实施方式中,不存在这样的问题,多语言文档分类装置能够 获得用于对分类对象的文档恰当地进行分类的分类规则或辞典词。
[0248] 以上说明了发明的几个实施方式,这些实施方式指示作为例子而提示,不意图限 定发明的范围。这些新的实施方式能够通过其他各种方式来实施,能够在不脱离发明的宗 旨的范围内进行各种省略、置换、变更。这些实施方式及其变形被包含在发明的范围及宗旨 内,并被包含在权利要求书中记载的发明及其等同的范围内。
[0249] 附图标记的说明
[0250] 1……文档存储部,2……单词抽取部,3……类目存储部,4……类目操作部,5…… 文档间对应关系存储部,6……单词间对应关系抽取部,7……类目生成部,8……类目间对 应关系抽取部,9……事例基准文档分类部,10……类目特征词抽取部,11……类目特征词 变换部,12……规则基准文档分类部,13……分类规则变换部,14……辞典存储部,15…… 辞典设定部,16……辞典变换部。
【主权项】
1. 一种文档分类装置,其特征在于, 具备: 文档存储部(1),存储语言不同的多个文档; 文档间对应关系存储部巧),存储所述文档存储部(1)所存储的、语言不同的文档间的 对应关系; 类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目; 单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词; 单词间对应关系抽取部化),使用所述文档间对应关系存储部(5)所存储的对应关系, 基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频 率,抽取该单词间的对应关系; 类目生成部(7),基于所述文档存储部(1)所存储的语言相同的文档间的、由所述单词 抽取部(2)抽取到的单词出现的频率的相似性,对用该语言记述的多个文档进行聚类,由 此,按照每个语言生成所述类目; 类目间对应关系抽取部巧),基于在被分类到由所述类目生成部(7)生成的每个语言 的类目中的文档中单词出现的频率、W及由所述单词间对应关系抽取部(6)抽取到的对应 关系,在被分类到某个类目中的文档中出现的频率较多的单词、与在被分类到其他类目中 的文档中出现的频率较多的之间,所述单词间的对应关系存在得越多则视为该类目间的相 似度越高,由此,抽取将语言不同的文档进行了分类的类目间的对应关系。
2. -种文档分类装置,其特征在于, 具备: 文档存储部(1),存储语言不同的多个文档; 文档间对应关系存储部巧),存储所述文档存储部(1)所存储的、语言不同的文档间的 对应关系; 类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目; 单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词; 单词间对应关系抽取部化),使用所述文档间对应关系存储部(5)所存储的对应关系, 基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频 率,抽取该单词间的对应关系;W及 事例基准文档分类部巧),基于作为已经被分类到所述类目存储部(3)所存储的类目 中的文档的、1个或者多个已分类文档,对还未被分类到该类目中的未分类文档决定是否应 该分类到该类目中; 所述事例基准文档分类部巧), 基于针对各类目的已分类文档和未分类文档各自的、由所述单词抽取部(2)抽取到的 单词出现的频率和由所述单词间对应关系抽取部(6)抽取到的对应关系,在某个类目的已 分类文档中出现的频率较多的单词、与在某个未分类文档中出现的频率较多的单词之间的 相似度高到满足规定条件的情况下,决定是否将用其他语言来记述的未分类文档分类到该 类目中,该其他语言不同于对所述类目的已分类文档进行记述的语言。
3. 如权利要求1所述的文档分类装置,其特征在于, 还具备: 类目特征词抽取部(10),基于针对作为被分类到所述类目存储部(3)所存储的类目中 的文档的、用1个或者多个语言记述的1个或者多个文档的、由所述单词抽取部(2)抽取到 的单词出现的频率,抽取该类目的特征词;化及 类目特征词变换部(11),基于由所述单词间对应关系抽取部(6)抽取到的对应关系, 将作为由所述类目特征词抽取部(10)抽取到的特征词的用第一语言记述的特征词,变换 为用第二语言记述的特征词。
4. 如权利要求1所述的文档分类装置,其特征在于, 还具备: 规则基准文档分类部(12),W所述类目存储部(3)所存储的1个或者多个类目为对象, 基于W将由所述单词抽取部(2)抽取到的单词当中的1个或者多个单词出现的文档分类到 该类目中的方式进行规定的分类规则,决定用于对所述文档存储部(1)所存储的文档进行 分类的类目;W及 分类规则变换部(13),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将 所述规则基准文档分类部(12)所使用的各类目的分类规则中的用第一语言记述的单词变 换为用第二语言记述的单词,由此对所述分类规则进行变换。
5. 如权利要求1所述的文档分类装置,其特征在于, 具备: 辞典存储部(14),存储用于规定所述类目生成部(7)对单词的使用方法的辞典; 辞典设定部(15),对所述辞典,设定重视的重要词、忽略的不需要词、视为相同的同义 词的某个或者多个,作为辞典词;W及 辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将作为 在所述辞典中设定的辞典词的用某个语言记述的辞典词变换为用其他语言记述的辞典词。
6. 如权利要求2所述的文档分类装置,其特征在于, 具备: 辞典存储部(14),存储用于规定所述事例基准文档分类部(9)对单词的使用方法的辞 化. 辞典设定部(15),对所述辞典,设定在所述文档的分类中重视的重要词、在所述文档的 分类中忽略的不需要词、在所述文档的分类中视为相同的同义词的某个或者多个,作为辞 典词;化及 辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将所述 辞典中设定的用某个语言记述的辞典词变换为用其他语言记述的辞典词。
7. 如权利要求3所述的文档分类装置,其特征在于, 具备: 辞典存储部(14),存储用于规定所述类目特征词抽取部(10)对单词的使用方法的辞 典; 辞典设定部(15),对所述辞典,设定在所述文档的分类中重视的重要词、在所述文档的 分类中忽略的不需要词、在所述文档的分类中视为相同的同义词的某个或者多个,作为辞 典词;化及 辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将所述 辞典中设定的用某个语言记述的辞典词变换为用其他语言记述的辞典词。
8.-种文档分类方法,应用在文档分类装置中,该文档分类装置具有;文档存储部 (1),存储语言不同的多个文档;文档间对应关系存储部巧),存储所述文档存储部(1)所 存储的、语言不同的文档间的对应关系;W及类目存储部(3),存储用于对所述文档存储部 (1)所存储的多个文档进行分类的类目,其特征在于, 在该文档分类方法中, 从所述文档存储部(1)所存储的文档抽取单词, 使用所述文档间对应关系存储部(5)所存储的对应关系,基于所述抽取到的单词在具 有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系, 基于所述文档存储部(1)所存储的语言相同的文档间的、所述抽取到的单词出现的频 率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成所述类目, 基于在被分类到所述生成的每个语言的类目中的文档中单词出现的频率、W及所述抽 取到的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词与在被分类到其 他类目中的文档中出现的频率较多的单词之间,所述单词间的对应关系存在得越多则视为 该类目间的相似度越高,由此,抽取将所述语言不同的文档进行了分类的类目间的对应关 系。
【专利摘要】根据实施方式,文档分类装置具有:类目生成部(7),以语言不同的多个文档当中的相同语言的多个文档为对象进行聚类,由此来按照每个语言生成类目;单词间对应关系抽取部(6),使用语言不同的文档间的对应关系,基于语言不同的单词在存在对应关系的文档间同现地出现的频率,抽取不同单词的单词间的对应关系;以及类目间对应关系抽取部(8),基于单词间的对应关系,抽取将语言不同的文档进行了分类的类目间的对应关系。
【IPC分类】G06F17-30
【公开号】CN104584005
【申请号】CN201380042988
【发明人】后藤和之, 祖国威, 宫部泰成, 岩崎秀树
【申请人】株式会社东芝, 东芝解决方案株式会社
【公开日】2015年4月29日
【申请日】2013年8月22日
【公告号】US20150161144, WO2014030721A1
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1