文档分类装置及文档分类方法_5

文档序号:8269406阅读:来源:国知局
语言1的单词向量vcl'。这是在S1704中针对各语言求 出的单词向量当中事例基准文档分类部9针对语言1求出的单词向量。
[0192] 如果相似度s为规定的阈值以上(S1710为是),则事例基准文档分类部9将文档 dl分类到类目c中(S1711)。该S1710和S1711的处理也可以变形。例如,事例基准文档 分类部9也能够进行如下的变形:选择相似度最大的1个类目来将文档分类到其中,或者, 按照相似度从大到小的顺序选择最大的3个类目,将文档分类到其中。
[0193] 在该图17的处理中,特别是通过S1703和S1704,能够不依赖于已经分类到类目中 的文档的语言地获得多个语言的单词向量。因此,事例基准文档分类部9使用该单词向量, 针对用哪个语言记述的文档都能够选择分类目的地的类目。
[0194] 根据这样的结构,多语言文档分类装置例如在某个类目中首先通过手动作业分类 有几个用户容易理解的仅母语的文档、例如日语的文档之后,能够基于该日语的文档的分 类事例即监督文档,将与其内容相似的英语或中文的文档自动地分类到该类目中。
[0195] 接下来,对图3所示的实施方式中的处理进行说明。图18是表示图3所示的类目 特征词抽取部10的处理的流程的一例的流程图。
[0196] 类目的特征词是指表示已被分类到类目中的文档的内容的特征性单词。该特征词 例如是以用户能简单地理解在类目中已经分类了什么样的文档为目的,从各类目自动地抽 取的。
[0197] 在图18所示的处理中,首先,在将抽取特征词的对象的类目设为c的情况、且将抽 取的特征词的语言设为1的情况下,类目特征词抽取部10将已分类到类目C中的语言1的 文档集合设为Del,将该Del的文档中出现的单词的单词集合设为Tcl(S1801)。对使用图 1?图5所示的单词抽取部2通过图10所示的处理从文档集合Del中的各文档中抽取到的 单词取并集,对各单词的文档频率(DF)进行汇总,由此,类目特征词抽取部10得到该单词 集合Tel。这是与例如图11的S1102后S1103中进行的处理相同的处理。
[0198] 接下来,类目特征词抽取部10针对单词集合Tel的各单词tel反复(S1802)通过 以下的式(6)求出tel的分数(S1803)。
[0199] mi (t, Del, Dl) = df (t, Del) / | Dl | *log (df (t, Del) * | Dl | /df (t, Dl) / | Del |)
[0200] +(df (t, Dl) -df (t, Del) ) / | Dl | *log ((df (t, Dl) -df (t, Del) ) * | Dl | / df(t,Dl)/ (|Dl|-|Del|)) + (|Del|-df (t,Del))/|Dl卜log ((|Del|-df (t,Del))*|Dl|/ (|Dl|-df(t,Dl))/|Dcl|)
[0201] + (| Dl | -df (t, Dl) -1 Del | +df (t, Del)) / | Dl | *log ((| Dl | -df (t, Dl) - | Del | +df (t, D cl))*|Dl|/(|Dl|-df(t,Dl))/(|Dl|-|Dcl|))……式(6)
[0202] 但是,df (t, Del)/df (t, Dl)刍 | Del | / | Dl | 时,mi (t, Del, Dl) = 0。
[0203] 在此,类目特征词抽取部10使用交互信息,根据文档是否已被分类到类目中的现 象与单词tel在文档中是否出现的现象之间的相关性的强弱,求出特征词的分数。文档是 否已被分类到类目中的现象是文档是否被包含在文档集合Del中的现象。
[0204] 但是,式(6)中的D1是用语言1记述的文档的整体集合(一般为DlQDcl,多数 情况为D13Dcl)。此外,也有单词与类目之间存在负的相关性的情况,因此,为了将该相 关性除去,在(^加1,0(:1)/(^加1,01)兰|0(3|/|01|的情况下,类目特征词抽取部10如式 (6)的但书所示那样将分数设为0。
[0205] 最后,类目特征词抽取部10将按照分数从大到小的顺序选择规定个数(例如10 个)的单词tel而得的结果,作为类目C的语言1的特征词(S1804)。
[0206] 图19是表示图3所示的类目特征词变换部11的处理的流程的一例的流程图。
[0207] 根据图18所说明的处理,例如从被分类有仅中文的文档的类目,只能获得中文的 特征词。因此,对于例如以日语为母语的用户来讲,很难理解特征词。于是,多语言文档分类 装置通过图19所示的处理,将用某个语言记述的特征词变换为用其他语言记述的特征词。
[0208] 在图19所示的处理中,首先,类目特征词变换部11使用图18所示的处理结果,求 出类目c的语言k的特征词集合Tck(S1901)。该类目特征词变换部11的处理的目的在于 获得与该特征词集合Tck对应的其他语言1的单词。
[0209] 与S1901同样,类目特征词变换部11使用图18所示的处理结果,求出类目c的语 言1的特征词集合Tcl(S1902)。该S1902的处理不是必要的。在类目c中未分类有语言 1的文档的情况下,类目特征词变换部11根本无法得到语言1的特征词,因此,特征词集合 Tel为空集合。如图18中的S1803所说明那样,这些特征词集合Tck与特征词集合Tel的 各特征词被赋予分数。
[0210] 接下来,通过类目特征词变换部11和图1?图5所示的单词间对应关系抽取部 6 (图11的处理),取得语言k与语言1的单词的对应关系(S1903)。类目特征词变换部11 将作为该图19所示的处理结果的、类目c的语言k的特征词与语言1的特征词的组的集合 设为Pckl,将其初始值设为空集合(S1904)。
[0211] 然后,类目特征词变换部11针对特征词集合Tck的各特征词tck反复(S1905)执 行以下的S1906至S1910的处理。
[0212] 首先,类目特征词变换部11使用S1903所取得的单词间的对应关系,求出与特征 词tck对应的语言1的单词tel。一般来讲,tel可能为0个以上。因此,类目特征词变换 部11包含0个即不存在的情况在内地将特征词tck和特征词tel的组设为pckl (S1906)。
[0213] 类目特征词变换部11求出pckl的分数。作为tck的特征词的分数通过S1901的 处理来求出。
[0214] 作为tel的特征词的分数在S1902所得到的特征词集合Tel中包含有特征词tel 的情况下被求出。但是,未被包含在特征词集合Tel中的特征词tel的分数为0。考虑以上 的情况,类目特征词变换部11将pckl的分数设为特征词tck的分数与特征词tel的分数 之中的最大值(S1907)。
[0215] 接下来,类目特征词变换部11调查在特征词的组的集合Pckl当中已经制作的某 个组qckl与这次制作出的组pckl之间,语言k或语言1的单词是否有重复(S1908)。
[0216] 在存在这些单词有重复的qckl的情况下(S1908为是),类目特征词变换部11将 pckl统合到qckl中。例如如果pckl= ({tckl},{tell,tcl2},qckl= ({tck2},{tcl2, tcl3}),则pckl与qckl之间语言1的特征词tcl2是重复的。因此,类目特征词变换部11 对它们进行统合来设为qckl= ({tckl,tck2},{tell,tcl2,tcl3})。该统合后的qckl的 分数成为统合前的qckl和pckl的最大值(即特征词tckl,tck2,tell,tcl2,tcl3的分数 的最大值)(S1909)。
[0217] 另一方面,如果与pckl之间不存在单词有重复的qckl (S1908为否),则类目特征 词变换部11将pckl追加在Pckl中(S1910)。然后,在S1905的反复处理后,类目特征词变 换部11将Pckl中的特征词的组按照分数从大到小的顺序输出(S1911)。
[0218] 图20是以表形式来表示由图3所示的类目特征词抽取部10 (对应于图18的处 理)抽取、并由类目特征词变换部11(对应于图19的处理)变换后的特征词的例子的图。
[0219] 如图20所示,例如行2001所示,英语的特征词"face"被变换为日语的特征词 "顔",同样,如行2002所示,英语的特征词"detect"被变换为日语的特征词"検出"。此外, 例如行2003所示,英语的"area"和"region"这2个特征词与日语的"領域"这1个特征词 建立了对应。相反,如行2004所示,英语的"exposure"这1个特征词与日语的"露光"和 "露出"这2个特征词建立了对应。通过使用这样进行了变换的特征词,用户能够用各种语 言来容易地理解被分类到类目中的文档的内容。例如,通过向用户提示图20所示那样的英 语与日语的特征词的对应关系,用户能够简单地知晓用不习惯的语言记述的单词的意思。
[0220] 根据这样的结构,例如从较多地分类有中文的文档的类目中,首先,作为该类目的 特征词,自动地抽取中文的特征词。接下来,将该特征词自动地变换为日语或英语的特征 词。用户能够利用用对自己而言容易理解的语言记述的特征词,因此能够容易地掌握类目 的内容。
[0221] 接下来,对图4所示的实施方式中的处理进行说明。图21是表示图4所示的分类 规则变换部13的处理的流程的一例的流程图。
[0222] 如图7的C所说明的那样,多语言文档分类装置通过使用分类规则,能够根据例如 在文档的"摘要"中包含有"露光"这一单词的明示条件来对文档进行分类。但是,例如该 "露光"这一单词仅能适用于对日语的文档进行分类的目的。也就是说,该单词并不适用于 对英语或中文的文档进行分类的目的。于是,通过图21所示的处理,分类规则变换部13将 用某个语言记述的分类规则变换为用其他语言记述的分类规则。
[0223] 首先,分类规则变换部13从图1?图6A、图6B、图6C所示的单词间对应关系抽取 部6(对应于图11的处理)取得语言k与语言1的单词间的对应关系(S2101)。
[0224] 接下来,分类规则变换部13针对成为变换对象的分类规则的、语言k的要素(图 7C的例子中为日语的要素"contains (摘要,"露光")")反复(S2102)执行以下的S2103 至S2106的处理。
[0225] 首先,分类规则变换部13使用S2101中取得的单词间的对应关系,判断是否存在 与分类规则的要素rk中的单词tk对应的语言1的单词tl (S2103)。
[0226]如果存在单词tl (S2103为是),则分类规则变换部13制作将rk的单词tk置 换成单词tl后的要素rl(S2104)。在图7C的例子中,单词tk为"露光",单词tl为 "exposure",分类规则的置换前的要素rk为"contains (摘要,"露光")",置换后的要素rl 为"contains (摘要,"exposure")"。然后,分类规则变换部13将分类规则的要素rk的部 分置换成(rk OR rl)这样的逻辑和。
[0227] 图22A、图22B是表示这样变换后的类目的分类规则的例子的图。S2104的处理的 结果,图7C的行712所示的分类规则被变换为图22A的行2201所示的分类规则。
[0228] 在图21的S2105以后的处理中,分类规则变换部13对分类规则的语言k的要素进 行扩展。该处理不是必须的。分类规则变换部13使用S2101中取得的单词间的对应关系, 判断是否存在与语言1的单词tl对应的语言k的单词tk'(与tk不同的单词)(S2105)。
[0229]如果存在单词tk'(S2105为是),则分类规则变换部13制作将S2104中制作出的 要素rl的单词tl置换为单词tk'后的要素rk'(S2106)。在图7C的行712所示的例子中, 单词tl为"exposure",单词tk'为"露出",分类规则的要素rk'为"contains (摘要,"露 出")',。
[0230] 然后,分类规则变换部13将分类规则的rl的部分置换为(rl OR rk')。该情况 下,作为其结果,原来的分类规则的要素rk被置换为(rk OR rl OR rk')。
[0231] 在图22B的行2202所示的分类规则中,示出了最终得到的分类规则。通过这样的 分类规则,不仅日语的文档,英语的文档也能够进行分类。进而,针对日语的文档,与原来的 分类规则相比,更加能够无遗漏地对文档进行分类。
[0232] 根据这样的结构,多语言文档分类装置例如制作了用于在某个类目中分类包含日 语的"暗号"这一单词的文档的分类规则之后,将该分类规则变换为英语或中文,由此,能够 将包含有例如英语的"encrypt"或中文的"加密"等、日语的"暗号"的对译词或关联词在 内的文档分类到该类目中。
[0233] 接下来,说明图5所示的实施方式中的处理。图23是表示图5所示的辞典变换部 16的处理的流程的一例的流程图。
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1