文档分类装置及文档分类方法_3

文档序号:8269406阅读:来源:国知局
力L fc……"这样的 文本。单词抽取部2对取得的该文本进行词素解析(S1002)。该处理的内容根据语言而不 同。例如在文本的语言为日语或中文的情况下,单词抽取部2将文本分解为词素,即进行分 词隔写,对各词素赋予名词或动词等词性。在文本的语言为英语的情况下,单词抽取部2进 行分词隔写处理主要基于空白文字来进行。但是,单词抽取部2与日语和中文时同样地进 行词性的赋予。
[0115] 接下来,单词抽取部2对被赋予了规定词性的词素进行筛选,仅留下需要的词素, 除去不需要的词素(S1003)。一般来讲,单词抽取部2进行将独立词及实义词作为分类等处 理中使用的词素留下、而将附属词及功能词除去的处理。该处理依赖于语言。
[0116] 单词抽取部2可以是,在词素例如为英语或中文的动词的情况下,将该词素作为 需要的词素留下,在词素为日语的动词的情况下,将该词素作为不需要的词素除去。此外, 单词抽取部2也可以是,即使词素为英语的动词,"have"及"make"也作为停止词(stop word)而将该词素除去。
[0117]接下来,单词抽取部2对词素的表达进行标准化(S1004)。该处理也是依赖于语 言的处理。单词抽取部2例如在抽取到的文本为日语的情况下,也可以是,将"組办合打甘" 和"組合甘"等表达偏差吸收,作为相同的词素来对待。此外,单词抽取部2在抽取到的文 本为英语的情况下,也可以是,进行被称作词干提取(stemming)的处理,将词干相同的词 素作为相同的词素来对待。
[0118]接下来,单词抽取部2针对S1004中标准化后的每个词素,求出文档中的出现频率 (在此为TF(Term Frequency),即单词频率)(S1005)。单词抽取部2最后输出由S1004标 准化后的词素及其出现频率构成的组(S1006)。
[0119] 图11是表示图1?图5所示的单词间对应关系抽取部6的处理的流程的一例的 流程图。
[0120] 首先,单词间对应关系抽取部6取得文档间对应关系存储部5所存储的数据。单 词间对应关系抽取部6使用取得的该数据,将隶属于语言k的文档集合Dk的文档dk与隶 属于语言1的文档集合D1的文档dl之间的、文档间的对应关系的集合,设为Dkl = {(dk, dl) :dk G Dk,dl G Dl,dk 分 dl} (S1101)。
[0121] 接下来,单词间对应关系抽取部6将由单词抽取部2从Dkl中的语言k的文档dk 的每个中抽取到的单词,针对Dkl中的全部文档dk取并集,由此求出语言k的单词集合 Tk(S1102)。作为其结果,得到Dkl中的文档中包含的语言k的单词及其出现频率(在此为 DF (Document Frequency),即,文档频率)。
[0122] 单词间对应关系抽取部6针对语言1也同样地,将由单词抽取部2从Dkl中的语 言1的文档dl的每个中抽取到的单词,针对Dkl中的全部文档dl取并集,由此,求出语言 1的单词集合n(S1103)。接下来,单词间对应关系抽取部6针对单词集合Tk中的各单词 tk反复进行(S1104)以下的S1105至S1112的处理。
[0123] 单词间对应关系抽取部6求出单词tk在Dkl中的文档频率df(tk,Dkl) (S1105)。 如果该文档频率为规定的阈值以上(S1106为是),则单词间对应关系抽取部6针对单词集 合n中的各单词tl反复进行(S1107)以下的S1108至S1112的处理。
[0124] 首先,单词间对应关系抽取部6求出单词tl的文档频率df (tl,Dkl) (S1108)。如 果该文档频率为规定的阈值以上(S1109),则单词间对应关系抽取部6进行以下的S1110以 后的处理。
[0125]如果单词tk的文档频率df (tk,Dkl)、即该单词出现的文档数小于规定的阈值(例 如小于5件)(S1106为否),则单词间对应关系抽取部6视为用于针对该单词高精度地求出 与用其他语言记述的单词之间的对应关系的数据在Dkl中是不足的,返回S1104。
[0126] 此外,如果单词tl的文档频率df(tl,Dkl)、即该单词出现的文档数小于规定的阈 值(例如小于5件)(S1109为否),则单词间对应关系抽取部6视为用于针对该单词高精度 地求出与用其他语言记述的单词之间的对应关系的数据在Dkl中是不足的,返回S1107。
[0127] 如果文档频率df(tl,Dkl)为规定的阈值以上(S1109为是),则单词间对应关系 抽取部6求出单词tk和单词tl在Dkl中的同现频率df (tk,tl,Dkl)。该同现频率是指含 有单词tk的文档和含有单词tl的文档之间的对应关系的个数。此外,单词间对应关系抽 取部6使用该同现频率,基于以下的式(1)求出表示单词tk和单词kl在Dkl中的同现的 大小的DICE系数(Dice)。单词间对应关系抽取部6通过以下的式(2)求出同样表示Dkl 中的同现的大小的辛普森(Simpson)系数(S1110)。
[0128] dice (tk, tl, Dkl) = df (tk, tl, Dkl) / (df (tk, Dkl) +df (tl, Dkl))......式(1)
[0129] simp (tk, tl, Dkl) = df (tk, tl, Dkl) /min (df (tk, Dkl), df (tl, Dkl))......式(2)
[0130] 如果同现频率 df (tk,tl,Dkl)、DICE 系数 dice (tk,tl,Dkl)、辛普森系数 simp (tk, tl,Dkl)分别为规定的阈值以上(Sllll为是),则单词间对应关系抽取部6将单词tk与单 词tl的关系作为单词间的对应关系的候选。单词间对应关系抽取部6将与单词间的对应 关系的候选对应的分数,设为 a * dice(tk,tl,Dkl) + |3 * simp(tk,tl,Dkl)(a和|3为 常量)(S1112)。最后,单词间对应关系抽取部6将这样求出的单词间的对应关系的多个候 选,按照分数从大到小的顺序输出(S1113)。
[0131] 在本实施方式中,这样,使用基于文档频率(DF)的Dice系数和Simpson系数来判 定用不同语言记述的单词tk与单词tl之间的关系作为对译词或关联词是否恰当,。根据 该方法,多语言文档分类装置仅使用文档单位的对应关系、即不是文章单位的对译关系而 是大概的对应关系,能够高精度地抽取单词间的对应关系。但是,在本实施方式中,不限定 于上述的方法及数式,例如也可以使用交互信息等其他数式,也可以使用考虑了单词频率 (TF)的方法。
[0132] 图12是表示作为图11所说明的单词间对应关系抽取部6的处理的结果而抽取到 的、日语与英语的单词间的对应关系的例子的图。
[0133] 如图12所示,例如在行1201中,抽取到相对于日语的单词"露光"的英语的单词 "exposure",并与分数一起输出。多语言文档分类装置如行1201和行1202的例子那样, 能够得到英语的1个单词"exposure"与日语的多个单词"露光"、"露出"之间的对应关系。 相反,多语言文档分类装置如行1206和行1207的例子那样,也能够相对于日语的1个单词 "検索"得到英语的多个单词"search"和"retrieve"。
[0134] 此外,通过对单词间的对应关系赋予的分数,来定量地表示对应关系的恰当程度。 由此,多语言文档分类装置能够根据用途,例如仅选择分数高的对应关系、即为正确的对译 词的可能性高的对应关系来使用。
[0135] 图13是表示图1或者图5的类目生成部7的处理的流程的一例的流程图。
[0136] 该处理是以用某1个语言记述的文档集合为对象来进行聚类,由此来自动地生成 将内容相似的文档归集起来的类目(群集(cluster))的处理。
[0137]首先,类目生成部7将作为类目生成的对象的语言1的文档集合设为D1,将作为类 目生成的结果的、类目集合C1的初始值设为空集合(S1301)。类目生成部7针对该文档集 合D1中的各文档dl反复执行(S1302)以下的S1303至S1314的处理。
[0138] 类目生成部7根据使用单词抽取部2从文档dl中抽取到的单词,求出dl的单词 向量vdl(S1303)。单词向量是指,将文档中出现的各单词作为向量的维、将各单词的权重作 为向量在该维的值的向量。该单词向量能够使用现有技术来求出。单词向量的各单词的权 重例如以下的式(3)所示那样,一般能够通过被称作TFIDF的方法来计算。
[0139] tf idf (tl, dl, Dl) = tf (tl, dl) *log (| Dl | /df (tl, Dl))......式(3)
[0140] 式(3)中,tf(tl,dl)为单词tl在文档dl中的单词频率(TF),df(tl,Dl)为单词 tl在文档集合Dl中的文档频率(DF)。另外,tf (tl,dl)也可以单纯为在文档dl中单词tl 的出现次数。此外,tf(tl,dl)例如也可以是文档dl中出现的全部单词的出现次数的总和 除以各单词的出现次数而进行了标准化后的值。
[0141] 此外,在针对某个文档的部分集合Dcl( DcIGDI )求出单词向量的情况下,类目 生成部7能够将单词向量的单词tl的权重,如以下的式(4)所示那样,作为Del中的各文 档dl的单词向量的单词tl的权重的总和来计算。
[0142] tf idf (tl, Del, Dl) = (2dl G Del (tf (tl, dl))) *log (| Dl |/df (tl, Dl))......式 (4)
[0143] 另外,在图5所说明的、构成为使用辞典的实施方式中,类目生成部7也可以在该 S1303的步骤中进行增加单词向量中的重要词的权重、或删除不需要词、或将作为同义词的 多个单词归集为1个维的处理。
[0144] 此外,关于类目生成部7中的计算,不限于式(3)及式(4)。具体地讲,该计算只要 是用于求出单词向量的各单词的权重的计算即可。此外,被进行同样的处理即可,那么该计 算不限于一定由类目生成部7来进行。
[0145] 接下来,类目生成部7将文档dl的分类目的地类目cmax的初始值设为"无",将dl 与cmax的相似度的最大值smax的初始值设为0 (S1304)。然后,类目生成部7针对类目集 合C1中的各类目cl反复执行(S1305)以下的S1306至S1308的处理。
[0146] 类目生成部7根据类目cl的单词向量vcl与文档dl的单词向量vdl的余弦值 cos(vcl,vdl),求出类目cl与文档dl的相似度s(S1306)。
[0147] 接下来,类目生成部7在相似度s为规定的阈值以上并且大于smax(S1307为是) 的情况下,类目生成部7设为cmax = cl、smax = s (S1308) 〇
[0148] 该反复处理(S1305)的结果,如果存在类目cmax(S1309为是),则类目生成部7将 文档dl分类到该类目cmax中(S1310)。然后,类目生成部7对类目cmax的单词向量vcmax 加上文档dl的单词向量vdl(S1311)。结果,单词向量vcmax的各单词的权重如式(4)所示 那样,成为加上了基于文档dl的单词频率的权重之后的值。
[0149] 另一方面,如果不存在类目cmax(S1309为否),则类目生成部7新制作类目cnew, 将其追加到类目集合Cl中(S1312)。类目生成部7将文档dl分类到类目cnew中(S1313), 将类目cnew的单词向量vcnew设为文档dl的单词向量vdl (S1314)。
[0150] 作为以上的反复处理(S1302)的结果,对文档集合进行了聚类后的结果而得的类 目被生成在类目集合C1中,但是类目生成部7将该生成的类目当中文档数小于规定的阈值 的类目删除(S1315)。即,例如文档数仅为1件的类目没有意义,因此,类目生成部7将这样 的类目从类目的生成结果中除去。
[0151] 此外,类目生成部7针对所生成的各类目cl,使用其单词向量vcl,设定该类目的 名称(S1316)。类目生成部7例如将类目的单词向量当中权重最大的单词选择1个或者多 个来作为名称即可。例如在图7B所示的例子中,能够使用行708所示的2个单词"顔"和 "検出"来设定类目的名称"顔一検出"。这样生成的类目成为将单词向量的相似度较大的 文档彼此归集起来的类目。图13所说明的处理是一般被称作leader - follower法的聚 类手法。但是,在本实施方式中,不限于该手法,例如也可以使用层级型聚类的手法或k 一 means法等手法。
[0152] 图14是表示生成类目的多个语言的单词向量的处理的流程的一例的流程图。
[0153] 该处理是作为为了求出在后述的图15和图17所示的处理中使用的单词向量而在 图15的S1504(类目间对应关系抽取部8)和图17的S1704(事例基准文档分类部9)中分 别进行的处理来执行的。已分类到类目中的文档的语言根据类目而不同。例如,存在如下 那样的情况:某个类目中仅被分类有日语的文档,而其他类目中被分类有大量的英
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1