语义推测装置、方法以及程序的制作方法
【专利摘要】本发明目的在于能够通过无监督学习来高精度地推测语义。语义推测装置(100)执行多次概率计算处理,在该概率计算处理中,针对各单词,根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义的相近度、以及所选择的单词成为所选择的语义的概率,计算将作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计算所述概率,语义推测装置(100)针对各单词,将计算出的概率高的概念推测为该单词的语义。
【专利说明】语义推测装置、方法以及程序
【技术领域】
[0001] 本发明涉及针对文档中包含的单词,推测该单词被以在辞典中登记的哪个语义使 用的语义推测技术(语义的含糊性消除技术)。
【背景技术】
[0002] 关于语义的推测,作为以机器翻译、信息检索为首的各种自然语言处理的基础技 术,进行了大量研究,作为其方式,大致分类有2个方法。
[0003] -个是应用有监督学习(或者半监督学习)的方式,另一个是应用无监督学习的 方式。
[0004] 在应用有监督学习的方式中,预先制作对作为对象的任务、或者与其类似的文档 数据(通常以人工方式)赋予了正确的语义的带标签的学习数据。然后,通过某种基准(似 然度最大化、余量最大化等),使模型学习根据单词的出现上下文识别语义的规则。
[0005] 作为应用有监督学习的方式,在非专利文献1中,记载了使用支持向量机的方式, 在非专利文献2中,记载了应用朴素贝叶斯法的方式。另外,在非专利文献3中,记载了通 过并用未赋予正确的语义的无标签学习数据来削减带标签的学习数据的必要量的半监督 学习的技术。
[0006] 在应用无监督学习的方式中,不使用人工地赋予了正解的有标签学习数据,而仅 根据无标签学习数据识别语义。
[0007] 作为应用无监督学习的方式,在专利文献1中,记载了如下方式:在概念层次上调 查在文档中包含的单词的周边出现的共同出现的词的语义,搜索更大量的共同出现的词、 以及通过接近的层次和接近的语义定义文定义的语义候补,将搜索的语义候补采纳为单词 的语义。即,在关注的单词的语义候补中,共同出现的词的语义候补越是在附近有很多个的 候补越当作合理的,来推测单词的语义。
[0008] 专利文献1:日本特开2010-225135号公报
[0009] 非专利文献 1 :Leacock,c.,Miller, G. A. and Chodorow,M. :Using corpus statistics and wordnet relations for sense identification, Computational Linguistics,Vol. 24, No. l,pp. 147-165(1998)
[0010] 非专利文献2:電子情報通信学会言語理解i = = = ^ - i 3 >研究会 (NLC),"SENSEVAL-2日本語夕7夕,,,黒橋禎夫,白井清昭,2001
[0011] 非 专利 文献 3 : Yarowsky, D. : Un s up e r v i s e d word sense discrimination, Computational Linguistics, Vol. 24, No. 1, pp. 97-123 (1998)
[0012] 非专利文献4:栗林孝之,Bond, F.,黒田航,内元清貴,井佐原均,神崎享子,鳥 澤健太郎:日本語^ 一卜''才、7卜1.0,言語処理学会第16回年次大会発表論文集(2010)
【发明内容】
[0013] 但是,为了应用非专利文献1、2记载的应用了有监督学习的方式、非专利文献3记 载的应用了半监督学习的方式,需要预先制作对文档数据赋予了正确的语义的带标签的学 习数据。因此,在该方式中,存在在学习数据的制作中花费成本、或者在事先无法获得学习 数据的状况下无法应用的这样的课题。
[0014] 另外,专利文献1记载的应用了无监督学习的方式是想要仅消除关注的词的含糊 性的方式。即,不消除共同出现的词的语义含糊性,对于实际上错误的语义候补也同样地重 视,并作为关注共同出现的词的语义候补的词的根据来使用。因此,在该方式中,存在语义 的推测精度恶化这样的课题。
[0015] 本发明的目的在于能够通过无监督学习来高精度地推测语义。
[0016] 本发明涉及的语义推测装置,其特征在于,具备:
[0017] 单词抽出部,抽出输入数据所包含的多个单词;
[0018] 上下文解析部,针对所述单词抽出部抽出的各单词,抽出在所述输入数据中该单 词出现的上下文的特征;
[0019] 语义候补抽出部,从作为单词的语义存储了一个以上的概念的概念辞典,将针对 所述各单词作为语义存储的各概念抽出为该单词的语义候补;以及
[0020] 语义推测部,执行多次概率计算处理,在所述概率计算处理中,针对所述各单词, 根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义 的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将所述语义候补抽出 部作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计 算所述概率,所述语义推测部针对所述各单词,将计算出的概率高的概念推测为该单词的 语义。
[0021] 在本发明的语义推测装置中,通过针对多个单词同时推测语义,即使在未被赋予 正解语义的情况、仅被赋予了少量的正解语义的情况下,也能够实现高的语义推测精度。
【专利附图】
【附图说明】
[0022] 图1是实施方式1的语义推测装置100的结构图。
[0023] 图2是示出实施方式1的语义推测方式的概要的图。
[0024] 图3是示出由上下文解析部30生成的出现上下文的特征矢量的例子的图。
[0025] 图4是示出概念和单词的关系的图。
[0026] 图5是概念的关系定义的一个例子,是示出概念的上位(抽象)/下位(具体)关 系的图。
[0027] 图6是示出依照图5所示的层次定义,用矢量表现的概念的例子的图。
[0028] 图7是示出推测语义分配概率π 的处理的流程的流程图。
[0029] 图8是示出通过应用ΕΜ算法实施的语义分配概率π '的更新、和与其相伴的语义 含糊性消除的情况的图。
[0030] 图9是示出语义推测装置100的硬件结构的一个例子的图。
[0031] 符号说明
[0032] 10 :输入文本数据;20 :单词抽出部;30 :上下文解析部;40 :语义候补抽出部;50 : 概念辞典;60 :语义推测部;70 :推测语义数据;100 :语义推测装置。
【具体实施方式】
[0033] 以下,根据附图,说明发明的实施方式。
[0034] 另外,在以下的说明中,处理装置是后述CPU911等。存储装置是后述R0M913、 RAM914、磁盘装置920等。即,处理装置、存储装置是硬件。
[0035] 另外,在以下的说明中,在wi被记载为上标文字、下标文字的情况下,该wi意义着 wi〇
[0036] 实施方式1.
[0037] 在实施方式1中,使用将多个数据库的表格模式作为输入文本数据10并推测构成 表格模式的单词的语义的例子,说明语义推测方式。
[0038] 作为以表格模式为对象来推测语义的具体的用途,例如有企业中的数据合并。在 企业中,有希望在过去单独地构筑并工作的多个业务应用之间合并数据库的数据这样的需 求。为了实现数据的合并,需要在多个数据库之间判别哪个项目对应于哪个项目。以往,项 目之间的对应判别是以人工方式进行的。在此通过使用语义推测方式,能够支援判定在不 同的名称的项目之间有无对应关系的作业,实现节省作业的劳力。
[0039] 图1是实施方式1的语义推测装置100的结构图。
[0040] 输入文本数据10是多个数据库的多个表格模式。
[0041] 单词抽出部20通过处理装置,按照单词单位分割在表格模式中定义的表格名、纵 列(column)名,将分割后的单词作为语义推测对象抽出。
[0042] 上下文解析部30通过处理装置,从表格模式抽出单词抽出部20抽出的各单词的 出现上下文的特征。
[0043] 语义候补抽出部40通过处理装置,针对单词抽出部20抽出的各单词,参照概念辞 典50来抽出语义候补。
[0044] 概念辞典50将一个以上的概念作为单词的语义存储到存储装置中,并且将概念 之间的层次性的关系存储到存储装置中。
[0045] 语义推测部60针对单词抽出部20抽出的各单词,推测语义候补抽出部40抽出的 语义中的哪一个合理。此时,语义推测部60针对各单词,根据上下文解析部30关于该单词 和其他单词抽出的上下文的特征的相近度、和关于该单词的语义候补和其他单词的语义候 补的概念的相近度,推测语义。然后,语义推测部60将针对各单词推测出的语义作为推测 语义数据70输出。
[0046] 图2是示出实施方式1的语义推测方式的概要的图。
[0047] 此处,输入文本数据10是定义了数据库的表格构造的模式。在图2中,作为一个 例子,示出了输入了包括"SHIP_T0"、"DELIVER_T0"这样的纵列的、"ORDER"这样的表格的 模式的状态。实际输入多个这样的表格模式。
[0048] 单词抽出部20从被输入的表格模式中抽出单词。此处,通过最简单的方法,将 下划线"作为分隔符进行单词分割。其结果,在图2中,抽出"0RDER"、"SHIP"、"T0"、 "DELIVER"这4个种类的单词。将抽出的单词全部当作语义的推测对象(分类对象词)来 处理。
[0049] 上下文解析部30根据由单词抽出部20实施单词分割的结果,抽出各分类对象词 的出现上下文的特征,生成特征矢量。
[0050] 单词的出现上下文的特征是指,表示该单词在表格模式中采用了什么样的使用方 法。此处,作为单词的出现上下文的特征,设为使用如下5个特征:(1)出现部位是表格名 还是纵列名的类别、(2)在仅接分类对象词之前出现的单词、(3)在仅接着分类对象词之后 出现的单词、(4)在父表格名中出现的单词(仅在分类对象词的出现部位是纵列名的情况 下)、(5)在子纵列名中出现的词(仅在分类对象词的出现部位是表格名的情况下)。
[0051] 图3是示出由上下文解析部30生成的出现上下文的特征矢量的例子的图。
[0052] 在图3中,各行表示分类对象词,各列表示构成特征的来历。另外,在图3中,在 来历的值是1时,表示具有该特征,在〇时,表示不具有该特征。从图3可知,分类对象词 "SHIP"和"DELIVER"的出现上下文矢量一致,采用了相互良好地近似的使用方式。
[0053] 语义候补抽出部40在概念辞典50中参照各分类对象词,抽出成为语义的候补的 全部概念。
[0054] 作为概念辞典50,例如,使用WordNet。在WordNet中,将称为synset的概念作为 一个单位,定义了与该概念相当的单词、概念之间的上位/下位关系等。在例如非专利文献 4中,记载了 WordNet的详细内容。
[0055] 图4、图5是示出概念辞典50的例子的图。
[0056] 图4是示出概念和单词的关系的图。S卩,图4是示出语义的定义例的图。
[0057] 例如,概念ID0003是具有日语的"船(船)"的名称的概念,定义了作为对应的单 词有"ship"、" VeSSel"等的情况。在相反地从单词"ship"观察的情况下,作为语义登记了 ID0003 "船(船)"、0010 "肩書爸(头衔)"、0017 "出荷(运出货物)"这3个概念,是含糊 的。同样地,针对单词"deliver",作为语义也登记有ID0013 "出産(生产)"、0019 "配達 (配送)"这2个概念,是含糊的。即,需要根据上下文来识别以哪个语义使用了单词" ship"、 "deliver"。
[0058] 图5是概念的关系定义的一个例子,是示出概念的上位(抽象)/下位(具体)关 系的图。
[0059] 追寻层次关系而处于接近的距离的概念彼此相比于远离的概念具有更类似的意 义。例如,在图5中,ID0017的概念"出荷(运出货物)"被定义为与ID0019的概念"配達 (配送)"处于姐妹关系的层次,具有例如比其他ID0013的概念"出産(生产)"更类似的 意义。
[0060] 语义候补抽出部40抽出在概念辞典中登记为单词的语义的概念,并且将抽出的 概念变换为语义的特征矢量。通过变换为语义的特征矢量,能够与出现上下文之间的相近 度同样地利用矢量计算来处理概念之间的相近度。
[0061] 图6是示出依照图5所示的层次定义,用矢量表现的概念的例子的图。
[0062] 在图6中,各行表示在左端显示的概念ID的矢量。矢量的各分量是构成概念层次 的概念,在相当于该概念或者其上位概念时被赋予1,否则被赋予0。例如,在ID0017的概 念中,作为上位概念具有ID0001、ID0011、ID0016,所以对包括自身的ID0017和这些3个概 念的合计4个分量赋予1。
[0063] 从图6可知,概念ID0017 "出荷(运出货物)"和ID0019 "配達(配送)"被表现 为比其他概念更类似的矢量。
[0064] 语义推测部60根据上述出现上下文的特征矢量和语义的特征矢量,推测 分类对象词的语义。
[0065] 在图2中,在二维的平面中,示意地表示由上述2个矢量构成的特征空间。如果将 分类对象词X映射到该平面上,则分类对象词X的出现上下文的特征矢量Φ」χ)的坐标被 唯一地确定。但是,分类对象词X的语义有含糊性,所以分类对象词X的语义的特征矢量 Φ^χ)的坐标成为向多个部位概率性地定位的假设。在图2中用黑的点表示了在平面上被 映射出的假设。例如,图2的分类对象词"SHIP"在语义的特征矢量侧有含糊性,在3个 部位的点设置了假设。
[0066] 为了通过无监督学习来消除这样的各词的语义的含糊性,此处,设置以下的2个 假定。
[0067]〈假定1>与出现上下文无关地在相同的语义中使用一个词目。
[0068]〈假定2>越是与出现上下文相近的单词的语义接近的语义,越合理。
[0069] 假定1是指,在处理所限定的任务域的模式的情况下,不发生单词的多义性,能够 对单词分配一贯的语义。
[0070] 假定2是指,假定1中的各词中封闭的一贯性的假定希望在进一步将对象扩展至 出现上下文类似的词群的情况下也具有缓和的连续性而成立。
[0071] 根据上述2个假定,此处,通过式11求出对分类对象词X分配语义s的语义假设 (X,S)的联合概率P (X,S)。
[0072] 【式11】
[0073] p(x, s)=
【权利要求】
1. 一种语义推测装置,其特征在于,具备: 单词抽出部,抽出输入数据所包含的多个单词; 上下文解析部,针对所述单词抽出部抽出的各单词,抽出在所述输入数据中该单词出 现的上下文的特征; 语义候补抽出部,从作为单词的语义存储了一个以上的概念的概念辞典,将针对所述 各单词作为语义存储的各概念抽出为该单词的语义候补;以及 语义推测部,执行多次概率计算处理,在所述概率计算处理中,针对所述各单词,根据 所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义候补 的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将所述语义候补抽出 部作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计 算所述概率,所述语义推测部针对所述各单词,将计算出的概率高的概念推测为该单词的 语义。
2. 根据权利要求1所述的语义推测装置,其特征在于, 所述语义推测部以上下文的特征越接近则使所述评价值越高、且选择出的概念和其他 单词的语义越接近则使所述评价值越高、且所述概率越高则使所述评价值越高的方式,计 算所述评价值,并且以计算出的评价值越高则使所述概率越高的方式,再计算所述概率。
3. 根据权利要求2所述的语义推测装置,其特征在于, 在所述语义推测部中,作为设所选择的单词为X、所选择的概念为s的情况下的评价 值,通过式1,计算联合概率P (X,s), 【式1】 p(x, s)=
9 此处, Z是规定的值, N是所述输入数据所包含的单词数量, Xi是第i个单词, Wi是忽略了出现的上下文的单词Xi, Swi是单词&的语义候补的集合, Sj是集合SWi所包含的概念, η 是单词Wi的语义为的概率, Φ。是表示上下文的特征的矢量, 是表示概念的矢量, σ。、〇t分别是规定的值。
4. 根据权利要求3所述的语义推测装置,其特征在于, 所述语义推测部通过式2,计算单词x成为概念s的概率π ', 【式2】
此处,Xw是所述输入数据所包含的单词的集合。
5. 根据权利要求4所述的语义推测装置,其特征在于, 所述语义推测部在所述概率计算处理中通过式3计算合计似然度L,直至在第n+1次的 所述概率计算处理中计算出的合计似然度L相对在第η次的所述概率计算处理中计算出的 合计似然度L的增量变得小于规定的阈值Θ为止,重复所述概率计算处理,其中, η是1以 上的整数, 【式3】
〇
6. 根据权利要求5所述的语义推测装置,其特征在于, 所述语义推测部针对所述各单词,将通过式2计算出的所述概率π '最高的语义候补 的所述概率nws置换为1,将其他语义候补的所述概率nws置换为〇,进行所述合计似然度 L的计算、和所述评价值的再计算。
7. 根据权利要求1至6中的任意一项所述的语义推测装置,其特征在于, 所述上下文的特征包括选择出的单词的周边的单词、和与包括选择出的单词的字符串 关联起来的其他字符串所包含的单词中的至少某一个。
8. 根据权利要求1至7中的任意一项所述的语义推测装置,其特征在于, 所述上下文的特征包括选择出的单词的周边的单词的语义、和与包括选择出的单词的 字符串关联起来的其他字符串所包含的单词的语义中的至少某一个。
9. 根据权利要求1至8中的任意一项所述的语义推测装置,其特征在于, 在所述概念辞典中作为单词的语义存储的概念中设定了通过图表构造表示的层次关 系,2个概念之间的相近度是根据该概念之间的链接的数量决定的。
10. 根据权利要求1至9中的任意一项所述的语义推测装置,其特征在于, 所述语义候补抽出部在所述单词抽出部抽出的单词未登记于所述概念辞典中的情况 下,从所述概念辞典确定与构成该单词的字符串的类似度为规定以上的单词,将针对确定 出的单词作为语义存储的各概念抽出为所述单词抽出部抽出的单词的语义候补。
11. 根据权利要求1至10中的任意一项所述的语义推测装置,其特征在于, 所述语义推测部在预先被赋予了一部分的单词的语义的情况下,针对该单词,将语义 候补中的与被赋予的语义对应的语义候补的所述概率固定为1,将其他语义候补的所述概 率固定为〇。
12. -种语义推测方法,其特征在于,具备: 单词抽出步骤,处理装置抽出输入数据所包含的多个单词; 上下文解析步骤,处理装置针对在所述单词抽出步骤中抽出的各单词,抽出在所述输 入数据中该单词出现的上下文的特征; 语义候补抽出步骤,处理装置从作为单词的语义存储了一个以上的概念的概念辞典, 将针对所述各单词作为语义存储的各概念抽出为该单词的语义候补;以及 语义推测步骤,处理装置执行多次概率计算处理,在所述概率计算处理中,针对所述各 单词,根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词 的语义候补的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将在所述 语义候补抽出步骤中作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算 出的评价值,再计算所述概率,在所述语义推测步骤中,针对所述各单词,将计算出的概率 高的概念推测为该单词的语义。
13. -种语义推测程序,其特征在于,使计算机执行如下处理: 单词抽出处理,抽出输入数据所包含的多个单词; 上下文解析处理,针对在所述单词抽出处理中抽出的各单词,抽出在所述输入数据中 该单词出现的上下文的特征; 语义候补抽出处理,从作为单词的语义存储了一个以上的概念的概念辞典,将针对所 述各单词作为语义存储的各概念抽出为该单词的语义候补;以及 语义推测处理,执行多次概率计算处理,在所述概率计算处理中,针对所述各单词,根 据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义候 补的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将在所述语义候补 抽出处理中作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价 值,再计算所述概率,在所述语义推测处理中,针对所述各单词,将计算出的概率高的概念 推测为该单词的语义。
【文档编号】G06F17/27GK104160392SQ201280071188
【公开日】2014年11月19日 申请日期:2012年3月7日 优先权日:2012年3月7日
【发明者】谷垣宏一, 柴光辉, 高山茂伸 申请人:三菱电机株式会社