矛盾表现收集装置以及用于其的计算机程序的制作方法

文档序号:9848267阅读:248来源:国知局
矛盾表现收集装置以及用于其的计算机程序的制作方法
【技术领域】
[0001] 本发明涉及从大量的文本中提取矛盾的表现的装置,特别涉及从大量的文本中可 靠性高地提取相互矛盾的表现的配对的装置。
【背景技术】
[0002] 若能在文本中检测矛盾的表现,就能将其结果使用在众多的目的中。例如,若能在 庞大的文本中检测相互矛盾的表现,就能通过对它们做记号来唤起文本的作成者的注意。 在对他人作成的文本进行审查的情况下,能验证其逻辑的一贯性。在比较不同的作者作成 的文本的情况下,能确认其主张的异同。
[0003] 例如在日语记载的Web页经常能看到「7力'1;夕只私力'防 <、'(落叶松蕈防癌)」 这样主旨的记载。这样的主张也被众多日本人所接受。但若用例如「7力'1)夕只力'^促進卞 S(落叶松蕈癌症促进)」这样的关键词检索Web,则能找到「7力'1;夕只匕上卜(7)力'^ 私促進(因落叶松蕈而促进小白鼠癌症)」这样的报告。该报告参考了销售的一部分落 叶松蕈制品促进小白鼠的癌这样由厚生劳动省承认报告。根据这样的报导可知,存在与落 叶松蕈防止癌症这样的主张矛盾的报告,其结果,对落叶松蕈怀有兴趣的人会进一步展开 调查。
[0004] 另外,在灾害的发生时,在网络上的所谓的博客、微博客、社交媒体等涌来大量信 息。这些信息在进行合适的避难、适时进行支援上非常有用。但在它们当中,包括较多没有 根据的信息、以及所谓的捏造信息。这些信息看上去难以与真实的信息区别。为此,不仅在 进行正确的判断上无益,还会妨碍正常的信息流通,有增大灾害引起的损失、或使推迟恢复 的危险性。若能分析网络上的信息,提取出矛盾的信息提示给用户,用户就能整理能信赖的 信息和不能信赖的信息,结果能尽早平息非常时的混乱。
[0005] 若考虑这样的示例,着眼于关于某事态相互矛盾的主张的读者会对该事态展开进 一步的调查,结局能获知真相的可能性较高。这不仅适用于与事实相关的知识,还适用于日 常生活发现的与关于事实的事态不同的知识。例如取被称作TPP( Trans Pacific Partnership,跨太平洋伙伴协议)的经济合作协定为例。关于TPP,关于日本是否加盟TPP有 各种主张。在这当中找出非常重大且相互矛盾的主张。即,"由于ΤΡΡ会使日本的农业毁灭" 这样的主张、"由于ΤΡΡ会强化日本的农业"这样的主张混合存在。这些主张或预想即日本是 否会加盟ΤΡΡ,只有做出决定才能验证其成否。
[0006] 进而,有时,在阅读含有相互矛盾的主张的不同的文本时,有在成为它们的根据的 逻辑中认为看上去没有错误的情况。例如有「ΤΡΡΚ上U、日本如bo農産物⑥輸出私増加卞 S (由于TPP,来自日本的农产品的出口会增加)」这样的主张、「安価疔農産物私大量K日本 丨二輸入5 (廉价的农产品会大量进口到日本)」这样的主张等。例如出于遵循日 元的汇率的变动这样的预想的理由,还会有这些主张的仅一者在结果上正确的情况。但不 得不对成为这些相互矛盾的主张的根据的理论进行调查,充分研讨来自在多个视点的意 見,做出取得平衡的决定,合适地应对预测到的问题。矛盾表现的认识,会非常有助于在选 择要在这样的情况下进行研讨的文书。
[0007] 现有技术文献
[0008] 非专利文献
[0009] 非专利文献 1 :M.0hki,S.Matsuyoshi,J.Mizuno,K. Inui,E.Nichols,K.Murakami, S.Masuda,and Y.Matsumoto .2011. Recognizing confinement in web texts . In the Proceedings of the Ninth International Conference in Computational Semantics, page 215-224.
[0010] 非专利文献2:。.!1&8]1;!_111〇七〇,1(.1'〇1'18&¥&,3.〇6 3&6861',<1.-!1.〇]1,&11(1 J.Kazama.2012.Excitatory or inhibitory:A new semantic orientation extracts contradiction and causality from the web.In Proceedings of EMNLP 2012.

【发明内容】

[0011] 发明要解决的课题
[0012] 在关于这样的矛盾表现的认识的研究中,有前述的非专利文献1记载的技术。非专 利文献1所记载的研究用于认识句之间的矛盾或文书整体之间的矛盾。但为了更加效率良 好地判断矛盾表现,需要认识更细微的单位下的矛盾表现的技术。若能得到这样的技术,就 有能更有效率且精度良好地认识句整体之间的矛盾或文书整体之间的矛盾。
[0013] 另外,前述的示例仅是日语中的示例,但这样的问题并不限于日语,在全部语言中 都是共通的。
[0014]因此,本发明的目的在于,提供能以比句整体更小的单位效率良好地收集矛盾表 现的矛盾表现收集装置。
[0015] 本发明的其他目的在意,提供能以比句整体更小的单位效率良好地收集矛盾表现 的语言独立的矛盾表现收集装置。
[0016] 用于解决课题的手段
[0017] 本发明的第1局面所涉及的矛盾表现收集装置与存储单词的包含关系的包含关系 存储单元、和存储多个二元型式(pattern)对的第1存储装置连接来使用。二元型式对含有2 个二元型式,各二元型式含有一元型式作为副型式。矛盾表现收集装置包括:第1分类单元, 其通过以从存储于第1存储装置的二元型式对选择的二元型式对作为学习数据的机器学 习,来从存储于第1存储装置的多个二元型式对提取相互矛盾的二元型式对;导出单元,其 对由第1分类单元提取的各个二元型式对运用存储于包含关系存储单元的包含关系,来改 写一方的二元型式,从而导出新的二元型式对;学习数据扩展单元,其提取在由导出单元导 出的新的二元型式对中由相互矛盾的二元型式构成的可能性高的二元型式对,通过追加到 学习数据中来扩展学习数据;和第2分类单元,其通过利用了由学习数据扩展单元扩展过的 学习数据的机器学习,将被赋予的二元型式对分类为相互矛盾的二元型式对和这以外。
[0018] 优选地,矛盾表现收集装置还与存储一元型式的极性的极性存储单元连接而使 用,第1分类单元包括:第1型式对提取单元,其使用存储于极性存储单元的一元型式的极 性,从第1存储装置提取含有极性相互相反的一元型式对的二元型式对;和机器学习单元, 其将附加了表示是否由相互矛盾的二元型式构成的签注的多个二元型式对作为学习数据, 通过机器学习来学习选择由相互矛盾的二元型式构成的二元型式对的功能,从存储于第1 存储装置的多个二元型式对选择由相互矛盾的二元型式构成的二元型式对,并输出。
[0019] 更优选地,第1分类单元对所输出的二元型式对附加表示该二元型式对是否由相 互矛盾的二元型式构成的可能性的分数,并输出,学习数据扩展单元包括:分数算出单元, 其对由第1分类单元提取的二元型式对的各个集合,算出该集合中所含的二元型式对当中 分数为预先确定的阈值以上的二元型式对的比例,作为该集合中所含的各二元型式的分 数;分数确定单元,其对于由第1分类单元新导出的各个二元型式对通过分配针对该二元型 式对由分数算出单元算出的分数的最大分数,来确定各二元型式对的分数;和追加单元,其 从由第1分类单元新导出的二元型式对当中由分数确定单元确定的分数靠前的二元型式对 中选择给定个数,追加到学习数据中。
[0020] 进一步优选地,追加单元将由第1分类单元新导出的二元型式对当中已经包含着 由第1分类单元提取的二元型式对的集合中的二元型式对,在对学习数据的追加时予以除 外。
[0021] 第1分类单元、和第2分类单元的任意者包含基于监督学习的分类单元,例如基于 支持矢量机(Support Vector Machine)的分类单元。
[0022] 本发明的第2局面所涉及的计算机程序在与存储单词的包含关系的包含关系存储 单元、和存储多个二元型式对的第1存储装置连接的计算机中执行。二元型式对含有2个二 元型式,各二元型式含有一元型式,作为副型式。该计算机程序使该计算机作为如下单元发 挥功能:第1分类单元,其通过以从存储于第1存储装置的二元型式对选择的二元型式对作 为学习数据的机器学习,来从存储于第1存储装置的多个二元型式对提取相互矛盾的二元 型式对;导出单元,其对由第1分类单元提取的各个二元型式对运用存储于包含关系存储单 元的包含关系,来改写一方的二元型式,从而导出新的二元型式对;学习数据扩展单元,其 提取在由导出单元导出的新的二元型式对中由相互矛盾的二元型式构成的可能性高的二 元型式对,通过追加到学习数据中来扩展学习数据;和第2分类单元,其通过利用了由学习 数据扩展单元扩展过的学习数据的机器学习,来将被赋予的二元型式对分类为相互矛盾的 二元型式对和这以外。
【附图说明】
[0023]图1是利用本发明的1个实施方式所涉及的矛盾表现收集装置的Web提问应答系统 的概略框图。
[0024]图2是表示图1所示的矛盾表现收集装置的概略构成的框图。
[0025] 图3是图2所示的第1阶段矛盾型式对分类部的概略框图。
[0026] 图4是图2所示的第2阶段矛盾型式对分类部的概略框图。
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1