文本匹配装置以及方法、和文本分类装置以及方法_2

文档序号:9575556阅读:来源:国知局
依赖关系的子树上的n-gram。该n-gram的任一者包含时间信息、地域信息、或表征各 文本的情态的词素、或者它们的任意的组合。
[0023] 更优选地,第1归类以及第2归类中的一个归类是由表征问题的报告的文本构成 的归类,另一个归类是由表征用于解决问题的支援信息的文本构成的归类。
[0024] 第1归类以及第2归类的一个归类是请求问题的解决的文本,另一个归类是表征 用于解决问题的支援信息的文本。
[0025] 本发明的第2局面所涉及的文本分类装置是和第1局面所涉及的文本匹配装置一 起合适地用、用于将文本分类为与问题的报告或解决关联的特定的归类的装置。本装置包 括:词素解析单元,其对文本进行词素解析,输出附加了词类信息的词素串;依赖被依赖解 析单元,其对词素解析单元所输出的词素串解析词素间的依赖被依赖,输出表征文本的依 赖被依赖关系的依赖被依赖信息;和分类单元,其基于词素串、和文本的依赖被依赖关系来 确定由包含于文本中的名词、和该名词所依赖的谓语的组合构成的句的核,使用该核内的 名词的分类和谓语的分类的组合来将文本分类为特定的归类和除去特定的归类以外的归 类。
[0026] 优选地,分类单元包括:核确定单元,其基于词素串、和文本的依赖被依赖关系来 确定由包含于文本中的名词、和该名词所依赖的谓语的组合构成的句的核;名词分类单元, 其将由核确定单元确定的核内的名词分类为与问题的发生关联的问题系的名词、和不与问 题的发生关联的非问题系的名词;谓语分类单元,其将由核确定单元确定的核内的谓语分 类为表征使由依赖该谓语的名词表征的事物功能活性化的谓语、或者表征使由依赖该谓语 的名词表征的事物功能非活性化的谓语;和进行分类的单元,其对由核确定单元确定的核, 根据由名词分类单元对该核内的名词分类的结果、和由谓语分类单元对在该核内该名词所 依赖的谓语分类的结果的组合,来将文本分类为特定的归类和除去该特定的归类以外的归 类。
[0027] 更优选地,进行分类的单元至少包括:判定单元,其基于机器学习来进行判定,关 于由核确定单元确定的核,将表征名词分类单元对该核内的名词进行了分类的结果、谓语 分类单元对在该核内该名词所依赖的谓语进行了分类的结果的组合的信息作为特征,判定 被赋予的文本是否属于特定的归类。
[0028] 特征也可以还包括:针对各个文本求得的包含核内的名词的依赖被依赖关系的子 树上的n-gram,该n-gram的任一者包含时间信息、地域信息、或表征各文本的情态的词素、 或者它们的任意的组合。
[0029] 本发明的第3局面相关的计算机程序若被计算机执行,就使该计算机作为上述的 任一者的文本分类装置或文本匹配装置的全部单元发挥功能。
[0030] 本发明的其他的局面所涉及的文本匹配方法是在分类为第1归类以及第2归类的 文本的集合中,将第2归类的文本相对于第1归类的文本建立对应的文本匹配方法。包含于 集合中的文本通过利用了机器学习的文本分类装置被分类为第1以及第2归类,所述机器 学习将构成该文本的1个或多个词素、该1个或多个词素的依赖被依赖信息、以及由包含于 文本中的名词和该名词所依赖的谓语的组合构成的句的核内的名词的分类和谓语的分类 的组合作为特征。该文本匹配方法包括:进行存储的步骤,将第1归类的文本、和第2文本 相互区别地存储在存储装置;文本配对生成步骤,从存储装置生成由第1归类的文本和第2 归类的文本构成的文本的配对;匹配用特征生成步骤,从配对生成匹配用的特征,该匹配用 的特征包含用文本分类装置对在文本配对生成步骤生成的配对内的文本分类时的特征;和 匹配步骤,使用在匹配用特征生成步骤生成的匹配用特征来判定构成配对的2个文本相互 是否匹配。匹配步骤包括:进行判定的步骤,使用机器学习模型来判定构成配对的2个文本 相互是否匹配,该机器学习模型预先使用匹配用的学习数据,根据匹配特征来判定文本的 配对是否匹配,从而学习完毕。
[0031] 本发明的再其他局面所涉及的文本分类方法是用于将文本分类为与问题的报告 或解决关联的特定的归类的文本分类方法。本方法包括:词素解析步骤,对文本进行词素解 析,输出附加了词类信息的词素串;依赖被依赖解析步骤,对在词素解析步骤输出的词素串 解析词素间的依赖被依赖,输出表征文本的依赖被依赖关系的依赖被依赖信息;和分类步 骤,基于词素串、和文本的依赖被依赖关系来确定由包含于文本中的名词、和该名词所依赖 的谓语的组合构成的句的核,使用该核内的名词的分类和谓语的分类的组合来将文本分类 为所述特定的归类和除该特定的归类以外的归类。
【附图说明】
[0032]图1是本发明的1个实施方式所涉及的问题报告/支援信息匹配系统的框图。
[0033] 图2是简化表示图1所示的问题报告收集装置的构成的框图。
[0034] 图3是简化表示图1所示的问题报告/支援信息匹配装置的构成的框图。
[0035] 图4是表示使用匹配信息的问题/需求/支援信息匹配系统的输入画面的一例的 示意图。
[0036] 图5是表示问题/需求/支援信息匹配系统的输出画面的一例的图。
[0037] 图6是表示在问题/需求/支援信息匹配系统中搜索与输入匹配的信息的程序的 一例的控制结构的流程图。
[0038]图7是实现本发明的实施方式所示的系统的计算机系统的示意图。
[0039] 图8是表示图7所示的计算机系统的硬件构成的框图。
【具体实施方式】
[0040] 在以下说明的实施方式的说明以及附图中,对相同部件标注相同参考标号。它们 的名称以及功能也相同。因此,不再重复对它们的详细的说明。
[0041] [基本的思路]
[0042] 最初说明用于确定、收集属于问题报告、需求联络以及支援信息这3个归类的文 本的核构成矩阵手法(表1),接下来说明其作用和效果。接下来,在说明为了问题报告和支 援信息的匹配、需求联络和支援信息的匹配而开发的共现对矩阵手法(表2)后,叙述其作 用、效果。另外,以下有时将属于问题报告这样的归类的文本、属于需求联络这样的归类的 文本以及属于支援信息这样的归类的文本分别称作问题报告、需求联络以及支援信息。
[0043] 〈核构成矩阵手法〉
[0044] [表格 1]
[0045] 表1 :核构成模板
[0046]
[0047] 在本实施方式中,为了问题报告、需求联络、支援信息的确定、收集,使用被称作核 构成矩阵手法的新的方法。参考表1,该手法根据名词的分类和谓语的极性的组合来将文本 中所表现的名词和谓语的依赖被依赖关系细分化。在此,将名词分类为负面(trouble)表 现和非负面表现,将谓语的极性分类为活性和非活性。按照该极性将各谓语分类为活性模 板和非活性模板。
[0048] 所谓负面表现,是表征问题或负担的名词。例如符合「故障」、「流行性感冒」、「过 失」、「淤泥」、「流行性感冒」、「特应症」等。所谓非负面表现,是「浴室」、「医疗用品」、「食 品」等一般不表征问题或负担的表现。
[0049] 所谓活性模板,是指以包含变量X的表现型式来表示使由变量X表征的事物的功 能等「开启」(使功能等活性化)这一情况的助词和谓语的组合。例如符合「引起X(X奁引 吞起二玄)」、「使用x(x奁使3 )」、「购买x(x奁買3 )」、「使X进展(X奁進行占甘§)」、 「引进χ(χ爸輸入t§ )」、「X增加(X力U曽;I§ )」等。这些都是使由X表征的事物的功能 得以发挥的表现。
[0050] 所谓非活性模板,是指以包含变量X的表现型式表示使由变量X所表征的事物的 功能等「关闭」(使功能等非活性化)这一情况。例如符合「防止X(X奁防 <、')」、「丢弃X(X 奁捨τ§ )」、「X减少(X汾減t)」、「破坏X(X爸破壊t§ )」、「不能实现X(X汾不可能(二 ^ ·δ ) J〇
[0051] 在本说明书中,将活性和非活性汇总称作「极性」。
[0052] 如此在核构成矩阵手法中,将名词和谓语分别分类成2种。其结果得到4个分类。 细分化为这4个分类的依赖被依赖关系是以下的4个类型。
[0053] ㈧问题核(1)
[0054] 所谓问题核(1),是指名词+谓语当中的名词=负面表现且谓语=活性模板的依 赖被依赖表现。例如符合「淤泥积蓄(八卜'' 口汾蓄積玄§ )」(淤泥=负面表现、X积蓄= 活性模板)等。符合问题核(1)的依赖被依赖关系表征使符合负面表现的问题或负担的功 能开启,有表示问题存在、影响波及到等的倾向。
[0055] ⑶问题核⑵
[0056] 所谓问题核(2),是指名词为非负面表现且谓语为非活性模板的依赖被依赖关系。 例如符合「不能使用浴室(朽風呂^困§)」(浴室=非负面表现、不能使用X=非活性模 板)等。灾害时,由于断水或停电而不能进入浴室成为问题,是在这样的情况下产生的可能 性高的表现。符合问题核(2)的依赖被依赖关系表征使符合非负面表现的事态的功能关 闭,有表示不使应对或支援行为等发挥功能等的倾向。
[0057] (C)支援核(1)
[0058] 所谓支援核(1),是指名词为负面表现、谓语为非活性模板的依赖被依赖关系。例 如符合「除去淤泥(八卜''口奁除去玄§ )」(淤泥=负面表现、除去X=非活性模板)等。符 合支援核(1)的依赖被依赖关系通过表征使符合负面表现的问题或负担的功能关闭而有 表示问题的解决或弱化等的倾向。
[0059] (D)支援核(2)
[0060] 所谓支援核,是指名词为非负面表现、谓语为活性模板的依赖被依赖关系。例如符 合「开放浴室(朽風呂爸開放玄§)」(浴室=非负面表现、开放x=活性模板)等。符合 支援核(2)的依赖被依赖关系表示使符合非负面表现的事态的功能开启,有执行或在准备 应对或支援行为等的倾向。
[0061] 在本实施方式中,将对支援核赋予了请求标志的结果设为需求核。请求标志和现 有技术当中的在需求事项的收集中使用的标志相同。在需求核中有以下的2个类型。
[0062] (E)需求核(1)
[0063] 需求核⑴是指对支援核⑴赋予了请求标志的结果。例如符合「请清除淤泥(八 卜''口奁片付汀T< /?' $U)」(齡泥=负面表现、清除X=非活性模板、请=请求标志)等。 符合该类型的依赖被依赖关系请求使符合负面表现的问题或负担的功能关闭,有表示针对 问题的解决或弱化等的需求的倾向。
[0064] (F)需求核(2)
[0065] 需求核(2)是指对支援核(2)赋予了请求标志的结果。例如符合「朽風呂爸提供L·T(5L·u(希望提供浴室)」(浴室=非负面表现、提供X=活性模板、希望=请求标志) 等。符合该类型的依赖被依赖关系请求使符合非负面表现的事态的功能开启,因此有表示 针对应对或支援行为等的执行或准备的需求的倾向。
[0066] 在本实施方式中,通过使用这6个类型的核,能提升问题报告/需求联络/支援信 息的确定、收集的性能。更具体地,将句子的核(名词+谓语)是这些类型的哪一者的信息 用作使用于将因特网上的各种讯息分类的分类器学习的特征。以下具体进行说明。
[0067]〈问题核的作用和效果〉
[0068] 在问题报告中,能看到包含2个问题核的任一者的倾向。例如在「在〇〇市过敏用 的奶粉缺乏」这样的问题报告中,包含符合问题核(1)的表现。为此,作为分类器的特征,将 文本中有无问题核作为分类器的特征来利用。根据后述的实验,在利用了该特征的情况下, 和不利用的情况比较,明显提升了问题报告的确定、收集的性能。
[0069]〈支援核的作用和效果〉
[0070] 在支援信息中,能看到包含2个支援核的任一者的倾向。例如「在〇〇市政厅分发 过敏幼儿用的奶粉」这样的支援信息包含符合「分发奶粉」(奶粉=非负面、分发X=活性 模板)这样的支援核的表现。为此在本实施方式中,作为分类器的特征,利用在文本中有无 支援核。如后述那样,在利用了该特征的情况下,和不利用的情况比较,根据实验的结果,明 显提升了支援信息的确定、收集的性能。
[0071]〈需求核的作用和效果〉
[0072] 在需求联络中,能看到包含2个需求核的任一者的倾向。例如「请将过敏幼儿用的 奶粉送到〇〇市!」这样的需求联络包含符合「请送奶粉」(奶粉=非负面、送X=活性模 板、请=请求标志)这样的需求核(2)的
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1