文本匹配装置以及方法、和文本分类装置以及方法_5

文档序号:9575556阅读:来源:国知局

[0144] 支援信息收集装置66以及需求联络收集装置68也与问题报告收集装置64同样 地进行动作。其中,各个SVM由于以与问题报告收集装置64的SVM不同的学习数据进行学 习,因此分别判定输入的信息是否是支援信息,和是否是需求联络。在这以外的点上和问题 报告收集装置64、支援信息收集装置66以及需求联络收集装置68的动作没有不同点。
[0145] 如此地在问题报告积蓄部70、支援信息积蓄部72以及需求联络积蓄部74分别积 蓄问题报告、支援信息以及需求联络。
[0146] 每当在问题报告积蓄部70或支援信息积蓄部72积蓄新的信息,问题报告/支援 信息匹配装置76就进行针对该信息的匹配处理。在新的信息为问题报告的情况下,和积蓄 于支援信息积蓄部72的全部支援信息进行匹配,在新的信息是支援信息的情况下,和积蓄 于问题报告积蓄部70的全部问题报告进行匹配。在此,说明将问题报告新追加到问题报告 积蓄部70时的问题报告/支援信息匹配装置76的动作。
[0147] 参考图3,特征算出部130若从问题报告积蓄部70读出了新的问题报告,则读出积 蓄于支援信息积蓄部72的支援信息,将各个支援信息和新的问题报告组合,生成问题报告 和支援信息的组合。特征算出部130进一步对这些组合的全部使用存储于存储装置82的 数据来算出特征,生成特征矢量。这些特征除了包含由问题报告收集装置64使用的全部特 征以外,还包含构成基于前述的共现对矩阵手法的特征的「名词+谓语」的名词中的有无共 同词、有无共同的意义类别,进而包含问题报告收集装置64的SVM102(参考图2)进行的判 定时的评分。
[0148]SVM132接受由特征算出部130生成的特征矢量,判定包含在与该特征矢量对应的 组合中的问题报告和支援信息相互是否匹配,输出其判定结果。
[0149] 选择部134将SVM132的判定为肯定的组合追加到关联信息DB80,否则不进行任何 处理。
[0150] 在问题报告/支援信息匹配装置76新读出的信息是支援信息时,问题报告/支援 信息匹配装置76以上述的说明进行将支援信息和问题报告替换的动作。
[0151] 因此,由问题报告/支援信息匹配装置76将相互匹配的问题报告和支援信息建立 关联,并不断积蓄到关联信息DB80。
[0152] 需求联络/支援信息匹配装置78的动作也是同样。因此不重复需求联络/支援 信息匹配装置78的动作的详细情况。在本实施方式中,需求联络/支援信息匹配装置78 的SVM所使用的特征也与问题报告/支援信息匹配装置76所使用的特征相同。由需求联 络/支援信息匹配装置78将相互匹配的支援信息和需求联络建立关联,并不断积蓄到关联 信息DB80。
[0153] 如此地,在关联信息DB80中积蓄由相互匹配的问题报告和支援信息构成的匹配 信息以及由支援信息和需求联络构成的匹配信息。若积蓄了该匹配信息,则之后能对信息 进行各种利用。本实施方式中由输出生成部84执行的处理只是匹配信息的利用方法的一 例。在这以外能考虑许多该信息的利用方法。
[0154] 考虑要利用本实施方式所涉及的信息匹配系统30的用户遭遇某问题,希望知道 针对该问题的解决方案的情况。用户为了利用信息匹配系统30而使终端显示图4所示的 输入画面220。例如若用浏览器访问用于利用信息匹配系统30的URL,则显示该画面。
[0155] 用户在讯息的输入栏230输入表征自己所遭遇的问题、与自己要提供的支援相关 的信息、某些需求事项等的讯息,根据需要在输入面板232以及输入面板234输入检索条 件。若用户点击检索按钮236,则以讯息的文本、和输入的检索条件为参数,将检索请求发送 给信息匹配系统30的Web服务器86。
[0156] 参考图1,Web服务器86若接收到该检索请求,则将讯息的文本、和输入的检索条 件作为参数交给输出生成部84。输出生成部84将参数交给在图6表示控制结构的程序,从 而起动该程序。
[0157] 参考图6,输出生成部84在对输入的讯息进行了词素解析(步骤290)、依赖被依 赖解析(步骤292)以及场所确定处理(步骤294)的基础上,将输入的讯息和在步骤290、 292以及294得到的信息积蓄在图1所示的信息积蓄部60。在输入了检索条件的情况下, 将它们以「在〇月〇日」、「在〇〇中」这样的形态附加在讯息中。
[0158] 每当在信息积蓄部60积蓄新的信息,问题报告收集装置64、支援信息收集装置66 以及需求联络收集装置68就分别收集问题报告、支援信息以及需求联络,并分别积蓄在问 题报告积蓄部70、支援信息积蓄部72以及需求联络积蓄部74。
[0159] 每当新的问题报告或支援信息积蓄在问题报告积蓄部70或支援信息积蓄部72, 问题报告/支援信息匹配装置76就分别从支援信息积蓄部72以及问题报告积蓄部70检 索和该信息匹配的支援信息或问题报告,使将进行匹配的信息彼此建立关联的信息积蓄在 关联信息DB80。同样地,每当新的信息积蓄在支援信息积蓄部72或需求联络积蓄部74,需 求联络/支援信息匹配装置78就从需求联络积蓄部74以及支援信息积蓄部72分别读出 和该信息匹配的需求联络或支援信息,使将进行匹配的信息彼此建立关联的信息积蓄在关 联信息DB80。输出生成部84检索关联信息DB80,提取与输入的讯息建立关联的信息,将该 信息一览显示在图5的匹配信息显示面板262。在建立关联的信息众多的情况下,匹配信息 显示面板262能进行卷动。输出生成部84进一步对显示于匹配信息显示面板262的各信 息,基于附加在它们中的地理的信息,在地图面板264,在发送各信息的位置或将各信息建 立关联的位置显不大头针266等。
[0160] 如此,在地图上不仅显示与输入的讯息进行匹配的信息,还显示发送这些匹配的 信息的位置等,由此能容易地确认在哪里发生了怎样的问题,提供怎样的支援,发生了怎样 的需求事项。因此,能有效率地解决自己所持有的问题,或者能有效地活用支援,或者能对 必要性高的地域优先想办法支援。
[0161] 另外,在进行图5所述那样的显示的情况下,期望从显示中去掉已经解决的问题、 灾害时已经得到需要的救援而解决的问题报告、灾害时结束了支援物资的分发的支援信息 等。为此,例如在以图5所示那样的画面为基础确定了支援的分配目的地等并联络了这些 支援的提供者后,对通过该处置解决的问题、支援物资耗尽的支援信息、以及充足的需求联 络等,能在图5输入表示完成的标记即可。通过将该标记赋予积蓄于问题报告积蓄部70、支 援信息积蓄部72以及需求联络积蓄部74的信息、和积蓄于关联信息DB80的匹配信息,能 使已经解决完毕的问题报告、请求是充足的需求联络、完成了支援作业的支援信息等不再 显示在图5的画面250。
[0162] 这样的构成的结果,即使在状況连续不断改变的环境下,也能有效率地使问题或 需求、和其解决匹配。
[0163][实施方式的效果]
[0164] 最发挥本实施方式所涉及的系统的效果的利用例之一与大规模灾害时的受灾者 与支援团体的沟通的顺畅化关联。在大规模灾害时,如前述那样,虽然经由Twitter等发送 了来自受灾者的问题报告以及需求联络,但有这些信息埋没在海量发送的推特留言( 一卜)中的倾向。对于支援团体等发送的支援信息也是同样。这样的现象关系到受灾者就 算需要支援信息也难以入手的问题。另一方面,对支援团体而言,关系到不能发现最需要支 援的对方的问题。还关系到如下的问题:就算支援团体认识到受灾者的需求以及问题,在不 知道应对哪个问题等的状況下,多个支援团体应对相同的需求或问题,作为结果,无谓地消 耗了资源和时间。
[0165] 本实施方式解决这样的问题。确定、收集问题报告/需求联络/支援信息的技术 防止需要的信息的埋没,使受灾者入手支援信息变得容易,对支援团体掌握受灾者面临的 问题以及需求作出贡献。进而,问题报告-支援信息、或需求联络-支援信息的匹配技术能 找出与某受灾者发送的问题报告直接关联的支援信息,并进行回复等。另外,对支援团体而 言,通过区别与支援信息匹配的问题报告或需求联络、和找不到匹配的问题报告或需求联 络,能概观地掌握能应对怎样的问题或需求,不能应对怎样的问题或需求。其结果,能为减 少支援团体的资源以及时间的浪费作出贡献。
[0166] 另外,上述的实施方式所涉及的系统以及其思路并不限定于只能在灾害时利用。 在日常的商用利用中价值也高。例如,在和上述实施方式相同的思路下,能开发如下的检 索系统等:若某用户输入了与计算机相关的问题、与疾病相关的问题或某些需求,则以位于 Web上的信息为资源,自动列举应对方法作为支援信息。
[0167] 在上述实施方式中,说明了问题报告积蓄部70、支援信息积蓄部72以及需求联络 积蓄部74是相互不同的装置,但也可以将它们容纳在1个存储装置中。还能将它们全都容 纳在相同文件中。也就是说,只要能区别它们相互属于各自不同的归类的信息即可。例如 对文件内的各记录附加表征它们的归类的信息即可。
[0168] 当前,智能手机中用声音提供的提问应答系统受到关注,为了在提问-应答系统 中解决问题,必须考虑进行怎样的提问才能解决问题。为了考虑合适的提问,较多的情况下 需要请求专门知识等。上述实施方式中,由于能从问题直接检索支援信息,因此开启了构 建提问-应答系统的次世代的技术的先河,在为新的服务的开发做出贡献的意义上尤为重 要。
[0169][实验结果]
[0170] 另外,为了验证上述实施方式的效果,进行了几个实验。以下将其实验结果和比较 例一起示出。表5、6、7分别是与问题报告、支援信息以及需求联络的确定精度相关的实验 结果。
[0171][表格 5]
[0172] 表5 问题报告的确定:
[0173]

[0174]表6 需求联络的确定:
[0175]
[0176]表7 支援信息的确定:
[0177]
[0178] 另外,在上面的表5~7中,「实施方式」如上述实施方式中说明的那样,按照核构 成矩阵,使用:讯息中的核(问题核、支援核、需求核)所具有的名词的分类(负面系/非 负面系);核的谓语的极性(活性/非活性);使用评价表现辞典而得到的讯息中的评价表 现、评价类型、以及评价极性等;核中的名词的意义类别;在讯息的依赖被依赖关系中含有 包含在核中的名词的n-gram等。比较例1是如下那样的实验结果:虽然是和实施方式中的 手法相同的手法、但作为SVM的特征不使用名词的分类(负面系/非负面系)、和核的谓语 的极性(活性/非活性)、即不使用与核构成矩阵关联的特征。比较例2虽然是和在实施方 式中所用的手法相同的手法,但不使用利用评价表现辞典得到的特征地进行判定。比较例 3虽然是和实施方式中所用的手法相同的手法,但不将单词意义类别作为特征地进行判定。
[0179] 在各SVM的实验中,使用学习数据13000件,作为测试数据而使用从预先收集的 数据随机提取的1000件。评价者是和发明者不同的3人。评价者进行的评价的一致率 (Fleiss' kappa)是0.74,这表征评价者进行的评价是充分一致。
[0180] 另一方面,在下面的表8以问题报告和支援信息的匹配为例来示出匹配的实验结 果。
[0181][表格 6]
[0182] 表8 匹配(问题报告-支援信息)
[0183]
[0184] 本实验以9000件的学习数据进行问题报告/支援信息匹配装置76的学习,在 1000件的测试数据进行。测试数据从预先准备的数据选择,使1个名词的出现次数成为30 次以下。评价者和问题报告的实验的情况相同,是发明者以外的3人。其评价的一致率为 Fleiss'kappa是0· 63,这也表示评价充分一致。
[0185] 如以上那样,在本实施方式的系统中,对种种信息,能从网络上的庞大的信息使例 如问题报告和其解决方案匹配,并进行提示。因此,和仅使用关键词检索等的检索服务比 较,能更加准确地找出用户想知道的信息。因此,有取代到目前为止的检索服务,在国外、国 内的检索服务等中广泛利用的可能性。进而,在大规申旲灾害时等,彳丁政关系机关、ΝΡ0、志愿 者组织等能在使和受灾者的沟通顺畅化的基础上活用上述实施方式那样的系统。相互处于 问题和其回答、需求和其充足这样的关系的信息和到目前为止相互完全不建立关联而存在 的信息比较
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1