文本匹配装置以及方法、和文本分类装置以及方法_4

文档序号:9575556阅读:来源:国知局
手法的一例的SVM(SupportVectorMachine,支 持向量机)的点上也相同。其中,在SVM的学习时所用的数据不同。
[0117] 信息匹配系统30还包括:与因特网连接的Web服务器86 ;和由利用了关联信息 DB80的用于信息检索的程序构成的输出生成部84。输出生成部84响应于经由Web服务器 86接收到的询问,使用上述的信息匹配系统30的各部分将包含在该询问中的讯息分类为 问题报告、支援信息以及需求联络并积蓄。输出生成部84还进行包含于询问中的讯息、和 已有的问题报告、支援信息以及需求联络的匹配,将匹配结果积蓄在关联信息DB80中。输 出生成部84进一步从关联信息DB80读出包括在询问中含有的讯息在内的匹配信息、且满 足在询问中含有的检索条件的匹配信息,将整形过的输出数据经由Web服务器86发送给对 方。
[0118] 只要生成关联信息DB80,之后就能从关联信息DB80内的信息提取匹配的问题报 告和支援信息、或需求联络和支援信息并显示在终端,或者作为数据提供给其他装置。该处 理通过在输出生成部84执行的程序来进行。在此,作为一例,在输出生成部84实现在经由 Web服务器86从其他终端接受到包含问题报告、需求联络或支援信息等的讯息的输入时返 回与该讯息匹配的讯息的处理。如后述那样,在输出生成部84进行的匹配中,甚至与发送 讯息的位置相关的地理的信息可作为匹配的要素。
[0119] 不言自明地,该信息匹配系统30通过具有通信功能的计算机硬件、由该硬件执行 的计算机程序、和在该计算机程序的执行时为了输出生成而需要的数据来实现。这些当中, 图1所示的信息收集部50、词素解析部52、依赖被依赖解析部54以及地名/场所确定部58 能容易地通过现有技术实现。因此,在此,说明从由因特网40收集到的讯息中收集问题报 告、支援信息、需求联络的处理;将这些信息匹配来生成匹配信息并存储的处理;和利用匹 配信息来生成有用的信息的处理。
[0120] 在图2以框图形式示出图1所示的问题报告收集装置64的构成。图1所示的支 援信息收集装置66以及需求联络收集装置68的构成也和问题报告收集装置64同样。因 此以下主要说明问题报告收集装置64的构成。
[0121] 参考图2,问题报告收集装置64包括:特征算出部100,其从信息积蓄部60读出新 的讯息,基于输入的讯息的依赖被依赖关系的信息、词素串等,使用存储于存储装置62的 数据来算出给定的特征;SVM102,其基于用预先根据学习数据由特征算出部100算出的特 征学习完毕而输入的特征矢量,将讯息是否是问题报告的判定结果和其评分一起输出;和 选择部104,其选择由SVM102判定为是问题报告的讯息,附加SVM102的评分并容纳在问题 报告积蓄部70中。SVM102对大量的讯息,使用由从其中得到的上述的特征的组、和讯息是 否表示问题报告的标记(正解数据)构成的学习数据来学习完毕。在本实施方式中,在使 用通过前述的核构成矩阵这样的思路得到的特征(名词的分类以及谓语的极性)这一点具 有特征。
[0122] 支援信息收集装置66以及需求联络收集装置68也在构成上和问题报告收集装置 64相同。其中,在支援信息收集装置66中,在SVM102的学习中使用附加了讯息是否是支援 信息的标记的学习数据来进行学习这点、以及在需求联络收集装置68中使用附加了表示 讯息是否是需求联络的标记的学习数据来进行学习这点与问题报告收集装置64不同。
[0123] 图3是图1所示的问题报告/支援信息匹配装置76的简化的框图。需求联络/ 支援信息匹配装置78也基本和问题报告/支援信息匹配装置76构成相同。因此,以下仅 说明问题报告/支援信息匹配装置76的构成。
[0124] 参考图3,问题报告/支援信息匹配装置76包括:特征算出部130,其从问题报告 积蓄部70以及支援信息积蓄部72双方各读出1个讯息,从该2个讯息的组使用存储于存 储装置82的数据来算出给定的特征,并作为特征矢量输出;SVM132,其以基于从特征算出 部130输出的特征矢量来输出处理对象的问题报告和支援信息是否匹配的方式预先学习 完毕;和选择部134,其基于SVM132的输出而仅选择特征算出部130处理过的问题报告和 支援信息的组合中进行匹配的组合,并容纳在关联信息DB80。特征算出部130所算出的特 征包含构成基于前述的共现对矩阵手法的特征的「名词+谓语」的名词中的有无共同词、有 无共同的意义类别,进而包含问题报告收集装置64的SVM102(参考图2)进行的判定时的 评分。
[0125] 关于SVM132,也是根据预先判定为匹配的包含判定的问题报告和支援信息的学习 数据,使用与特征算出部130所算出的特征相同的特征来进行学习。学习完毕的SVM132若 被赋予问题报告和支援信息,则输出它们是否匹配。
[0126] 需求联络/支援信息匹配装置78的构成和问题报告/支援信息匹配装置76相 同。但在进行SVM132的学习时的学习数据为与需求联络和支援信息的组合相关这点上,和 问题报告/支援信息匹配装置76的情况不同。
[0127] 本实施方式所涉及的输出生成部84具有针对用户所输入的讯息输出与该讯息进 行匹配的信息的功能。在此,作为输入的讯息,典型地假设「应对过敏的幼儿奶不足」、「在 〇〇市政厅分发应对过敏的幼儿奶粉」等那样的包含问题报告、支援信息或需求联络的任 一者在内的讯息。输出生成部84对应于所输入的讯息相当于它们的哪一者,从关联信息 DB80检索与所输入的讯息进行匹配的信息,并进行一览显示。以下进行说明的是实现输出 生成部84的程序和其输入输出画面的一例。
[0128] 参考图4,由于从远程的终端经由Web浏览器访问输出生成部84而显示的输入画 面220包括:讯息的输入栏230、与检索相关的日期信息的输入面板232、地理的条件的输入 面板234、和成为对信息匹配系统30发送检索的请求的触发的检索按钮236。日期信息的 输入面板232以及地理的条件的输入面板234用于在与讯息的输入栏230进行匹配的信息 中进一步以特定的条件缩小信息的范围。在此用日期以及地理的条件来缩小信息的范围, 但也可以进一步将另外的信息(例如关键词、发送者、发送时刻、完成与否)等作为缩小范 围的条件。
[0129] 图5表示在图4所示的画面输入某些讯息并发送给信息匹配系统30后从信息匹 配系统30返回的画面的一例。在该示例中,画面250包括:为了确认由用户输入的讯息而 显示的输入显示区域260 ;显示输入的讯息和进行匹配的信息的匹配信息显示面板262 ;在 地图上以大头针266的形式显示在匹配信息显示面板262上所显示的讯息的发送地域或关 联地点的地图面板264 ;为了确认由用户输入的检索条件而显示的检索条件显示面板268 ; 和改变条件进行检索时由用户操作的再检索按钮270。若点击再检索按钮270,则显示图4 所示的输入画面220。
[0130] 在图6示出将与使用图4以及图5所示的画面从用户输入的讯息进行匹配的信息 回发给用户终端的程序的控制结构,作为实现输出生成部84的程序的一例。除此以外输出 生成部84也能实现为利用关联信息DB80的各种形态的Web应用。
[0131] 参考图6,通过Web服务器86接收到来自用户终端的检索请求,并移交给输出生成 部84,来起动该程序。作为自变量,将由用户输入的讯息、与日期相关的检索条件以及地理 的检索条件交给该程序。也可以将发行了该请求的终端的GPS信息加入到地理的信息中交 给该程序。在该示例中,将这样的GPS信息作为自变量交给输出生成部84。
[0132] 最初对讯息进行词素解析(步骤290),输出词素串。对该词素串进行依赖被依赖 解析(步骤292),基于赋予该讯息的地理的信息或GPS信息,使用图1所示的地名/场所辞 典存储装置56来确定发行讯息的场所(步骤294),并附加在讯息中,追加到图1的信息积 蓄部60。这些处理由图1所示的词素解析部52、依赖被依赖解析部54以及地名/场所确 定部58执行。
[0133] 接下来,在步骤298按照容纳于存储装置62的信息以及给定的特征算出方法,从 输入的讯息算出讯息的特征的组,形成特征矢量。在接下来的步骤300,由图1所示的问题 报告收集装置64、支援信息收集装置66以及需求联络收集装置68各自的SVM102 (参考图 2)判定处理中的讯息符合问题报告、问题报告以及需求联络的哪一者。判定的结果,若讯息 是问题报告,则积蓄在问题报告积蓄部70,若是支援信息,则积蓄在支援信息积蓄部72,若 是需求联络,则积蓄在需求联络积蓄部74 (步骤302)。
[0134] 如此,将输入的讯息分类为问题报告、支援信息以及需求联络的任一者来进行积 蓄是为了将该讯息作为与之后输入的讯息的匹配对象来进行追加。
[0135] 之后判定分类结果如何(步骤304)。在输入的讯息是问题报告或需求联络的情况 下,在步骤306进行和支援信息的匹配,在讯息为支援信息的情况下,在步骤308将该讯息、 和问题报告以及需求联络进行匹配。接下来,判定步骤306或步骤308的匹配的结果是否 有和讯息匹配的信息(步骤309)。若有和讯息匹配的信息,则将匹配的信息和该讯息建立 关联后追加到关联?目息DB80 (步骤310)。
[0136]之后,基于追加到关联信息DB的匹配信息,在步骤312生成与图5所示的画面250 对应的HTML文件,回发给发送最初的讯息的终端,并结束针对输入的讯息的处理。
[0137] 在步骤309的判定为否定的情况下,即在步骤306以及步骤308没有和输入讯息 匹配的信息的情况下,控制前进到步骤314。在步骤314,输出表示没有和输入的讯息匹配 的信息的画面,并结束处理。在该画面中,例如将「没有和输入讯息匹配的信息,今后若发现 了匹配的信息是否进行通知?」这样的文本显示在画面250,显示选择是否进行通知的按钮 等、和用于输入进行通知时所需要的信息(邮件地址等)的栏、按钮等。在此,在选择进行 通知时,需要如下处理:在关联信息DB80检索包含该讯息的匹配信息,若发现了某些匹配 信息,则将该信息发送给记录的邮件地址。但是,该信息发送的处理由于与本发明的本质的 部分没有直接关联,因此在此不叙述其详细。
[0138] 在步骤304判定为输入的讯息不是问题报告、支援信息、以及需求联络的任一者 的情况下,控制前进到步骤316。这种情况下,预测输入的讯息并非合适的讯息。因此,在步 骤316,使画面250显示表示改变先前输入的讯息的表现等的条件来再度输入讯息的讯息, 并结束处理。若用户按下再检索按钮270,则显示图4所示的输入画面220。用户能改变讯 息的表现、以及日期时间、场所等的检索条件来执行再检索。
[0139][系统的动作]
[0140] 以上说明的信息匹配系统30如以下那样进行动作。参考图1,在这之前,图1所示 的问题报告收集装置64、支援信息收集装置66、需求联络收集装置68、问题报告/支援信息 匹配装置76以及需求联络/支援信息匹配装置78的SVM预先以合适的学习数据完成了学 习。
[0141] 信息匹配系统30的信息收集部50最初收集存在于因特网40上的各种信息,将其 赋予词素解析部52。在此,主要收集在例如Twitter等那样以比较的短的句传递问题报告、 需求联络以及支援信息的系统上发送的信息。词素解析部52对各信息进行词素解析,依赖 被依赖解析部54进一步进行依赖被依赖解析,对各信息附加各句的依赖被依赖信息。地名 /场所确定部58对这些信息进一步赋予与关联的地域或发送的地域等相关的信息。最终将 这些信息积蓄在信息积蓄部60。另外,通常在信息收集部50所收集的信息中附加发送该信 息的日期以及时刻。
[0142]问题报告收集装置64的特征算出部100 (参考图2)从信息积蓄部60读出信息, 使用存储于存储装置62的特征生成用数据从该信息提取用于问题报告的判定的特征,并 生成特征矢量。在这些特征中,如前述那样,基于核构成矩阵手法,包含表征与信息中的名 词+谓语的名词相关的分类(负面系/非负面系)、和谓语的极性(活性/非活性)的特 征。
[0143]SVM102接受该特征矢量,判定与该特征矢量对应的信息是否是问题报告,输出判 定结果。若判定为肯定(信息是问题报告),则选择部104将该信息追加到问题报告积蓄部 70。若判定为否定,则不对该信息进行任何处理,问题报告收集装置64移转到下一信息的 处理。
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1