文本匹配装置以及方法、和文本分类装置以及方法

文档序号：9575556阅读：405来源：国知局

文本匹配装置以及方法、和文本分类装置以及方法
【技术领域】
[0001] 本发明涉及用于整理因特网等网络上的信息并提示给用户的技术，特别涉及取得在网络上的各种系统投稿的信息之间的匹配、对需要某些信息的用户效率良好地提供所需要的信息的系统。
【背景技术】
[0002] 因特网普及，在其上运行各种系统。例如在因特网上，不仅Web页面以及博客等， Twitter、Facebook、LinkedIn等所谓的社交网络服务（SNS)的利用也不断推进。这样的系统用在用户间的信息交换等中，能实现因特网的普及前无法想象的信息的流通。在这样的系统上，经常流过庞大的信息，在要搜索某个人对某问题的回答时，存在该回答的可能性极高。但是，从大量的信息中发现自己所找寻的信息是不可能的。
[0003] 在以满足这样的需要为目的的服务中，有所谓的信息检索服务。在典型的信息检索服务中，经常从因特网上收集大量的信息，将其数据库化并附加索引。在接收到某些信息检索请求（例如指定了关键词的信息检索请求）时，这些提供服务的网站的计算机（群）通过利用了关键词的索引检索对关联信息进行检索，附加基于信息检索技术而定义的评分 (表征针对检索请求的回答的准确度的数值），以该评分的降序将数据回发给检索的请求者。将该信息以作为针对基于关键词的检索请求的回答认为合适的顺序提供给用户。其结果，用户若连接到这样的信息检索服务来进行检索，就能某种程度取得自己所需要的信息。
[0004] 然而，由于在网络上充满大量的信息，因此在用户进行信息检索时，有较多情况下极难搜索所寻求的信息这样的问题。例如，在显示的项目多、用户不需要的信息靠前显示的情况下，用户需要追加合适的关键词，或者变更关键词，或者变更检索条件来缩小检索结果。但是在成为基础的信息过多的情况下，难以寻找能找出准确的信息的关键词。
[0005] 但是，在因特网上，对于针对某问题的解决方案、某支援信息，存在与需要其的人的需求相关的记载（以下将其称作「需求联络」）等的可能性极高。例如考虑某用户在博客等记载、发送关于「妹妹正在为特应症困扰」这样的问题的报告的情况。如此，以下将针对问题进行报告的记载称作「问题报告」。在Web上，对这样的问题报告，存在「从附近的医生听说了甜茶对特应症有效这样的说明」等这样的为了解决问题而有用的信息，这是毫无疑问的。以下将这样的信息称作「支援信息」。另外，在发送了如「在计算机的某0S上运行的应用X被强制关闭了。正头疼呢，请教不会强制关闭的方法」那样需求什么的记载（以下将这样的记载称作「需求联络」）的情况下，认为「若使用软件a，应用X就不会崩溃了」这样的解决方案存在于Web上几乎毫无疑问。但是，如前述那样，由于在因特网上充满信息，用户准确入手自己所寻求的信息是极其困难的。因特网上的信息越多则这样的问题越大，用户所寻求的信息越详细，则越难解决。
[0006] 这样的问题特别显著化是在灾害时。当前，在灾害时在因特网上产生大量的信息。不能使用电话的可能性也很高。为此，在人以及组织间的沟通中产生大的困难。
[0007] 灾害时最成为问题是如何早期支援受灾者、和使受灾者所需要的支援、和支援组织等所提供的支援持续有效率地匹配。若在受灾者和支援团体等间的沟通顺畅进行，就有能迅速进行对受灾者的支援的可能性。但是，如前述那样，在灾害时，受灾者和支援团体等的沟通变得极端困难。若时间流逝，则信息的数量会进一步变多，会变得难以找出需要的信息。为此，考虑不能将合适的支援物资送到需要某些支援的受灾者的身边的情形。
[0008] 例如，在2011年3月的东日本大地震中，经由Web以及SNS等，从受灾者大量发送了「在〇〇市过敏体质的幼儿用奶粉不足」这样的问题报告、和「请向〇〇市送去过敏体质的幼儿用奶粉」这样的需求联络等。但是，这些信息埋没在和地震一起产生的大量的信息中，其中的大量信息未被能提供支援的行政机关、支援团体、志愿者等认识到。另一方面，行政机关、支援团体以及志愿者们也发送了「将二千个用于过敏体质的儿童的奶粉送到了〇〇市」这样的支援信息，但其大部分并未送到需要信息的受灾者。即使在行政机关、支援团体或志愿者等成功认识到来自受灾者的问题以及需求的情况下，也会产生多个组织应对相同问题以及需求的结果，在1个地方集中必要以上的支援物资，不仅浪费支援物资以及时间还会产生使支援物资的保管变得困难这样的问题。本来只要将需要量送到受灾者身边，应将这以外的支援物资送往其他受灾者。认为这样的问题都是由实际需要救援的人们、和要进行支援的人们未进行良好的沟通引起的。
[0009] 其中，这样的问题并不限于灾害时，在日常中也会发生。例如在寻找针对与计算机相关的某问题的回答、或者寻找针对特应症的对策的情况下，也能在所谓的检索服务网站寻找回答。但能在检索网站检索的信息不仅包含针对问题的回答，还包含这以外的大量的信息。因此，对寻找针对特定的问题的回答的用户而言，特别是对早期发现合适的回答是很重要的用户而言，检索网站用起来绝不容易。
[0010] 反之，要提供对某问题自己解决的结果的用户对需要该回答的用户及时给出回答也是困难的。若碰巧另外的用户知道寻求针对某问题的回答这件事，并且自己知道针对该问题的回答，则向该用户联络回答并不难。但是，在因特网那样大量用户发送大量信息的地方，这样的情况极其稀少。谋求用于将有用的信息及时联络给合适的人或组织的机制。为此，需要收集问题报告、需求联络以及支援信息、并合适地使它们匹配的技术。
[0011] 发明的概要
[0012] 发明要解决的课题
[0013] 关于确定、收拾问题报告这样的技术，作为在投稿于SNS的讯息中确定、收集与流行性感冒的流行相关的问题报告的技术，有在Aron Culotta. 2012. Lightweight methods to estimate influenza rates and alcohol sales volume from twitter messages. Language Resources and Evaluation，pages 1-22中公开的技术。另外，作为在投稿于SNS的讯息的中确定、收集与山火相关的问题报告的技术，有在Sarah Vieweg， Amanda L. Hughes, Kate Starbird，and Leysia Palen. 2010. Microblogging during two natural hazards events ：what twitter may contribute to situational awareness. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, CHI'10，pages 1079-1088，NewYork，NY，USA.ACM.中公开的技术。但在这些技术中有以下那样的问题。
[0014] 现有技术限定特定的灾害（例如：山火）或传染病（例如：流行性感冒）等对象来确定、收集问题报告。但是，特别是在灾害等中，很多情况下会从1个问题向想定外的问题发展。例如在东日本大地震中，地震向海啸以及核电站事故发展。进而，作为面对放出的辐射能的对策，由于封闭房间，怠于换气，会出现产生一氧化碳中毒这样的问题。即，仅限于特定的范畴来收集问题报告并不充分，需要没有这样的制约地进行问题报告的确定、收集。若能这样，贝不仅能确定、收集特定的范畴的问题，还能确定、收集到从该问题派生的二次的问题。
[0015] 关于确定、收集需求联络的技术，通过以有教师学习来作成讯息的分类器，确定、收集需求联络的技术在AndrewB.Goldberg，NathanaelFillmore，DavidAndrzejewski ZhitingXu,BryanGibsonandXiaojinZhu2009.MayAllYourWishesComeTrue：A StudyofWishesandHowtoRecognizeThem.InHumanLanguageTechnologies：The 2009AnnualConferenceoftheNorthAmericanChapteroftheACL，pages263-271， Boulder，Colorado,USA.ACM.中公开。同样地，以无教师学习来作成分类器来确定、收集需求联络的技术在HiroshiKanayamaandTetsuyaNasukawa. 2008.Textualdemand analysisdetectionofusers,wantsandneedsfromopinions.InProceedingsofthe 22ndInternationalConferenceonComputationalLinguistics(Coling2008)，pages 409_416，Manchester，UK，August.Coling2008OrganizingCommittee中公开。这些手法使用所谓的机器学习的手法。
[0016] 在这些分类器中，作为一般的特征，利用被称作需求模板或请求标志的表现的列表（例如：Iwish. · ·(我想· · ·）、Please. · ·(请· · ·）、~i5L·u(希望~）、~< /?、吞D (请~）），但有若不是与这样的表现一致或类似的信息就不能收集这样的问题。因此，发现和它们不同的贡献于确定需求的新的特征成为课题。
[0017] 进而，作为收集需求联络和支援信息的技术，有在RobertMunro. 2011.Subword andspatiotemporalmodelsforidentifyingactionableinformationinHaitian Kreyol.InProceedingsoftheFifteenthConferenceonComputationalNatural LanguageLearning，pages68-77,Portland，Oregon.ACM.公开的技术。但在该技术中，不区别需求联络和支援信息地进行收集。在作为现实的请求而要进行问题联络、支援信息或需求联络、和支援信息的自动匹配的情况下，就必须区别需求联络和支援信息，仅以现有技术不能达成。
[0018] 进而，在网络上收集问题报告、和解决在问题报告报告的问题的支援信息，进行自动匹配的技术，或者自动在网络上收集并匹配需求联络、和该需求联络所涉及的需求得以满足的支援信息的技术，当前不能找出。为了使问题联络和支援信息匹配，需要基于位于问题联络中的表现来确定需要怎样的支援信息的技术、或者从位于支援信息中的表现来确定与这样的问题联络对应的技术。认为到目前为止自动进行上述技术是困难的课题。

【发明内容】

[0019] 因此本发明的目的在于提供文本匹配装置以及文本分类装置，能自动、且可靠性高地收集如一般的问题报告、需求联络以及解决由它们报告的问题或使需求充足的支援信息那样属于某归类的信息，并合适且及时地匹配信息。
[0020] 用于解决课题的手段
[0021] 本发明的第1局面所涉及的文本匹配装置在分类为第1归类或第2归类的文本的集合中将第2归类的文本相对于第1归类的文本建立对应。包含于集合中的文本通过利用了机器学习的文本分类装置被分类为第1以及第2归类，所述机器学习将构成该文本的 1个或多个词素、该1个或多个词素的依赖被依赖信息、以及由包含于文本中的名词和该名词所依赖的谓语的组合构成的句的核内所含的名词的分类和谓语的分类的组合用作特征。该文本匹配装置包括：存储单元，其将第1归类的文本和第2文本相互区别地存储；文本配对生成单元，其从存储单元输出由第1归类的文本和第2归类的文本构成的文本的配对；匹配用特征生成单元，其从配对生成匹配用的特征，所述匹配用的特征包含用文本分类装置对由文本配对生成单元生成的配对内的文本进行了分类时的特征；和匹配单元，其使用由匹配用特征生成单元生成的匹配用特征来判定构成配对的2个文本相互是否匹配。匹配单元包含机器学习模型，所述机器学习模型预先使用匹配用的学习数据，根据匹配特征来判定文本的配对是否匹配，从而学习完毕。
[0022] 优选地，匹配用特征还包括：针对配对内的各个文本求得的包含核内的名词的依赖被

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：佐野大树;伊什特万·瓦尔加;鸟泽健太郎;桥本力;大竹清敬;河合刚巨;吴钟勋;史蒂恩·德萨哲;
技术所有人：国立研究开发法人情报通信研究机构;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。