注目评价对象提取装置及程序的制作方法

文档序号:6494647阅读:124来源:国知局
注目评价对象提取装置及程序的制作方法
【专利摘要】本发明的实施方式涉及注目评价对象提取装置及程序。注目评价对象提取装置具备项目分配单元、类别判别单元、细目生成单元及模式发现单元。上述项目分配单元按所收集的每个文本信息,提取多个项目,并且在存在与评价对象表现或关联表现一致的项目时,将该评价对象表现或该关联表现的评价对象表现作为评价对象项目而分配给该文本信息。上述类别判别单元根据与上述评价对象项目相关联的上述数值信息的变化来判别类别,将该类别分配给该文本信息。上述细目生成单元按每个上述文本信息,来生成包含上述评价对象项目、上述各项目及上述类别的带类别细目。上述模式发现单元从上述细目的集合中发现表示特征性的项目的组合的上述模式。
【专利说明】注目评价对象提取装置及程序
【技术领域】
[0001]本发明的实施方式涉及注目评价对象提取装置及程序。
【背景技术】
[0002]在计算机及网络环境中,能够收集针对特定对象的数值性的时间序列数据,并且能够取得针对特定对象的文本性的时间序列数据。在这种环境下,一直在研究如下方法:根据数值性的时间序列数据和文本性的时间序列数据,发现通过文本性的时间序列数据来说明数值性的时间序列数据的变动的模式,并且预测下一时期的应注目的评价对象。
[0003]例如,在证券市场中,一直在研究如下方法:通过将股价视为数值性的时间序列数据、将与品种相关联的新闻报导视为文本性的时间序列数据,由此发现说明股价的变动的从新闻报导中提取的模式,并且将下一时期的应注目的品种通知利用者,支援利用者的与品种交易有关的想法决定。
[0004]作为预测评价对象的方法,例如提出有两个方法。
[0005]第一个方法为以下的方式:通过明示地赋予的属性值来事先对评价对象赋予特征,生成基于与评价对象的产生有关的事件的频度的时间序列数据,并计算评价对象的重要度或者评价对象的属性值的重要度,由此在特定的问题领域中提取重要的评价对象。
[0006]另一方面,第二个方法为以下的方式:使评价对象与特定词语的出现次数的随时间变化对应,而以能够视觉地掌握评价对象与特定词语之间的关系的方式显示给利用者。
[0007]现有技术文献
[0008]专利文献
[0009]专利文献1:日本特开2002-207755号公报
[0010]专利文献2:日本特开2001-216311号公报

【发明内容】

[0011]发明要解决的课题
[0012]但是,以上那样的两个方法,虽然通常没有问题,但根据本发明人的研究,存在以下那样的不良情况。
[0013]例如,第一个方法为,由于通过明示的属性值来事先对评价对象赋予特征,因此存在不能够处理未事先赋予特征那样的评价对象的不良情况。此外,第一个方法还存在如下的不良情况,即与评价对象相关联的时间序列数据被限定为与评价对象的产生有关的事件的时间序列数据。
[0014]另一方面,第二个方法存在如的不良情况:即使能够视觉地掌握评价对象与特定词语之间的关系,也不能够自动地发现能够说明特定的关系产生的情况那样的模式。
[0015]本发明要解决的课题在于提供注目评价对象提取装置及程序,能够处理未事先赋予特征的评价对象,时间序列数据未被限定于与评价对象的产生有关的时间序列数据,且能够自动地发现模式。[0016]用于解决课题的手段
[0017]实施方式的注目评价对象提取装置为如下装置,能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现上述模式。
[0018]上述注目评价对象提取装置具备文本收集单元、数值收集单元、对象表现存放单元、项目分配单元、类别判别单元、细目生成单元、模式发现单元及模式存放单元。
[0019]上述文本收集单元收集上述多个文本信息。
[0020]上述数值收集单元收集与上述各评价对象个别地相关联的数值信息。
[0021]上述对象表现存放单元将个别地表示上述各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而存放。
[0022]上述项目分配单元为,按上述所收集的每个文本信息,提取多个项目,并且在该各项目中存在与上述评价对象表现或上述关联表现一致的项目时,将该评价对象表现或在上述对象表现存放单元内与该关联表现建立对应的评价对象表现作为评价对象项目而分配给该文本信息。
[0023]上述类别判别单元为,根据与作为上述评价对象项目的评价对象表现所表示的评价对象相关联的上述数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息。
[0024]上述细目生成单元为,按上述所收集的每个文本信息,生成包含上述所分配的评价对象项目、上述所提取的各项目及上述所分配的类别的带类别细目。
[0025]上述模式发现单元从上述细目的集合中发现表示特征性的项目的组合的上述模式。
[0026]上述模式存放单元存放上述所发现的模式。
【专利附图】

【附图说明】
[0027]图1是模式地表示第一实施方式的注目评价对象提取装置的构成的框图。
[0028]图2是用于说明该实施方式的动作的流程图。
[0029]图3是表示该实施方式的数值时间序列数据的一例的模式图。
[0030]图4是表示该实施方式的文本时间序列数据的一例的模式图。
[0031]图5是表示该实施方式的项目集合的一例的模式图。
[0032]图6是表示该实施方式的评价对象知识的一例的模式图。
[0033]图7是表示该实施方式的数值时间序列数据的一例的模式图。
[0034]图8是表示该实施方式的数值时间序列数据的一例的模式图。
[0035]图9是表示该实施方式的类别的分配结果的一例的模式图。
[0036]图10是表示该实施方式的带类别的细目的一例的模式图。
[0037]图11是表示该实施方式的模式的一例的模式图。
[0038]图12是表示该实施方式的模式的一例的模式图。
[0039]图13是模式地表示第二实施方式的注目评价对象提取装置的构成的框图。
[0040]图14是用于说明该实施方式的动作的流程图。
[0041]图15是表示该实施方式的文本时间序列数据的一例的模式图。[0042]图16是表示该实施方式的项目集合的一例的模式图。
[0043]图17是表示该实施方式的文本时间序列数据的评价结果的一例的模式图。
【具体实施方式】
[0044]以下,使用附图对各实施方式进行说明。另外,以下的注目评价对象提取装置能够通过硬件构成、或者硬件资源与软件的组合构成中的任一种构成来实施。如图1及图13所示,作为组合构成的软件,使用预先从网络或非临时的计算机可读取存储介质(non-transitory computer-readable storage medium) M 安装至Ij计算机中、用于通过该计算机的处理器执行来使该计算机实现注目评价对象提取装置的功能的程序。
[0045]〈第一实施方式〉
[0046]图1是模式地表示第一实施方式的注目评价对象提取装置的构成的框图。该注目评价对象提取装置为如下的装置:能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现该模式。
[0047]具体地,注目评价对象提取装置具备文本时间序列收集部B1、项目提取部B2、评价对象知识存放部B3、数值时间序列收集部B4、类别判别部B5、细目生成部B6、模式发现部B7、模式存放部B8及评价对象提取部B9。即,注目评价对象提取装置为,能够在由评价对象提取部B9提取应注目的评价对象之前,由各部BI?B8发现模式。
[0048]此处,文本时间序列收集部(文本收集单元)BI具有收集与沿时间序列赋予的多个评价对象相关联的多个文本信息的功能。此处,“文本信息”也可以称为“文本时间序列数据”。
[0049]项目提取部(项目分配单元)B2具有如下功能:按由文本时间序列收集部BI收集的每个文本信息,提取多个项目,并且在该各项目中存在与评价对象知识存放部B3内的评价对象表现或关联表现一致的项目时,将该评价对象表现或在评价对象知识存放部B3内与该关联表现建立对应的评价对象表现作为评价对象项目而分配给该文本信息。
[0050]评价对象知识存放部(对象表现存放单元)B3是能够对于各部B1、B2、B4?B7、B9进行读出/写入的存储装置,将个别地表示各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而存放。例如,评价对象知识存放部B3为,通过控制部(未图示)而预先写入有评价对象表现与关联表现被建立对应地记述的评价对象知识。另外,评价对象知识存放部B3,可以为在起动时从控制部写入在注目评价对象提取装置的程序的一部分所预先记述的评价对象知识的方式,也可以为通过用户的操作而写入所记述的评价对象知识的方式。
[0051]数值时间序列收集部(数值收集单元)B4具有收集与各评价对象个别地相关联的数值信息的功能。此处,“数值信息”也可以称为“与沿时间序列赋予的各评价对象个别地相关联的数值信息”,还可以称为“数值时间序列数据”。此外,也可以将包含“文本时间序列数据”和“数值时间序列数据”的时间序列数据称为“复合事件时间序列数据”。
[0052]类别判别部B5具有如下功能:根据与由项目提取部B2分配的作为评价对象项目的评价对象表现所表示的评价对象相关联的数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息。
[0053]细目生成部B6具有如下功能:按由文本时间序列收集部BI收集的每个文本信息,生成包含由项目提取部B2分配的评价对象项目、由项目提取部B2提取的各项目及由类别判别部B5分配的类别的细目。
[0054]模式发现部B7具有如下功能:从由细目生成部B6生成的细目的集合中发现表示特征性的项目的组合的模式。另外,“特征性的项目的组合”也可以称为“频度高的项目的组合”或“频繁出现的项目的组合”。此外,所发现的模式通过模式发现部B7写入模式存放部B8。
[0055]模式存放部B8是能够对于各部B1、B2、B4?B7、B9进行读出/写入的存储装置,存放由模式发现部B7发现的模式。另外,作为评价对象知识存放部B3及模式存放部B8,可以使用相同存储装置内的不同的存储区域,也可以使用不同的存储装置。
[0056]评价对象提取部B9具有如下功能:通过将模式存放部B8内的模式应用于根据新收集的文本信息而生成的细目,由此提取应注目的评价对象。
[0057]接着,使用图2的流程图来说明如以上那样构成的注目评价对象提取装置的动作。在以下的说明中,采用新闻标题作为文本时间序列数据(文本信息),采用股价作为数值时间序列数据(数值信息)。此外,采用公司名(股价品种名)作为评价对象。
[0058]在步骤Sal中,数值时间序列收集部B4通过互联网线路等,从发布股价信息的Web站点收集表示每个评价对象的股价信息的数值时间序列数据。作为数值时间序列数据,例如如图3所示,使用包含品种代码、日期、开盘价的数据。但是,数值时间序列数据仅由股市营业的日期的数据构成,不包含与股市不营业的日期有关的数据。
[0059]在步骤Sa2中,文本时间序列收集部BI通过互联网线路等,从发布新闻标题的Web站点收集包含新闻标题的文本时间序列数据。作为文本时间序列数据,例如如图4所示,使用包含新闻的发布日和新闻标题的数据。
[0060]在步骤Sa3中,文本时间序列收集部BI从收集到的文本时间序列数据中取出一个文本。此时,如果存在取出的文本,则将处理转至步骤Sa4,而在不存在取出的文本的情况下,将处理转至步骤Sail。因此,在收集有图4所示的文本时间序列数据的情况下,在时间序列数据Tn被取出紧后的处理中,在实施本步骤时,会转至步骤Sail。
[0061]在步骤Sa4中,项目提取部B2将代表所取出的文本的各表现提取为项目。例如,项目提取部B2为,通过对文本实施语态素分析,来确定各表现的词类,将作为其词类而被赋予了名词的表现提取为项目。因此,在对文本编号Tl的文本实施语态素分析而提取了名词表现的情况下,“a公司”、“会计”、“预约”、“软件”、“提前”、“销售”、“开始”这种表现被提取为项目。通过对图4所示的各文本实施同样的处理,能够根据各文本来生成图5所示的项目集合。
[0062]在步骤Sa5中,从项目提取部B2提取的项目的集合中取出一个项目。此时,在存在取出的项目的情况下,转至步骤Sa6,而在不存在取出的项目的情况下,转至步骤Sa7。因此,在Tl的情况下,在“开始”的项目被取出紧后的处理中,在实施了本步骤的情况下,向步骤Sa7移动。
[0063]在步骤Sa6中,项目提取部B2通过参照评价对象知识存放部B3中所存放的评价对象知识,来判定该项目是否与评价对象相关联。
[0064]项目提取部B2在判定为是评价对象的情况下,向该文本分配评价对象项目。例如,在评价对象知识存放部B3中存放有图6所示的由评价对象表现和关联表现构成的评价对象知识。此时,从文本编号Tl的文本取出项目“a公司”。以下,“文本编号T〇的文本”也称为“文本T〇”(尾标〇表示任意的数字)。同样,“项目集合编号I〇的项目集合”也称为“项目集合I O”。项目提取部B2通过参照评价对象知识的关联表现,能够判定为该项目被登记为关联表现。因此,项目提取部B2对于文本Tl,将与关联表现对应的评价对象表现即“A公司”分配给评价对象项目。
[0065]接着,从文本T7取出项目“鸡肉”。项目提取部B2通过参照评价对象知识的关联表现,能够识别出该项目在多处被登记为关联表现。因此,项目提取部B2对于文本编号T7的文本,将与各个关联表现对应的评价对象表现即“D1公司”、“D2公司”、“D3公司”分配给评价对象项目。
[0066]另一方面,在文本Tl的项目“公司”、文本T7的项目“原产地”的情况下,不存在对应的关联表现,因此不向各个文本分配新的评价对象项目,而使处理返回步骤Sa5。
[0067]在步骤Sa7中,类别判别部B5取出一个被分配给文本的评价对象项目。此时,如果存在取出的评价对象项目,则转至步骤SaS。另一方面,在不存在取出的评价对象项目的情况下,转至步骤Sa9。例如,如果对于项目集合Il仅分配有评价对象项目“A公司”,则在取出了 “A公司”紧后的处理中,转至步骤Sa9。
[0068]在步骤SaS中,类别判别部B5通过参照与所取出的评价对象项目对应的数值时间序列数据,来计算成为类别判定的基准的变动率。此处,类别判别部B5例如根据式(I),来计算与该评价对象项目对应的变动率。在式(I)中,it为评价对象项目,d为包含评价对象的文本的发布日,dy为从发布日d起y日后的营业日,valueO为返回评价对象项目的指定日的股价的开盘价的函数。但是,在d并非营业日的情况下,将其设为一天前的营业日。
[0069][式I]
【权利要求】
1.一种注目评价对象提取装置,能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现上述模式,其特征在于,具备: 文本收集单元(BI),收集上述多个文本信息; 数值收集单元(B4),收集与上述各评价对象个别地相关联的数值信息; 对象表现存放单元(B3),将个别地表示上述各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而存放; 项目分配单元(B2),按上述所收集的每个文本信息,提取多个项目,并且在该各项目中存在与上述评价对象表现或上述关联表现一致的项目时,将该评价对象表现或在上述对象表现存放单元内与该关联表现建立了对应的评价对象表现作为评价对象项目而分配给该文本信息; 类别判别单元(B5),根据与作为上述评价对象项目的评价对象表现所表示的评价对象相关联的上述数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息; 细目生成单元(B6),按上述所收集的每个文本信息,生成包含上述所分配的评价对象项目、上述所提取的各项目及上述所分配的类别的带类别细目; 模式发现单元(B7),从上述细目的集合中发现表示特征性的项目的组合的上述模式;以及 模式存放单元(B8),存放上述所发现的模式。
2.如权利要求1所述的注`目评价对象提取装置,其特征在于,进一步具备: 在上述模式存放单元中存放了模式之后,按由上述文本收集单元新收集的每个文本信息,生成包含由上述项目分配单元分配的评价对象项目和所提取的各项目、但不包含上述类别的无类别细目的单元(B6); 模式评价单元(BlO),将上述模式存放单元内的模式应用于上述无类别细目,评价该无类别细目是否包含该模式;以及 注目评价对象提取单元(Bll),在上述评价的结果为包含上述模式的情况下,将与该无类别细目内的评价对象项目建立了关联的频度相加,根据上述频度的相加结果来将与该频度建立了关联的评价对象项目提取为上述应注目的评价对象。
3.一种程序,由注目评价对象提取装置的处理器执行,存储在非临时的计算机能够读取的存储介质(M)中,该注目评价对象提取装置具备对象表现存放单元(B3)及模式存放单元(B8),能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现上述模式,其特征在于,具备: 第一程序代码,使上述处理器执行收集上述多个文本信息的处理(BI); 第二程序代码,使上述处理器执行收集与上述各评价对象个别地相关联的数值信息的处理(B4); 第三程序代码,使上述处理器执行将个别地表示上述各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而写入上述对象表现存放单元(B3)的处理; 第四程序代码,使上述处理器执行按上述所收集的每个文本信息,提取多个项目,并且在该各项目中存在与上述评价对象表现或上述关联表现一致的项目时,将该评价对象表现或在上述对象表现存放单元内与该关联表现建立了对应的评价对象表现作为评价对象项目而分配给该文本信息的处理(B2); 第五程序代码,使上述处理器执行根据与作为上述评价对象项目的评价对象表现所表示的评价对象相关联的上述数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息的处理(B5); 第六程序代码,使上述处理器执行按上述所收集的每个文本信息,生成包含上述所分配的评价对象项目、上述所提取的各项目及上述所分配的类别的带类别细目的处理(B6);以及 第七程序代码,使上述处理器执行从上述细目的集合中发现表示特征性的项目的组合的上述模式, 将该发现的模式写入上述模式存放单元的处理(B7)。
【文档编号】G06F17/30GK103460206SQ201280013764
【公开日】2013年12月18日 申请日期:2012年5月31日 优先权日:2011年6月7日
【发明者】樱井茂明, 牧野恭子, 铃木裕之 申请人:株式会社东芝, 东芝解决方案株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1