见解抽出装置、见解更新装置及程序的制作方法

文档序号:6494483阅读:135来源:国知局
见解抽出装置、见解更新装置及程序的制作方法
【专利摘要】本发明提供一种在未与见解信息抽出对象建立关联的状态下从随时发布的电子文档抽出与该见解抽出对象有关的见解信息的见解抽出装置及程序。实施方式的见解抽出装置具备:信息接收部,接收电子文档;见解抽出部,根据抽出见解信息的对象词和抽出见解信息的线索词而从电子文档抽出概念,并制作使所抽出的该概念和对象词建立了关联而得到的见解信息;存储部,存储所抽出的见解信息;以及信息分析部,在存储了见解信息后,根据存储部内的见解信息来分析电子文档。
【专利说明】见解抽出装置、见解更新装置及程序
【技术领域】
[0001 ] 本发明的实施方式见解抽出装置、见解更新装置及程序。
【背景技术】
[0002]有为了有效活用由因特网等提供的大量数据,而使用与某个概念有关的同义词、定义了概念间的关联的词典(thesaurus)等,从大量的数据中选择与用户需要的信息相关联的信息、或者组合所选择的信息而提供见解信息的技术。
[0003]例如,在股票交易中,迅速取得并判断成为股票变动的时机那样的见解信息并反映到交易内容是有效的。例如,在与通常不同的时期流行了新型的流行性感冒的情况下,容易预计制造预防感染所使用的口罩的企业、制造消毒药的企业的需求会增加,相关企业的股价会上升。进行股票交易的用户根据“流行性感冒的与通常不同的时期的流行”的信息推测需求增加的品种(日文:銘柄)、并反映到交易中是有效的。
[0004]据此,以往有与证券信息一起提供新闻(news)的技术、根据用户的检索要求抽出关联新闻并作为见解信息而提供的技术。
[0005]作为上述那样的技术,例如,有在同一画面上显示股价行情图和关联新闻的技术(第一技术),将注目的品种的关联品种(同行业其它公司、客户、主要融资银行、有资本关系等预先设定的品种)中与注目的品种同时期地发生了同样的股价变动的品种作为关联品种而存储的技术(第二技术)。
[0006]此外,有以用户的要求作为触发、根据存储装置所保持的新闻中的“~关联股票^特需”等线索词,进行用于注目品种检索的关键词抽出和品种建立关联并提示给用户的技术,在一般的词典构筑等领域中根据与发生的多个句法解析结果中的出现数相应的确信度来管理并更新单词的互相关联·的技术(第三技术)。此外,还有从文件组取得与企业名共同出现的关联词并保持在表中、并且将该共同出现对影响股价变动的程度保持在预测系数表中,分别管理并更新关联词的评价值和预测系数,来进行股价预测的技术(第四技术)。
[0007]但是,在将股价行情图和新闻在同一画面上提示给用户的第一技术中,有必须使预先抽出品种等见解信息的对象的词(以下称为见解信息抽出对象词)与新闻建立关联的问题。
[0008]此外,在将与注目的品种同时期地发生了同样的股价变动的品种作为关联品种而存储的第二技术中,有未发生同样的变动的品种不建立关联的问题。此外,预先设定与注目的品种具有同行业等明示性的关联的品种,因此会限定将品种分组的范围。
[0009]第三技术中,根据存储装置中所保持的新闻来执行关键词抽出以及品种关联建立,但并未公开其活用方法、更新方法。
[0010]此外,第三技术中,评价单词的互相关联的确信度,并根据以后取得的新语料库来更新确信度,但信息源是单独的(同种的信息)。
[0011]在第四技术中,取得并管理企业名的关联词,还管理并更新其对股价变动的影响,但根据股价变动更新的对象仅为预测系数。[0012]现有技术文献
[0013]专利文献
[0014]专利文献1:日本特开2003-108785号公报
[0015]专利文献2:日本特开2003-162639号公报
[0016]专利文献3:日本特开平9-160915号公报
[0017]专利文献4:日本特开2011-141833号公报

【发明内容】

[0018]发明要解决的课题
[0019]本发明要解决的课题在于提供一种见解抽出装置、见解更新装置及程序,在未与见解信息抽出对象建立关联的状态下,从随时发布的电子文档抽出与该见解抽出对象词有关的见解信息。
[0020]用于解决课题的手段
[0021]实施方式的见解抽出装置,从电子文档抽出见解信息,该见解抽出装置具备:信息接收部,接收电子文档;见解抽出部,根据抽出见解信息的对象词和抽出见解信息的线索词而从电子文档抽出概念,制作使所抽出的该概念和对象词建立了关联而得到的见解信息;存储部,存储所抽出的见解信息;以及信息分析部,在存储了见解信息后,根据存储部内的见解信息来分析电子文档。
【专利附图】

【附图说明】
[0022]图1是表示第一实施方式中的见解抽出装置的构成例的图。
[0023]图2是表示第一实施方式中的第一线索词辞典的例子的图。
[0024]图3是表示第一实施方式中的见解抽出对象词辞典的例子的图。
[0025]图4是表示第一实施方式中的第二线索词辞典的例子的图。
[0026]图5是表不第一实施方式中的电子文档的例子的图。
[0027]图6是表示第一实施方式中的电子文档的例子的图。
[0028]图7是表示按照第一实施方式的用户终端装置的构成例的图。
[0029]图8是详细表示第一实施方式中的见解抽出部的处理动作的图。
[0030]图9是用于说明第一实施方式中的见解抽出部的处理动作的一例的流程图。
[0031]图10是表示第一实施方式中的处理动作的顺序的概略的图。
[0032]图11是表示第一实施方式中的来自分析对象的电子文档的第一概念名即组名、品种、股票交易素材的抽出结果的一例的图。
[0033]图12是表不第一实施方式中的见解信息的一例的图。
[0034]图13是详细表示第一实施方式中的信息分析部的处理动作的图。
[0035]图14是用于说明第一实施方式中的信息分析部的处理动作的一例的流程图。
[0036]图15是用于说明第一实施方式中的信息分析部的处理动作的一例的流程图。
[0037]图16是表示第二实施方式中的第二线索词辞典的例子的图。
[0038]图17是表示第二实施方式中的电子文档的例子的图。
[0039]图18是表示第二实施方式中的见解信息的例子的图。[0040]图19是用于说明第三实施方式中的见解抽出部的处理动作的一例的流程图。
[0041]图20是表示第三实施方式中的见解抽出部的处理结果的一例的图。
[0042]图21是表示第四实施方式中的见解抽出装置的构成例的图。
[0043]图22是表示第四实施方式中的见解信息的一例的图。
[0044]图23是表示第四实施方式中的见解评价更新装置的处理动作的一例的图。
[0045]图24是用于说明第四实施方式中的见解评价更新装置的处理动作的一例的流程图。
[0046]图25是用于说明第四实施方式中的见解评价更新装置的处理动作的一例的流程图。
[0047]图26是表示第四实施方式中的见解评价更新装置的评价信息的一例的图。
[0048]图27是表示第四实施方式中的见解评价更新装置的确信度更新规则的一例的图。
[0049]图28是表示第四实施方式中的见解评价更新装置的确信度更新处理的一例的图。
[0050]图29是表示第四实施方式中的见解评价更新装置的确信度更新处理的一例的图。
[0051]图30是表示第四实施方式中的见解评价更新装置的确信度更新的效果的一例的图。
[0052]图31是表示第五实施方式中的分析对象的新闻信息的例子的图。
[0053]图32是表示第五实施方式中的关联词信息的例子的图。
[0054]图33是表示第五实施方式中的见解抽出装置的构成例的图。
[0055]图34是表示第六实施方式中的见解抽出装置的构成例的框图。
[0056]图35是表示第六实施方式中的见解抽出装置的第一线索词辞典的例子的模式图。
[0057]图36是表示第六实施方式中的见解抽出装置的见解抽出对象词辞典的例子的模式图。
[0058]图37是表示第六实施方式中的见解抽出装置的第二线索词辞典的例子的模式图。
[0059]图38是表示第六实施方式中的见解抽出装置的电子文档的例子的模式图。
[0060]图39是详细表示第六实施方式中的见解抽出部的处理动作的模式图。
[0061]图40是详细表示第六实施方式中的信息分析部的处理动作的模式图。
[0062]图41是表示第六实施方式中的见解抽出部的处理结果的一例的模式图。
[0063]图42是表示第六实施方式中的见解评价更新装置的处理结果的一例的模式图。
【具体实施方式】
[0064]以下,使用附图对各实施方式的见解抽出装置进行说明。另外,以下的各装置,按每个装置,通过硬件构成或硬件资源和软件的组合构成的任一种都能够实施。作为组合构成的软件,使用预先从网络或存储介质安装到对应的装置的计算机上的用于实现对应的装置的功能的程序。[0065](第一实施方式)
[0066]图1是表示第一实施方式涉及的见解抽出装置的构成例的框图。本实施方式的见解抽出装置I能够用于向进行股票交易的用户、进行股票交易判断的算法交易引擎等系统(复合事件处理引擎,包括组入了 CEP等的引擎)的证券市场开盘时间中的信息提供,从例如由因特网等发布的新闻信息等电子文档抽出与股票交易有关的见解信息。抽出结果的见解信息能够用于信息提供等。
[0067]具体地,该见解抽出装置I在接收到新闻信息中的经济新闻时,例如,获得与关键词“流行性感冒”相关联的品种分组的知识、根据“流行性感冒”关联品种而成为股价变动的素材的“集体感染” “禽流感”的知识,并将这些知识作为见解信息而保持。此外,见解抽出装置I在接收到包括经济新闻的因特网发布新闻、企业信息时,参照所保持的见解信息,对新闻信息赋予“流行性感冒”等的组、属于相关组的品种、相关组的股价变动素材的有无的信息,并能够向算法交易引擎等系统或者进行股票交易的用户的用户终端装置提供。即,见解抽出装置I抽出包括用于进行品种等见解抽出对象词的分组的信息即概念(第一概念)、与第一概念建立建立关联的信息(第二概念)的见解信息。
[0068]例如,在抽出与股票交易有关的见解信息的情况下,使见解抽出装置I存储股票的品种所属的业界(例:金融、金属、广告等)成为第一概念那样的线索词(第一线索词)。对于第一线索词,将在后面描述。第二概念是与第一概念不同的概念,根据后述的第二线索词来抽出。
[0069]此外,见解抽出装置I也可以称为见解抽出系统I。
[0070]具体地,见解抽出装置I具备进行装置整体的控制的控制部10、存储部11、信息接收部12、信息选择部13、见解抽出部14、信息分析部15及输入输出接口 16,各部分11?16经由总线17而被连接。
[0071]存储部11由例如硬盘驱动器、非易失性存储器装置等硬件构成。存储部11除了存储控制部10的执行对象的程序以外,还保持由见解抽出部14抽出的见解信息、接收并进行了分析的电子文档等。此外,存储部11还保持后述的第一线索词辞典111、见解抽出对象词辞典112、第二线索词辞典113及处理中途的数据等。
[0072]第一线索词辞典111,如图2中表示的一例那样地,将识别第一线索词的代码和成为将见解信息抽出对象分组的第一概念的线索的第一线索词建立关联地进行记述。即,本实施方式的电子文档根据预先存储的第一线索词而赋予第一概念名(组名)。本实施方式的第一线索词辞典可以称为组定义词辞典111。
[0073]见解抽出对象词辞典112,如图3中表示一例那样地,在本实施方式中将识别从电子文档抽出见解信息的对象词(见解抽出对象词)即品种的证券代码、品种的企业名、表示品种的行业的大分类的东证行业1、表示东证行业I内的小分类的东证行业2、及表示品种的企业名的企业名表述建立关联地进行记述。作为企业名表述,能够使用企业名的正式名称、简称、通称、俗称、昵称等各种名称。另外,企业名表述并不限于名称,也可以使用各企业的证券代码。即,在本实施方式中,可以将见解抽出对象词辞典称为品种辞典112。
[0074]第二线索词辞典113,如图4中表示一例那样地,将识别第二线索词(素材表述线索词)的代码和相对后述的见解抽出判定词的表述的线索词建立关联地进行记述。即,在本实施方式,可以将第二线索词辞典113称为素材表述线索词辞典113。[0075]信息接收部12接收由因特网发布的新闻信息。图5及图6是由因特网发布的新闻信息的例子。新闻信息的接收,可以是与发布业者订立合同并接受发布的方式,也可以发现并取得通过一般被称为检索机器人或爬虫的因特网检索程序而新发布的新闻信息的方式。在本实施方式中,利用由因特网发布的新闻信息的构成要素中、图5及图6所示的“时间戳” “新闻源” “种类” “新闻标题” “新闻正文”这五个项目、及信息接收部12赋予的“新闻ID”。“时间戳”是赋予所发布的新闻信息的发布日期时间信息。“新闻源”是提供了该信息的事业者的名称。“种类”是表示赋予新闻信息的“经济” “社会” “体育”等种类(领域)的标签信息。“种类”也可以在新闻接收时未赋予。“新闻标题”是所发布的新闻信息的标题部分的日语字符串,“新闻正文”是除了所发布的新闻信息的标题以外的正文部分的日语字符串。
[0076]信息选择部13从信息接收部12所接收的新闻信息、在此处选择经济新闻(包括经济术语的新闻信息)。是经济新闻的判断是如下进行的,例如,对所接收的新闻信息赋予了“种类”的情况下,“种类”是“经济” “行情”等经济和包括其近义词中的任一个术语的表述。在对所接收的新闻信息未赋予“种类”的情况下,例如,通过在新闻标题或者新闻正文中包括“东证” “大证” “日经平均” “股价” “股票市场” “当天最高价” “收盘价” “成交额”等经济术语、尤其与股票交易有关的术语的任一个来进行判断。即,信息选择部13选择与见解抽出对象词关联性高的电子文档。
[0077]见解抽出部14用于从由信息输入部13选择的新闻信息抽出见解信息,例如,通过后述的见解抽出判定词检查部141、第一线索词检查部142、第一概念抽出部143、见解抽出对象词抽出部144、第二概念抽出部145、组合制作部146及第一概念检查部147,使用存储部11内的各辞典Ilf 113,从见解信息抽出对象的经济新闻中抽出将见解抽出对象即品种分组的第一概念名、属于组的品种、成为股价变动的主要原因的素材表述,并作为品种分组、素材(事件)的见解信息而写入存储部11。此处,作为见解信息,例如,能够使用包括第一概念名、品种及股价变动素材的信息、或包括由第一概念名及品种构成的第一信息和由股价变动素材构成的第二信息的信息,但并非限定于这些组合。另外,见解抽出部14还能够取代由信息选择部13选择的信息而从存储部11中存储的电子文档抽出见解信息。
[0078]另外,见解抽出部14并不限于使用这些各部分14广147及各辞典Ilf 113的方法,例如,也可以通过使用句法解析、含义解析、上下文解析将品种分组的方法,来抽出见解信息。在后者的方法中,例如“受到流行性感冒的流行,而将XX公司进入排名(日文>
^ >)”那样地,从不包括图2所示的组定义词的新闻信息也能够抽出见解信息。
[0079]信息分析部15,在将见解信息存储到存储部11后,根据存储部11内的见解信息来分析信息接收部12中(新)接收的全部新闻信息,例如,具备后述的见解抽出对象词.第一概念.第二概念抽出部151、电子文档分配部152及按见解抽出对象判定部153。此外,信息分析部15,在新接收的新闻信息中存在与分组、素材(事件)的见解信息相关的信息的情况下,也可以对该新闻信息赋予该见解 信息。信息分析部15也可以进一步,将包括新接收的新闻信息在内的在一定时间处理的新闻信息分为组、品种,根据各个组、品种进行统计处理,并赋予统计信息。
[0080]在一系列的处理结束后,信息分析部15的输出作为新闻信息的分析结果而通过输入输出接口 16提示给用户终端装置。[0081]输入输出接口 16能够经由电缆与未图示的外部存储装置连接,并在与该外部存储装置之间输入输出存储部11中存储的见解信息、分析结果保存数据库(未图示)的数据。
[0082]图7是表示与以上那样的见解抽出装置I连接的用户终端装置的构成例的框图。用户终端装置2是利用见解抽出装置I的用户操作的终端装置。用户终端装置2具备进行装置整体的处理的终端控制部21、终端存储部22、显示部23、输入部24及通信接口 25,并分别经由总线26而相互连接。
[0083]终端存储部22是例如由硬盘驱动器、非易失性存储器装置等硬件构成的存储装置。终端存储部22存储控制用的程序。此外,终端存储部22还作为终端控制部21的各种处理的工作存储器起作用。
[0084]显示部23例如是液晶显示器,将信息分析部15的输出向用户输出。例如,将新接收的新闻信息的发布时刻(时间戳)、新闻源、在新闻信息中作为话题的企业名?第一概念名、新闻信息所包含的股票交易素材(自公司股票回购、经营恶化、流行性感冒的集体感染等)以表形式提示给用户。
[0085]输入部24例如是键盘、鼠标,受理见解抽出、信息分析及系统设定所需的操作。
[0086]通信接口 25经由电缆与见解抽出装置I连接,在用户终端装置2中进行用户指定的条件、见解抽出装置I的处理结果等的交换。此外,通信接口 25能够经由电缆与外部存储装置连接,还可以在与该外部存储装置之间输入输出存储部11中存储的品种分组、素材(事件)的见解信息、分析结果。
[0087]接着,对以上那样构成的见解抽出装置I的动作进行说明。图8是表示见解抽出部
14的处理动作的详细的模式图,图9是用于说明见解抽出部的处理动作的一例的流程图。
[0088]另外,在以下的说明中,每当接收新闻信息都进行见解抽出部14的处理,但该处理也可以在夜间等不进行信息分析处理的时间段、对已接收的新闻信息汇总实施。
[0089]信息接收部12通过接受来自新闻发布位置的发布、或访问新闻发布位置,来接收新的新闻信息。例如,接收图5及图6中与图5所示的新闻ID “I”相关的新闻信息。
[0090]信息选择部13从信息接收部12接收的电子文档即新闻信息、选择经济新闻作为抽出见解信息的电子文档(步骤SI)。是经济新闻的判断是如下进行的,例如,对接收的新闻信息赋予了“种类”的情况下,“种类”是“经济” “行情”等经济和包括其近义词中的任一个的表述。
[0091]在对所接收的新闻信息未赋予“种类”的情况下,例如,通过在新闻标题或者新闻正文中包括“东证” “大证” “日经平均” “股价” “股票市场” “当天最高价” “收盘价” “成交额”等经济术语、尤其与股票交易有关的术语的任一个来进行判断。所选择的新闻信息从信息选择部13被送出到见解抽出部14。
[0092]在见解抽出部14中,见解抽出判定词检查部141判定是否包括判定信息选择部13所选择的新闻信息是否为有抽出见解信息的可能性的电子文档的见解抽出判定词(步骤
S2)。
[0093]在本实施方式中,设见解抽出判定词为评价股价变动的股价变动评价词。即,在本实施方式中,可以将见解抽出判定词检查部141称为股价变动评价词检查部141。
[0094]例如,见解抽出判定词检查部141判定所接收的新闻信息的新闻标题或者新闻正文是否包含“当天最高价更新” “剧烈变动” “反弹” “暴跌” “连续上涨” “进入排名”等股价变动评价词。
[0095]在新闻信息中包含股价变动评价词的情况下,见解抽出部14判定为该新闻信息是包括见解信息的新闻信息,并将新闻信息发送给第一线索词检查部142。
[0096]另外,“股价变动评价词”,如果是评价股价的变动的内容,则也可以改说为“股价变动表述词”、“股价变动词”或“股价变动定义词”这样的其它术语。
[0097]第一线索词检查部142,在步骤S2的判定的结果为新闻信息包括股价变动评价词时,判定该新闻信息是否包含定义品种的第一概念名的第一线索词(组定义词)(步骤S3)。即,本实施方式的第一线索词检查部142也可以称为组定义词检查部142。
[0098]例如,第一线索词检查部142参照第一线索词辞典111,判定所接收的新闻信息的新闻标题或者新闻正文是否包含组定义词的至少一个。例如图5所示的新闻ID “I”的新闻包含组定义词“关联品种”。
[0099]在所接收的新闻信息不包含组定义词的情况下,省略第一概念抽出部143的步骤S4的处理。
[0100]在所接收的新闻信息包含组定义词的情况下,第一线索词检查部142将新闻信息发送给第一概念抽出部143。
[0101]第一概念抽出部143,在步骤S3的判定的结果为新闻信息包含组定义词时,根据该组定义词从该新闻信息抽出第一概念名(步骤S4)。
[0102]例如,第一概念抽出部143,在接收到包含组定义词的新闻信息时,抽出组定义词紧前的名词作为第一概念名。在所接收的新闻信息例如是图5所示的新闻ID “I”的情况下,抽出组定义词“关联品种”的紧前的名词“流行性感冒”作为第一概念名。
[0103]虽然使第一概念名为名词,但也可以不将“流行性感冒”那样的单词、而将“新型流行性感冒” “季节性流行性感冒”那样的复合名词作为抽出对象。此外,在虽然包含组定义词但紧前不是名词的情况下,判断为不包含第一概念名。
[0104]见解抽出对象词抽出部144,在见解抽出判定词检查部141的步骤S2的判定的结果为新闻信息包含股价变动评价词时,从该新闻信息抽出包含企业名及证券代码的品种。
[0105]具体地,见解抽出对象词抽出部144,对于例如在步骤S3或S4之后省略第一概念抽出部143的处理而发送的新闻信息,参照见解抽出对象词辞典112,判定新闻标题或者新闻正文是否包含见解抽出对象名表述(步骤S5),在包含见解抽出对象名表述的情况下,抽出与该见解抽出对象名表述对应的见解抽出对象词即品种(步骤S6)。即,本实施方式的见解抽出对象词抽出部144也可以称为品种抽出部144。
[0106]在新闻标题或新闻正文具有见解抽出对象词辞典112的“见解抽出对象名表述”列中的表述的情况下,判断为包含该行的“证券代码” “企业名”中记载的见解抽出对象词即品种。
[0107]见解抽出对象词辞典112可以对一个证券代码包括多行的定义。此外,可以从I件新闻信息抽出多个见解抽出对象名表述。
[0108]例如在图5的新闻ID “I”的新闻信息的情况下,包含见解抽出对象名表述“RR某” “yy某HD” “某药品”,因此品种“证券代码1031企业名RR某(株)” “证券代码1033企业名yy某控股(株)” “证券代码1041企业名某药品(株)”被抽出。
[0109]在见解抽出对象词辞典112中,使见解抽出对象名表述为企业名称或者企业名的简称,但也可以使各企业的证券代码为见解抽出对象名表述的一例。本实施方式的见解抽出对象词辞典112中的见解抽出对象名表述可以称为企业名表述。
[0110]另外,见解抽出对象词抽出部144,如图10所示,在步骤S2的结果为包含股价变动评价词的情况下,只要抽出品种即可,因此并不限于步骤S3、S4之后,在从步骤S2之后到步骤S9之前的期间的任意的时刻都能够抽出品种。
[0111]第二概念抽出部145为,在见解抽出判定词检查部141的判定的结果为新闻信息包含作为见解抽出判定词的股价变动评价词时,从该新闻信息抽出股价变动素材作为第二概念。具体地,第二概念抽出部145判定包含股价变动评价词的新闻信息的新闻标题或者新闻正文中是否包含第二线索词辞典113内的第二线索词中的一个以上(步骤S7)。
[0112]在图9的流程图中,使步骤S7及步骤S8的处理在步骤S6之后,但也可以在步骤S3的处理之前、或者与步骤S3到步骤S6的处理并列实施。
[0113]第二概念抽出部145,在所接收的新闻信息的新闻标题或者新闻正文中包含第二线索词辞典113内的第二线索词的情况下,抽出与该第二线索词互相关联的名词词组作为第二概念名(步骤S8)。在本实施方式中,第二概念名可以称为股价变动素材表述。即,在本实施方式中,第二概念抽出部145可以称为素材抽出部145。
[0114]例如,在图5所示的新闻ID “I”的新闻正文中,在第二句“〇县公布了在X市内的学生宿舍中发生了新型流行性感冒的集体感染,这似乎成了线索素材。”中包含第二线索词“线索素材”。
[0115]与第二线索词“线索素材”互相关联的名词词组是“公布了发生了新型流行性感冒的集体感染”。该名词词组“公布了发生了新型流行性感冒的集体感染”作为股价变动素材(事件)表述而被抽出。
[0116]股价变动素材(事件)表述,也可以分析所抽出的名词词组、并将“发生了新型流行性感冒的集体感染”或者“新型流行性感冒的集体感染”作为抽出对象。
[0117]此外,也可以消去包含步骤S6、步骤S7中抽出的第一概念名“流行性感冒”的“新型流行性感冒”和其附属词并以“集体感染”为抽出对象。
[0118]进一步,在相关的新闻正文如“〇县公布了在X市内的学生宿舍中发生了新型流行性感冒的集体感染。这似乎成了线索素材。”那样被分为两个句子的情况下,也可以在抽出了与线索词“线索素材”互相关联的代名词“这”之后,通过上下文解析,将“这”替换为上文的“〇县公布了在X市内的学生宿舍中发生了新型流行性感冒的集体感染”,并根据替换后的“〇县公布了在X市内的学生宿舍中发生了新型流行性感冒的集体感染”或者其分析结果,将“发生了新型流行性感冒的集体感染”、“新型流行性感冒的集体感染”、或者“集体感染”作为抽出对象。
[0119]在从步骤S3到步骤S8的处理结束后,组合制作部146将从处理中的新闻信息抽出的第一概念名、见解抽出对象词即品种及股价变动素材(第二概念名或者事件)组合来制作见解信息,并将该见解信息写入存储部(步骤S9)。
[0120]在从新闻信息抽出的第一概念名为一个的情况下,对该第一概念名分配所抽出的全部品种(见解抽出对象词)、及所抽出的全部股价变动素材(第二概念名)。即,允许对一个第一概念名分别分配一个或多个见解抽出对象词即品种和第二概念即股价变动素材。
[0121]在分析对象的新闻信息为图6的新闻ID “3”的情况下,如图11所示,从新闻正文抽出多个6件第一概念名、8件品种、3件股价变动素材。
[0122]在这样抽出的第一概念名为多个的情况下,也可以使用上下文解析等高度的自然语言处理,来组合第一概念名、与第一概念名互相关联的品种、与第一概念名互相关联或者与该第一概念名互相关联的品种互相关联的股价变动素材。
[0123]此外,为了简便,也可以将新闻正文分成句子,并按每个句子组合第一概念名、品种、股价变动素材。进一步,也可以将新闻正文一句句地取出,在第一概念名与品种都收集齐时,将到此为止抽出的第一概念名、品种、股价变动素材组合并输出,根据下一句重新组合第一概念名、品种、股价变动素材。使见解信息针对第一概念名分配品种和股价变动素材,但也可以制作没有品种或者股价变动素材的组合。
[0124]通过这样的处理,在本实施方式中,作为成为第一概念名、品种(企业名表述)、股价变动素材的集合的见解信息,抽出以下的六个集合。
[0125](I)第一概念名:石油品种:〇X Λ石〈1001〉,石油VV〈 1002〉,素材:报道了2010年4~12月期间综合经常利润2000亿日元以上。
[0126](2)第一概念名:商社品种:ΗΗ商〈1080〉。
[0127](3)第一概念名:非铁金属品种:SS矿〈1050〉。
[0128](4)第一概念名:纤维品种:纤维JJ〈1030〉。
[0129](5)第一概念名:银行品种:HH银〈1082〉。
[0130](6)第一概念名:科技品种:科技BB〈1060〉,QQ存储器〈1063〉,素材:D证(D证券)提闻投资判断。
[0131]使组合为使第一概·念名、品种、股价变动素材成为集合,但也可以使组合仅为第一概念名和品种,将股价变动素材单独作为见解信息来保持。或者,也可以将股价变动素材不与第一概念名而是与品种成为集合而作为见解信息来保持。
[0132]在组合制作部146的处理后,如图12中表示一例那样地,所抽出的见解信息被写入存储部11 (步骤S9)。另外,如图12所示,作为本实施方式中的第一概念的例子,有“流行性感冒”、“石油”、“商社”、“非铁金属”、“纤维”、“金属”、“科技”等。
[0133]在步骤S2中判定为没有股价变动评价词的经济新闻,通过第一概念检查部147,来判定在新闻标题或者新闻正文中是否包含已写入存储部11中的见解信息的第一概念名(现有第一概念名)(步骤S11)。在本实施方式中,第一概念名为组名,因此第一概念检查部147可以称为组名检查部。
[0134]在包含现有第一概念名的情况下,见解抽出对象词抽出部144使用见解抽出对象词辞典112,来判定在新闻标题和新闻正文中是否包含见解抽出对象名表述(步骤S12)。
[0135]在包含见解抽出对象名表述的情况下,例如在有“加入” “新事业”等表述的情况下,组合制作部146制作用于将与所抽出的见解抽出对象名表述对应的品种追加到现有组中的处理的组合。
[0136]在有“撤退”等表述的情况下,组合制作部146制作用于对现有第一概念除去与所抽出的见解抽出对象名表述对应的品种的处理的组合(步骤S13 )。
[0137]在步骤S13中制作了现有第一概念和品种的追加或者删除处理的组合的情况下,对存储部11执行该处理(步骤S9)。
[0138]接着,根据图13、图14及图15说明信息分析部15的动作。[0139]首先,信息接收部12通过接受来自新闻发布位置的发布、或访问新闻发布位置,来接收新的新闻信息。例如,接收与图5的新闻ID2相关的新闻信息(步骤S21)。所接收的新闻信息被发送给见解抽出对象词.第一概念.第二概念抽出部151。
[0140]见解抽出对象词.第一概念.第二概念抽出部151,首先参照存储部11所存储的见解抽出对象词辞典112,判定所接收的新闻信息的新闻标题或者新闻正文中是否有见解抽出对象名表述(步骤S22)。
[0141]在有见解抽出对象名表述的情况下,见解抽出对象词.第一概念.第二概念抽出部151抽出与所抽出的见解抽出对象名表述对应的企业名.证券代码。此外,见解抽出对象词?第一概念?第二概念抽出部151,参照图12所示的见解信息,抽出全部被分配了所抽出的企业名.证券代码的第一概念名(步骤S23)。见解抽出对象词.第一概念.第二概念抽出部151及电子文档分配部(新闻分配部)152,按每个从新闻标题和新闻正文抽出的企业名,对该企业所属的各组进行步骤S24.步骤S25的处理。
[0142]首先,见解抽出对象词?第一概念?第二概念抽出部151,参照图12所示的见解信息,抽出对在该时刻为处理中的企业名?该企业所属的第一概念名分配的第二概念(股价变动素材),判定新闻标题.新闻正文中是否有相关的股价变动素材(表述)(步骤S24)。
[0143]在有相关的股价变动素材(表述)的情况下,判断为处理中的接收新闻信息中有与该组有关的信息,电子文档分配部152将处理中的新闻信息分配给通过图12所示的见解信息而与该第一概念名建立了对应的企业(步骤S25 )。
[0144]见解抽出对象词?第一概念?第二概念抽出部151,在步骤S22到步骤S25的处理之后、之前、或并列地,判定所接收的新闻信息的新闻标题或者新闻正文是否包含图12所示的见解信息内的第一概念名(步骤S26)。
[0145]例如,在图6所示的新闻ID “2”的新闻信息中,正文包含第一概念名“流行性感
ISI ”
目 O
[0146]在包含第一概念名的情况下,见解抽出对象词.第一概念.第二概念抽出部151从正文或见解信息抽出该第一概念名并送出到电子文档分配部152。
[0147]在抽出了第一概念名的情况下,电子文档分配部152取出通过图12所示的见解信息而与该第一概念名建立了对应的见解抽出对象词即品种,并将处理中的电子文档分配给全部相关见解抽出对象词(步骤S27)。
[0148]通过到步骤S27为止的处理,按每个分配了新闻信息的见解抽出对象词,按见解抽出对象判定部153进行以下记载的步骤S28到步骤S34的处理。
[0149]在步骤S28中,参照步骤S24的第二概念、即股价变动素材(表述)抽出结果,判定是否抽出了当前处理中的见解抽出对象词即品种所属的第一概念所特有的第二概念。
[0150]在处理中的见解抽出对象词中,在与该见解抽出对象词所属的第一概念建立关联并抽出了第二概念的情况下,判断为与该见解抽出对象词有关的信息有可能变动,将该见解抽出对象词和第二概念名的集合追加到警报中(步骤S29)。
[0151]如果具体地记载,则在处理中的品种中,在抽出了与该品种的所属组建立了对应的股价变动素材的情况下,判断为该品种的股价有可能变动,将该品种和股价变动素材的集合追加到股价变动素材警报中。
[0152]在存储部11所保持的见解信息被分为“第一概念名.见解抽出对象词”和第二概念名的情况下,步骤S28判定是否与当前处理中的见解抽出对象词是否属于无关地针对存储部11所保持的全部第二概念进行了抽出。
[0153]在这种情况下,在步骤S29中,将见解抽出对象词即品种和步骤S28中所抽出的第二概念即股价变动素材的集合追加到第二概念警报中。
[0154]在对见解抽出对象词即品种分配了新闻信息后,参照分配给处理中的品种的,存储到存储部11的过去一定期间例如3天内的新闻标题?新闻正文,来判定是否有急上升词(步骤S30),在相关品种的新闻信息中存在急上升词的情况下,将品种和急上升词的集合追加到急上升警报中(步骤S31)。
[0155]急上升词是近年来由检索位置等而公开的,判定出现单词的新旧度、急上升的技术已成为公知的。
[0156]进一步,同样地参照分配给处理中的品种、并存储到存储部11的过去一定期间、例如I小时的新闻信息的新闻标题.新闻正文,来判定处理中的接收新闻信息与过去一定期间的新闻信息是否类似.一致(步骤S32),在有类似新闻信息或者一致的新闻信息的情况下,求出该新闻信息对的类似度,并追加多重发布警报(步骤S33)。
[0157]通过以上的处理而输出的第二概念警报、急上升警报及多重发布警报从信息分析部15输出,并被提供给算法交易引擎等系统或者进行股票交易的用户终端装置2 (步骤S34)。
[0158]在提供目的地为算法交易引擎等系统的情况下,算法交易引擎等系统,除从见解抽出装置I提供的新闻信息和赋予新闻信息的信息以外,还将例如相关品种的当前的股价、购买情况等作为输入信息,并经由进行股票交易的用户终端装置2向用户提示当前时刻应采取的交易策略。
`[0159]如上述那样,根据本实施方式,通过从所接收的新闻信息选择包含经济术语的新闻信息、从该所选择的新闻信息抽出见解信息、存储该抽出的见解信息的构成,从而在未与品种建立关联的状态下从随时发布的新闻信息随时抽出品种分组、股价变动素材的见解信息,由此可以使见解信息为最新的状态。
[0160]此外,在包含股价变动评价词的新闻信息包含定义品种的第一概念名的组定义词时,通过根据该组定义词从该新闻信息抽出第一概念名、从包含股价变动评价词的新闻信息抽出包含企业名及证券代码的品种、从包含股价变动评价词的新闻信息抽出股价变动素材、将该抽出的第一概念名、品种及股价变动素材组合来制作见解信息、并将该制作的见解信息写入存储部11的构成,可以活用并非证券市场所使用的固定行业的分组的见解信息,因此可以有效支援股价变动预测。
[0161]进一步,在存储了见解信息后,通过根据存储部11内的见解信息来分析新接收的全部新闻信息的构成,将分析结果立即提供给算法交易引擎等系统或者进行股票交易的用户,由此可以有效支援最近的股票交易。
[0162]此外,在提供目的地为算法交易引擎等系统的情况下,与仅参照当前的股价、购买情况等数值信息的情况相比较,能够进行基于丰富的信息的判定。
[0163]此外,本实施方式及以下的各实施方式,不将对象限定于因特网发布新闻。例如,还能够以由因特网发布的其它信息(博客、迷你博客、微博、企业发布信息)、存在于因特网外的电子文档为对象。进一步,还能够使对象为新闻信息、博客等多种信息的组合。[0164]另外,在步骤S32的类似新闻信息或者一致的新闻信息的判定中,例如,也可以使用本申请的申请时未公开的在先申请(日本特愿2010-247518)的说明书中记载的处理
[I]?[3]。以下的处理[I]?[3]中,“题目”这一词也可以改称“新闻正文”。此外,“带ID新闻信息”这一词也可以改称“新闻信息”。此外,处理[I]?[3]的主体,与上述的步骤S32配合而改写为“按见解抽出对象判定部153”。
[0165][I]存储部11预先存储单词解析辞典及同一性判定基准等。
[0166]同一性判定基准表示了判定发送的新闻信息中的任意的2件新闻信息是否为同一新闻的基准,包括:该2件新闻信息中包含的新闻源名相互一致、该2件新闻信息中包含的表示发布日期时间的差分的发布时间差比基准值(最大的发布时间差)小、根据该2件新闻信息中的2件题目的词素解析结果算出的类似度比规定值高、及该类似度在通过四舍五入将上述数值信息的有效数字的位数加在一起后被算出。
[0167]另外,类似度为,例如相对于2件题目的词素解析结果中包含的独立词的集合整体中的该独立词及数值信息的个数,该2件题目的词素解析结果的双方所包含的独立词及数值信息的个数所占的比例。此外,类似度(O以上I以下)的规定值优选0.9程度的高的值。此外,也可以不是“根据2件题目的词素解析结果算出的类似度比规定值高”,而是“从2件题目的词素解析结果抽出的独立词相互一致”。此外,同一性判定基准也可以改称同一性判定规则。
[0168][2]按见解抽出对象判定部153,使用存储部11内的单词解析辞典,进行带ID新闻信息的单词解析处理。单词解析处理,例如作为一例而使用词素解析技术(公知的技术)。换言之,按见解抽出对象判定部153具有、对存储部11内的带ID新闻信息中包含的题目进行词素解析、将所得到的词素解析结果附加到该带ID新闻信息的新闻ID及题目上、将所得到的解析结果信息写入存储部11中的词素解析功能。
[0169]另外,以下将词素解析技术作为一例进行说明,但按见解抽出对象判定部153的处理也可以使用不使用单词解析辞典的非N元模型等词素解析的解析处理,而分解为单词。即,本实施方式为,通过不限定为词素解析的方法将新闻信息分割为单词,通过单词的比较来判断类似度。
[0170]但是,例如在以字符为单位的N元模型的情况下,不能够进行是否为带词类、独立词的判定。因而,在通过词素解析的其它手段进行单词解析处理时,能够不以“独立词”、而以“单词”为处理对象。
[0171][3]按见解抽出对象判定部153,根据是否满足存储部11内的同一性判定基准,来判定存储部11内的最新的带ID新闻信息和过去写入的带ID新闻信息是否为同一新闻。
[0172]例如,按见解抽出对象判定部153算出类似度,该类似度表示从最新的带ID新闻信息中的题目的词素解析结果抽出的独立词及数值信息、与从过去写入的带ID新闻信息中的题目的词素解析结果抽出的独立词及数值信息一致的比例。但是,在算出类似度前,预先通过四舍五入将数值信息的有效数字的位数加在一起。在该类似度比规定值(例0.9)高的情况下,同一性判定部15,如果带ID新闻信息内的新闻源名一致、并且各新闻的发布时刻的差在基准值(例,5分钟)以内,则判定为同一新闻。另外,类似度高的确认、新闻源名的一致确认、及发布时刻的差的确认,能够以任意的顺序执行。此外,也可以不进行类似度高的确认,而确认独立词完全一致。[0173]接着,对于同一性判定的处理[3],例举新闻ID “38”的新闻信息和同一性判定对象的新闻ID “3”的新闻信息进行描述。
[0174]从相对于包含新闻ID “38”的最新的带ID新闻信息的词素解析结果,抽出数值信息“减少15.8%” I种、独立词“美〈名词-固有名词-国〉” “商品销售〈名词-一般〉” “A公司〈名词-固有名词-组织〉” “ I月〈名词-可作副词〉” “检索率〈名词-寸变连接〉” “问题〈名词-于4形容词词干〉” “响〈动词-独立〉” 7种。
[0175]从相对于包含同一性判定对象的新闻ID “3”的过去的带ID新闻信息的词素解析结果,抽出数值信息“减少15%〈数值信息〉” I种、独立词“A公司〈名词-固有名词-组织〉” “I月〈名词-可作副词〉” “美〈名词-固有名词-国〉” “商品销售〈名词-一般〉”4种。
[0176]此处,与新闻ID “38”和新闻ID “3”对应的数值信息分别为“减少15.8%”和“减少15%”,值不一致。
[0177]对于独立词,从2件词素解析结果抽出的全部独立词有7种,相对于此,从2件词素解析结果的双方抽出的独立词为4种。
[0178]在这种情况下,数值信息I种和独立词7种的合计8种的信息中一致的为4种,据此,算出一致度为50%、类似度为0.5。
[0179]类似度的算出,也可以进一步采用“包含数值信息,不一致的情况下使类似度为O”或“将数值信息的一致度和独立词的一致度的平均作为类似度”等而执行。
[0180]另外,按见解抽出对象判定部153的独立词比较,直接比较了词素解析结果,但并非限定于此,还可以变形为加上将词素解析结果中的动词.形容词.形容动词变换为原形来比较的处理、在后接否定助动词的情况下返回原形时成为否定形的终止形的处理、等处理。
[0181](第二实施方式)
[0182]接着,对第二实施方式进行说明。另外,第二实施方式是与抽出与股票交易有关的见解信息的第一实施方式的见解抽出装置I有关的变形例。
[0183]股价变动的方向,未必与新得到的信息为积极或消极一致。有如下倾向:与进行股票交易的用户们事先预测的内容相比较而言的改善方向或改坏方向决定股价变动的方向。
[0184]因而,在第一实施方式中,在信息分析部15的处理中,仅将股价变动素材的有无和其表述作为向CEP (Complex Event Processing:复合事件处理)或者用户提供的提供内容。但是,一部分的股价变动素材有对股价变动赋予一定的方向性的倾向。
[0185]因此,在第二实施方式中,在第二线索词中方向性明显的线索词中,见解抽出部14内的素材抽出部145成为赋予方向(积极或者消极)和其强度的方式。该强度例如预先设定在整数-5飞的范围内。
[0186]随之,第二概念抽出部145成为取代图4所示的第二线索词辞典113而使用图16所示的第二线索词辞典113a的方式。
[0187]具体地,第二概念抽出部145,除了在见解抽出判定词检查部141的判定的结果为电子文档即新闻信息包含股价变动评价词时、从该新闻信息抽出股价变动素材的上述的功能以外,进一步具备根据该抽出的股价变动素材来检索存储部11内的第二线索词辞典113a、将表示该检索的股价变动的方向及强度的各信息赋予该股价变动素材的功能。[0188]另外,第二线索词辞典113a,将识别线索词的代码、相对于股价变动素材的表述的线索词、表示股价变动的方向的信息、及表示股价变动的强度的信息建立关联地进行记述。
[0189]接着说明以上那样构成的见解抽出装置I的动作。另外,对与第一实施方式的见解抽出装置I同样的构成.动作,省略说明。步骤sfse的动作与上述同样地执行。
[0190]第二概念抽出部(以下记载为素材抽出部)145,在见解抽出判定词检查部(以下记载为股价变动评价词检查部)141的判定的结果为新闻信息包含股价变动评价词时,从该新闻信息抽出股价变动素材。具体地,第二概念抽出部(以下记载为素材抽出部)145判定在包含股价变动评价词的新闻信息的新闻标题或者新闻正文中是否包含第二线索词辞典(以下记载为素材表述线索词辞典)113a内的线索词的一个以上(步骤S7)。
[0191]在图9的流程图中,使步骤S7及步骤S8的处理在步骤S6之后,但也可以在步骤S3的处理之前、或者与步骤S3到步骤S6的处理并列实施。
[0192]素材抽出部145,在所接收的新闻信息的新闻标题或者新闻正文中包含素材表述线索词辞典113a内的线索词的情况下,抽出与线索词互相关联的名词词组作为股价变动素材(步骤S8)。
[0193]例如在来自图17所示的新闻ID “4”的见解抽出处理中,抽出素材表述线索词辞典113a中所登记的线索词“悲观”,对由与线索词“悲观”互相关联的名词词组“业绩向下修正”构成的股价变动素材赋予与线索词“悲观”建立了对应的方向及强度,得到股价变动素材“素材:业绩向下修正方向:消极强度:2”。
[0194]组合制作部146与上述同样地制作见解信息,并将该见解信息写入存储部11中(步骤S9)。图18是该见解信息的一例。此处,见解信息包含有赋予了方向及强度的股价变动素材“素材:业绩向下修正方向:消极强度:2”。与第一实施方式同样地,见解信息使组合为使第一概念名、品种、股价变动素材成为集合,但也可以使组合仅为第一概念名和品种,将股价变动素材单独作为见解信息来保持。或者,也可以将股价变动素材不与第一概念名而是与品种成为集合而作为见解信息来保持。
[0195]此后,在接收到图17所示的新闻ID “5”时,信息分析部15在从新闻正文抽出了股价变动素材“业绩向下修正”时,将“方向:消极强度:2”的信息加上品种“1152:AA制铁(株)”素材“业绩向下修正”并提供给算法交易引擎等系统或者进行股票交易的用户终端装置2。
[0196]如上述那样,根据本实施方式,通过根据由抽出与股票交易有关的见解信息的见解抽出装置I抽出的股价变动素材、检索第二线索词辞典并将表示该检索的股价变动的方向及强度的各信息赋予该股价变动素材的构成,除了第一实施方式的效果以外,通过提供对股价变动素材赋予了方向和强度的信息,可以进一步强力辅助算法交易引擎等系统或者进行股票交易的用户的快速的判断。
[0197](第三实施方式)
[0198]接着,对第三实施方式进行说明。
[0199]第三实施方式是抽出与股票交易有关的见解信息的第一实施方式的见解抽出装置I的变形例,使见解抽出部14抽出的见解信息为与某个对象有关的素材(事件)和其时间戳。
[0200]随之,信息接收部12,除了接收新闻信息的上述的功能以外,进一步具备在接收新闻信息时对该新闻信息附加时间戳的功能。
[0201]见解抽出部14,在从信息选择部13所选择的新闻信息抽出见解信息的上述的功能中,具有如下功能:从该选择的新闻信息抽出包含表示规定的对象的表述的事件信息,并且从抽出了该事件信息的新闻信息进行抽出,将该抽出的事件信息及时间戳作为见解信息写入存储部11中的功能。
[0202]此处,表示规定的对象的表述是,例如表示品种的企业名的企业名表述、或表示定义品种的第一概念名的组定义词的紧前的名词的表述。另外,“表示品种的企业名的企业名表述”记述在见解抽出对象词辞典(以下记载为品种辞典)112中。“定义品种的第一概念名的组定义词”记述在第一线索词辞典(以下记载为组定义后辞典)111中。
[0203]接着说明以上那样构成的见解抽出装置I的动作。图19是表示见解抽出部14的处理动作的一例的流程图。
[0204]当信息接收部12接收新闻信息时(步骤S41),见解抽出部14参照组定义词辞典111及品种辞典112等,判定是否包含表示由用户选择的对象(将企业建立了关联的第一概念)的表述(步骤S42)。
[0205]在包含表示由用户选择的对象的表述的情况下,见解抽出部14抽出包含表示该对象的表述的名词词组、作为第二概念(事件)(步骤S43)。
[0206]见解抽出部14将所抽出的第二概念与对象名、接收信息的时间戳一起追加写入存储部11中(步骤S44)。
[0207]以下,信息分析部15与上述同样地执行步骤S2f S34的动作。
[0208]图20是表示见解信息的一例的图。是根据图5所示的新闻ID对第一概念名“流行性感冒”进行了处理的例子。
[0209]使抽出的知识(第二概念)为包含由用户选择的对象表述的名词词组,但也可以从该名词词组中选择复合名词、选择固有名词(地名等)、或选择急上升词作为第二概念,使第二线索词为“〇县” “集体感染” “Λ市”或其组合。
[0210]也可以是,将根据第一概念“流行性感冒”抽出的第二概念、如图12所示那样按照在第一实施方式中取得的见解信息来扩展到企业,并结合根据图20所示的见解信息将“对象”从“流行性感冒”替换成了 “ 1033:yy某控股(株)”的信息而作为见解信息写入。
[0211]进一步,如图20所示,也可以将类似度高的新闻信息的发布数作为“类似信息数”一并作为见解信息。
[0212]如上述那样,根据本实施方式,通过在接收新闻信息时、对新闻信息附加时间戳、从所选择的新闻信息抽出包含表示规定的对象的表述的事件信息、并且将该抽出的事件信息及时间戳作为见解信息写入存储部11中的构成,除了第一实施方式的效果以外,通过以时间戳信息的某个时序而抽出并保持与某个对象(第一概念)有关的第二概念,在发生了同样的现象时,可以保持对近的将来的预测有效的见解信息并向用户终端装置2提示。
[0213]另外,第三实施方式还能够通过使接收的信息为电子邮件、使对象为计划,而抽出表示与企业活动中的计划有关的风险的见解信息。进一步,还能够通过使接收的信息为信息设备的系统记录、使对象为计算机网络系统,而进行与计算机网络系统的故障检测有关的见解信息的抽出。
[0214](第四实施方式)[0215]接着对第四实施方式进行说明。
[0216]参照图21对第四实施方式的见解抽出装置100的构成进行说明。另外,省略第一实施方式至第三实施方式所记载的构成。
[0217]如图21所示,本实施方式的见解抽出装置100具备存储部11的评价信息114和确信度更新规则115、以及见解评价更新装置18。对于评价信息114和确信度更新规则115、以及确信度,将在后面描述。
[0218]见解评价更新装置18具备上位概念检查部181、下位概念抽出部181、评价部183、确信度更新部184及见解更新部185。
[0219]上位概念检查部181,按见解信息中包含的每个组名,在预先设定的期间新登记到存储部11中的新闻信息中,检查记载有该组名的新闻的有无和发布数。即,本实施方式的见解信息为层级结构的信息,使组名为上位概念,使品种为下位概念。
[0220]下位概念抽出部182抽出作为由上位概念检查部182检查的组名的下位概念的、见解信息中包含的全部品种。此外,下位概念抽出部182根据上位概念检查部181检查的新闻信息、来检查记载有该品种的新闻的有无和发布数。
[0221]评价部183根据存储部11所存储的评价信息114,对下位概念抽出部182抽出的每个品种算出评价值。评价信息114例如是股价信息、新闻、股票的成交额、公司的业绩、员
工数等。
[0222]确信度更新部184根据评价部183算出的评价值和确信度更新规则15,更新后述的确信度。
[0223]见解更新部185根据确信度更新部184的更新结果,更新存储部11所存储的见解信息。
[0224]此处,股价变动受到各品种所关联的新闻的发生的影响,这一点如上述那样,但影响的大小根据品种、组名(关键词)而不同。因而,除了组名和品种的组合以外,还一并保持该品种在相关组名的新闻发生时受到的影响的强弱、即该品种属于相关组的确信度的信息是有效的。
[0225]因而,在第四实施方式中,取代图12所示的见解信息,而是如图22所示那样,成为保持加上了包含确信度和确信度更新历史的确信度信息的见解信息的方式。即,本发明的确信度是指,表示下位概念归属(关联)上位概念的程度的数值,与【背景技术】所记载的第三技术中的确信度不同。可以判定为,是见解信息中的确信度越高、下位概念归属上位概念的程度越高、即关联性越强的信息。
[0226]另外,在图22中,省略了图12的股价变动素材的信息,但也可以是加上了股价变动素材的构成。或者,也可以是在与图22的见解信息不同的表中管理组名和股价变动素材的组合的构成。进一步,除了股价变动素材以外,如第二实施方式及图18所示那样,也可以加上方向、强度来进行管理。此外,确信度信息中包含的信息也可以仅为确信度。
[0227]在图22的见解信息中,与第一实施方式、第二实施方式及第三实施方式中使用的图12的见解信息同样地,保持组名、品种这两种信息。进一步,使加上了该品种属于相关组的确信度的信息的三种信息是必须的。除此以外,还可以一并保持将组名细分的下位组名、由相关企业发布的预定进入相关事业(组)的时期即事业进入时期、由相关企业发布的预定从相关事业撤退的时期即退出经营时期、到过去一定次数为止的确信度更新历史、记录新抽出该组名和品种的关系时的组定义词的组定义词等信息。在本实施方式中,将确信度更新历史保持到两次前的历史为止。
[0228]接着说明具备保持并更新图22的见解信息的确信度的见解评价更新装置18的见解抽出装置100的动作。图23是表示见解评价更新装置18的处理动作(以下称为见解评价更新处理)的详细的模式图,图24及图25是用于说明见解评价更新处理的一例的流程图。
[0229]以下,在本实施方式的见解抽出装置100中,对进行与图22的第四行的见解信息有关的处理的情况进行说明。图22的第四行的见解信息为,“第一概念名:流行性感冒,下位组名:流行性感冒药,品种:ff医药〈1042〉,确信度:1,事业进入时期:2007年10月19日,确信度更新历史I (上次的确信度更新历史):2008年9月10日+ 1,组定义后:关联”。
[0230]第一概念名(以下记载为组名)、品种(企业名表述)、股价变动素材的集合的抽出,与第一实施例同样地执行。在新抽出了组名和品种的组合时,作为确信度的初始值,例如赋予1.0。此外,使本实施方式的确信度的最小值为0,通过后述的确信度更新处理,在成为确信度低于O的结果的情况下修正为O。此外,使本实施方式的确信度的最大值为5.0。通过确信度更新处理,也可以在成为确信度超过5.0的结果的情况下,通过例外处理,调整为不会大大超过5.0。例外处理进行如下处理,例如在前一天的确信度比5.0大、并且在本次的更新中确信度还增加的情况时,使确信度仅增加0.05,在前一天的确信度低于4.95、并且在本次的更新中确信度超过5.0的情况下,使更新后的确信度为5.0。
[0231]另外,在以下的说明中,使见解评价更新处理在证券市场结束后的傍晚或夜间执行一次,但该处理并非一天一次,也可以分别在证券市场的早盘和午盘的结束时实施。
[0232]当见解评价更新处理起动时,上位概念检查部181从图22的见解信息选择一个组名(步骤S51)。此处,选择组名“流行性感冒”。接着,上位概念检查部181确认这一天新登记到存储部11的新闻中、记载有在步骤S51中选择的组名的新闻的有无(步骤S52)。
[0233]另外,在本实施方式中,新闻件数的总计,例如在每个营业日的15:00等规定的时刻进行。节假日所发布的新闻,也可以加在下一营业日的新闻中。此外,在步骤S52中,也可以确认记载有组名和下位组名的双方的新闻的有无。
[0234]在没有记载有选择中的组名的新闻的情况下(步骤S52中“否”),省略步骤S53?步骤S63的处理,进入步骤S64。对于步骤S64,将在后面描述。
[0235]在有记载有选择中的组名的新闻的情况下(步骤S52中“是”),下位概念抽出部182抽出图22的见解信息中的、组名与选择中的组名相同的见解信息中包含的品种(步骤S53)。评价部183从由下位概念抽出部182选择的品种选择一个(步骤S54)。此处,选择品种 “ff 医药〈1042〉”。
[0236]接着,评价部183判定是否有同时包含由下位概念抽出部182选择的品种和与该品种对应的组名、并且没有与退出经营相关联的预先确定的词(“撤退” “出售”等)的新闻(步骤S55)。
[0237]在没有同时包含由下位概念抽出部182选择的品种和与该品种对应的组名、并且没有与退出经营相关联的词的新闻的情况下(步骤S55中“否”),省略步骤S56、S57的处理,进入步骤S58。
[0238]在有同时包含由下位概念抽出部182选择的品种和与该品种对应的组名、并且没有与退出经营相关联的词的新闻的情况下(步骤S55中“是”),评价部183确认包含该组名的新闻件数是否为规定数以上(步骤S56)。在本实施方式中,使步骤S56的规定数为3。
[0239]在包含该组名的新闻件数为规定数以上的情况下(步骤S56中“是”),评价部183算出该品种的“成交额变化率”作为评价值,并确认所算出的成交额变化率是否与后述的确信度的更新条件一致(步骤S57)。
[0240]在这种情况下,在本实施方式的评价信息114中包含与股票的品种有关的每天的成交额。图26表示品种为ff医药〈1042〉的成交额的一例。
[0241]在步骤S57中,评价部158使用该评价信息114,根据以下的式算出“成交额变化
率 O
[0242](I)成交额变化率=(当天的成交额)/ (最近5营业日的成交额的平均)
[0243]在上述式(I)中使用了最近5营业日的平均,但当然不限于5营业日。
[0244]另外,步骤S57中的更新条件例如为“如果是预先设定的阈值以上则更新”。此外,也可以使更新条件根据该见解抽出装置100中包含的存储部11中包含的信息而动态变化。更新条件的动态变化是指,例如在使用新闻信息作为评价信息114的情况下,在新闻信息中包含的该品种的关联新闻的件数比规定的数多的情况下,考虑以规定的单位使更新条件所包含的阈值上升。
[0245]在本实施方式中,使更新条件为“是否符合成交额变化率> 1.1或者成交额变化率< 1.0”。
[0246]步骤S55?步骤S57的判定是用于判定是否更新确信度的处理的一例,也考虑进一步详细分开判定、作为判定基准使用其它指标。
[0247]在包含该组名的新闻件数低于规定数的情况下(步骤S56中“否”)、或者评价部183算出的评价值与确信度的更新条件不一致的情况下(步骤S57中“否”),省略步骤S58?步骤S62的处理,进入步骤S63的处理。
[0248]在评价部183算出的评价值与确信度的更新条件一致的情况下(步骤S57中“是”),确信度更新部184更新与该品种建立对应地存储到存储部11中的确信度(步骤S58)。另外,确信度更新部184的确信度的更新为,在存储部11中预先设定确信度更新规则115,并按照该规则更新。
[0249]图27表示本实施方式中的确信度更新规则115的一例。图27所示的确信度更新规则115存放在存储部11中。
[0250]图27的确信度更新规则115为,“在步骤S55的判定为“是”、并且成交额变化率(1.1的情况下,对确信度加上0.05”、“在步骤S55的判定为“是”、并且成交额变化率> 1.1的情况下,对确信度加上(成交额变化率-1.0) X0.5”、“在步骤S56中为“是”、并且成交额变化率> 1.1的情况下,从确信度减去(新闻变化率-成交额变化率)X0.5”、“在步骤S56中为“是”、并且成交额变化率< 1.0的情况下,对确信度加上(新闻件数变化率-成交额变化率)X0.5”。
[0251]新闻件数变化率根据以下的式算出。
[0252](2)新闻件数变化率=(包含当天的相关组名的新闻件数乘上当天的确信度)/ (包含最近5营业日的相关组名的新闻件数乘上相关日的确信度后的平均)
[0253]此外,图28表示按天表示包含本实施方式中的流行性感冒的新闻的件数的曲线图。[0254]在本实施方式中,在从步骤S55的“是”进入了步骤S58的情况下、从步骤S57的“是”进入了步骤S58的情况下,更新规则不同。此外,例如也可以是“在成交额变化率< 1.0的情况下,从前一营业日的确信度减去(1-成交额变化率)X0.5”那样的更新规则。另外,确信度的前一天的值例如根据图22的见解信息中包含的确信度更新历史算出。或者,也可以将确信度本身作为历史保持。
[0255]图29表示与本实施方式的确信度有关的曲线图的一例。
[0256]接着,见解更新部185更新图22的见解信息。具体地,见解更新部185判定更新后的确信度是否满足将包含该品种的见解信息从存储部11删除的条件(以下称为删除条件)(步骤S59)。在本实施方式中,例如,在确信度成为了 0.3以下的情况下,见解更新部185判定为满足删除条件。另外,该判定也可以是,并非根据最新的确信度的数值来判定,而是根据更新历史例如在减少连续了五次的情况下设为满足删除条件。
[0257]在更新后的确信度比0.3大的情况下(步骤S59中“否”),即在不满足来自组的删除条件的情况下,见解更新部185省略步骤S6f步骤S62的处理,进入步骤S63。
[0258]在更新后的确信度为0.3以下的情况下(步骤S59为“是”),即满足来自组的删除条件的情况下,见解更新部185将警报提示给用户(步骤S60)。该警报用于由用户确认是否从选择中的组删除选择中的品种,并显示在例如输入输出接口 16上。
[0259]当用户参照所显示的警报、使用输入输出接口来输入是否删除该见解信息时,见解更新部185判定所输入的信息是否为指示删除的信息(步骤S61)。
[0260]在未指示删除的情况下(步骤S61为“否”),见解更新部185省略步骤S62的处理,进入步骤S63的处理。
[0261]在指示了删除的情况下(步骤S61为“是”),见解更新部185将所选择的品种从组删除(步骤S62)。即,将与选择中的组和选择中的品种的组合相关的见解信息从存储部删除。另外,品种从组的删除,并非仅通过该一系列的处理来进行,也可以按照图22的见解信息所记载的退出经营时期的信息,另行进行将到达了撤退时期的品种删除的处理。
[0262]接着,见解更新部185判定选择中的组是否有未处理的品种(步骤S63)。在有未处理的品种的情况下(步骤S63为“是”),返回步骤S54而对未处理的品种中的一个进行同样的处理。
[0263]在选择中的组中未处理的品种没有了的情况下(步骤S63为“否”)、或者步骤S52为“否”的情况下,见解更新部185判定见解信息所保持的组中是否有未处理的组(步骤S64)。
[0264]在有未处理的组的情况下(步骤S64为“是”),返回步骤S51而对未处理的组中的一个进行同样的处理。在没有未处理的组的情况下(步骤S64为“否”),结束处理。
[0265]如上述那样,根据本实施方式,通过根据抽出了见解的信息源以外的信息(股价变动、成交额等)来评价并更新见解的有效性的构成,除了第一实施方式的效果以外,还可以根据多个信息源将见解的准确度维持得较高。
[0266]另外,在第四实施方式中,图24、图25的处理的判定基准并非限定于上述。例如,步骤S52的是否有包含选择中的组名的新闻的判定,也可以替换为包含选择中的组名的新闻数是否为前一天以上的判定、或者替换为选择中的组名是否与急上升词相关的判定。
[0267]此外,步骤S57中的选择中的品种的成交额变化率是否满足更新条件的判定,也可以替换为与选择中的品种的股价变动、交易额、日经平均等表示股票市场整体的倾向的 指标进行了比较的股价变动倾向的判定。
[0268]例如,在步骤S57中使用股价变动进行判定的情况下,评价部183作为评价值而求 出该品种的紧前的营业日的股价变动、例如进一步求出从之前的营业日开始的股价变动的 比例。评价部183在此时,例如,如果股价变动为5%以上的上涨,则判定为选择中的品种归 属选择中的组是恰当的。此外,评价部183,在股价变动为不足5%的下跌或者不足5%的上 涨的情况下,保留品种的组归属的恰当判断。此外,评价部183,在股价变动为5%以上的下 跌的情况下,判定为选择中的品种归属选择中的组是不恰当的。该股价变动的判定,如第二 实施方式及图18所示那样,也可以在把新闻中记载的素材表述和其方向也考虑在内,决定 上涨(积极)和下跌(消极)的哪个归属组的判断是恰当的之后进行。
[0269]此外,使与各品种有关的处理为对每个所属的组来实施的方式,但在某个品种在 同一天在多个组中成为处理对象的情况下,也可以实施例外的处理。例外的处理是指,例如 [4]或者[5]的处理。
[0270][4]在同一天在多个组中成为处理对象的品种,不实施确信度更新。
[0271][5]在同一天在多个组中成为处理对象的品种,按照每个所属的组,参照其它所属 品种的变动。在产生了与其它品种相同方向?相同程度的数值变动的情况下,实施该组中 的确信度更新处理。
[0272]此外,在本实施方式中,将确信度的评价更新的对象作为组名和品种的关系,但确 信度也可以用于图22的见解信息中保持的组定义词的评价。即,也可以是,按照每个组定 义词来整理与见解信息中保持的组定义词对应的确信度的信息,将确信度的平均、最大值 低于规定值的组定义词判定为并非有效而从图2的组定义词辞典(第一线索词辞典)删除。
[0273]此外,确信度的信息也可以是,并非用于见解信息或者组定义词的评价更新,而是 在数一般新闻中包含的组名时用于加权。即,也可以是,例如在包含组名“流行性感冒”的 新闻有50件的情况下,以确信度为1. 0的品种有50件的新闻发布、确信度为0. 8的品种有 40件的新闻发布、来分配件数。
[0274]图30是表不本实施例的效果的一例的图。在图30中表不了,关于某个东证一部上 市品种,对于包含其品种名的新闻件数(仅品种名)、包含品种名或者该品种所属的组名(在 图30的例子中,设为有约200组)的至少一个的新闻件数(品种名0R组名(无确信度))、将 包含组名的新闻件数用该组名的确信度补正了的件数与包含品种名的新闻件数的合计(品 种名0R组名(无确信度补正)),求出了新闻件数与相关品种的成交额的相关系数。
[0275]相关系数是指表示两个随机变量之间的相关、即类似度的程度的统计学指标, 取-1?+ 1之间的实数值。在接近1时,称为两个随机变量具有正的相关,如果接近-1, 则称为具有负的相关。在接近0时,原来的随机变量的相关弱。相关系数和相关关系 为,例如,如果相关系数为“0. (T±0. 2”则相关关系视为“几乎不相关”,如果相关系数为 “ ±0. 2?±0. 4”则相关关系视为“稍相关”,如果相关系数为“ ±0. 4?±0. 7”则相关关系 视为“相关”,如果相关系数为“ ±0. 7?±0. 9”则相关关系视为“强相关”,如果相关系数为 “ ±0.扩土 1. 0”则相关关系视为“极强相关”。
[0276]图30所示的应用了本实施方式的见解评价更新处理的“品种名或组名(有确信度 补正)”的相关系数,成为比仅品种名、及品种名或组名(无确信度)的相关系数高的值,可以说能够得到具有更强相关的见解信息。
[0277]另外,在本实施方式的见解评价更新装置18中,还能够评价.更新与股票交易有关的见解信息以外的见解信息,例如能够进行与商品有关的见解信息(以下称为商品见解信息)的见解评价更新处理。
[0278]在这种情况下,商品见解信息从企业的通报、博客、微博等由因特网发布的信息抽出。此外,此时,将商品见解信息中包含的下位概念的信息作为商品名,将上位概念的信息作为组名,进一步将商品见解信息的评价值作为商品的销售额信息的变化率。通过根据该销售额信息的变化率来评价.更新商品见解信息,也能够抽出商品的组名与销售额的相关更强的见解信息。
[0279](第五实施方式)
[0280]接着对第五实施方式进行说明。
[0281]在第一实施方式至第四实施方式中,在判定新闻信息中是否有组的信息时,成为应仅抽出组名的表述。但是,在一般新闻中,有时记载并非经济新闻中使用的组名的关联词。例如,从图31所示那样的经济新闻,能够抽出组名“防卫(关联)”、品种“aa重工〈7191〉”、“bb重工业〈7192〉”、“cc工业〈7193〉”的组合。另外,公司名的旁边所示的各数字是虚构的证券代码。
[0282]在上述的情况下,组名为“防卫”,但一般新闻中报道的内容是,图31的各经济新闻的前半部分的“政府坚定了推进自卫队飞机的民间转用的方针”、“朝鲜半岛局势紧张”,很有可能不记载组名“防卫”。
[0283]因此,在第五实施方式中,除了图12的见解信息,还使用图32所示的关联词信息116。如图32所示,本实施方式的关联词信息116作为将见解“否和组名(第一概念名)和关联词建立了对应的表而保持在存储部11中。另外,关联词可以预先由用户登记,也可以将新闻信息中与组名同时出现的单词作为关联词而抽出并登记。
[0284]此处,参照图33对第五实施方式的见解抽出装置101的构成进行说明。赋予了与第一实施方式至第四实施方式相同的附图标记的各构成,进行与第一实施方式至第四实施方式相同的动作。
[0285]如图33所示,第五实施方式的见解抽出装置101,除第四实施方式的见解抽出装置100外,还在存储部11中保持关联词信息116。另外,本实施方式的见解抽出装置101也可以构成为在第一至第三实施方式的见解抽出装置I中加上关联词信息116。
[0286]参照图14、图24及图25对本实施方式的见解抽出装置101的处理的一例进行说明。
[0287]本实施方式的见解抽出装置101,在图14或图24及图25所示的处理中,在判定新闻信息中包含的组名的有无时(图14的步骤S24或图24的步骤S52),使图32所示的关联词信息116中包含的关联词为与组名同等的表述并加到检查对象上。即,本实施方式的见解抽出装置101,检索与步骤S51中选择的组名相同的组名是否被保持在关联词信息116中,在保持着的情况下,判定该组名或者与该组名对应的关联词是否包含在新闻信息中。
[0288]此时,在一个新闻中记载有组名和关联词的情况下,计数为相当于记载有组名的I件新闻。关联词也可以从第一实施方式中说明的股价变动素材选择在其它组中未登记的表述。此外,也可以在包含组名的新闻群和其它新闻群中,抽出出现频度具有有意差的名词词组。进一步,图12的见解信息、图22的见解信息和图32的关联词信息116,在可以根据组名结合的范围内,也可以以其它分割方式来保持。
[0289]根据本实施方式,通过除在一般新闻中记载的少的组名外、还将关联词作为抽出对象,可以进一步恰当地评价对一般新闻的品种的影响。
[0290](第六实施方式)
[0291]接着,对第六实施方式中的见解抽出装置进行说明。第六实施方式中的见解抽出装置,与第三实施方式同样,进一步具备在接收电子文档时对该电子文档附加时间戳的功能,将见解抽出部14抽出的见解信息作为与某个对象有关的素材(事件)和其时间戳。
[0292]参照图34对第六实施方式的见解抽出装置102的构成进行说明。另外,省略上述的实施方式所记载的构成。
[0293]如图34所示,本实施方式的见解抽出装置102具备见解评价更新装置19。
[0294]见解评价更新装置19具备电子文档检索部186来代替图21所示的见解抽出装置100的见解评价更新装置18中的上位概念检查部181,并具备见解登记概念抽出部187来代替下位概念抽出部182。
[0295]电子文档检索部186检查在见解信息中包含的第一概念名中、在预先设定的期间新登记在存储部11中的电子文档中记载有该第一概念名的电子文档的有无和发布数。
[0296]见解登记概念抽出部187抽出与由电子文档检索部186检查的第一概念名建立了关联的、见解信息中包含的全部见解抽出对象词。此外,见解登记概念抽出部187根据电子文档检索部186检查的电子文档、检查记载有该见解抽出对象词的电子文档的有无和发布数。
[0297]在第六实施方式中,使电子文档为由因特网发布的微博(迷你博客,也称为牢骚博客,以Twitter (注册商标)为代表例)的记事,使第一概念为电视节目,使见解抽出对象词为电视节目或者电视节目的出场人物或者电视节目中的一角或者电视节目中被提及的商品等节目中出现的内容,使第二概念为对电视节目或者见解抽出对象词的评价表述。即,在本实施方式中,对见解抽出装置102进行说明,并非如图21所示的第四实施方式中的见解抽出装置100那样从新闻信息抽出与股票交易有关的见解信息,而是在接收了电子文档即微博的记事中、电视节目中提及的内容时,获得例如将与电视剧A相关联的见解抽出对象词(出场人物、被提及的物体、情节展开、工作人员等)分组的知识、电视剧A或者对其见解抽出对象词经常使用的评价表述“呵呵(日文:7 α夕)”“哭了(日文:泣汁亡不一般(日文:Λ λ ) ”的知识,并抽出这些知识作为见解信息。
[0298]另外,“呵呵”是指被用作“笑了 ”或者“能笑”的含义的词,“不一般”是指被用作“绝对不一般”的含义的词。此外,见解抽出装置102,在接收了包含微博的因特网发布的电子文档例如新闻、一般博客、电视台发布信息时,参照所保持的见解信息,对电子文档赋予“电视剧Α”等节目名、属于相关节目的见解抽出对象词、相关节目或者见解抽出对象词的评价表述的有无的信息,并能够提供给节目制作者等用户的终端装置。
[0299]S卩,本实施方式的见解抽出装置102是第四实施方式所示的见解抽出装置101的变形例。
[0300]图35表不本实施方式中的第一线索词辞典111的一例。如图35所不,将识别第一线索词的代码、与定义第一概念名、本实施方式中定义节目名的第一线索词建立关联而记述。
[0301]第一线索词辞典111,在本实施方式中,如图35中表示一例那样地,将识别第一线索词的代码、与定义第一概念名、本实施方式中定义节目名的第一线索词建立关联而记述。具体地,设定义节目名等记事内容的第一线索词为记事内容的起始字符的“ # ”。
[0302]本实施方式中的见解抽出对象词辞典112,如图36中表示一例那样地,对于见解抽出对象词、本实施方式中出现在电视节目中的内容,将识别见解抽出对象词的代码、将见解抽出对象词建立了关联的节目名、以及在见解抽出对象词的微博记事中出现的其它记载即见解抽出对象词表述建立关联而记述。作为见解抽出对象词表述,能够使用见解抽出对象词名的正式名称、简称、通称、俗称、昵称等各种名称。见解抽出对象词辞典112也可以首先根据电视台的公开信息进行构筑。此时也可以是,关于在其它节目中也出场的演员、不特定节目名,而对于节目固有的角色名等记载节目名。进一步,见解抽出对象词辞典也可以是,在抽出见解信息时,将记载有第一概念的微博记事中出现的其它名词或者复合名词作为见解抽出对象词候补来记录,在在用户确认后追加登记为见解抽出对象词。
[0303]第二线索词辞典113a,如图37中表示一例那样地,将识别第二线索词的代码、与相对第二概念即本实施方式中见解抽出对象词表述的第二线索词建立关联而记述。在本实施方式中,使第二线索词为作为情绪表述的表情文字及与其类似的表述。第二线索词辞典113a,与第二实施方式同样地,为赋予了情绪的方向、该情绪的强度的方式。另外,强度以情绪越强烈则越大的值来表示。
[0304]图38表示在本实施方式中信息接收部12接收的电子文档即微博的记事的一例。如图38所示,在本实施方式中,利用由因特网发布的微博记事的构成要素中图38所示的“时间戳” “用户” “引用信息” “正文”这四个项目、和信息接收部12赋予的“记事ID”。
[0305]“时间戳”是赋予所发布的微博记事的发信日期时间信息。“用户”是发信了该信息的用户的识别名称。“引用信息”是直接引用其它用户发信的微博记事并再发信时等所赋予的、原来的记事的发信用户的识别名称。“记事正文”是所发布的微博记事的正文的字符串O
[0306]信息选择部13从信息接收部12接收的微博的记事、选择作为见解抽出对象的电子文档即在本实施方式中与电视节目有关的微博记事。是与电视节目有关的微博的判断,例如是通过在微博的记事内容的起始、接着第一线索词“#”记载有电视节目名或者电视台名来进行的。在没有第一线索词的微博记事的情况下,通过在正文中包含电视节目名、电视台名或者图36的见解抽出对象词辞典112中记载的见解抽出对象词的任一个来进行判断。
[0307]接着,对以上那样构成的见解抽出装置102的动作进行说明。图39是表示见解抽出装置102中的见解抽出部14的处理动作的详细的模式图。见解抽出部的处理动作,与第一实施方式同样地,依据图9的流程图。
[0308]另外,在以下的说明中,每当接收电子文档都进行见解抽出部14的处理,但该处理也可以在夜间等不进行信息分析处理的时间段、对已接收的微博的记事汇总实施。
[0309]信息接收部12通过接受来自微博登载的位置的发布、或访问微博登载的位置,来接收新的微博。例如,接收与图38所示的记事ID “3”相关的微博。
[0310]信息选择部13从信息接收部12接收的微博的记事、选择与电视节目有关的微博记事(步骤SI)。是与电视节目有关的微博的判断,例如是通过接着记事内容的起始字符“#”记载有电视节目名或者电视台名来进行的。在没有记事内容的起始字符“#”的微博记事的情况下,通过在正文中包含电视节目名、电视台名或者图36的见解抽出对象词辞典中记载的见解抽出对象词的任一个来进行判断。所选择的微博记事从信息选择部13送出到见解抽出部14。
[0311]在见解抽出部14中,见解抽出判定词检查部141判定信息选择部13所选择的微博记事是否包含见解抽出判定词(步骤S2)。在本实施方式的情况下,也可以使步骤SI的处理和步骤S2的处理的判断基准相同,仅实施任一个处理步骤。
[0312]在包含见解抽出判定词的情况下,作为包含见解信息的微博记事,将微博记事发送给第一线索词检查部142。
[0313]第一线索词检查部142,在步骤S2的判定的结果为微博记事包含见解抽出判定词时,判定该微博记事是否包含第一概念名、即本实施方式中定义节目名的第一线索词(步骤
S3)。
[0314]例如,第一线索词检查部142参照第一线索词辞典111,判定所接收的微博记事的正文中是否包含第一线索词的至少一个。例如图38所示的记事ID “3”的新闻包含第一线索词“ # ”。
[0315]在所接收的微博记事中不包含第一线索词的情况下,省略第一概念抽出部143的步骤S4的处理。
[0316]在所接收的微博记事中包含第一线索词的情况下,第一线索词检查部142将微博记事发送给第一概念抽出部143。
[0317]第一概念抽出部143,在步骤S3的判定的结果为微博记事包含第一线索词时,根据该第一线索词从该微博记事抽出节目名(步骤S4)。
[0318]例如,第一概念抽出部143,当接收包含第一线索词的微博的记事时,抽出第一线索词紧后的名词或者复合名词作为节目名。在所接收的微博的记事为例如图38所示的新闻ID “3”的情况下,抽出第一线索词“#”的紧后的复合名词“电视剧A”作为节目名。
[0319]在本实施方式的情况下,例如也可以是,在作为节目名而抽出了线索词紧后的名词或者复合名词之后,与现有的节目名的一览(未图示)相比较,仅在所抽出的名词或者复合名词是节目名的正式名称或者简称的情况下,作为节目名而采用,在其以外的情况下,判断为不包含节目名。
[0320]另一方面,见解抽出对象词抽出部144,在见解抽出判定词检查部141的判定的结果为微博的记事包含见解抽出判定词时,从该微博记事抽出见解抽出对象词名。
[0321]具体地,见解抽出对象词抽出部144,例如在步骤S3或S4之后,对省略第一概念抽出部143的处理而发送的微博记事,参照见解抽出对象词辞典112来判定微博记事正文中是否包含见解抽出对象词表述(步骤S5),在包含见解抽出对象词表述的情况下,抽出与该见解抽出对象词表述对应的见解抽出对象词(步骤S6 )。
[0322]在微博记事正文中有见解抽出对象词辞典112的“见解抽出对象词表述”列的表述的情况下,判断为包含记载在该行的“见解抽出对象词名”中的见解抽出对象词。
[0323]见解抽出对象词辞典112可以相对一个见解抽出对象词而在多行的定义或者见解抽出对象词表述列中包含多个表述。此外,可以从I件微博记事抽出多个见解抽出对象词表述。[0324]例如在图38的记事ID “3”的微博记事的情况下,包含见解抽出对象词表述“m先生”,因此能够抽出见解抽出对象词“代码BOOl见解抽出对象词名角色名M”。
[0325]第二概念抽出部145,在见解抽出判定词检查部141的判定的结果为微博记事包含见解抽出判定词时,从该微博记事抽出第二概念、即本实施方式中评价表述。具体地,第二概念抽出部145判定在包含见解抽出判定词的微博记事正文中是否包含第二线索词辞典113a内的线索词的一个以上(步骤S7)。
[0326]在图9的流程图中,使步骤S7及步骤S8的处理在步骤S6之后,但也可以与第一实施方式同样地,在步骤S3的处理之前、或者与步骤S3到步骤S6的处理并列实施。
[0327]第二概念抽出部145,在所接收的微博记事的标题或者正文中包含第二线索词辞典113a内的第二线索词的情况下,抽出与该线索词共同出现的词作为评价表述(步骤S8)。
[0328]例如,在图38所示的记事ID “3”的正文中,“m先生非常全才,呵呵ww#电视剧A”中包含第二线索词“ww”。
[0329]与第二线索词“ww”共同出现的词、例如放置在紧前的词是“呵呵”(一般辞典中没有的未知词)。该未知词“呵呵”作为评价表述被抽出。
[0330]评价表述也可以是,在处理中的I件记事中不作为线索词紧前的词,而从包含相同的第二线索词的大量微博记事抽出全部单词,与不包含相关的第二线索词的记事的集合相比较、并将统计上共同出现的概率高的词作为评价表述。例如图38的记事ID7和记事ID8,不同的第二线索词“ww”及的紧前的词为“太强了”,是一致的,与哪个第二线索词共同出现的概率都相同,因此不作为评价表述。
[0331]对所抽出的评价表述“呵呵”赋予与第二线索词辞典113a中登记的第二线索词“ww”建立了对应的方向及强度,能够得到评价表述“评价表述:呵呵方向:笑强度:1”。
[0332]在从步骤S3到步骤S8的处理结束后,组合制作部146将从处理中的微博记事抽出的节目名、见解抽出对象词及评价表述组合来制作见解信息,将该见解信息写入存储部(步骤S9)。此处,见解信息包含赋予了方向及强度的评价表述“评价表述:呵呵方向:笑强度:1”。评价表述也可以与第一实施方式同样地,选择未赋予方向、强度的形式。
[0333]在从微博记事抽出的节目名为一个的情况下,对该节目名分配所抽出的全部见解抽出对象词、所抽出的全部评价表述。即,允许对一个节目名分别分配一个或多个见解抽出对象词和评价表述。在所抽出的节目名为多个的情况下,与第一实施方式同样地,也可以通过上下文解析、简单的判别处理,来判别并组合节目名、与节目名互相关联的见解抽出对象词、与节目名或者与该节目名互相关联的见解抽出对象词即品种互相关联的评价表述。进一步,使见解信息相对节目名分配见解抽出对象词和评价表述,但也可以制作没有见解抽出对象词或者评价表述的组合。
[0334]通过这样的处理,作为节目名、见解抽出对象词名、评价表述的集合,抽出以下的见解,并写入存储部11中。
[0335]节目名:电视剧A
[0336]属于节目的见解抽出对象词:角色名M
[0337]评价表述:呵呵方向:笑强度:1
[0338]使组合为使节目名、见解抽出对象词、评价表述成为集合,但也可以与第一实施方式同样地,使组合仅为节目名和见解抽出对象词,将评价表述单独作为见解信息来保持。或者,也可以将评价表述不与节目名而与见解抽出对象词成为集合并作为见解信息来保持。
[0339]在步骤S2中判断为没有见解抽出判定词的微博正文,通过第一概念检查部147判定在微博记事正文中是否包含存储部11中写入的见解信息的节目名(步骤S11)。
[0340]在包含节目名的情况下,见解抽出对象词抽出部144使用见解抽出对象词辞典112,判定微博正文中是否包含见解抽出对象词表述(步骤S12)。
[0341]在包含见解抽出对象词表述的情况下,例如在有“采用” “出场”等表述的情况下,组合制作部146制作用于将与所抽出的见解抽出对象词表述对应的见解抽出对象词追加到节目中的处理的组合。
[0342]在有“演员换下”等表述的情况下,组合制作部146制作用于对节目除去与所抽出的见解抽出对象词表述对应的见解抽出对象词的处理的组合(步骤S13)。
[0343]在步骤S13中制作了节目和见解抽出对象词的追加或者删除处理的组合的情况下,对存储部11执行该处理(步骤S9)。
[0344]另外,见解抽出对象词的抽出,也可以不使用见解抽出对象词辞典112,而从包含节目名的微博记事正文抽出名词词组并作为见解抽出对象词。在这种情况下,所抽出的名词词组也可以重新作为见解抽出对象词追加到见解抽出对象词辞典112中。进一步,从步骤Sll到S13的处理的判断,也可以不仅通过I件微博来进行,而例如仅在有超过某个规定的数的发信的情况下,作 为相对存储部11的执行对象。或者,从步骤Sll到S13的处理也可以是,并非对微博正文进行,而仅对由电视台、新闻发布业者发布的电子文档来执行。
[0345]接着,根据图39、图14及图15说明信息分析部15的动作。
[0346]首先,信息接收部12通过接受来自微博登载的位置的发布、或访问微博登载的位置,来接收新的微博记事。例如,接收与图38的记事ID6相关的微博记事(步骤S21)。所接收的微博记事被发送给见解抽出对象词.第一概念.第二概念抽出部151。
[0347]见解抽出对象词.第一概念.第二概念抽出部151,首先参照存储部11所存储的见解抽出对象词辞典112,来判定所接收的微博记事中是否有见解抽出对象词表述(步骤S22)。
[0348]在有见解抽出对象词表述的情况下,见解抽出对象词.第一概念.第二概念抽出部151抽出与所抽出的见解抽出对象词表述对应的见解抽出对象词名?代码。此外,见解抽出对象词.第一概念.第二概念抽出部151,参照图36所示的见解抽出对象词辞典112作为见解信息,来抽出被分配了所抽出的见解抽出对象词名的第一概念、即本实施方式中的全部节目名(步骤S23)。见解抽出对象词.第一概念.第二概念抽出部151及电子文档分配部152按从微博记事正文抽出的见解抽出对象词名,对该见解抽出对象词所属的各节目,进行步骤S24.步骤S25的处理。
[0349]首先,见解抽出对象词.第一概念.第二概念抽出部151,参照由在此之前的处理所抽出的图40中所示的见解信息,抽出在该时刻分配给处理中的见解抽出对象词名?该见解抽出对象词所属的节目名的第二概念、即本实施方式中的评价表述,并判定微博正文中是否有相关的评价表述(步骤S24)。
[0350]在有相关的评价表述的情况下,判断为在处理中的接收微博记事中有与该节目有关的信息和评价,电子文档分配部152将处理中的微博记事分配给见解抽出对象词及节目(步骤S25)。在本实施方式中,与第一实施方式不同,也可以不进行向属于节目名的全部见解抽出对象词的扩展。[0351]见解抽出对象词?第一概念?第二概念抽出部151,在从步骤S22到步骤S25的处理之后、之前、或并列地判定所接收的微博记事正文中是否包含图12所示的见解信息内的第一概念名(步骤S26)。[0352]例如,在图38所示的记事ID “6”的微博记事中,在正文中未包含节目名。在这种情况下,见解抽出对象词?第一概念?第二概念抽出部151,抽出在图36的见解抽出对象词辞典12中所抽出的见解抽出对象词“角色名M”建立了关联的节目名“电视剧A”、并送出到电子文档分配部152中。[0353]在抽出了第一概念名的情况下,电子文档分配部152还可以取出在图12所示的见解信息中与该节目名建立了对应的见解抽出对象词,并将处理中的微博记事分配给全部相关品种(步骤S27)。在本实施方式中省略该处理,微博记事仅分配给从正文抽出的见解抽出对象词。[0354]通过到步骤S27为止的处理,按每个分配了微博记事的见解抽出对象词,按见解抽出对象判定部153进行以下记载的步骤S28到步骤S34的处理。[0355]在步骤S28中,参照步骤S24的第二概念、即在本实施方式中的评价表述抽出结果,判定是否抽出了当前处理中的见解抽出对象词所属的节目的评价表述。[0356]在处理中的见解抽出对象词中,在抽出了与处理中的所属节目建立了对应的评价表述的情况下,判断为对该见解抽出对象词或者节目的反应有可能变动,将该节目、见解抽出对象词和评价表述的集合追加到警报中(步骤S29)。[0357]在存储部11所保持的见解信息被分为“节目名?见解抽出对象词”和评价表述的情况下,步骤S28判定是否无论当前处理中的见解抽出对象词、节目属于其、都对存储部11所保持的全部评价表述进行了抽出。[0358]在这种情况下,在步骤S29中,将见解抽出对象词和步骤S28中所抽出的评价表述的集合追加到警报中。[0359]在对见解抽出对象词分配了微博记事后,参照分配给处理中的见解抽出对象词或者节目、并存储到存储部11的过去一定期间、例如3天内的微博正文,来判定是否有急上升词(步骤S30),在处理中的见解抽出对象词或者节目的微博记事中存在急上升词的情况下,将节目、见解抽出对象词和急上升词的集合追加到急上升警报中(步骤S31)。
[0360]进一步,同样地参照分配给处理中的见解抽出对象词或者节目、并存储到存储部11的过去一定期间、例如I小时的微博记事正文,来判定处理中的接收微博记事与过去一定期间的微博记事是否类似.一致(步骤S32),在有类似微博记事或者一致的微博记事的情况下,求出该微博记事对的类似度,并追加多重发布警报(步骤S33 )。
[0361]通过以上的处理而输出的警报、急上升警报、多重发布警报从信息分析部15输出,并被提供给用户终端装置2 (步骤S34)。
[0362]如上述那样,根据本实施方式,通过从所接收的微博记事抽出并保持电视节目、见解抽出对象词(节目中提及的内容等)、评价表述的见解,还可以将一般辞典中没有的表述作为见解来活用。
[0363]进一步,在存储了见解信息后,通过根据存储部11内的见解信息来分析新接收的全部微博记事的构成,将分析结果立即提供给用户,由此可以有效支援观众的反应的掌握。[0364]进一步,见解抽出部14,在从由信息选择部13选择的微博记事抽出见解信息的上述的功能中,与第三实施方式同样地,具有如下功能,从该选择的微博记事抽出包含表示规定的对象的表述的事件信息,并且从抽出了该事件信息的微博记事进行抽出,将该抽出的事件信息及时间戳作为见解信息写入存储部11的功能。
[0365]此处,表示规定的对象的表述是,例如见解抽出对象词、即本实施方式中见解抽出对象词辞典112所记述的见解抽出对象词表述、或表示第一概念、即本实施方式中的节目名的表述。另外,“定义见解抽出对象词的节目名的第一线索词”记述在第一线索词辞典111中。
[0366]见解抽出部14的处理,与第三实施方式同样地,依据图18的流程图。
[0367]当信息接收部12接收微博记事时(步骤S41 ),见解抽出部14参照第一线索词辞典111及见解抽出对象词辞典112等,来判定是否包含表示由用户选择的对象(见解抽出对象词、节目名等)的表述(步骤S42)。
[0368]在包含表示由用户选择的对象的表述的情况下,见解抽出部14抽出包含表示该对象的表述的名词词组、作为素材(事件)(步骤S43)。
[0369]见解抽出部14将所抽出的素材(事件)与对象名、接收信息的时间戳一起追加写入存储部11 (步骤S44)。
[0370]以下,信息分析部15与上述同样地执行步骤S2f S34的动作。
[0371]图41是表示见解信息的一例的图。是根据图38所示的新闻ID “3”、“6”对见解抽出对象词名“角色名M”进行了处理的例子。
[0372]使抽出的知识为包含由用户选择的对象表述的名词词组,但也可以从该名词词组中选择复合名词、选择固有名词、或选择急上升词作为素材(事件)。
[0373]也可以是,将根据见解抽出对象词名“角色名M”抽出的素材(事件)、按照图36的见解抽出对象词辞典112而分配给节目,并结合根据图41所示的见解信息将“对象”从“角色名M”替换为“电视剧A”的信息而作为见解信息写入。
[0374]进一步,如图41所示,也可以将类似度高的微博记事的发布数合成“类似信息数”并作为见解信息。
[0375]如上述那样,根据本实施方式,通过在接收微博记事时、对微博记事附加时间戳、从所选择的微博记事抽出包含表示规定的对象的表述的事件信息、并且从抽出了该事件信息的微博记事进行抽出、将该抽出的事件信息及时间戳作为见解信息写入存储部11的构成,与第三实施方式同样地,通过以时间戳信息的某个时序而抽出并保持与某个对象有关的素材(事件),在发生了同样的现象时,可以保持对近的将来的预测有效的见解信息并向用户终端装置2提示。
[0376]接着,对见解评价更新装置19的处理进行说明。
[0377]在节目为喜剧表演的情况下,“笑”的评价可以被认为是积极的,而在节目为严肃的电视剧的情况下,“笑”为失笑,能够推测是低评价。因而,按照每个节目将评价表述和节目的评价的高度、本实施方式中的确信度的信息合起来保持是有效的。
[0378]因而,在本实施方式中,如图42所示,成为保持加上了包含确信度和确信度更新历史的确信度信息的见解信息的方式。即,本实施方式的确信度是指,表不第二概念和第一概念关联的程度的数值。[0379]另外,在图42中,保持着第一概念即节目名、第二概念即评价表述、见解抽出对象词的信息,但也可以不保持节目名或者见解抽出对象词的任一个信息。
[0380]见解评价更新装置19的处理,可以按照本申请的申请时未公开的特愿2012-15700的处理来进行。在本实施方式的情况下,作为数值信息,例如可以使用节目的收视率。见解评价更新处理可以在微博记事的发布少的时间段以一天一次的频度实施,也可以在从作为分析对象的节目结束起经过了一定时间后分别实施。
[0381]根据本实施方式,通过根据抽出了见解的信息源以外的信息(收视率等)、评价并更新第一概念和第二概念的组合的有效性的构成,根据多个信息源将对见解的准确度、第一概念或者见解抽出对象词的影响度维持得较高。
[0382]确信度的信息,并非用于见解信息或第一线索词或第二线索词的关联性的评价更新,也可以用于在计算包括微博记事在内的电子文档中包含的节目名或者见解抽出对象词时进行加权。即,例如在包含属于节目名“电视剧A”的见解抽出对象词“出场人物X”的微博记事有50件的情况下,也可以根据在确信度为1.0的情况下有50件、在确信度为0.8的情况下有40件微博记事发布、来分配件数。或者,在确信度低的评价表述的数变多了的情况下,也可以作为判断为来自观众的评价下降的见解。
[0383]根据以上说明的至少一个实施方式的见解抽出装置,在未与见解抽出对象词建立关联的状态下,能够从随时发布的电子文档随时抽出与见解抽出对象词有关的见解信息。此外,上述实施方式的至少一个见解抽出装置可以使见解信息成为最新的状态。
[0384]另外,上述的各实施方式所记载的方法,作为可以使计算机执行的程序,还可以存放在磁盘(软(floppy)(注册商标)盘、硬盘等)、光盘(⑶_R0M、DVD等)、光磁盘(MO)、半导体存储器等存储介质中来颁布。
[0385]此外,作为该存储介质,只要是能够存储程序并且计算机可读取的存储介质,其存储格式为任何格式都可以。
[0386]此外,根据从存储介质安装到计算机的程序的指示,在计算机上运行的0S(操作系统)、数据库管理软件、网络软件等MW (中间件)等也可以执行用于实现上述实施方式的各处理的一部分。
[0387]进一步,各实施方式中的存储介质并不限于与计算机独立的介质,还包括下载通过LAN、因特网等传输的程序并存储或临时存储的存储介质。
[0388]此外,存储介质并不限于一个,由多个介质执行上述的各实施方式中的处理的情况也包含于本发明中的存储介质,介质构成为任何构成都可以。
[0389]另外,各实施方式中的计算机,根据存储介质中所存储的程序来执行上述的各实施方式中的各处理,也可以是由一台个人计算机等构成的装置、网络连接了多个装置的系统等任何构成。
[0390]此外,各实施方式中的计算机,并不限于个人计算机,还包括信息处理设备中包含的运算处理装置、微型机等,总称为能够通过程序实现本发明的功能的设备、装置。
[0391]另外,虽然说明了本发明的某些实施方式,但是,这些实施方式是作为例子而提出的,而并非试图限定发明的范围。这些新的实施方式能够以其它各种方式来实施,且可以在不脱离发明主旨的范围内进行各种省略、置换和变更。这些实施方式和其变形包含在发明的范围或主旨内,并且同样包含在权利要求书所记载的发明和与其等同的范围内。[0392]符号说明
[0393]1、100、101、102…见解抽出装置,2…用户终端装置,10...控制部,11...存储部,12…信息接收部,13…信息选择部,14…见解抽出部,15…信息分析部,16…输入输出接口,
17、26…总线,21...终端控制部,22…终端存储部,23…显示部,24…输入部,25…通信接口,111…第一线索词辞典,112…见解抽出对象词辞典,113、113a…第二线索词辞典,141…见解抽出判定词检查部,142…第一线索词检查部,143…第一概念抽出部,144…见解抽出对象词抽出部,145…第二概念抽出部,146…组合制作部,147…第一概念检查部,151…见解抽出对象词.第一概念.第二概念抽出部,152…电子文档分配部,153…按见解抽出对象判定部,18,19…见解评价更新装置,181...电子文档检索部,182…见解登记概念抽出部,183…评价部,184…确信度更新·部,185…见解更新部
【权利要求】
1.一种见解抽出装置,从电子文档抽出见解信息,具备: 信息接收部,接收上述电子文档; 见解抽出部,根据抽出上述见解信息的对象词和抽出上述见解信息的线索词而从上述电子文档抽出概念,制作使所抽出的该概念和上述对象词建立了关联而得到的见解信息;存储部,存储所抽出的上述见解信息;以及 信息分析部,在存储了上述见解信息后,根据上述存储部内的见解信息来分析上述电子文档。
2.如权利要求1所述的见解抽出装置,具备: 电子文档检索部,检索上述电子文档中包含的上述概念或上述对象词; 见解登记概念抽出部,上述检索部的检索的结果为,在上述电子文档中记载有大于等于规定数的上述概念的情况下,抽出上述概念,在上述电子文档中记载有大于等于规定数的上述对象词的情况下,从上述存储部抽出与上述对象词建立了关联的上述见解信息;评价部,评价与上述见解登记概念抽出部抽出的上述对象词或者上述概念相关联的数值信息的大小或者变动; 确信度更新部,按照上述数值信息的大小或者变动的方向或者数值信息的变动的大小,更新确信度,该确信度是上述概念与上述对象词的关联性的评价数值;以及 见解更新部,在上述确信度低于规定值的情况下,要求用户判断,并根据用户的指示来删除处于选择中的上述概念间的关联。
3.如权利要求1或2所述的见解抽出装置,其中, 上述线索词被预先设定强度, 上述见解抽出部制作使上述线索词的强度、所抽出的上述概念和上述对象词建立了关联的见解信息。
4.一种见解抽出装置,从所发布的新闻信息抽出与股票交易有关的见解信息,具备: 信息接收部,接收上述新闻信息; 信息选择部,从接收的上述新闻信息选择包含经济术语的新闻信息; 见解抽出部,从选择出的上述新闻信息抽出上述见解信息; 存储部,存储所抽出的上述见解信息;以及 信息分析部,在存储了上述见解信息后,根据上述存储部内的见解信息来分析上述信息接收部所接收的全部新闻信息。
5.如权利要求4所述的见解抽出装置,其中, 上述见解抽出部具备: 股价变动评价词判定部,判定所选择出的上述新闻信息是否包含评价股价变动的股价变动评价词; 组定义词判定部,在上述判定的结果为上述新闻信息包含股价变动评价词时,判定该新闻信息是否包含定义品种的组名的组定义词; 组名抽出部,在该判定的结果为上述新闻信息包含组定义词时,根据该组定义词从该新闻信息抽出组名; 品种抽出部,在上述股价变动评价词判定部的判定的结果为上述新闻信息包含股价变动评价词时,从该新闻信息抽出包含企业名及证券代码的品种;素材抽出部,在上述股价变动评价词判定部的判定的结果为上述新闻信息包含股价变动评价词时,从该新闻信息抽出股价变动素材; 组合制作部,将所抽出的上述组名、上述品种及上述股价变动素材组合来制作上述见解信息;以及 写入部,将所制作的上述见解信息写入上述存储部, 上述见解信息是包含上述组名、上述品种及上述股价变动素材的信息、或者是包含由上述组名及上述品种构成的第一信息和由上述股价变动素材构成的第二信息的信息。
6.如权利要求5所述的见解抽出装置,其中, 上述见解抽出部进一步具备: 素材表述线索辞典存储部,使对于上述股价变动素材的表述的线索词、表示上述股价变动的方向的信息、以及表示上述股价变动的强度的信息建立关联并存储;以及 赋予部,根据所抽出的上述股价变动素材来检索上述素材表述线索辞典,将表示该检索出的股价变动的方向及强度的各信息赋予该股价变动素材。
7.如权利要求4所述的见解抽出装置,其中, 上述信息接收部在接收上述新闻信息时,对该新闻信息附加时间戳, 上述见解抽出部从所选择出的上述新闻信息抽出包含表示规定的对象的表述在内的事件信息,并且执行从抽出了该事件信息的新闻信息进行抽出,并将所抽出的事件信息及时间戳作为上述见解信息而写入上述存储部的处理, 表示上述规定的对象的表述是表示品种的企业名的企业名表述、或是表示定义上述品种的组名的组定义词的紧前的名词的表述。
8.如权利要求4所述的见解抽出装置,其中, 上述见解信息是由上位概念的信息和下位概念的信息构成的层级结构, 上述存储部存储评价信息和确信度,该确信度表示上述下位概念的信息归属上述上位概念的信息的程度, 上述见解抽出装置具备: 评价部,根据从上述评价信息抽出的、与上述上位概念的信息和上述下位概念的信息相关联的评价信息,来算出评价值;以及 确信度更新部,根据上述评价值来更新上述确信度。
9.如权利要求5所述的见解抽出装置,其中, 上述存储部进一步存储评价信息和确信度,该确信度表示上述见解信息中包含的上述品种归属上述组名的程度, 上述见解抽出装置具备: 确认部,对上述新闻信息中包含的上述组名进行确认; 抽出部,根据被上述确认部确认为包含在上述新闻信息中的组名,从上述见解信息抽出品种; 评价部,根据与上述品种相关联的上述评价信息来算出评价值;以及 确信度更新部,根据上述评价值来更新上述确信度。
10.如权利要求8所述的见解抽出装置,其中, 具备见解更新部,在上述确信度低于规定值的情况下,从上述存储部删除包含上述下位概念的信息和上述上位概念的信息的见解信息。
11.一种程序,在具备存储部并从被发布的电子文档抽出概念的见解抽出装置中使用, 使上述见解抽出系统作为下述各部发挥作用: 信息接收部,接收上述电子文档; 见解抽出部,根据抽出上述见解信息的对象词和抽出上述见解信息的线索词,来从上述电子文档抽出概念,并制作使所抽出的该概念建立了关联而得到的见解信息; 存储部,存储所抽出的上述见解信息;以及 信息分析部,在存储了上述见解信息后,根据上述存储部内的见解信息来分析上述电子文档。
12.—种程序,在具备存储部并从所发布的新闻信息抽出与股票交易有关的见解信息的见解抽出装置中使用, 使上述见解抽出装置作为下述各部发挥作用: 信息接收部,接收上述新闻信息; 信息选择部,从接收的上述新闻信息中选择包含经济术语的新闻信息; 见解抽出部,从选择出的上述新闻信息抽出上述见解信息,并将该见解信息写入上述存储部;以及 信息分析部,在上述见解信息的写入后,根据上述存储部内的见解信息来分析上述信息接收部所接收的全部新闻信息。
13.如权利要求12所述的程序,其中, 上述见解信息是由上位概念的信息和下位概念的信息构成的层级结构, 上述存储部存储评价信息和确信度,该确信度表示上述下位概念的信息归属上述上位概念的信息的程度, 该程序使上述见解抽出装置作为下述各部发挥作用: 评价部,根据从上述评价信息抽出的、与上述上位概念的信息和上述下位概念的信息相关联的评价信息,来算出评价值;以及 确信度更新部,根据上述评价值来更新上述确信度。
14.一种见解更新装置,具备: 存储部,存储见解信息、上述见解信息的评价信息、以及确信度,该见解信息是由上位概念的信息和下位概念的信息构成的层级结构,该确信度表示上述见解信息中包含的上述下位概念的信息归属上述上位概念的信息的程度;评价部,根据从上述评价信息抽出的、与上述上位概念的信息和上述下位概念的信息相关联的评价信息,来算出评价值;以及 确信度更新部,根据上述评价值来更新上述确信度。
15.如权利要求14所述的见解更新装置,其中, 上述存储部存储上述确信度的更新规则, 上述确信度更新部根据上述评价值和上述更新规则来判定是否更新上述确信度。
16.如权利要求14所述的见解更新装置,其中, 具备见解更新部,该见解更新部根据上述确信度来更新上述见解信息。
17.一种程序,在具备存储部并更新上述见解信息的见解更新装置中使用,该存储部存储见解信息、上述见解信息的评价信息、以及确信度,该见解信息是由上位概念的信息和下位概念的信息构成的层级结构,该确信度表示上述见解信息中包含的上述下位概念的信息归属上述上位概念的信息的程度, 该程序使上述见解更新装置作为下述各部发挥作用: 评价部,根据从上述评价信息抽出的、与上述上位概念的信息和上述下位概念的信息相关联的评价信息,来算出评价值;以及 确信度更新部,根据上述评价值来更新上述确信度。
【文档编号】G06F17/30GK103582881SQ201280002603
【公开日】2014年2月12日 申请日期:2012年5月31日 优先权日:2012年5月31日
【发明者】牧野恭子, 樱井茂明, 松本茂, 矶部庄三, 西一嘉, 斋藤佳美, 铃木裕之, 正冈良规 申请人:株式会社东芝, 东芝解决方案株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1