信息解析方法以及装置的制作方法

文档序号:6427912阅读:137来源:国知局
专利名称:信息解析方法以及装置的制作方法
技术领域
本发明涉及从大量的信息中自动地抽出特定信息的技术。
背景技术
以前已可以从在因特网上公开的信息中通过文档检索工具自动地抽出对企业的诽谤中伤。但是,采用了在指定了关键词后巡视网页抽出,或者事前指定检索对象的URL(Uniform Resource Locator通用资源定位符)抽出的方法。即,不能判断被收集的信息是好的信息还是不好的信息。进而,也不能得到与被收集的信息的影响力有关的信息。因此为了找到用于股票价格操作的“谣言的流传”是不适宜的。
另外,美国专利第6438632号揭示了具有自动检查从使用者计算机发送出的对电子公告板的登载希望信息内容的功能的电子公告板系统。即,对于从使用者计算机发送的在电子公告板上登载的希望信息,作为登载在电子公告板上的信息是不适当的信息,参照登录有事先选择出的用语的登载禁止用语集进行检查。当在登载希望信息中没有包含登载禁止用语集中的用语的情况下,把该信息登录在电子公告板上。另一方面,当包含登载禁止用语集中的用语的情况下,通知使用者计算机不能登载信息的消息。另外此时,通知经营管理者计算机拒绝信息的登载的事项。在这种技术中,能够判断可否向公告板登载,但对于判断为可以登载的内容并不自动解析。
这样在以往技术中虽然可以从庞大的信息中抽出被具体指定的信息,但不能自动地抽出需要关注的信息,另外被抽出的信息的解释·分析必须人工进行。在此不进行进一步操作,用户不能得到被抽出的信息的特性和信息的源代码等。

发明内容
因而本发明的目的在于提供一种用于从大量的信息中自动地抽出需要关注的信息的新技术。
另外,本发明的另一目的在于提供一种用于从大量的信息中抽出特定的信息,并可以提示被抽出的信息的特性的技术。
进而,本发明的另一目的在于提供一种用于从大量的信息中抽出的特定的信息,并可以提示被抽出的信息的可靠性和影响程度的技术。
进而,本发明的另一目的在于提供一种用于从大量的信息中抽出的特定的信息,并可以检索被抽出的信息的源代码的技术。
本发明的内容信息解析方法包含从被收集的内容信息中抽出个人意见的发布单位(例如,个人网页、个人或者小规模组织的站点、公告板中的发言等),把用于确定该个人的意见的发布单位的信息(例如URL和发言号码等)存储在存储装置中的抽出步骤;确定个人意见的对象(例如公司名称和业务种类、商品名等),存储在存储装置中的对象确定步骤;通过解析个人意见的发布内容来确定与对象有关的个人的评价(例如好的评价和不好的评价),存储在存储装置中的评价确定步骤。由此可以提示被抽出的作为个人意见的特性的、针对对象的评价。例如,在个人意见的针对对象的评价中可以只抽出不好的评价。
另外,其构成还可以是包含上述的抽出步骤;确定包含个人意见的内容信息的单位(例如1个网页)的确定步骤;从被确定的内容信息的单位中抽出个人意见的发布单位的步骤。例如在抽出公告板的网站站点和个人主页后,分离作为个人意见的发布单位的发言等。
进而,上述的确定步骤还可以设置成按照实施内容信息的每个单位的被参照度高的顺序进行执行。因为被参照度高这一点是很多人可以看到的可能性高且影响程度高的内容信息,所以更优先地处理影响程度高的内容信息。另外,还有将影响程度自身作为是否是需要关注的信息的指标。
另外,上述的抽出步骤的构成还可以包含通过查找个人意见的参照源来检测个人意见的发布单位的组(例如实施例中的线索),把用于确定该组的信息存储在存储装置中的步骤。这是因为不仅是个人的发言,还存在作为发言的汇总需要关注的信息。
进而,上述的抽出步骤还可以包含确定对于个人意见对象的种类(例如业务种类),存储在存储装置中的种类确定步骤。由此可以提示作为抽出的个人意见特性的域。例如也有对于每种业务种类而需要关注的信息、评价的表现和细微差别不同的情况,每种业务的分类等也有用。
另外,在本发明中,其构成还可以包含判断可以成为个人意见的依据的信息(例如所参照的发言和网站、报纸·杂志的内容等)是否包含在该个人意见的发布单位中,当包含的情况下把可以成为该依据的信息存储在存储装置中的步骤。由此可以提示被抽出的作为个人意见的特性的信息的源代码。当需要调查信息出处时非常有用。
进而,在本发明中,其构成还可以进一步包含确定个人意见的发布单位的可靠性,并存储在存储装置中的可靠性确定步骤。由此可以提示抽出的作为个人意见的特性的可靠性。可以得到是可靠的信息还是不可靠的信息的标准。也有把可靠性高的信息作为需要关注的信息抽出的情况。
进而,上述可靠性确定步骤的构成还可以包含判断在个人意见的发布单位中是否包含表示个人身份(例如邮件地址,句柄等)的信息的步骤。这是因为可以将来历明确且可以公开的信息判断为是可以信赖的信息。
进而,上述的可靠性确定步骤的构成也可以包含判断可以成为个人意见的依据的信息是否包含在该个人意见的发布单位中的步骤。这是因为如果依据明确,则可以判断为是可以信赖的信息。
另外,在本发明的第1形式中,其构成也可以进一步包含解析包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录,根据访问数以及检索关键词的种类数确定在阶层下包含个人主页的站点的步骤;把包含在确定的站点的阶层下的个人主页作为上述个人意见的发布单位而抽出的步骤。
进而,在本发明的第1形式中,其构成也可以是进一步执行以下步骤解析包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录,根据访问数以及检索关键词的种类数把个人或者小规模组织的站点作为个人意见的发布单位而抽出的步骤。
本发明的第2形式的内容信息解析方法包含从被收集的内容信息中抽出个人意见的发布单位,把用于确定该个人意见的发布单位的信息存储在存储装置中的抽出步骤;确定个人意见的对象,存储在存储装置中的对象确定步骤;确定个人意见的发布单位的可靠度,并存储在存储装置中的可靠度确定步骤。由此可以抽出例如可靠性高的个人意见。进而,也可以把个人意见或者包含个人意见的内容信息的被参照度作为影响程度,把它作为自动抽出参数来处理。
本发明的第3形式的内容信息解析方法包含取得包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录,并存储在存储器中的步骤;根据规定的规则对各转移目标URL计数访问数以及检索关键词的种类数,并在存储器中存储计数结果的步骤;针对根据URL的构造确定的各站点,统计包含在该站点的阶层下的转移目标URL的访问数以及检索关键词的种类数,把统计结果存储在存储器中的步骤;根据对站点统计的访问数以及检索关键词的种类数,判定该站点的类别的步骤。由此,可以判别例如因特网服务提供者的站点、企业的站点、个人或者小规模组织的站点等。如果可以检测因特网服务提供者的站点,则还可以检测个人主页(也称为个人网页)。
另外,还有使用与URL、企业名、简称和业务种类有关的词典和具备与各业务有关的特征词的词典确定个人意见的对象(例如企业)和对象的领域(例如业务种类和商品名)的情况。也可以通过解析被收集的内容信息等,自动地构筑这些词典。
进而,上述方法可以用计算机实施,为此的程序例如被存储在软盘、CD-ROM、光磁盘、半导体存储器、硬盘等的存储介质或者存储装置中。另外,也有经由网络作为数字信号配送程序的情况。进而,中间的处理结果可以暂时保管在存储器等存储装置中。


图1是用于说明本发明的一实施例的系统概要的图。
图2是展示信息收集解析系统的处理流程的一例的图。
图3A以及图3B是展示被存储在公告板要素存储单元中的数据的一例的图。
图4A、图4B以及图4C是展示被存储在解析数据存储单元中的数据状态变化的一例的图。
图5是展示被存储在业务种类用语词典存储单元中的数据一例的图。
图6是展示发言的抽出处理的处理流程的一例的图。
图7是展示线索抽出处理的处理流程一例的图。
图8A以及图8B是展示被存储在企业名词典存储单元中的数据一例的图。
图9是展示出处搜索处理的处理流程一例的图。
图10是展示发言以及线索的分析处理的处理流程一例的图。
图11是展示规则设置的生成处理流程的一例的图。
图12是展示统计处理单元的处理结果的一例的图。
图13是展示统计处理单元的处理结果的一例的图。
图14是展示词典生成单元的功能模块一例的图。
图15是展示词典生成单元的处理流程一例的图。
图16是展示检索记录解析单元的处理流程一例的图。
图17是展示检索记录解析单元的第1记录标准化处理一例的图。
图18是展示检索记录解析单元的第2记录标准化处理一例的图。
图19是展示检索记录解析单元的统计处理一例的图。
图20是展示检索记录解析单元的站点类别判定处理以及登录处理一例的图。
图21是展示检索记录解析单元的处理流程一例的图。
图22是展示统计处理单元等的处理结果一例的图。
具体实施例方式
图1展示本发明一实施例的系统概要。在作为计算机网络的因特网1上,连接多个Web服务器7,Web服务器7公开大量的信息。另外在因特网1上,还连接有具备Web浏览器的许多用户终端3,用户操作用户终端3,阅览在Web服务器7上公开的网页。进而在因特网1上,还连接有提供用于使操作用户终端3的用户高效率地访问在Web服务器7中公开的大量的网页的服务的1个或者多个检索站点服务器9,该检索站点服务器9具有存储与从用户终端3发出的检索请求对应的检索记录的检索记录存储单元91。另外,企业等设置用来与因特网1连接的1个或者多个代理服务器8,该代理服务器8经由公司内的LAN(局域网)81与公司内终端82以及83等连接。该代理服务器8和通常的代理服务器一样,但具有存储由公司内终端82以及83对因特网1访问的中继记录的代理记录存储单元84。
实施本实施例中的主要处理的信息收集解析系统5也与因特网1连接。该信息收集解析系统5在向特定的用户提供解析结果的同时,还进行收集到的信息的存档,向用户提供与被存档的信息有关的检索功能。即,用户终端3经由因特网1访问信息收集解析系统5,可以取得以下说明的解析结果,或者可以取得对被存档的信息的检索结果。进而也有未设置有关检索功能的情况。
在信息收集解析系统5中,包含内容收集解析单元501、网页分类单元502、业务种类判定单元503、发言线索抽出单元504、公司确定单元505、出处搜索单元506、发言线索分析单元507、统计处理单元508、用户接口单元509、词典生成单元520、检索单元521。
内容收集解析单元501把基于收集到的内容信息以及与内容信息有关的链接关系的解析结果的被参照度作为顺序信息存储在档案库512中,把作为与参照关系有关的解析结果的链接拓扑结构信息存储在链接拓扑结构DB519中。网页分类单元502使用被存储在档案库512中的信息,并参照被存储在公告板要素存储单元513中的公告板要素数据进行处理,在把处理结果输出到例如业务种类判定单元503的同时,存储到解析数据存储单元510。业务种类判定单元503使用例如网页分类单元502的输出,并参照被存储在业务种类用语词典存储单元514中的业务种类用语词典进行处理,在把处理结果输出到例如发言线索抽出单元504的同时存储在解析数据存储单元510中。
发言线索抽出单元504使用例如业务种类判定单元503的输出进行处理,在把处理结果输出到例如公司特定单元505的同时,存储在解析数据存储单元510中。公司特定单元505,使用发言线索抽出单元504的输出,并参照被存储在企业名词典存储单元515中的企业名词典进行处理,在把处理结果输出到例如出处搜索单元506的同时,存储在解析数据存储单元510中。出处搜索单元506使用公司特定单元505的输出,并参照被存储在介质词典存储单元516中的影响广泛介质词典进行处理,在把处理结果输出到例如发言线索分析单元507的同时,存储在解析数据存储单元510中。
发言线索分析单元507使用出处搜索单元506的输出,并参照被存储在企业名词典存储单元515中的企业名词典、被存储在规则设置存储单元517中的与个人意见的种类和评价有关的规则数据、当在公告板等上使用句柄的情况下参照句柄DB518进行处理,在把处理结果输出到例如统计处理单元508的同时,输出到解析数据存储单元510。统计处理单元508使用来自发言线索分析单元507的输出或者被存储在解析数据存储单元510中的信息进行统计处理,把处理结果输出到例如用户接口单元509或者解析数据存储单元510中。
用户接口单元509根据来自用户终端3的访问,把被存储在解析数据存储单元510中的数据和统计处理单元508的输出发送到用户终端3。另外,检索单元521根据来自用户终端3的检索请求,对被存储在档案库512中的数据进行检索,把检索结果发送到用户终端3。另外,检索单元521把检索记录存储在检索记录存储单元511中。词典生成单元520参照检索记录存储单元511、档案库512以及链接拓扑结构DB519,生成业务种类用语词典,在存储在业务种类用语词典存储单元514中的同时,生成企业名词典,存储在企业名词典存储单元515中。进而词典生成单元520取得被存储在代理服务器8的代理记录存储单元84中的数据和被存储在检索站点服务器9的检索记录存储单元91中的数据,存储在检索记录存储单元511中,也有使用该取得的数据进行处理的情况。即,在生成业务种类用语词典的数据项目并存储在业务种类用语词典存储单元514中的同时,生成企业名词典的数据项目并存储在企业名词典存储单元515中。另外,还有实施确定需要解析的URL的处理,把处理结果输出到网页分类单元502和解析数据存储单元510等中的情况。
内容收集解析单元501收集连接在因特网1上的多个Web服务器7所公开的网页的数据,通过解析基于链接的参照关系,根据各网页的被参照度计算顺序值。而后,把收集到的网页的数据以及被参照度顺序值存储在档案库512中。另外,把基于链接的参照关系作为链接拓扑结构数据存储在链接拓扑结构DB519中。该内容收集解析单元501的处理是使用现有技术的处理,因为被公开在例如美国专利公开公报2001-0020238-A1和日本专利公开公报特开2000-10996号上,所以不详细叙述。
网页分类单元502从被存储在档案库512上的网页中,实施用来自动判别个人主页和公告板的网页的处理。个人主页和公告板的网页是公开个人意见的内容信息,阅览者不一定多,但从“谣言散布”这一观点出发不能放过,需要存储与其存在和出处有关的信息。在该处理中,参照存储有用来判别个人主页和公告板的网页的URL和作为URL的一部分的关键词的公告板要素数据的公告板要素存储单元513。另外,网页分类单元502不只是公告板要素数据,而且还进行判别特定的CGI(普通网关接口)的使用,或检测网页的HTML(超文本标记语言)源代码的公告板特有的模式的处理。
业务种类判定单元503对判定为个人主页或者公告板网页的网页,参照被存储在业务用语词典存储单元514中的业务用语词典,通过判断和哪种业务种类的关键词更匹配,来进行业务种类的判别。
发言线索抽出单元504在抽出包含在公告板网页上的一个发言的同时,抽出几个发言集中构成特定话题的议论的线索。在该处理中,从HTML源代码的规定的特征重复的模式中分离出发言。另外,从包含在发言的题目中的“Re”或者对前或后面发言的链接等中抽出线索。对于个人主页,把1个网页作为一个发言处理,例如把规定大小的段落作为一个发言分离出来。进而,也有把1个网页作为线索处理的情况。
公司确定单元505使用被存储在企业名词典存储单元515中的企业名词典,根据发言和线索中的文字串,确定成为话题的企业名。在企业名词典中,包含URL企业名词典和简称名词典。还有使用URL企业名词典,确定成为话题的企业名的句柄代码、企业URL的情况。
出处搜索单元506在发言和个人的主页中,抽出可以成为发言依据的URL和报纸·杂志等影响广泛介质的信息。在该处理中,使用与报纸·杂志等影响广泛介质有关的企业名,和包含报纸·杂志名等的影响广泛介质词典。把影响广泛介质词典存储在影响广泛介质词典存储单元516中。
发言线索分析单元507分析发言线索的内容,取得发言线索的话题的题材(例如产品信息、企业信息、股票价格信息、环境活动信息等)和在发言线索信息中成为话题的与企业等有关的评价信息。对于评价,例如进行是好的评价、还是不好的评价的判断。为了题材和评价,生成预先为每个业界准备的、通过使用种类和良好评价以及不好评价的正解设置的学习生成规则设置,把它存储在规则设置存储单元517中。发言线索分析单元507使用该规则设置进行处理。另外,发言线索分析单元507判断在发言中是否包含表示邮件地址和句柄的发言者的来历的信息和表示URL等依据的信息,根据这些信息确定发言的可靠性。发言线索分析单元507访问企业名词典存储单元515确认URL是否包含在企业名词典中,针对句柄参照句柄DB518的数据。发言线索分析单元507的处理结果被存储在解析数据存储单元510中。
统计处理单元508实施各种统计处理。可以预先实施规定的统计处理,也可以实施由操作用户终端3的用户指定的统计处理。统计处理单元508例如统计与特定企业有关的各种评价,或者统计每个企业的发言数,生成随时间变化的数据。对于统计处理的结果,也有存储在解析数据存储单元510中的情况。
用户接口单元509根据来自用户终端3的请求,向用户终端3发送被存储在解析数据存储单元510中的数据。用户接口单元509例如根据被参照度的顺序、可靠性,实施排列替换发言线索并向用户终端3发送的处理。另外,如果需要统计处理,则用户接口单元509使统计处理单元508使用被存储在解析数据存储单元510中的数据,实施规定的统计处理,把其结果发送到用户终端3。也有例如把数据加工成图表等输出的情况。
检索单元521根据来自操作用户终端3的用户的请求,执行被存储在档案库512中的内容信息的检索。将执行检索的检索记录存储在检索记录存储单元511中。
词典生成单元520使用被存储在档案库512中的内容信息、被登录在链接拓扑结构DB519中的链接拓扑结构数据、被存储在检索记录存储单元511中的检索记录等,在生成业务种类用语词典存储在业务种类用语词典存储单元514中的同时,生成正式以及非正式版本的包含URL企业名词典以及简称名词典的企业名词典,并存储在企业名词典存储单元515中。进而词典生成单元520取得被存储在代理服务器8的代理记录存储单元84中的记录数据和被存储在检索站点服务器9的检索记录存储单元91中的记录数据,并存储在检索记录存储单元511中,使用该记录数据进行用于词典生成的处理。即,在生成业务种类用语词典数据的项目并存储在业务用语词典存储单元514中的同时,生成企业名词典的数据项目并存储在企业名词典存储单元515中。另外,使用被存储在检索记录存储单元511中的数据,实施确定需要解析的URL的处理,在解析数据存储单元510中存储处理结果。
以下使用图2至图22说明图1所示的系统的处理的内容。图2展示本实施例中的处理的概要。首先,实施由内容收集解析单元501进行的内容收集以及解析处理(步骤S1)。如上所述,在步骤S1中,收集与因特网1连接的多个Web服务器7所公开的网页的数据,通过解析基于链接的参照关系,计算各网页的被参照度,根据该被参照度计算顺序值。而后,内容收集解析单元501把收集到的网页的数据以及被参照度顺序值存储在档案库512中,把基于链接的参照关系作为链接拓扑结构数据存储在链接拓扑结构DB519中。
以下,网页分类单元502从由内容收集解析单元501收集并且被存储在档案库512中的内容信息中抽出公告板以及个人的主页(步骤S3)。在该处理中,使用被存储在公告板要素存储单元513中的公告板要素数据。公告板要素数据包含如图3A所示那样,在公告板以及个人主页的URL中经常使用的bbs、messageboard、homepage这样的关键词,和如图3B所示那样,一般公知的公告板以及个人主页的URL。另外,公告板要素数据还有包含在公告板和个人主页中用于确定经常使用的CGI的数据、和在公告板和个人主页中经常出现的网页的HTML源代码的模式的数据等的情况。即,网页分类单元502针对处理对象网页,判断其URL或者其一部分与包含在被存储在公告板要素存储单元513中的公告板要素数据(图3A以及图3B)中的URL或者关键词是否一致。另外,判断在处理对象的网页中使用的CGI是否是在公告板和个人主页中经常使用的CGI。进而,网页分类单元502解析处理对象网页的HTML源代码,检测在公告板和个人主页中经常使用的特定的特征的重复模式等的存在。有关这些处理,按照被参照度顺序值高的网页的顺序进行处理。另外,作为这些处理的结果,例如如图4A所示,作为被判断为是公告板以及个人主页的网页的URL、类别(例如,当是公告板的情况下存储“1”,当是个人主页的情况下存储“2”,其他的情况下存储“3”)及其网页的顺序,把被参照度例如存储在解析数据存储单元510中。进而,在以后说明图4A的访问数。
而后,业务种类判定单元503针对被判定为公告板或者个人主页的网页,参照被存储在业务种类用语词典存储单元514中的业务种类用语词典,判定该网页的作为话题的业务种类(步骤S5)。在业务种类用语词典中,如图5所示,与业务种类名对应地登录1个或者多个关键词(在图中是n个(n是整数))。因而,业务种类判定单元503进行包含在处理对象网页中的用语和被登录在业务种类用语词典中的关键词的匹配,把取得匹配的关键词个数多的业务种类判定为处理对象网页的业务种类。作为这样的处理结果,例如如图4B所示,作为判定为公告板或者个人主页的网页的URL、类别(例如在公告板的情况下存储“1”,在个人主页的情况下存储“2”,其他的情况下存储“3”。)、在该网页中成为话题的业务种类以及该网页的顺序,把被参照度例如存储在解析数据存储单元510中。进而,在以后说明图4B中的访问数。
以下,发言线索抽出单元504在抽出包含在公告板的网页中的一个发言的同时,抽出几个发言集中对特定的话题议论的情况下的发言群的线索(步骤S7)。在此,用图6以及图7分为抽出发言的处理,和抽出线索的处理进行说明。
首先用图6说明发言的抽出处理,发言线索抽出单元504针对判定为是公告板的网页,解析其链接,抽出用例如“至一览”和“公告板一览”这样的文字串链接的网页的URL,把该URL的网页的数据作为发言一览网页的数据而取得,并存储在存储装置中(步骤S21)。发言线索抽出单元504解析该发言一览网页的内容,确定对列举的各发言页的链接,取得该发言页的数据,存储在存储装置中(步骤S23)。也有在发言页上包含多个发言的情况。因而,发言线索抽出单元504解析发言页的HTML源代码,抽出发言的重复模式,存储在存储装置中(步骤S25)。例如,在各发言中作为标题而重复出现“3001/10/202246 IDQpKkFIhK”那样的发言号码、日期时间以及句柄名等的情况,抽出该重复模式。另外,也有把各发言纳入框内的情况。这种情况下,因为以特定的模式重复TABLE特征,所以发言线索抽出单元504抽出该TABLE特征的重复模式。而后,发言线索抽出单元504根据被抽出的重复模式,分离出一个发言,存储在存储装置中(步骤S27)。但是,当发言的长度在规定长度以下的情况下,也可以废弃它。
以下用图7说明线索的抽出处理。根据公告板,也有如以下这样,“·ReXX AAAA先生的投稿Monday October 15,@01:42PM·ReXX AAAA先生的投稿Monday October 15,@01:45PM·ReXX AAAA先生的投稿Monday October 15,@03:01PM·ReXX BBBB先生的投稿(划线1)Tuesday October 16,@07:16AM”根据与前面的发言“XX”相关的发言群“Re”这一文字明确的情况。另一方面,也有如以下这样,“58姓名CCCC先生 01/10/21 21:11>56对于该发言……”只从各发言的标题并不知道前面的发言和相关联的发言的情况。因而,发言线索抽出单元504判断是否能够使用“Re”文字等从标题中抽出前面的发言(步骤S31)。如上述的第1例所示,当从标题中可以知道前面的发言的情况下(步骤S31Yes分支),发言线索抽出单元504从标题中把一个发言群作为线索来掌握,发出线索号码并对各发言进行登录(步骤S33)。在第1例子中,作为XX这样的发言以及上述的4个发言构成一个线索,登录同一线索号码。而后返回原处理。在后面说明登录数据。
另一方面,当从标题中不能抽出前面的发言的情况下(步骤S31No分支),发言线索抽出单元504判断在本文中是否存在被参照的前面发言的发言号码等发言识别信息(步骤S35)。在存在发言识别信息的情况下(步骤S35Yes分支),发言线索抽出单元504对处理对象的发言登录线索号码(步骤S37)。进而,发言线索抽出单元504如果将要实施追述到前面发言的处理,则当使用在追溯前发出的线索号码,未进行追溯处理的情况下发出新的线索号码。而后,发言线索抽出单元504追溯到被参照的前面发言的发言号码,循环地实施图6的线索抽出处理(步骤S39)。另一方面,当在本文中未包含前面发言的发言号码的情况下(步骤S35No分支),发言线索抽出单元504判断是否进行了追溯一个以上的发言的处理(步骤S41)。这是因为,例如如果还有孤立的发言的情况下,则还有是最初的发言的情况。当是孤立的发言的情况下(步骤S41No分支),返回原处理。进而,即使是孤立的发言如果判断为以1个发言构成线索,则发言线索抽出单元504可以发出新线索号码并登录。当判断为进行了追溯一个以上发言的情况下(步骤S41Yes分支),发言线索抽出单元504对该发言登录和参照源相同的线索号码(步骤S43)。而后,返回原处理。
这样,当通过标题知道的情况下用标题确定发言群,当不能通过标题知道的情况下,通过用在本文中存在的发言号码循环查找发言,来掌握线索。用于该处理的技术,例如被发布在美国专利公开公报2001-0018698-A1中。
进而,当是个人主页的情况下,把1个网页作为1个发言处理。这种情况下,例如可以把所有能够从个人主页的首页参照的页作为线索进行处理,也可以作为孤立的发言处理各页。另外也有1页很长的情况。这种情况下,也可以构成为例如用HTML源代码的h1特征等分割,把被分割的各部分作为1个发言进行处理。
如果实施步骤S7的发言以及线索的抽出处理,则登录了在图4C所示的表中的一部分的数据。在图4C的例子中,包括用于包含发言的网页的URL的列301;用于存储类别数据的列302;用于发言的题目的列303;线索号码(#)的列304;发言号码(#)的列305;业务种类的列306;对发言的对象的评价的列307;用于存储抽出信息的列308;可靠度的列309;种类的列310。在用于存储类别的列302中,当是公告板的情况下存储1,当是个人主页的情况下存储2,当是其他的情况下存储3。对于题目,如果有发言的题目的情况,则还有TITLE特征和h1特征的值的情况。对于评价,例如是好或者不好的评价。在以后说明有关内容。在抽出信息中包含公司名、证券代码、参照发言号码、成为发言的依据的影响广泛介质的信息和URL、表示来历的信息的邮件地址或者句柄名。在可靠度中包含含有发言的页的被参照度和在以下计算出的可靠度的值。当掌握了访问数的情况下也有登录访问数的情况。题材例如是在产品信息、企业信息、股票价格信息、环境活动信息这样的各业务种类中共同的话题。
如果实施到步骤S7,则在用于URL的列301、用于存储类别的列302、用于题目的列303、线索号码的列304、发言号码的列305中存储值。
返回图2的说明,接着步骤S7,公司确定单元505实施用来确定成为发言的对象的企业名的处理(步骤S9)。在确定该企业名的处理中,参照被存储在企业名词典存储单元515中的企业名词典。在企业名词典中,包含URL企业名词典和简称名词典。在图8A以及图8B中展示了这些词典的一例。图8A是URL企业名词典的一例。在图8A的例子中,针对各企业存储站点URL、企业名、证券代码(或者商标代码)、业务种类名、1个或者多个特征关键词、站点URL的顺序信息(被参照度以及访问数)。还有在特征关键词中包含关联URL的情况。另外,在用以下说明的处理可以取得的情况下,登录站点URL的顺序信息。图8B是简称名词典的一例。在图8B中的例子中,存储正式企业名和其读法等以及1个或者多个简称。公司特定单元505使用这些词典,通过判断包含在处理对象的发言中的词语与词典中的企业名、简称、证券代码是否一致,来确定企业名。进而,不只是企业,还可以确定证券代码、企业URL。另外。公司特定单元505也同样针对个人主页确定成为发言对象的企业名。在此被确定的企业名和证券代码等被存储在用于存储图4C的抽出信息的列308中。进而还有以下情况,当包含在发言等中的词语与URL企业名词典的某个企业的规定数以上的特征关键词一致的情况下,把该企业的企业名确定为成为该发言等的对象的企业名。
以下,出处搜索单元506从发言和个人主页中,抽出可以成为发言的依据的URL和报纸·杂志名等影响广泛介质的信息(步骤S11)。进而,对于影响广泛介质的信息,使用被存储在影响广泛介质词典存储单元516中的影响广泛介质词典。另外,在图1中虽然没有展示出处搜索单元506参照企业名词典,但当参照被存储在企业名词典存储单元515中的企业名词典,在发言中包含URL的情况下,也有判断该URL是否是被登录在企业名词典中的URL,将该登录的有无登录在解析数据存储单元510中的情况。在影响广泛介质词典中,例如包含与影响广泛介质词典有关的企业名、与这些企业发行的报纸·杂志的名称有关的信息。
图9展示了步骤S11的出处搜索处理的详细。出处搜索单元506首先判断在发言或者个人主页中是否包含URL(步骤S51)。进而,也可以是判断是否包含被登录在企业名词典中的URL的处理。当在发言或者个人主页中包含URL的情况下,出处搜索单元506把该URL登录在解析数据存储单元510中(步骤S53)。例如存储在用于存储图4C的抽出信息的列308中。另外,如上所述也可以把与是否是被登录在企业名词典中的URL有关的信息登录在解析数据存储单元510中。另外,在步骤S51中判断为在发言或者个人主页中不包含URL的情况下以及在步骤S53中把URL登录在解析数据存储单元510中后,出处搜索单元506判断在发言或者个人主页中是否包含报纸·杂志名(步骤S55)。即,出处探索单元506判断被登录在影响广泛介质词典上的报纸·杂志名是否出现在发言或者个人主页中。如果检测出被登录在影响广泛介质词典上的报纸·杂志名,则出处搜索单元506把该报纸·杂志名登录在解析数据存储单元510中(步骤S57)。例如存储在图4C的用于存储抽出信息的列308中。
返回图2的处理,发言线索分析单元507针对发言、线索以及个人主页,使用与被存储在企业名词典存储单元515中的企业名词典、为了确定发言的对象的评价和话题的题材而事前生成并且被存储在规则设置存储单元517中的规则设置以及与在公告板等上使用的句柄名有关的句柄DB518,实施分析处理(步骤S13)。在分析处理中,通过将发言以及线索中的说法与被登录在规则设置存储单元517中的规则设置进行比较,确定与话题题材、以及发言的对象企业等有关的好的或者不好的评价。另外,根据是否记载有成为发言依据的URL等,或者是否是把该URL登录到了企业名词典中的URL,或者是否包含表示发言者的来历的邮件地址和句柄名这些事项,来确定发言的可靠性。
图10展示了步骤S13的详细。进而图10是与一个发言或者个人主页有关的处理。发言线索分析单元507首先进行发言等的话题的题材的分类,把题材登录在解析数据存储单元510中(步骤S61)。例如存储在图4C的种类的列310中。对于发言等的话题的题材分类,可以使用被发布在美国专利公开公报2002-0069197-A1等中的技术。另外,发言线索分析单元507进行与发言等的对象企业等有关的评价的分类,把评价的信息登录在解析数据存储单元510中(步骤S63)。例如存储在图4C的评价的列307中。评价的分类是对企业进行有利的评价,或者进行不利的评价的分类。有关该步骤S61以及步骤S63的处理,使用被存储在规则设置存储单元517中的发言等的话题的题材的规则设置、以及与好的评价或者不好的评价有关的规则设置,由发言线索分析单元507进行判断。对每种业务生成这些规则设置。这是因为考虑到根据业务种类,与题材有关的表现、与评价有关的说法不同。有关种类,也有把公告板自身进行域分离的情况,也可以使用该信息。对于评价,不仅是好的评价、不好的评价,也可以进行是否与规定的观点有关的评价那样的判断。
发言线索分析单元507例如进行图11所示那样的处理,生成规则设置。即,对于各业务种类用手工作成各种类的发言、以及良好评价及不好评价的发言的正解设置,输入到例如具有专家系统功能的发言线索分析单元507(步骤S88)。而后,发言线索分析单元507进行正解设置的学习,生成规则设置,存储在规则设置存储单元517中(步骤S89)。进而,对于与发言等的对象企业等有关的评价的分类,可以使用被发布在美国专利公开公报2002-0069197-A1和日本公开专利公报特开2002-202984号等上的技术。
返回图10的处理,以下,发言线索分析单元507判断在发言等中是否包含邮件地址(步骤S65)。当在邮件地址中包含发言等的情况下(步骤S65Yes分支),判断该邮件地址是否是免费(free)的邮件地址(步骤S67)。可以通过邮件地址的域部分的模式等判断是否是免费的邮件地址。当该邮件地址是免费邮件的邮件地址的情况下(步骤S67Yes线路),设定与免费(free)邮件的邮件地址对应的可靠性,登录在解析数据存储单元510的可靠度的列309中(步骤S69)。进而,在可靠度的列309中还一并登录有该发言等的页的顺序信息(被参照度。当掌握了访问数的情况下也有登录访问数的情况)。另一方面,在包含在发言等中的邮件地址不是免费邮件的邮件地址的情况下(步骤S67No分支),一般设定与邮件地址对应的可靠度,登录在数据存储单元510的可靠度的列309中(步骤S71)。一般,作为明确发言者的来历的信息因为与免费邮件的邮件地址相比一般的邮件地址的可靠性高,所以有关可靠性也向一般的邮件地址赋予高的值。
在步骤S69或者步骤S71后,发言线索分析单元507把检测出的邮件地址登录在解析数据存储单元510(步骤S73)中。例如存储在用于存储解析数据存储单元510的抽出信息的列308中。而后转移到步骤S75中。
以下,发言线索分析单元507判断在发言等中是否包含URL(步骤S75)。这是因为URL大多是作为发言的依据来表示的缘故。当在发言等中包含URL的情况下(步骤S75Yes分支),判断该URL是否包含在企业名词典中(步骤S77)。当URL包含在企业名词典中的情况下,发言线索分析单元507把作为在企业名词典中包含该URL的信息登录在解析数据存储单元510中(步骤79)。例如存储在用于存储抽出信息的列308中。当在步骤S79后或者步骤S77中判断为在企业名词典中不包含URL的情况下,发言线索分析单元507把链接目标URL的顺序值(被参照度)作为可靠度登录在解析数据存储单元510中(步骤S81)。例如登录在解析数据存储单元510的可靠度的列309中。进而,当在发言等中包含邮件地址的情况下,也可以加算与邮件地址有关的可靠度以及与URL有关的可靠度。另外,也可以一并登录发言等的顺序信息(被参照度。当掌握了访问数的情况下也有登录访问数的情况)。而后,把URL登录在解析数据存储单元510中(步骤S83)。例如存储在用于存储抽出信息的列308中。处理转移到步骤S85。
以下,发言线索分析单元507判断在发言等中是否包含句柄名(步骤S85)。句柄名是在公告板中经常使用的名,是确定发言者的信息,但由此并不能完全确定发言者。因而在本实施例中把发言数作为指标使用。当在发言等中包含句柄名的情况下,发言线索分析单元507在解析数据存储单元510中登录句柄名(步骤S86)。例如存储在用于存储抽出信息的列308中。而后,发言线索分析单元507在句柄DB518中检索该句柄名,增加其计数(步骤S87)。发言线索分析单元507当在句柄DB518中没有登录句柄名的情况下,在句柄DB518中登录句柄名以及计数(在此是“1”)。而后转移到以下的处理。另外,当判断为在发言等中不包含句柄名的情况下,转移到下一处理。
进而,有关句柄名的可靠度,使用在内容收集解析单元501对一次收集到的内容信息全体的处理结束的时刻被登录在句柄DB518中的计数值。即,在对内容信息全体的处理结束的时刻,发言线索分析单元507把与句柄DB518的各句柄名有关的计数值登录在解析数据存储单元510中。
当最终要比较可靠度的情况下,有时需要标准化处理。例如,当向一般邮件地址赋予30这一可靠度,向免费邮件的邮件地址赋予10这一可靠度的情况下,有时需要针对作为对URL的可靠度而使用的链接目标URL的被参照度使用除以了100的值,或者针对句柄名的计数值也使用除以了20的值。
通过图2的步骤S13的处理,把信息登录在解析数据存储单元510的可靠度的列309以及种类的列310、以及用于存储抽出信息的列308中。
在图2中接着由统计处理单元508实施各种的统计处理(步骤S15)。统计处理单元508例如计算在各业务种类中的各种类的好或者不好的评价数的合计和从整体看的比例、在发言中出现的企业名的总和、以及其好或者不好的评价的总和、哪种观点的发言多、哪种观点的评价多这些信息。另外,也可以是以发言等的可靠度以及被参照度等的顺序的顺位排列数据。
统计处理单元508例如生成图12那样的信息。在此,对于产品信息、企业信息、股票价格信息、环境活动信息的各自,包含与业界A、业界B、企业A以及企业B有关的好的评价(OK)的发言数和不好的评价(NG)的发言数。向上的箭头表示比前次处理时个数增加,横向箭头表示和前次处理时大致相同,向下的箭头表示比前次处理时个数减少。
另外,统计处理单元508也有生成图13那样的信息的情况。即,表示在与企业A有关的发言中好的评价的比例的时间变化的图表。
这样的统计处理的结果例如登录在解析数据存储单元510中。而后,用户接口单元509根据来自用户终端3的请求,读出被登录在解析数据存储单元510中的信息,发送到用户终端3(步骤S17)。用户终端3从信息收集解析系统5接收数据,显示在显示装置上。不只是由统计处理单元508处理的数据,而且也可以由用户接口单元509例如以发言可靠度和被参照度等的顺序改变数据排列,把其结果发送到用户终端3,用由用户指定的关键词检索解析数据存储单元510,把其检索结果发送到用户终端3。
用户通过用户终端3的显示装置的显示内容,针对某种业务种类和企业,可以取得与某种评价的发言是什么程度有关的信息、有关该发言的出处的信息。在股票交易方面,可以取得是否不存在相当于“谣言流传”那样的信息,还有该信息的出处是哪里的信息。另外,对于这些取得的信息,使用可靠度和被参照度的顺序,用户还可以进行考虑到发言的影响程度等的判断。
也可以用某种方法制成上述业务种类用语词典存储单元514以及企业名词典存储单元515的数据。但是,也可以使用内容收集解析单元501收集的内容信息来生成。在本实施例中,从大量的信息中,使用分别区别抽出特定业务种类和领域的信息并分类的技术,由图1的词典生成单元520生成业务种类用语词典以及URL企业名词典以及简称名词典。
图14展示了图1的词典生成单元520的功能方框图。在词典生成单元520中,包含基于URL业务种类判定单元550、基于URL简称判定单元551、基于链接拓扑结构业务种类判定单元552、基于特征词业务种类判定单元553、特征词词典登录单元554、检索记录解析单元555。这些处理单元可以访问URL企业名词典存储单元515b。另外,基于URL业务种类判定单元550以及基于链接拓扑结构业务种类判定单元552使用链接拓扑结构DB519的数据实施处理。基于特征词业务种类判定单元553、特征词词典登录单元554、检索记录解析单元555可以访问业务用语词典存储单元514。另外,检索记录解析单元555可以访问检索记录存储单元511。虽然在图中未图示,但检索记录解析单元555可以经由因特网1访问代理服务器8和检索站点服务器9。另外,检索记录解析单元555的一部分的处理结果被存储在解析数据存储单元510中。
以下使用图15至图21说明图14所示的词典生成单元520的处理。使用由内容收集解析单元510收集并且被存储在档案库512中的内容信息以及被存储在链接拓扑结构DB519中的链接拓扑结构数据,基于URL业务种类判定单元550实施使用URL的业务种类判定·登录处理(步骤S91)。最初使用以某种程度人工维护的URL企业名词典。而后,基于URL业务种类判定单元550通过比较处理对象的网页的URL和被登录在URL企业名词典中的URL,判定公开处理对象的网页的企业的业务种类。例如,当在URL企业名词典中登录有http//www.xxx.com,xxx公司、计算机的项目的情况下,如果处理对象的网页的URL是http//www.ist.xxx.com,因为xxx是共通的,所以把公开处理对象的网页的企业业务种类的候补设置为“计算机”。而后,基于URL业务种类判定单元550从被存储在链接拓扑结构DB519中的链接拓扑结构数据中,判定在http//www.xxx.com以下的网页,和在http//www.ist.xxx.com以下的网页中是否相互或者在一方向有链接。如果可以确认有链接,则基于URL业务种类判定单元550从处理对象的网页的TITLE等中抽出企业名,把企业名、http//www.ist.xxx.com以及作为业务种类名的计算机登录在URL企业名词典中。
以下,基于URL简称判定单元551参照被存储在URL企业名词典存储单元515b中的URL企业名词典,实施使用了URL的简称判定·登录处理(步骤S93)。当在处理对象网页中记述有以下信息时,<a href=”http//www.xxx.com”>3x</a>
基于URL简称判定单元551使用http//www.xxx.com检索URL企业名词典。如果有登录,则可以得到使用http//www.xxx.com的企业的正式名。而后,基于URL简称判定单元551用正式名检索被存储在简称名词典存储单元515a中的简称名词典,确认是否登录有正式名称。如果登录有正式名称,则确认是否与正式名称对应登录了“3x”的简称名。如果没有登录,则把“注J”这一简称名登录在简称名词典中。当正式名称未登录的情况下,登录正式名称以及“3x”这一简称名。但是,登录的简称名需要确认“这里”等不是简称的典型的词语。
而后,基于链接拓扑结构业务种类判定单元552使用被存储在链接拓扑结构DB519中的链接拓扑结构数据,实施业务种类判定·登录处理(步骤S95)。基于链接拓扑结构业务种类判定单元552把被登录在URL企业名词典中的企业站点和链接关系密切的页判定为同业务种类企业公开的网页,把用该页的URL、该页中的信息抽出的企业名以及业务种类登录在URL企业名词典中。如果已经登录了URL等,则登录业务种类。另外,当从链接拓扑结构数据中可以抽出特定业务种类的中心(hub)站点的情况下,基于链接拓扑结构业务种类判定单元552把从该中心站点链接的页判定为同一业务种类,把使用链接的页的URL、该页中的信息抽出的企业名以及业务种类登录在URL企业名词典上。如果URL等已登录则登录业务种类。
另外,基于特征词业务种类判定单元553从处理对象的网页中根据规定的算法抽出特征词,用该特征词检索业务种类用语词典,实施处理对象的网页的业务种类判定·登录处理(步骤S97)。当从网页中抽出的特征词在规定基准以上与针对特定的业务种类登录在业务用语词典上的用语一致的情况下,把该特定的业务种类判定为处理对象的网页的业务种类。而后,基于特征词业务种类判定单元553把使用网页的URL、该页中的信息抽出的企业名以及业务种类登录在URL企业名词典中。如果URL已经登录则登录业务种类。
进而,特征词词典登录单元554从确定了业务种类的页中抽出特征词,把该特征词登录在业务种类用语词典中(步骤S99)。通过上述处理等从确定了业务种类的页中抽出特征词,对于确定的业务种类,把抽出的特征词作为包含在业务种类用语词典中的候补。特征词词典登录单元554对多页实施这种处理,当对确定的特征词相同的业务种类被抽出了规定次数以上的情况下,把该确定的特征词相对于该业务种类登录在业务种类用语词典上。另外,把抽出频度越高的作为越重要的特征词,根据抽出频度高的特征词进行登录。也可以根据新出现程度判断重要度并登录。另外,也可以把业务种类用语词典分为正式版以及非正式版。例如,当处理对象的网页是公告板和个人主页的情况下,在业务种类用语词典的非正式版中登录被抽出的特征词。
这样,词典生成单元520使用被登录在档案库512中的内容信息以及被存储在链接拓扑结构DB519中的链接拓扑结构数据,修整业务种类用语词典、URL企业名词典以及简称名词典。
进而,词典生成单元520的检索记录解析单元555进行图16至图21所示的处理。
图16是展示检索记录解析单元555的处理的概要的流程图。检索记录解析单元555经由因特网1访问代理服务器8以及检索站点服务器9,取得被存储在代理记录存储单元84以及检索记录存储单元91中的记录数据,并存储在检索记录存储单元511中(步骤S201)。进而,也有检索记录解析单元555以外的处理单元或者信息收集解析系统5的管理者等进行该步骤的情况。从检索记录存储单元91取得的检索记录数据的一例如下。
“2001/09/23:00:00:18url=http//mfy.mmbr.ease.com/iwte.htmlref=http//para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%/81%5B%83vbase=NORMAL”在该例子中,包含日期时间(2001/09/23:00:00:18)、“url=”后的转移目标URL(http//mfy.mmbr.ease.com/iwte.html)、“ref=”后的检索,检索状态(base=NORMAL)。进而,检索包含如以下划线表示那样被编码的检索关键词。另外,虽然在以上例子中在记录中未包含IP地址,但也有包含的情况。
另外,以下展示从代理记录存储单元84取得的记录数据的一例。进而,在此展示2个记录。
“1034817348.963133.25.88.17111441GEThttp//para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%/81%5B%83v”“1034817348.968133.25.88.1711441GEThttp//taisen.mycom.cn.jp/taisen/image/side/top01.gif”在该例子中,最初的数字是用规定的形式表示的时刻信息。另外,包含IP地址(133.25.88.171)、目标大小、处理种类(GET)、访问目标URL。最初的记录如下划线所示,表示对包含被编码的检索关键词的检索站点的检索,下一记录表示同样的客户对另一URL的访问。在本实施例中,在对检索站点的检索后,把同样的客户访问的URL判断为转移目标URL并实施处理。即,对于从代理记录存储单元84取得的记录数据,用2个记录构成相当于被存储在检索记录存储单元91中的1个检索记录的数据。
进而,也有为了分散负荷而用多个服务器构成检索站点服务器9、代理服务器8的情况。这种情况下,因为在各个服务器的代理记录存储单元84或者检索记录存储单元91中记录是分散的,所以取得全部服务器的代理记录存储单元84或者检索记录存储单元91的数据并归纳为1个,需要在时间顺序上改变排列。
以下,检索记录解析单元555实施收集到的记录的标准化处理(步骤S203)。为了进行以后的处理在缩小数据范围的同时,还实施检索关键词的标准化等。图17以及图18展示了该处理的详细。
图17展示了与从检索记录存储单元91中取得的数据有关的处理流程。检索记录解析单元555从检索记录存储单元511中把要处理的数据读出到存储器中(步骤S211)。而后,对于已读出的数据的各记录,抽出日期时间、关键词以及转移目标URL的数据,存储在存储器中(步骤S213)。进而,因为对关键词进行编码,所以在此译码后存储在存储器中(步骤S215)。而后,对被译码的关键词进行标准化,存储在存储器中(步骤S217)。在此标准化是把全角的英文数字变换为半角的英文数字,或者把大写字母变换为小写字母,或者把半角的字符变换为全角的字母,整理表述的不规整的处理。有关表述的不规整,作为日语是把“コンピユ-タ-”改为“コンピユ-タ”那样的处理,在英语中是把“studies”改为“study”那样的处理。
而后检索记录解析单元555判断在规定时间内是否包含同一关键词的记录(步骤S219)。这是为了检测出因用户错误地连续几次进行同一关键词的检索指示的情况,和顺序地看检索结果的多个URL的情况。当顺序看多个URL的情况下,进行最后转移的转移目标URL是公开了原本需要的内容的的网页这一假定下的处理。当判断为在规定时间内包含具有同一关键词的记录的情况下,在包含该同一关键词的记录中删除最后访问的记录以外的记录(步骤S221)。而后返回原处理。另一方面,当判断为在规定期间内未含有同一关键词的记录的情况下,返回原处理。
由此删除处理不需要的数据,减少必须处理的数据量,在能够提高处理速度的同时,可以得到更适宜的处理结果。
图18展示了与从代理记录处理存储单元84中取得的数据有关的处理流程。检索记录解析单元555从检索记录存储单元511中把要处理的数据读出到存储器(步骤S231)。以下,在已读出的数据中对各记录抽出日期时间、URL以及用户IP地址,存储在存储器中(步骤S233)。把包含这样抽出的数据的记录归结到每个用户IP地址上,按时间顺序改变排列(步骤S235)。而后,在抽出表示对规定检索站点的访问的记录的同时,从该记录的URL中抽出关键词,存储在存储器中(步骤S237)。因此预先登录检索站点的URL,使用该检索站点的URL抽出表示对检索站点的访问的记录。而后,根据该记录的URL的规律性分离出关键词。如果抽出了表示对检索站点的访问的记录,则检索记录解析单元555把该被抽出的记录之后的记录的URL作为转移目标URL抽出,存储在存储器中(步骤S239)。
用这样抽出的关键词以及转移目标URL、例如包含关键词的记录的日期时间数据生成记录条目,存储在存储器中(步骤S241)。包含在该记录条目中的关键词因为被编码,所以在此译码,把译码后的关键词存储在存储器中(步骤S243)。而后,对被译码的关键词进行标准化,存储在存储器中(步骤S245)。该标准化和步骤S217是同样的处理。
而后,检索记录解析单元555判断在规定时间内是否包含同一关键词的记录记载(步骤S247)。当判断为在规定时间内包含具有同一关键词的记录的情况下,在包含该同一关键词的记录中删除最后访问的记录条目以外的记录(步骤S249)。而后返回原处理。另一方面,当判断为在规定期间内未包含同一关键词的记录的情况下,返回原处理。
由此删除处理不需要的数据,减少必须处理的数据量,在能够提高处理速度的同时,可以得到更适宜的处理结果。
返回图16的说明,以下检索记录解析单元555实施统计处理(步骤S205)。在图19中详细展示了有关统计处理。
作为统计处理,检索记录解析单元555对每个转移目标URL,计数访问数和所使用的关键词的种类数,把计数结果存储在存储器(步骤S251)。当2个以上的关键词被同时使用的情况下,也可以把该设置判断为是1种。而后,根据其阶层构造把转移目标URL归结到每个站点上,对每个站点统计访问数和所使用的关键词的种类数,把统计结果存储在存储器中(步骤S253)。在本实施例中,站点意味着URL的域部分或者域部分以及下一阶层的目录部分之一。
由此在掌握各页的访问数以及所使用的关键词的种类数的同时,可以掌握具有各页的每个站点的访问数以及所使用的关键词的种类数。
返回图16的说明,以下,检索记录解析单元555实施站点种类判定处理以及登录处理(步骤S207)。在图20中详细展示了该站点种类判定处理以及登录处理。首先,检索记录解析单元555用访问数、所使用的关键词的种类数分类各站点(步骤S261)。由此知道各站点的相对访问数的多少、所使用的关键词的种类数的多少。而后,选择1个转移目标站点(步骤S263),判断该转移目标站点的访问数以及使用关键词的种类数是否在规定基准以上(步骤S265)。更具体地说,比较与访问数有关的规定基准和该转移目标站点的访问数,比较与所使用的关键词种类数有关的规定基准和该转移目标站点的使用关键词的种类数。
而后当判断为该转移目标站点的访问数以及使用关键词的种类数在规定基准以上的情况下(步骤S265Yes分支),如果在本实施例中判断为该转移目标站点是ISP(因特网服务提供者)的站点,该站点URL未登录时,在URL企业名词典中登录站点URL、企业名、业务种类名(ISP)、所使用的关键词以及顺序信息(步骤S267)。有关企业名使用TITEL特征的值。另外,对于顺序信息,登录访问数以及被存储在档案库512中的被参照度的数据。这样扩充URL企业名词典。另外,把与业务种类(ISP)对应使用的关键词登录在业务种类用语词典中(步骤S269)。这样扩充业务种类用语词典。
另外,抽出满足规定条件的转移目标站点属下的页(步骤S271)。规定条件例如是访问数在规定基准以上,或者在可以得到访问数的时间经过数据的情况下是访问数增加到规定基准以上。而后,把抽出的页的URL看作个人主页的URL,把URL、业务种类以及顺序信息登录在解析数据存储单元510中(步骤S273)。例如,在图4B的阶段,把种类设置为“2”存储在解析数据存储单元510中。这种情况下,在本步骤中,例如基于特征词业务种类判定单元553从该网页内容中根据业务种类用语词典判定业务种类。进而,如果代替图2的步骤S3设置成进行本步骤,则在图4A的阶段中也可以存储在解析数据存储单元510中。另外,有关顺序信息,登录在上述处理中取得的访问数、被存储在档案库512中的被参照度的数据。访问数是修正被参照度的顺序信息,如果被参照度相同则根据访问数判断重要性、影响性、可靠性等。处理转移到步骤S283。
在步骤S265中当判断为访问数以及使用关键词种类数不足规定的基准的情况下(步骤S265No分支),判断访问数是否在规定的范围内并且使用关键词种类数是否不足规定基准(步骤S275)。例如,访问数虽然不足上述规定的基准,但判断是否在第2基准以上,进而判断使用关键词种类数是否不足规定基准。在本实施例中,满足这样条件的站点判断为是一般的企业的站点。因而,当判断为访问数在规定的范围内并且使用关键词种类数不足规定基准的情况下(步骤S275Yes分支),如果该站点URL未登录,则在URL企业名词典中,登录站点URL、企业名、业务种类名、顺序信息以及所使用的关键词(步骤S277)。这样扩充URL企业名词典。进而,例如基于特征词业务种类判定单元553根据业务种类用语词典从该网页的内容中判定业务种类名,登录在URL企业名词典中。对企业名使用该网页的TITEL特征的值。所使用的关键词被作为特征关键词登录。对于顺序信息,登录由上述处理取得的访问数、被存储在档案库512中的被参照度的数据。这样在URL企业名词典中还登录顺序信息,当在个人主页等中作为表示信息的出处的信息检测出URL的情况下,根据被检测出的URL的顺序信息可以计算该个人主页等的可靠性。处理转移到步骤S283。
在步骤S275中当判断为访问数不在规定范围内并且使用关键词的种类数不足规定基准的情况下(步骤S275No分支),判断访问数以及使用关键词的种类数是否不足规定的基准(步骤S279)。即判断访问数是否不足与访问数有关的基准,并且使用关键词的种类数是否不足使用关键词的种类数的基准。当访问数以及使用关键词种类数不足规定的基准的情况下(步骤S279Yes分支),在本实施例中判断为是和个人主页相同水平的站点。因而,把URL、业务种类以及顺序信息登录在解析数据存储单元510中(步骤S281)。例如,在图4B的阶段,把类别设置为“3”存储在解析数据存储单元510中。这种情况下,在本步骤中,例如基于特征词业务种类判定单元553从该网页内容中根据业务种类用语词典判定业务种类。进而,如果代替图2的步骤S3设置成进行本步骤,则在图4A的阶段中也可以存储在解析数据存储单元510中。另外,有关顺序信息,登录在上述处理中取得的访问数、被存储在档案库512中的被参照度的数据。通过实施这样的处理,可以应对个人等小规模组织取得域来陈述意见或者传言的情况。处理转移到步骤S283。在步骤S279中当判断为访问数以及使用关键词种类数不足规定基准的情况下,也转移到步骤S283。
在步骤S283中,判断是否对全部转移目标站点进行了处理。当存在未处理的转移目标的情况下,返回步骤S263,实施对未处理的转移目标站点的处理。另一方面,当结束了对全部的转移目标站点处理的情况下,结束处理。
通过实施以上那样的处理,在可以根据检索记录等扩充URL企业名词典以及业务用语词典的同时,可以确定需要关注的站点和URL。
进而,词典生成单元520的检索记录解析单元555除了图16至图20所示的处理外,还使用被存储在检索记录存储单元511中的数据实施以下那样的处理。
检索记录如上所述,至少包含时间戳(日期时间)、检索关键词、转移目标URL。例如检索记录解析单元555对被存储在检索记录存储单元511中的检索记录实施关键词分组以及URL分组。关键词分组包含(a)在1次检索中在AND条件下输入的多个检索关键词的分组,(b)在连续的多次检索中在AND条件下输入的多个检索关键词的分组,以及(c)在包含同样的转移目标URL的多个检索记录中的多个检索关键词的分组。URL分组包含(a)在AND条件下连续进行的各检索的包含在检索记录中的转移目标URL的分组,以及(b)在包含同样的关键词的检索记录中的转移目标URL的分组。
由这些分组生成的关键词组以及转移目标URL组被暂时存储在存储装置中。而后,初始化时关键词组以及转移目标URL组被显示在显示装置中,或者输出到印刷装置中,提示给词典管理者。而后,词典管理者针对各关键词组以及转移目标URL组判定业务种类以及企业名,根据作为判定结果的业务种类以及企业名把各关键词组以及转移目标URL组登录在业务种类用语词典以及企业名词典或者企业名词典上。另外,与各关键词组以及转移目标URL组对应地把作为判定结果的业务种类以及企业名记录在文件和表中。
例如,当在1次检索中输入了“(A企业名)&计算机”这样的检索关键词的情况下,和在“用“A企业名”检索后在AND条件下连续进行“计算机”这样的检索关键词的检索的情况下,与A企业或者A企业的业务种类对应地登录“计算机”这样的用语。另外,在包含“ABC”、“DEF”等检索关键词的检索记录中由于同一企业的URL成为转移目标URL,因而在该检索关键词被分组的情况下,与该企业或者该企业的种类对应地登录“ABC”、“DEF”等检索关键词。
另外,在“A企业名”这样的检索后在AND条件下连续进行“计算机”这样的检索关键词的检索,当作为转移目标URL组抽出的URL之一是A企业的URL以外的URL,域也是不同的URL的情况下,作为关联URL,把该抽出的URL与A企业或者A企业的业务种类对应地登录。另外,当包含“(A企业)”这个同一检索关键词的检索记录的转移目标URL组之一是A企业的URL以外的URL,域也是不同的URL的情况下,作为关联URL,把该转移目标URL与A公司或者A公司的业务种类对应地登录。
某种程度下,如果词典的管理者人工判定业务种类以及企业名,与各关键词组以及转移目标URL组对应地记录作为判定结果的业务种类以及企业名,则使用这些记录,针对新的关键词组或者转移目标URL组,例如通过检索记录解析单元555进行业务种类以及企业名的判定。即,从记录中抽出与新关键词组或者转移目标URL组类似的关键词组或者转移目标URL组,把与该抽出的关键词组或者转移目标URL组对应记录的业务种类以及企业名分配给新关键词组或者转移目标URL组。而后根据作为分配结果的业务种类以及企业名,在新关键词组或者转移目标URL组中把未登录的关键词或者转移目标URL登录在业务种类用语词典以及企业名词典或者企业名词典中。
进而,还实施图21所示的处理。即,检索记录解析单元555使用被存储在检索记录存储单元511中的检索记录,抽出被指定了业务种类的状态下的检索记录,把该检索记录中的检索关键词登录在业务种类用语词典中(步骤S101)。例如,可以适用于在检索关键词中使用了表示业务种类名的词汇的情况,和作为与检索关键词用不同的检索条件进行业务种类指定的情况等。进而,也可以把在抽出的检索记录中的检索关键词登录在业务种类用语词典的非正式版上。另外,检索记录解析单元555如果把检索记录中的用户的转移目标URL登录在URL企业名词典中,则与该URL对应地把检索关键词作为特征关键词登录在URL企业名词典中(步骤S103)。例如,当在包含“GHI”这样的检索关键词的检索记录中包含已登录在URL企业名词典中的URL作为转移目标URL的情况下,把“GHI”作为转移目标URL的企业的特征关键词登录在URL企业名词典中。
由此,可以用检索记录实现业务种类用语词典的扩充。另外,也可以扩充URL企业名词典的特征关键词。
以上叙述了本发明的一个实施例,但本发明并不只限于此。即,图1所示的信息收集解析系统5内的功能模块区分只是一例,也可以用其它区分。另外,在图2的处理流程中,有关出处搜索处理(步骤S11)的执行顺序,例如也可以是和发言以及线索的抽出(步骤S7)一同或者在其后执行的构成。在图9中,也可以改换步骤S51以及步骤S53、步骤S55以及步骤S57的顺序。在图10中,也可以改换步骤S61、步骤S63、步骤S65至S87的顺序。图14中的功能模块区分也只是一例,也可以是其它的分法。对于图15中的处理步骤,其执行顺序可以改换。
以上叙述了与企业有关的信息收集以及解析,但也可以把书评等作为对象。另外,在图12以及图13中,虽然展示了用户接口单元509的输出的一例,但例如不只抽出公司名,也可以从例如公告板和个人主页中与特定公司的商品名等一同抽出,例如存储在用于存储抽出信息的列308(图4C)中。而后,例如用户接口单元509也可以把图22所示那样的信息输出到用户终端3。即,对于各企业的各商品,针对被存储在解析数据存储单元510中的数据统计在各公告板和个人主页中进行了几次好的评价(GOOD)或者进行了几次不好的评价(BAD),提示给用户。
另外,在图20的处理流程中,通过进一步适宜地确定访问数以及所使用的关键词种类数的基准值,可以更详细地分类站点。例如,当在某一站点的属下中使用关键词的种类数多的页不太多时,也可以把该站点判断为新闻提供站点。
权利要求
1.一种内容信息解析方法,其特征在于包括从收集到的内容信息中抽出个人意见的发布单位的抽出步骤;确定上述个人意见的对象的对象确定步骤;通过解析上述个人意见的发布内容,确定与上述对象有关的上述个人评价的评价确定步骤。
2.根据权利要求1所述的内容信息解析方法,其特征在于上述抽出步骤包含确定包含个人意见的内容信息的单位的确定步骤;从被确定了的上述内容信息的单位中抽出上述个人意见的发布单位的步骤。
3.根据权利要求2所述的内容信息解析方法,其特征在于按照上述内容信息的每个单位的被参照度高的顺序实施上述确定步骤。
4.根据权利要求1所述的内容信息解析方法,其特征在于上述抽出步骤包含通过查找上述个人意见的参照源,来检测上述个人意见的发布单位的组的步骤。
5.根据权利要求1所述的内容信息解析方法,其特征在于上述抽出步骤包含确定与上述个人意见的对象有关的种类的种类确定步骤。
6.根据权利要求5所述的内容信息解析方法,其特征在于在上述评价确定步骤中,通过根据与上述个人意见的对象有关的种类解析上述个人意见的发布内容,来确定对上述对象的上述个人的评价。
7.根据权利要求1所述的内容信息解析方法,其特征在于还包括判断可以成为上述个人意见的依据的信息是否包含在该个人意见的发布单位中,在包含的情况下确定可以成为该依据的信息的步骤。
8.根据权利要求1所述的内容信息解析方法,其特征在于还包括确定与上述个人意见的发布内容有关的题材的步骤。
9.根据权利要求1所述的内容信息解析方法,其特征在于还包括确定上述个人意见的发布单位的可靠度的可靠度确定步骤。
10.根据权利要求9所述的内容信息解析方法,其特征在于上述可靠度确定步骤包含判断在上述个人意见的发布单位中是否包含表示上述个人的来历的信息的步骤。
11.根据权利要求9所述的内容信息解析方法,其特征在于上述可靠度确定步骤包含判断可以成为上述个人意见的依据的信息是否包含在该个人意见的发布单位中的步骤。
12.根据权利要求1所述的内容信息解析方法,其特征在于在上述对象确定步骤中,至少使用与统一资源定位符(URL)、企业名、简称和业务种类有关的词典,确定上述个人意见的对象。
13.根据权利要求12所述的内容信息解析方法,其特征在于还包括使用收集到的内容信息的URL以及已登录在上述词典中的类似的URL,把与企业名对应的业务种类有关的信息登录到上述词典中的步骤。
14.根据权利要求12所述的内容信息解析方法,其特征在于还包括使用收集到的内容信息的链接源的文字信息以及链接目标的URL,把简称登录到上述词典中的步骤。
15.根据权利要求12所述的内容信息解析方法,其特征在于还包括使用通过解析收集到的内容信息的链接关系而得到的链接拓扑结构信息,把与企业名对应的业务种类有关的信息登录到上述词典中的步骤。
16.根据权利要求12所述的内容信息解析方法,其特征在于还包括从内容信息中抽出特征词,使用具备与各业务种类有关的特征词的第2词典确定业务种类,把与企业名对应的业务种类有关的信息登录到上述词典中的步骤。
17.根据权利要求5所述的内容信息解析方法,其特征在于在上述种类确定步骤中,使用与各业务种类对应的特征词有关的第2词典,确定作为上述个人意见的对象的企业的业务种类。
18.根据权利要求16所述的内容信息解析方法,其特征在于还包括从业务种类被确定了的内容信息中抽出特征词,与上述业务种类对应地把该特征词追加到上述第2词典中的步骤。
19.根据权利要求16所述的内容信息解析方法,其特征在于还包括在对内容信息的检索记录中,识别在已指定了业务种类的状态下的检索关键词,把该关键词作为特征词登录到上述第2词典中的步骤。
20.根据权利要求12所述的内容信息解析方法,其特征在于还包括判断包含在对内容信息的检索记录中的、检索者的转移目标URL是否包含在上述词典中的步骤;当判断为包含的情况下,把包含在上述检索记录中的检索关键词追加到上述词典中的步骤。
21.根据权利要求1所述的内容信息解析方法,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录,根据访问数以及检索关键词的种类数确定在阶层下包含个人主页的站点的步骤;把包含在确定出的上述站点的阶层下的个人主页作为上述个人意见的发布单位而抽出的步骤。
22.根据权利要求1所述的内容信息解析方法,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录,根据访问数以及检索关键词的种类数,把个人或者小规模组织的站点作为上述个人意见的发布单位而抽出的步骤。
23.根据权利要求12所述的内容信息解析方法,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录,根据访问数以及检索关键词的种类数,确定在阶层下包含个人主页的站点的步骤;把与确定出的上述站点有关的信息登录到上述词典中的步骤。
24.根据权利要求12所述的内容信息解析方法,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录,根据访问数以及检索关键词的种类数,确定企业站点的步骤;把与确定出的上述企业站点有关的信息登录到上述词典中的步骤。
25.一种内容信息解析方法,其特征在于包括从收集到的内容信息中抽出个人意见的发布单位的步骤;确定上述个人意见的对象的步骤;确定上述个人意见的发布单位的可靠度的步骤。
26.一种内容信息解析方法,其特征在于包括取得包含各个检索关键词以及转移目标URL的、针对内容信息的多个检索记录的取得步骤;根据规定的规则,对各转移目标URL计数访问数以及检索关键词的种类数的计数步骤;对根据URL构造确定出的各站点,统计包含在该站点的阶层下的转移目标URL的访问数以及检索关键词的种类数的步骤;根据对上述站点统计的访问数以及检索关键词的种类数,判定该站点的类别的步骤。
27.根据权利要求26所述的内容信息解析方法,其特征在于上述取得步骤包含根据被存储在代理服务器中的记录数据,生成包含检索关键词以及转移目标URL的多个记录条目的步骤。
28.根据权利要求26所述的内容信息解析方法,其特征在于上述计数步骤包含标准化检索关键词的步骤;当在规定的时间内包含与同一检索关键词有关的多个检索记录的情况下,删除最终检索记录以外的检索记录的步骤。
29.一种内容信息解析系统, 其特征在于包括从收集到的内容信息中抽出个人意见的发布单位的抽出装置;确定上述个人意见的对象的对象确定装置;通过解析上述个人意见的发布内容,确定与上述对象有关的上述个人评价的评价确定装置。
30.根据权利要求29所述的内容信息解析系统,其特征在于上述抽出装置包含确定包含个人意见的内容信息的单位的确定装置;从确定的上述内容信息的单位中抽出上述个人意见的发布单位的装置。
31.根据权利要求30所述的内容信息解析系统,其特征在于上述确定装置按照上述内容信息的每个单位的被参照度高的顺序而执行。
32.根据权利要求29所述的内容信息解析系统,其特征在于上述抽出装置通过查找上述个人意见的参照源来检测上述个人意见的发布单位的组。
33.根据权利要求29所述的内容信息解析系统,其特征在于上述抽出装置包含确定与上述个人意见的对象有关的种类的种类确定装置。
34.根据权利要求33所述的内容信息解析系统,其特征在于上述评价确定装置通过根据与上述个人意见的对象有关的种类,解析上述个人意见的发布内容,来确定与上述对象有关的上述个人的评价。
35.根据权利要求29所述的内容信息解析系统,其特征在于还包括判断可以成为上述个人意见的依据的信息是否包含在该个人意见的发布单位中,在包含的情况下确定可以成为该依据的信息的装置。
36.根据权利要求29所述的内容信息解析系统,其特征在于还包括确定与上述个人意见的发布内容有关的题材的装置。
37.权利要求29所述的内容信息解析系统,其特征在于还包括确定上述个人意见的发布单位的可靠度的可靠度确定装置。
38.根据权利要求37所述的内容信息解析系统,其特征在于上述可靠度确定装置判断在上述个人意见的发布单位中是否包含表示上述个人的来历的信息。
39.根据权利要求37所述的内容信息解析系统,其特征在于上述可靠度确定装置判断可以成为上述个人意见的依据的信息是否包含在该个人意见的发布单位中。
40.根据权利要求29所述的内容信息解析系统,其特征在于上述对象确定装置至少使用与统一资源定位符(URL)、企业名、简称和业务种类有关的词典,确定上述个人意见的对象。
41.根据权利要求40所述的内容信息解析系统,其特征在于还包括使用收集到的内容信息的URL以及已登录在上述词典中的类似的URL,把与企业名对应的业务种类有关的信息登录到上述词典中的装置。
42.根据权利要求40所述的内容信息解析系统,其特征在于还包括使用收集到的内容信息的链接源的文字信息以及链接目标的URL,把简称登录到上述词典中的装置。
43.根据权利要求40所述的内容信息解析系统,其特征在于还包括使用通过解析收集到的内容信息的链接关系而得到的链接拓扑结构信息,把与企业名对应的业务种类有关的信息登录到上述词典中的装置。
44.根据权利要求40所述的内容信息解析系统,其特征在于还包括从内容信息中抽出特征词,使用具备与各业务种类有关的特征词的第2词典确定业务种类,把与企业名对应的业务种类有关的信息登录到上述词典中的装置。
45.根据权利要求33所述的内容信息解析系统,其特征在于上述种类特定装置使用与各业务种类对应的特征词有关的第2词典,确定作为上述个人意见的对象的企业的业务种类。
46.根据权利要求44所述的内容信息解析系统,其特征在于还包括从确定了业务种类的内容信息中抽出特征词,与上述业务种类对应地把该特征词追加到上述第2词典中的步骤。
47.权利要求44所述的内容信息解析系统,其特征在于还包括在对内容信息的检索记录中,识别在已指定了业务种类的状态下的检索关键词,把该关键词作为特征词登录到上述第2词典中的装置。
48.根据权利要求40所述的内容信息解析系统,其特征在于还包括判断包含在对内容信息的检索记录中的检索者的转移目标URL是否包含在上述词典中的装置;当判断为包含的情况下,把包含在上述检索记录中的检索关键词追加到上述词典中的装置。
49.根据权利要求29所述的内容信息解析系统,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、对内容信息的多个检索记录,根据访问数以及检索关键词的种类数确定在阶层下包含个人主页的站点的装置;把包含在确定出的上述站点的阶层下的个人主页作为上述个人意见的发布单位而抽出的装置。
50.根据权利要求29所述的内容信息解析系统,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、对内容信息的多个检索记录,根据访问数以及检索关键词的种类数,把个人或者小规模组织的站点作为上述个人意见的发布单位而抽出的装置。
51.根据权利要求40所述的内容信息解析系统,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、对内容信息的多个检索记录,根据访问数以及检索关键词的种类数,确定在阶层下包含个人主页的站点的装置;把与确定出的上述站点有关的信息登录到上述词典中的装置。
52.根据权利要求40所述的内容信息解析系统,其特征在于还包括解析包含各个检索关键词以及转移目标URL的、对内容信息的多个检索记录,根据访问数以及检索关键词的种类数,确定企业站点的装置;把与被确定的上述企业站点有关的信息登录到上述词典中的装置。
53.一种内容信息解析系统,其特征在于包括从收集到的内容信息中抽出个人意见的发布单位的装置;确定上述个人意见的对象的装置;确定上述个人意见的发布单位的可靠度的装置。
54.一种内容信息解析系统,其特征在于包括取得包含各个检索关键词以及转移目标URL的、对内容信息的多个检索记录的取得装置;根据规定的规则,对各转移目标URL计数访问数以及检索关键词的种类数的计数装置;针对根据URL构造确定的各站点,统计包含在该站点的阶层下的转移目标URL的访问数以及检索关键词的种类数的装置;根据针对上述站点统计的访问数以及检索关键词的种类数,判定该站点的类别的装置。
55.根据权利要求54所述的内容信息解析系统,其特征在于上述取得装置包含根据被存储在代理服务器中的记录数据,生成包含检索关键词以及转移目标URL的多个记录条目的装置。
56.根据权利要求54所述的内容信息解析系统,其特征在于上述计数装置包含标准化检索关键词的装置;当在规定的时间内包含与同一检索关键词有关的多个检索记录的情况下,删除最终检索记录以外的检索记录的装置。
57.一种记录介质,是存储用于使计算机执行内容信息解析处理的程序的记录介质,其特征在于存储有使计算机执行以下步骤的程序从收集到的内容信息中抽出个人意见的发布单位的抽出步骤;确定上述个人的意见对象的对象确定步骤;通过解析上述个人意见的发布内容,确定与上述对象有关的上述个人评价的评价确定步骤。
58.一种记录介质,是存储用于使计算机执行内容信息解析处理的程序的记录介质,其特征在于存储有使计算机执行以下步骤的程序从收集到的内容信息中抽出个人意见的发布单位的步骤;确定上述个人意见的对象的步骤;确定上述个人意见的发布单位的可靠度的步骤。
59.一种记录介质,是存储用于使计算机执行内容信息解析处理的程序的记录介质,其特征在于存储有使计算机执行以下步骤的程序取得包含各个检索关键词以及转移目标URL的、对内容信息的多个检索记录的取得步骤;根据规定的规则,对各转移目标URL计数访问数以及检索关键词的种类数的计数步骤;对于根据URL的构造确定的各站点,统计包含在该站点的阶层下的转移目标URL的访问数以及检索关键词的种类数的步骤;根据对上述站点统计的访问数以及检索关键词的种类数,判定该站点的类别的步骤。
60.一种内容信息解析程序,是使计算机执行以下步骤的程序从收集到的内容信息中抽出个人意见的发布单位的步骤;确定上述个人意见的对象的步骤;通过解析上述个人意见的发布内容,确定与上述对象有关的上述个人评价的步骤。
61.一种内容信息解析程序,是使计算机执行以下步骤的程序取得包含各个检索关键词以及转移目标URL的、对内容信息的多个检索记录的取得步骤;根据规定的规则,对各转移目标URL计数访问数以及检索关键词的种类数的计数步骤;对根据URL的构造确定的各站点,统计包含在该站点的阶层下的转移目标URL的访问数以及检索关键词的种类数的步骤;根据对上述站点统计的访问数以及检索关键词的种类数,判定该站点的类别的步骤。
62.一种内容信息解析程序,是使计算机执行以下步骤的程序从收集到的内容信息中抽出个人意见的发布单位的步骤;确定上述个人意见的对象的步骤;确定上述个人意见的发布单位的可靠度的步骤。
全文摘要
本发明的信息解析方法以及装置从大量的信息中自动地抽出需要关注的信息。从收集到的内容信息中抽出作为个人网页和公告板中的发言的个人意见的发布单位,登录用于确定该个人意见的发布单位的信息(URL和发言号码)。接着,确定个人意见的对象(公司名和业务种类)。而后,通过解析个人意见的发布内容来确定与对象有关的个人的评价(好的评价/坏的评价)。另外,实施以下处理确定基于是否包含表示被参照度顺序、意见的依据和发言者的来历的信息的可靠性。由此可以提示对作为个人意见特征的对象的评价等。另外可以在对个人意见的对象的评价中只抽出例如坏的评价。另外,根据被参照度顺序和可靠性还可以搜索影响程度高的需要关注的意见。
文档编号G06Q50/00GK1559044SQ0281892
公开日2004年12月29日 申请日期2002年10月30日 优先权日2001年11月26日
发明者内野宽治, 粂由纪 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1