信息提取方法和装置的制作方法

文档序号:6467575阅读:128来源:国知局
专利名称:信息提取方法和装置的制作方法
技术领域
本发明总体上涉及计算机信息处理技术,并且尤其是涉及从诸如网页、文档等之
类的信息源中提取涉及特定主题的相关信息的技术。
背景技术
存在许多包含有大量信息的、用自然语言来表述内容的网页和文档等信息源。目前已经提出了很多信息提取技术用来从这些信息源中提取有用的信息,例如,涉及特定主题的评价信息等。现有的信息提取系统包括知从文本中提取关键词的系统,提取固有名词和数值等的系统,以及提取意见和评判等的系统等。狭义的信息提取技术是指以特定领域的文本为对象,利用事先准备好的应提取信息的模板(或者信息提取规则)来提取所期望的有用信息。 图1的示意图示出了一个典型的信息提取系统100的处理过程。如图1所示,在信息提取系统100中,评价向量提取器110通过参考例如目标词典、属性词典、评价词典之类的资源1 资源n,从文档等信息源中提取出关于各种主题的评价向量,然后评价信息合成器120对特定主题的评价向量进行聚合,从而得到关于该特定主题的评价信息。
关于信息提取方面的技术,目前已发表了多篇的论文和/或提交了多篇专利申请。例如,可参见由松下电器产业株式会社申请的、发明名称为"信息提取系统"、公开号为CN1942877A的中国专利申请;由微软公司申请的、发明名称为"学习并使用广义串模式用于信息提取"、公开号为CN1627300A的中国专利申请;等等。以提取涉及特定主题的评价信息为例,从目前已经公开的各种信息提取技术的文献来看,已有的信息提取技术可以主
要分为以下两种类型(l)基于最近匹配的评价信息提取方法,该种方法的基本流程是首
先对文档进行分词,然后从中查找到目标词(例如,公司品牌名、产品名等)的位置,接着在
目标词的附近搜寻距其最近的评价词,并将这个评价词认定为对该目标词的评价;(2)基于完全语法分析的评价信息提取方法,该种方法的基本流程是首先对问文档进行分词,之后进行词性标注和完全语法分析,然后从分析得到的语法树中查找目标词,并且按照语法树中的依赖关系,找到与之对应的评价词。 已有的各种基于信息提取规则的信息提取方法虽然可以提取与特定主题有关的信息,但是,在从文档等信息源中提取涉及各种主题的评价向量的过程中,往往需要手工构造复杂的提取规则,以及/或者需要进行复杂的语法分析,以便对文档等信息源进行准确的分词处理。因此,已有的各种信息提取方法中普遍存在不能快速处理大规模文档的问题。而且,实际上,在自然语言体系中,往往存在大量不符合语法规范的表述方式。因此,如何更好地且更快速地从自然语言体系的文档等信息源中提取出更多的有用信息,仍然是急待解决的问题之一。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本
5理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。 为了至少部分地解决现有技术的上述问题,本发明的一个目的是提供一种改进的信息提取方法和/或装置,其能够从自然语言描述的信息源中提取出涉及特定主题的有用信息,而无需对信息源进行复杂的词语划分和/或语法分析。 本发明的另一目的是,提供一种改进的评价信息提取方法和/或装置,其能够从诸如网上评论等之类的信息源中提取出用户对于某些特定品牌或者某些特定产品的评论信息,而无需对信息源进行复杂的词语划分和/或语法分析。 为了实现上述目的,根据本发明的一个方面,提供了一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,该信息提取方法包括以下步骤参考预先设定的涉及特定主题的第一资源,从所述信息源中查找并定位所有感兴趣的各类目标语素;从所述信息源中选择出所有包含所述找到的各类目标语素的语句;参考预先设定的涉及特定主题的第二资源,对所选择出的所有语句中的各类目标语素依次进行匹配;参考预先设定的描述向量提取规则,基于所述匹配结果,从信息源中提取出涉及特定主题的描述向量;以及基于所述提取出的描述向量,生成涉及特定主题的全局性信息,即为所述要提取的涉及特定主题的有用信息。 根据本发明的另一个方面,还提供了一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取装置,该信息提取装置包括资源和规则库,用于存储在执行信息提取时要用到的、预先设定好的涉及特定主题的各种资源和规则;描述向量提取器,用于通过参考所述资源和规则库中存储的资源和规则,从输入的信息源中提取出涉及某些特定主题的描述向量;以及信息生成器,用于基于所述描述向量提取器所提取出的描述向量,生成涉及特定主题的全局性信息,即为所述要提取的涉及特定主题的有用信息,其中,所述描述向量提取器进一步包括语素提取单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第一资源,从所述信息源中查找并定位所有感兴趣的各类目标语素;语句选择单元,用于从所述信息源中选择出所有包含所述找到的各类目标语素的语句;匹配单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第二资源,对所述语句选择单元所选择出的所有语句中的各类目标语素依次进行匹配;以及描述向量生成单元,用于通过参考存储在所述资源和规则库中的描述向量提取规则,基于来自所述匹配单元的匹配结果,从信息源中提取出涉及特定主题的描述向量。 依据本发明的其它方面,还提供了相应的计算机可读存储介质和计算机程序产
PR o 本发明的一个优点在于,在根据本发明原理的信息提取方法和/或信息提取装置中,由于对用自然语言描述的各种信息源而言,基于简单的匹配而不是基于复杂的提取规则或语法规则的信息提取技术往往能够提取出更多的相关信息,因此能够获得更好的信息提取效果。 本发明的又一个优点在于,在根据本发明原理的信息提取方法和/或信息提取装置中,由于无需对信息源进行词语划分和/或语法分析,因此可以较为简单和快速地从信息源中查找并定位所有感兴趣的涉及特定主题的目标语素,并据此从信息源中提取出涉及特定主题的有用信息,因此,根据本发明原理的信息提取方法和/或信息提取装置适合于从海量信息源中提取出有用信息。 本发明还有一个优点在于,可以将根据本发明原理的信息提取方法和/或信息提取装置用于从诸如网友评论等之类的信息源中提取出用户对某些产品的评论意见,从而向相关的企业或者公司提供所收集的用户评论意见,以便使企业或者公司可以及时地掌握用户的喜好并据此迅速地做出反应,或者提供给产品的潜在用户,以便用户在购买前较为全面地掌握其他用户对于该产品和/或类似产品的评论意见。 通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。


本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所
有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的
详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本
发明的优选实施例和解释本发明的原理和优点。在附图中 图1示出了一个典型的信息提取系统100的处理过程的示意图; 图2示出了根据本发明的一个实施例、从文档等信息源中提取有用信息的信息提
取方法200的示意性流程图; 图3示出了在根据本发明一个实施例的信息提取方法中用到的相关资源和匹配规则的例子; 图4示出了在根据本发明一个实施例的信息提取方法中输入的文本、从该文本中提取出的描述向量和据此得到的全局性评价信息的例子;以及 图5示出了根据本发明的一个实施例、从文档等信息源中提取有用信息的信息提取装置500的示意性方框图。 本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施例方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。 下面结合图2 图4对根据本发明一个实施例、从诸如文档之类的信息源中提取
7出有用信息的信息提取方法的处理过程进行描述。为了便于描述,下面以文档作为信息源 的例子、以产品评价信息作为要提取的有用信息的例子来对根据本发明实施例的信息提取 方法的具体处理流程进行描述。然而,本领域技术人员应当明白,根据本发明原理的信息提 取方法并不局限于在此结合附图所描述的具体实施例。 图2示出了根据本发明的一个实施例、从文档等信息源中提取有用信息(例如,产 品评价信息)的信息提取方法200的示意性流程图。 如图2所示,在步骤S210中,通过参考预先设定的一个或多个资源、例如资源1 资源k,从信息源、例如文档等中查找并定位所有感兴趣的各类语素(为了便于描述,以下 将其称为目标语素)。例如,资源1 资源k可以是诸如企业/品牌列表、产品列表、属性列 表、修饰词列表、评价词列表等之类的、分别列出了各类目标语素的列表,而所述目标语素 可以是例如产品的品牌名称、产品名称、产品属性、对产品的评价词及有关的修饰词(例如 副词)等多类语素。 在图3的上半部分中示出了在根据本发明一个实施例的信息提取方法中用到的 相关资源的例子,其中作为示例示出了品牌列表、产品列表、属性列表、修饰词列表和评价 词列表五个资源的例子。其中,在品牌列表中,列出了市面上常见的各种产品的品牌名称 或者企业名称等,例如苹果、宝马、索尼等;在产品列表中,列出了各种产品的产品名称或者 产品型号等,例如iPod、X5等;在属性列表中,列出了各种产品所具有的产品属性,例如,画 面、照片质量、色彩、外观、大小等;在修饰词列表中,列出了中文表述中常见的用于修饰评 价值的修饰词(例如,副词),例如,非常、很、不等,并且为每个修饰词赋予了一个数值(在 下文中也可以被称为修饰值),以比较直观地反映出该修饰词的修饰程度,例如,修饰词"非 常"被赋予值"+2","不"被赋予值"-l","比较"被赋予值"+0.8",等等,其中数值的"+ "或 "-"符号表明对应的修饰词是正面肯定性的修饰还是负面否定性的修饰;在评价词列表中, 列出了中文表述中常见的用于表明人们对产品的优劣评价的评价词,例如,差、清晰等,并 且与修饰词列表中列出的修饰词相类似地,每个评价词也被赋予一个数值(在下文中也可 以被称为评价值),以比较直观地反映人们对于产品的评价,例如,"清晰"被赋予值"+l", "鲜艳"被赋予值"+l",等等。 返回参见图2。在步骤S220中,从文档中选择出所有包含了在步骤S210中所找到 的目标语素的语句。 然后,在步骤S230中,通过参考预先设定的一个或多个资源、例如资源m 资源n, 对步骤S220中所选择出的所有语句中的各类目标语素依次进行多层次匹配。在此,根据需 要,资源m 资源n可以包含以上所描述的、在查找并定位有用语素时参考的资源1 资源 k中的一个或者多个资源,并且还可以包含其他的资源,例如,品牌名称与产品名称的匹配 规则、产品名称与产品属性的匹配规则(以下统称为匹配规则)等等。在该步骤中,通过参 考资源m 资源n,根据所选语句中所包含的各个有用语素之间的位置关系、语素属性等对 语素进行多层次匹配。具体来说,视实际需要依次进行以下各级匹配中的一级或多级匹配 产品品牌(即,第一类语素,也可称为第一级语素)与产品名称(即,第二类语素,也可称为 第二级语素)的匹配、产品名称(或者必要时为第一、二级语素)与产品属性(即,第三类语 素,也可称为第三级语素)的匹配、产品属性(或者必要时为第二、三级语素或者第一、二、 三级语素)与评价词(即,第四类语素,也可称为第四级语素)的匹配、评价词(或者必要时为第三、四级语素、或者第二、三、四级语素、或者第一、二、三、四级语素)与修饰词(即, 第五类语素,也可称为第五级语素)的匹配,从而确定各个语素之间的匹配关系。虽然在此 描述了五类目标语素(其分别对应于五级语素),但是显然根据本发明原理的信息提取方 法并不仅仅局限于此。 在图3的下半部分中示出了在根据本发明一个实施例的信息提取方法中用到的 匹配规则的例子。对于所选出的各个语句中,适用例如图3中所示的匹配规则,可以得到相 应的描述了目标语素之间的对应关系的匹配结果。 接下来,如图2所示,方法200的处理流程进行到步骤S240。在该步骤中,参考描 述向量的提取规则(例如,描述向量的定义),基于步骤S230中的多层次匹配结果,从文档 中提取出描述向量。在此,描述向量是指生成所需有用信息所需要的描述性信息,用于描述 在步骤S220中所选择的各个语句中所包含的各个语素之间在经多层次匹配处理后确定的 相互关系。 例如,在此可以假设描述向量被定义如下〈企业/品牌名称,产品名称,产品属
性,修饰词,评价词 >。这样,例如,对于文档中包含的下述语句"最近买了 A公司的FK3相
机,刚开始测试的时候觉得还行",参考如图3所示的相关资源列表和匹配规则以及上述描
述向量定义,可以得到以下的描述向量〈A公司,FK3相机, 一, 一,还行>。 然后,如图2所示,在步骤S250中,参考所需有用信息(在此为产品评价信息)的
定义,基于步骤S240中得到的描述向量,生成全局性信息(在此为全局性评价信息,也可以
简称为评价信息)。 在此,假设全局性评价信息被定义如下〈企业/品牌名称,产品名称,产品属性, 全局评价值〉。这样,对于步骤S240中得到的描述向量,可以参考例如图3所示的相关资源 列表获得描述向量中的修饰词的修饰值和评价词的评价值,然后综合考虑这两个数值以获 得一个全局评价值(例如,可以通过将这两个数值相乘得到的乘积作为全局评价值,但是 本发明并不仅仅局限于此)。该全局评价值从整体上反映了人们对所述企业/品牌的所述 产品在所述产品属性方面的评价,它的绝对值越大,表明人们对它的优劣评价程度越高。
然而,在现实的生活中,人们在发表对某一产品的评价意见时使用的用语和/或 表述方式往往可能存在着很大差异,这为目标语素的确定以及进而为评价信息的生成带来 了一定的麻烦。鉴于此,在根据本发明的另一个实施例中,在从输入的文档中生成全局性评 价信息的过程中,可以对以上结合图2所述的方法200进行改进,以便消除由于不规范或者 不统一的用语或表述而造成的不利影响。例如,可以在图3所示出的相关资源(例如,品牌 列表、产品列表、属性列表等)中列出对于某一规范性用语或表述的其他各种常见的替代 性用语或表述,例如,可以在品牌列表中同时列出苹果和即ple,在产品列表中同时列出马 自达6和马6等,在属性列表中同时列出色泽和色彩,等等。这样,在参考相关资源从输入 的文本等中查找并定位目标语素时,不仅可以找到使用规范性用语或表述来表示的语素, 而且可以找到使用非规范性用语或表述来表示的语素,从而可以避免遗漏某些感兴趣的语 素。然后,可以在提取了描述向量之后和生成全局性评价信息之前用规范性表示的语素来 代替所提取出的描述向量中包含的非规范性表示的语素,从而可以最终得到规范性表示的 评价信息。 在根据本发明的一个实施例中,例如,对于在图4的上部中所示出的输入文本的例子,利用如图2所示的信息处理方法200,参考图3所示的相关资源和匹配规则,可以得
到如图4的中部所示的描述向量(此时并未用规范性表示的语素来代替非规范性表示的语
素),并进而得到如图4的下部所示的全局性评价信息。如图所示,在下部所示的评价信息
中,已经用规范性表示的"色彩"(属于产品属性)代替了非规范性表示的"色泽"。 在上文中以从输入的文本中提取用户的产品评价信息为例、结合图2 图4对根
据本发明实施例的信息提取方法的具体处理过程进行了说明,但是,本领域技术人员应当
明白,根据本发明原理的信息提取方法不仅仅局限于提取产品评价信息,而且可以适用于
从诸如文档、网页等信息源中提取任何涉及相关主题的有用信息,只要预先定义好方法中
要用到的各种相关资源和/或规则、例如用于查找并定位目标语素的相关资源、用于确定
目标语素之间的匹配关系的匹配规则、用于提取描述向量的提取规则等即可。 而且,本领域技术人员完全可以取决于实际需要对根据本发明原理的、以上结合
附图所描述的信息提取方法的某些具体处理步骤或过程进行适当的修改、变更或者改进,
例如,可以人工地或者自动地定期对上述信息提取方法中要用到的各种资源和/或规则
(例如,品牌列表等中列出的语素、评价词列表等中列出的语素及赋予其的评价值等)等进
行更新或者修正等,在此为了说明书的简明起见就不再一一列举了。 图5示出了根据本发明的一个实施例的信息提取装置500的示意性方框图。该信 息提取装置500可以执行以上结合图2 图4所描述的信息提取方法200,以便从输入的信 息源中提取出所期望的涉及特定主题的有用信息。 在此,需要说明的是,为了简单和清楚起见,图5中仅仅示出信息提取装置的与本 发明密切相关的组成部分,而并未示出其他与本发明关系不大或者毫不相关的组成部分, 而且以下的描述也仅涉及与本发明密切相关的那些组成部分。 如图5所示,信息提取装置500包括资源和规则库510、描述向量提取器520和信 息生成器530。其中,所述资源和规则库510用于存储在执行信息提取时可能会用到的、预 先设定好的各种资源和/或规则,例如,如图3所示的诸如品牌列表、产品列表等的相关资 源,目标语素之间的匹配规则,描述向量的提取规则等等。 描述向量提取器520用于通过参考所述资源和规则库510中存储的资源和/或规 则,从输入的信息源中提取出涉及某些特定主题的描述向量。如图5所示,描述向量提取 器520进而包括语素提取单元522、语句选择单元524、匹配单元526和描述向量生成单元 528。其中,语素提取单元522可以如以上结合图2 图4所描述的那样,通过参考存储在 所述资源和规则库510中的一个或多个资源,从输入的信息源(例如文档等)中查找并定 位所有感兴趣的各类目标语素。语句选择单元524可以如以上结合图2 图4所描述的那 样,从输入的信息源中选择出所有包含上述目标语素的语句。匹配单元526可以如以上结 合图2 图4所描述的那样,通过参考存储在所述资源和规则库510中的一个或多个资源, 对所述语句选择单元524所选择出的所有语句中的各类目标语素依次进行多层次匹配,例 如,第一级语素(例如,产品品牌)与第二级语素(例如,产品名称)的匹配、第二级语素与 第三级语素(例如,产品属性)的匹配、第三级语素与第四级语素(例如,评价词)的匹配、 等等。描述向量生成单元528可以如以上结合图2 图4所描述的那样,参考描述向量的 提取规则(例如,描述向量的定义),并依据来自所述匹配单元526的多层次匹配结果,从信 息源中提取出涉及特定主题的描述向量。
10
所述信息生成器530可以如以上结合图2 图4所描述的那样,基于所述描述向 量提取器520所提取出的描述向量而生成所需的涉及特定主题的有用信息。
通过阅读以上结合图2 图4给出的根据本发明实施例的信息提取方法的具体处 理过程的详细描述可知,上述各个装置或单元的具体操作或处理过程是很清楚的,因此,为 了避免重复,在此就不再对其进行详述了 。 此外,正如上文所描述的那样,可以根据需要对图5所示的信息提取装置进行适 当的修改或改进。例如,可以在所述信息提取装置500中添加以下模块或单元语素修正 器,用于用规范性表示的语素来代替由所述描述向量提取器520所提取出的描述向量中包 含的非规范性表示的语素;以及/或者用于定期地对所述资源和规则库510中存储的各种 资源进行更新或者修正的单元;等等。当然,也可能存在其他的修改或改进之处,在此就不 一一列举了。 如上所述,在根据本发明原理的信息提取方法和/或装置中,可以针对所感兴趣 的各种目标语素设定多种多样符合需求的资源,例如,为某些目标语素、例如产品评价词等 设定诸如以上所描述的评价值之类的数值,以直观地反映出所述目标语素在某些方面的强 烈程度,并且在提取有用信息时考虑了诸如副词等修饰词的影响程度,因此,能够更为准确 地从信息源中提取出有关的信息。 而且,通过以上的描述不难看出,根据本发明原理的信息提取技术通过简单的多 层次匹配,能够较为简单和快速地从信息源中找出所期望的有用信息,而无需对信息源进 行词语划分和/或语法分析等,从而克服或者缓解了现有技术中存在的缺陷,并且能够适 用于海量信息提取。 此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可 读的存储介质中的计算机可执行程序的方式实现。 而且,本发明的目的也可以通过下述方式实现将存储有上述可执行程序代码的 存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理 单元(CPU)读出并执行上述程序代码。 此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于 程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操 作系统的脚本程序等。 上述这些机器可读存储介质包括但不限于各种存储器和存储单元,半导体设备, 磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。 另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机 程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。 最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅 仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实 体或操作之间存在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其 他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不 仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、
物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个......"限定的
要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
11
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实 施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可 以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的 范围仅由所附的权利要求及其等效含义来限定。
权利要求
一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括以下步骤参考预先设定的涉及特定主题的第一资源,从所述信息源中查找并定位所有感兴趣的各类目标语素;从所述信息源中选择出所有包含所述找到的各类目标语素的语句;参考预先设定的涉及特定主题的第二资源,对所选择出的所有语句中的各类目标语素依次进行匹配;参考预先设定的描述向量提取规则,基于所述匹配结果,从信息源中提取出涉及特定主题的描述向量;以及基于所述提取出的描述向量,生成涉及特定主题的全局性信息,该全局性信息即为所述要提取的涉及特定主题的有用信息。
2. 根据权利要求1所述的信息提取方法,其中,所述进行匹配的步骤进一步包括 对于所述选择出的所有语句中的各类目标语素,参考所述第二资源,依次地进行以下各级匹配中的一级或多级匹配第一类语素与第二类语素间的匹配,第二类语素或第一、二 类语素与第三类语素间的匹配,第三类语素、或者第二、三类语素、或者第一、二、三类语素 与第四类语素间的匹配,依此类推,直至到最后一类语素的匹配。
3. 根据权利要求1或2所述的信息提取方法,其中,所述信息源是用户对于各种产品的 评论信息,而所述涉及特定主题的有用信息是用户对于特定品牌或特定产品的评论信息。
4. 根据权利要求3所述的信息提取方法,其中,所述感兴趣的目标语素包括以下五类 语素产品品牌或企业名称,产品名称或型号,产品属性,评价词,及对评价词的修饰词。
5. 根据权利要求4所述的信息提取方法,其中,所述第一资源包括列出各种产品的产品品牌或企业名称的品牌列表,列出各种产品 的产品名称或型号的产品列表,列出各种产品的产品属性的属性列表,列出用户对各种产 品的评价词的评价词列表,以及列出可用于对评价词进行修饰的修饰词列表,以及所述第二资源包括所述第一资源中的一个或多个资源,以及各类目标语素间的匹配规则。
6. 根据权利要求5所述的信息提取方法,其中,所述评价词列表中列出的每个评价词都被赋予有一个数值,该数值的正或负符号表示 用户对产品的评价是正面还是负面的评价,其绝对值大小反映了用户对产品的评价程度, 以及所述修饰词列表中列出的每个修饰词都被赋予有一个数值,该数值的正或负符号表示 修饰词对评价词是正面肯定性修饰还是负面否定性修饰,其绝对值大小反映了修饰词对评 价词的修饰程度。
7. 根据权利要求6所述的信息提取方法,其中,所述描述向量提取规则被定义如下〈企业/品牌名称,产品名称,产品属性,修饰词, 评价词>。
8. 根据权利要求7所述的信息提取方法,其中,涉及特定主题的全局性信息被定义如下〈企业/品牌名称,产品名称,产品属性,全局 评价值〉,以及所述生成特定主题的全局性信息的步骤进一步包括参考所述全局性信息的定义,基 于所述提取出的描述向量而生成所述全局性信息,其中所述全局评价值是通过综合考虑所 述描述向量中的评价词和修饰词的相应数值而确定的。
9. 根据权利要求8所述的信息提取方法,其中,在所述品牌列表、产品列表和/或属性列表中,除了列出有相应语素的规范性表示外, 还列出有相应语素的非规范性表示,以及所述方法在所述生成全局性信息的步骤之前进一步包括步骤用规范性表示的语素来 代替所提取出的描述向量中的非规范性表示的语素。
10. 根据权利要求1或2所述的信息提取方法,进一步包括 定期地对所述资源和/或规则进行更新或者修正。
11. 一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取装置,包括资源和规则库,用于存储在执行信息提取时要用到的、预先设定好的涉及特定主题的 各种资源和规则;描述向量提取器,用于通过参考所述资源和规则库中存储的资源和规则,从输入的信 息源中提取出涉及某些特定主题的描述向量;以及信息生成器,用于基于所述描述向量提取器所提取出的描述向量,生成涉及特定主题 的全局性信息,该全局性信息即为所述要提取的涉及特定主题的有用信息,其中,所述描述向量提取器进一步包括语素提取单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第一资 源,从所述信息源中查找并定位所有感兴趣的各类目标语素;语句选择单元,用于从所述信息源中选择出所有包含所述找到的各类目标语素的语句;匹配单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第二资源,对 所述语句选择单元所选择出的所有语句中的各类目标语素依次进行匹配;以及描述向量生成单元,用于通过参考存储在所述资源和规则库中的描述向量提取规则, 基于来自所述匹配单元的匹配结果,从信息源中提取出涉及特定主题的描述向量。
12. 根据权利要求11所述的信息提取装置,其中,所述匹配单元被进一步配置为 对于所述选择出的所有语句中的各类目标语素,通过参考所述第二资源,依次地进行以下各级匹配中的一级或多级匹配第一类语素与第二类语素间的匹配,第二类语素或第 一、二类语素与第三类语素间的匹配,第三类语素、或者第二、三类语素、或者第一、二、三类 语素与第四类语素间的匹配,依此类推,直至到最后一类语素的匹配。
13. 根据权利要求11或12所述的信息提取装置,其中,所述信息源是用户对于各种产 品的评论信息,而所述涉及特定主题的有用信息是用户对于特定品牌或特定产品的评论信 息。
14. 根据权利要求13所述的信息提取装置,其中,所述感兴趣的目标语素包括以下五 类语素产品品牌或企业名称,产品名称或型号,产品属性,评价词,及对评价词的修饰词。
15. 根据权利要求14所述的信息提取装置,其中,所述第一资源包括列出各种产品的产品品牌或企业名称的品牌列表,列出各种产品的产品名称或型号的产品列表,列出各种产品的产品属性的属性列表,列出用户对各种产 品的评价词的评价词列表,以及列出可用于对评价词进行修饰的修饰词列表,以及所述第二资源包括所述第一资源中的一个或多个资源,以及各类目标语素间的匹配规则。
16. 根据权利要求15所述的信息提取装置,其中,所述评价词列表中列出的每个评价词都被赋予有一个数值,该数值的正或负符号表示 用户对产品的评价是正面还是负面的评价,其绝对值大小反映了用户对产品的评价程度, 以及 所述修饰词列表中列出的每个修饰词都被赋予有一个数值,该数值的正或负符号表示 修饰词对评价词是正面肯定性修饰还是负面否定性修饰,其绝对值大小反映了修饰词对评 价词的修饰程度。
17. 根据权利要求16所述的信息提取装置,其中,所述描述向量提取规则被定义如下〈企业/品牌名称,产品名称,产品属性,修饰词, 评价词>。
18. 根据权利要求17所述的信息提取装置,其中,涉及特定主题的全局性信息被定义如下〈企业/品牌名称,产品名称,产品属性,全局 评价值〉,以及所述信息生成器被进一步配置为参考所述全局性信息的定义,基于所述提取出的描 述向量而生成所述全局性信息,其中所述全局评价值是通过综合考虑所述描述向量中的评 价词和修饰词的相应数值而确定的。
19. 根据权利要求18所述的信息提取装置,其中,在所述品牌列表、产品列表和/或属性列表中,除了列出有相应语素的规范性表示外, 还列出有相应语素的非规范性表示,所述信息提取装置进一步包括语素修正器,用于用规范性表示的语素来代替所提取出 的描述向量中的非规范性表示的语素,以及所述信息生成器被进一步配置为基于所述语素修正器所提供的描述向量而生成所述 全局性信息。
20. 根据权利要求11或12所述的信息提取装置,进一步包括用于定期地对所述资源和规则库中存储的资源和/或规则进行更新或者修正的单元。
全文摘要
公开了一种信息提取方法和装置,用于从输入的信息源中提取涉及特定主题的有用信息。该方法包括参考预先设定的第一资源,从信息源中查找并定位所有感兴趣的各类目标语素;从信息源中选择出所有包含所找到的各类目标语素的语句;参考预先设定的第二资源,对所选出的所有语句中的各类目标语素依次进行匹配;参考预先设定的描述向量提取规则,基于所述匹配结果,从信息源中提取出涉及特定主题的描述向量;以及基于所述描述向量,生成涉及特定主题的全局性信息,即为所述要提取的涉及特定主题的有用信息。在根据本发明的信息提取方法和装置中,无需对信息源进行词语划分和/或语法分析,因此可以较为简单和快速地从信息源中提取出所需的信息。
文档编号G06F17/30GK101727451SQ20081017118
公开日2010年6月9日 申请日期2008年10月22日 优先权日2008年10月22日
发明者于浩, 贾文杰 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1