确定语料与实体的相关性的方法和装置及分类器训练方法

文档序号:6486443阅读:194来源:国知局
确定语料与实体的相关性的方法和装置及分类器训练方法
【专利摘要】本发明公开了一种确定语料与实体的相关性的方法和装置及分类器训练方法。所述确定相关性的方法包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对第二组语料进行分类,以确定第二组语料中的每个语料与第一给定实体的相关性,从而得到作为对第二组语料的标注结果的机器标注语料;基于所述通用特征和从机器标注语料中选取的与第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用机器标注语料,训练针对第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。
【专利说明】确定语料与实体的相关性的方法和装置及分类器训练方法
【技术领域】
[0001]本发明一般地涉及信息挖掘领域。具体而言,本发明涉及一种用于确定语料与给定实体的相关性的方法和装置及相关的分类器训练方法。
【背景技术】
[0002]微博(例如,推特、搜狐微博和腾讯微博等)作为一种社交媒体,迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对政府政策的响应、人们对商品的反馈和评论等已受到研究团体的大量关注。存在一些研究,诸如观点挖掘和在线声誉管理等,它们聚焦于监控用户生成的媒体。这些研究的关键内容之一在于首先要获得与所研究实体(诸如公司的机构)有关的信息。
[0003]获得与所研究实体有关的信息将面临以下两个问题。首先,微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体。它允许用户生成不超过140个字符的消息。故只能获得小的上下文信息。因此,可供比对的信息量相对较少。第二,实体名称本身可能是模糊的,这也会增大分析的难度。例如,苹果公司的名称Apple也可以表示作为水果的苹果。亚马逊公司的名称Amazon也可以表示亚马逊河和亚马逊丛林。可见,确定微博与实体之间是否相关只能依赖于微博本身较少的信息量并面临实体名称具有歧义的问题。如果不能准确有效地判断微博与实体之间的相关性,就难以针对实体搜集和分类微博,并进而进行深入研究,如分析人们谈论特定实体的相关内容。
[0004]此外,通常采用分类器来针对实体对微博进行分类。简单地说,通过针对特定实体(例如,苹果公司)搜集大量已标记的训练语料(即标注了该微博是否是与苹果公司相关的微博),利用所搜集的语料对分类器进行训练,就可以使用训练好的分类器针对特定实体(苹果公司)分类语料(如未标记的大量微博),即判断语料是否与特定实体相关。然而,针对每一个特定实体训练一个分类器是繁复的。因此,也希望能够使得训练数据中的实体和测试数据中的实体可以不同,避免将分类器训练为针对特定实体。

【发明内容】

[0005]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0006]本发明的目的是针对现有技术的上述问题,提出了一种能够确定语料与实体的相关性的方法和装置及相关分类器训练方法。该方案对于具有较少信息量的微博,能够不针对特定实体训练分类器,训练好的分类器能针对特定实体进行分类,即确定语料与特定实体的相关性,并且能够有效地处理具有歧义的实体名称,避免与该实体无关的、与具有相同实体名称的其它实体相关的语料被分类为与该实体相关。
[0007]为了实现上述目的,根据本发明的一个方面,提供了一种用于确定第一组语料中的每个语料与第一给定实体的相关性的方法,包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类,以确定所述第二组语料中的每个语料与所述第一给定实体的相关性,从而得到作为对所述第二组语料的标注结果的机器标注语料;基于所述通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用所述机器标注语料,训练针对所述第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的所述自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。
[0008]根据本发明的另一个方面,提供了一种用于确定语料与给定实体的相关性的分类器的训练方法,包括:获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种;从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个,作为机构信息;从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个,作为语料信息;基于所述机构信息和所述语料信息,计算通用特征,所述通用特征包括:语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种;以及基于所计算的通用特征,结合实体名称相关的启发式规则,利用所述训练语料的标注结果,训练所述分类器。
[0009]根据本发明的另一个方面,提供了一种用于确定第一组语料中的每个语料与第一给定实体的相关性的装置,包括:通用分类器,用于基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类,以确定所述第二组语料中的每个语料与所述第一给定实体的相关性,从而得到作为对所述第二组语料的标注结果的机器标注语料;自适应分类器训练单元,用于基于所述通用分类器使用的通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用所述机器标注语料,训练针对所述第一给定实体的自适应分类器;以及所述自适应分类器,用于基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,确定第一组语料中的每个语料与第一给定实体的相关性。
[0010]另外,根据本发明的另一方面,还提供了 一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
[0011]此外,根据本发明的再一方面,还提供了 一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
【专利附图】

【附图说明】
[0012]参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
[0013]图1示出了用于确定语料与给定实体的相关性的方法的第一实施例的流程图;[0014]图2示出了用于确定语料与给定实体的相关性的分类器的训练方法的流程图;
[0015]图3示出了用于确定语料与给定实体的相关性的装置的第一实施例的结构方框图;
[0016]图4示出了用于确定语料与给定实体的相关性的方法的第二实施例的流程图;
[0017]图5示出了用于确定语料与给定实体的相关性的装置的第二实施例的结构方框图;
[0018]图6示出了根据本发明的实施例的通用特征提取单元的结构方框图;以及
[0019]图7示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
【具体实施方式】
[0020]在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0021]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
[0022]本发明的基本思想是首先以已经针对一个或多个第二给定实体标注的第三组语料(即大量微博,每个微博均已标注了是否与第二给定实体相关,实体例如是机构、组织、公司等),基于通用特征,并结合启发式规则,对通用分类器进行训练,其中通用特征表征微博与实体的相关性,但不针对特定实体;为了针对特定的第一给定实体、对未标注的第一组语料中的每个语料进行分类(即确定第一组语料中的每个语料与第一给定实体的相关性),先利用通用分类器针对第一给定实体对第二组语料(也是未标注的)进行机器标注,提取通用特征并得到机器标注语料;然后,从机器标注语料中选取对第一给定实体指示性强的关键词作为补充特征,基于通用特征、补充特征并结合启发式规则,利用机器标注语料,训练针对第一给定实体的自适应分类器;从而,基于通用特征、补充特征并结合启发式规则,利用训练好的自适应分类器针对第一给定实体对第一组语料进行识别。
[0023]这样,训练通用分类器时采用第三组语料,并不针对特定的给定实体;而应用时,先针对第一给定实体,借助于通用分类器和第二组语料对自适应分类器进行训练,训练好的自适应分类器就可以针对第一给定实体对第一组语料进行分类。
[0024]首先,将参照图2描述根据本发明的实施例的用于确定语料与给定实体的相关性的通用分类器的训练方法的流程。
[0025]图2示出了用于确定语料与给定实体的相关性的通用分类器的训练方法的流程图。
[0026]如图2所示,根据本发明的用于确定语料与给定实体的相关性的通用分类器的训练方法,包括如下步骤:获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种(步骤S21);从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个,作为机构信息(步骤S22);从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个,作为语料信息(步骤S23);基于所述机构信息和所述语料信息,计算通用特征,所述通用特征包括:语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种(步骤S24);以及基于所计算的通用特征,结合实体名称相关的启发式规则,利用所述训练语料的标注结果,训练所述分类器(步骤S25 )。
[0027]通过步骤S21、S22,获取表征给定实体的机构信息来丰富对与给定实体的描述,从而与具有相同实体名称的其它实体更加有效地进行区分。显然,对于一个给定实体的描述信息越丰富,则该给定实体越明确。
[0028]机构信息的来源包括,但不限于步骤S21中列出的四个方面。
[0029]1.与给定实体相关联的实体主页页面
[0030]假设给定实体均至少具有一个自己的主页,并且该主页的URL作为指示给定实体的输入。显然,实体自己的主页对于实体本身的描述而言,非常基本和重要。实体主页中的词语通常与该实体更相关并且更能表示该实体。可以从给定实体的实体主页中提取与给定实体相关联的词作为机构信息。
[0031]可以利用实体的主页的URL,抓取该主页的一定深度的所有页面。优选地,深度为
I。即,可抓取自主页页面起,深度为I的所有页面作为给定实体的实体主页页面。
[0032]2.与给定实体相关联的具有网络百科全书属性的网页页面
[0033]具有网络百科全书属性的网页页面例如是维基百科页面和维基百科反例页面。
[0034]维基百科(wikipedia)提供有消歧(disambiguation)功能,利用此功能能够获得与实体名称对应的多个候选条目,候选条目包括链接。可以对候选相关条目进行分析以确定链接中是否含有给定实体的实体主页的URL。如果链接中含有给定实体的实体主页的URL,则可以认为该候选相关条目与给定实体相关联,可进而提取该条目对应的页面中的词语作为机构信息。该页面可以作为机构信息的正例数据源,不含有给定实体的实体主页的URL的链接对应的页面可以作为反例数据源。
[0035]3.与给定实体相关联的搜索引擎返回的链接页面
[0036]搜索引擎例如是谷歌(Google)。Google提供了检索关键字“link”,采用与实体对应的URL构造检索关键字,例如“link:ht tp://……”,输入到Google的搜索栏中,可以得到返回的链接页面。
[0037]优选地,选取前100个链接页面作为机构信息的数据源。
[0038]4.与给定实体相关联的搜索引擎返回的相关页面
[0039]类似于上述链接页面,Google提供了检索关键字“related”,采用与实体对应的URL构造检索关键字,例如“related:ht tp: //……”,输入到Google的搜索栏中,可以得到返回的相关页面。
[0040]优选地,选取前100个相关页面作为机构信息的数据源。
[0041]在步骤S21中,从上述4种数据源中的至少一种获取与给定实体相关联的页面。[0042]在步骤S22中,从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个,作为机构信息。
[0043]实体可以被表示为简档(profile)的集合,即机构信息。例如,机构信息可表示为Org = {p1; p2,, pj ο其中,每一个简档可以是关键词及对应权重的集合。
[0044]可以针对上面步骤S21中获得的页面,建立如下的四种简档。
[0045]1.一兀词简档(unigram profile)
[0046]可以将一元词简档表示为Pu = set {uigram:weight}。
[0047]利用现有技术,可以对网页页面进行正文提取、分词、去除停用词、词干提取等预处理,从而得到一元词unigram。以“西安交通大学”为例,在一元词的情况下,“西安交通大
学”将被表示为西/安/交/通/大/学。
[0048]权重weight决定特征对应的取值,为简化处理,可将权重均设为1,从而使得特征对应的取值为O或I。
[0049]2.二兀词简档(bigram profile)
[0050]可以将二元词简档表示为Pb = set {bigram:weight}。
[0051]采用与一元词类似的预处理,可以得到二元词bigram。以“西安交通大学”为例,在二元词的情况下,“西安交通大学”将被表示为西安/安交/交通/通大/大学。
[0052]权重weight决定特征对应的取值,为简化处理,可将权重均设为1,从而使得特征对应的取值为O或I。
[0053]应注意,在词级上,unigram为一元词,bigram为二元词。在字符级上,bigram包括二元字符。
[0054]类似地,本领域技术人员还可想到trigram,如包括三元字符等。
[0055]3.兀数据简档(metadata profile)
[0056]步骤S21中获得的页面大多为HTML文件,其中提供有元数据。元数据包括对页面的描述、关键词、文档作者、上一次修改时间等信息。其中,关键词是具有指示性作用的词。因此,可将HTML页面的元数据中的关键词提取出来,作为元数据简档,其可表示为Pm =set {word:weight} ,word为元数据的关键词。权重weight决定特征对应的取值,为简化处理,可将权重均设为I,从而使得特征对应的取值为O或I。
[0057]4.URL 简档(URL profile)
[0058]步骤S21中获得的页面都对应一个URL,URL中包括主机名。可以将主机名host_name从URL中获取出来,作为关键字,构成URL简档,表示为Plri = set {host_name:weight}。权重weight决定特征对应的取值,为简化处理,可将权重均设为I,从而使得特征对应的取值为O或I。
[0059]至此,通过步骤S21、S22得到了表征实体的机构信息,应注意,机构信息是针对某一给定实体的。
[0060]为了将表征某一给定实体的机构信息与微博进行比较,确定微博与给定实体的相关性,需要对微博进行处理,提取相关信息,以与机构信息类似的方式表征微博。
[0061]由于要训练分类器,因此,训练语料应是针对给定实体标注好的。即已知训练语料中的每一个语料(微博)是否与给定实体相关。该给定实体应与机构信息所对应的实体是同一实体。[0062]在步骤S23,从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个,作为语料信息。
[0063]应注意,由于微博并不一定具有元数据,因此,并未提取元数据中的关键词。
[0064]应注意,通过对微博进行预处理,如URL提取、缩写还原、分词、去除停用词、词干提取等,可以从微博中提取URL地址中包括的主机名、unigram、bigram等关键字。这对本领域技术人员来说是例行的工作。
[0065]语料信息可以表示为Ti=Set {key:weight}。其中,key可以表示uni gram、bigram和URL地址中包括的主机名,为简化处理,可将权重weight均设为I。Ti表示第i个语料的语料息。
[0066]应注意,机构信息和语料信息中的unigram、bigram、元数据中的关键词和URL地址中包括的主机名等都是采用字符串的形式进行表示,以利于比较。由于字符串的比较只有在被比较的字符串完全相同的情况下,才认为字符串相同,因此,即使包括unigram和bigram的机构信息与包括unigram和bigram的语料信息直接进行比较,也只可能unigram与unigram匹配,bigram与bigram匹配。元数据中的关键词、URL地址中包括的主机名等会根据其实际的字符串长度,与uni gram、b i gram、元数据中的关键词、URL地址中包括的主机名中的适当的一个匹配。
[0067]下面,在步骤S24中,基于所述机构信息和所述语料信息,计算通用特征。首先,介绍通用特征本身。
[0068]如上所述,机构信息是针对给定实体提取出来的,用于表征给定实体。而训练语料也针对给定实体进行了标注,并从中提取出了语料信息。如果将特征限定为具体的针对给定实体的特征,则仍存在现有技术中训练针对的实体必须与识别针对的实体相同的限制。本发明的发明人意识到可以将特征抽象为与给定实体无关,而仅与实体的某一方面相关。也就是说特征(通用特征)可以表征语料与实体的某一方面的相关性,而非语料与某一特定实体的某一方面的相关性。
[0069]因此,为了更好地计算通用特征,训练通用分类器所采用的训练语料优选包括针对多个给定实体(多个第二给定实体)标注好的语料。并且训练通用分类器时,提取多个第二给定实体的机构信息。由于通用特征可以不针对特定实体,因此所述多个第二给定实体可以包括识别时所针对的第一给定实体,也可以不包括识别时所针对的第一给定实体。
[0070]当进行识别时,可针对给定实体,计算给定实体的通用特征,从而使通用特征针对给定实体,并可仅依赖于通用特征,确定语料与给定实体的相关性。后文将看到,在识别时,为了更好地与给定实体相适应,还引入了补充特征来确定语料与给定实体的相关性。
[0071]通用特征包括:语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性。
[0072]所述语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的每一个均包括一元特征相关性、多元特征相关性、元数据相关性、主机名相关性。语料与实体主页页面的相关性包括一元特征相关性Fu\多元特征相关性Fb\元数据相关性Fmh、主机名相关性Fmlh。语料与网络百科全书页面(正例)的相关性包括一元特征相关性Fuw、多元特征相关性Fbw、元数据相关性Fmw、主机名相关性Furtw。语料与网络百科全书页面(负例)的相关性包括一元特征相关性Fu'多元特征相关性Fb'元数据相关性Fm'主机名相关性Furl'语料与搜索引擎链接页面的相关性包括一元特征相关性Fu\多元特征相关性Fb\元数据相关性F/、主机名相关性F-1。语料与搜索引擎相关页面的相关性包括一元特征相关性Fu'多元特征相关性Fb'元数据相关性Fm'主机名相关性Furl'
[0073]第i个语料的通用特征F (Ti, Org)可以被表示为:
【权利要求】
1.一种用于确定第一组语料中的每个语料与第一给定实体的相关性的方法,包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类,以确定所述第二组语料中的每个语料与所述第一给定实体的相关性,从而得到作为对所述第二组语料的标注结果的机器标注语料;基于所述通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用所述机器标注语料,训练针对所述第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的所述自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。
2.如权利要求1所述的方法,其中,所述通用特征包括:语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种。
3.如权利要求2所述的方法,其中,所述语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的每一个均包括一元特征相关性、多元特征相关性、元数据相关性、主机名相关性中的至少一个;所述一元特征相关性包括页面中的一元词是否出现在语料中,所述多元特征相关性包括页面中的二元词、二元字符、三元字符中的至少一个是否出现在语料中,所述元数据相关性包括页面的元数据中的关键词是否出现在语料中,所述主机名相关性包括页面的URL地址中包括的主机名是否出现在语料中。
4.如权利要求3所述的方法,其中,通过如下步骤提取所述通用特征:`获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种;从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个,作为机构信息;从语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个,作为语料信息;基于所述机构信息和所述语料信息,计算得到所述通用特征。
5.如权利要求1所述的方法,其中,实体名称相关的启发式规则包括:实体名称本身是否包括不止一个单词、和/或语料中是否包含完整实体名称。
6.如权利要求1所述的方法,其中,所述补充特征包括:从所述机器标注语料中选取的与所述第一给定实体相关的一元词、二元词、二元字符、三元字符中的至少一个。
7.如权利要求6所述的方法,其中,所述方法还包括:在所述训练自适应分类器的步骤之前的特征选取步骤,用于从所述机器标注语料中选取关键词,作为所述补充特征;自适应训练结束步骤,用于验证自适应训练结束条件,在满足自适应训练结束条件的情况下结束自适应训练,在不满足自适应训练结束条件的情况下重复所述特征选取步骤和所述训练自适应分类器的步骤,直到满足所述自适应训练结束条件。
8.如权利要求7所述的方法,其中,所述自适应训练结束条件包括:迭代达到预定次数或自适应分类器的分类结果基本稳定。
9.一种用于确定语料与给定实体的相关性的分类器的训练方法,包括:获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种;从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个,作为机构信息;从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个,作为语料信息;基于所述机构信息和所述语料信息,计算通用特征,所述通用特征包括:语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种;基于所计算的通用特征,结合实体名称相关的启发式规则,利用所述训练语料的标注结果,训练所述分类器。
10.一种用于确定第一组语料中的每个语料与第一给定实体的相关性的装置,包括:通用分类器,用于基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类,以确定所述第二组语料中的每个语料与所述第一给定实体的相关性,从而得到作为对所述第二组语料的标注结果的机器标注语料;自适应分类器训练单元,用于基于所述通用分类器使用的通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用所述机器标注语料,训练`针对所述第一给定实体的自适应分类器;以及所述自适应分类器,用于基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,确定第一组语料中的每个语料与第一给定实体的相关性。
【文档编号】G06F17/30GK103514194SQ201210212662
【公开日】2014年1月15日 申请日期:2012年6月21日 优先权日:2012年6月21日
【发明者】张姝, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1