用于识别非结构化文本中的信息的方法和装置的制作方法

文档序号:6357043阅读:191来源:国知局
专利名称:用于识别非结构化文本中的信息的方法和装置的制作方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种用于识别非结构化文本中的信息的方法和装置,不仅能够处理包含名称或同义词形式的非结构化文本,也能够处理不包含名称或同义词形式的非结构化文本。在本发明中,所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词,这些信息可以存储在词典中。
背景技术
电信运营商、银行等服务提供商,通常需要处理大量的非结构化文本,例如客户的投诉、咨询等。这些非结构化文本都是自然语言的形式,经常包含一个或多个业务,这些业务是服务提供商为客户定制的,经常多达数百上千种。例如,一个电信客户投诉“短号网出问题了,充100送30的话费也没赠送”,其中包含电信运营商制定的两个业务“短号集群网”和“充值优惠”。业务/业务信息的有效识别可以从非结构化文本中自动提取出业务名称,从而帮助服务提供商理解非结构化文本,为数据挖掘等相关技术提供支持。另外,产品提供商也经常需要从非结构化文本(如公司主页、网上评论)中识别出产品的名称,从而为产品竞争分析、产品口碑分析等相关技术提供支持。此外,从专利文件中识别出专利术语,可以帮助确定某专利的技术范围,并为专利检索等相关技术提供支持。目前已经存在一些相关的信息识别方法,大多只能处理直接包含名称(如业务名称、产品名称、专利名称、领域关键词)或同义词形式的非结构化文本。例如,如果事先定义业务“短号集群网”的同义词是“短号网”,则可以从“短号网出问题了,充100送30的话费也没赠送”中提取出业务“短号集群网”,但无法提取出业务“充值优惠”。例如,T.Nasukawa 于 2001 年在 IBM SYSTEMS JOURNAL 上发表的论文 “TextAnalysis and Knowledge Mining System”中提供了一种从客户的投诉/咨询文本中提取领域关键词(可以是业务名称或产品名称)的方法,主要基于包含领域关键词名称及同义信息的语义词典来进行提取,当非结构化文本中包含某领域关键词或其同义词形式时,可以提取出相应的领域关键词,但当非结构化文本中不包含领域关键词名称或同义词形式时,则无法提取。美国专利US 7,395,256 B2提供了一种从大量非结构化文档中提取重要关键词的方法,采用了基于统计的重要性计算方法,由此提取出重要性高的关键词,然后用于索引建立等用途。利用这种方法,能够找出新的关键词,但无法实现旧的关键词的映射,即无法根据一个已知的关键词词典,从非结构化文本中将与已知关键词没有同义关系的术语映射到已知关键词。美国专利US 7,478,092 B2提供了一种从非结构化文本中提取关键术语的方法,首先提取出所有的名词或名词短语,然后利用预定的过滤规则选择出有代表性的名词或名词短语作为关键术语。利用这种方法,能够找出新的关键术语,但无法实现旧的关键术语的映射,即无法根据一个已知的关键术语词典,从非结构化文本中将与已知关键术语没有同义关系的术语映射到已知关键术语。因此,现有的方法都无法根据基于预先设定的词典,从不包含名称或其同义词形式的非结构化文本中提取出相应的名称,达到信息识别的目的。

发明内容
考虑到现有技术的上述缺陷,本发明提出了一种用于识别非结构化文本中的信息的方法和装置,不仅能够处理包含名称或同义词形式的非结构化文本,也能够处理不包含名称或同义词形式的非结构化文本。在本发明中,所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词,这些信息可以存储在词典中。在本说明书中,将以服务提供商提供的业务为例,进行详细描述,但本意并非将本发明局限于以下详细描述的具体实施例。根据本发明的第一方案,提出了一种信息识别装置,包括基础术语提取单元,用 于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;术语提取规则生成单元,用于基于由所述基础术语提取单元提取出的基础术语和所述第一非结构化文本,生成术语提取规则;术语提取单元,用于基于由所述基础术语提取单元提取出的基础术语、由所述术语提取规则生成单元生成的术语提取规则,从第二非结构化文本中提取出新的术语;术语映射单元,用于将所述术语提取单元所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。优选地,所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。优选地,所述术语映射单元基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或所述术语映射单元基于字符串相似度,找出与所述术语提取单元所提取出的术语最相似的名称,作为所述最适合的名称。优选地,所述信息识别装置还包括基础术语扩展单元,用于以所述术语提取单元所提取出的术语更新基础术语。更优选地,在所述基础术语扩展单元对基础术语的更新改变了基础术语的数量的情况下,所述术语提取规则生成单元基于更新后的基础术语,更新术语提取规则;所述术语提取单元基于更新后的术语提取规则,再次执行从所述第二非结构化文本中提取新的术语的操作;所述术语映射单元再次执行术语映射操作;以及所述基础术语扩展单元再次执行对基础术语的更新操作,在所述基础术语扩展单元对基础术语的更新未改变基础术语的数量的情况下,所述术语提取规则生成单元、所述术语提取单元、所述术语映射单元和所述基础术语扩展单元结束操作。优选地,所述信息识别装置还包括基于关键字的术语提取单元,用于在所述术语提取单元未能提取出新术语时,基于关键字表从所述第二非结构化文本中提取名称,作为所识别出的信息。优选地,所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。优选地,所述术语提取规则包括向左扩展规则和向右扩展规则。更优选地,所述术语提取规则生成单元执行以下操作基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集;对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识每个词的位置标签;针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。更优选地,所述术语提取单元执行以下操作对所述第二非结构化文本中的各个 句子,利用分词工具来分词,得到各个词及词性;在各个句子中,找出基础术语中包含的词,作为术语中心词;从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展;合并扩展后的词,得到新的术语。优选地,所述词典中的名称包含以下内容中的至少一项业务名称、产品名称、专利术语、和相关领域的关键词。根据本发明的第二方案,提出了一种信息识别方法,包括根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则;基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语;将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。优选地,所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。优选地,在术语-名称映射步骤中基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或基于字符串相似度,找出与所提取出的术语最相似的名称,作为所述最适合的名称。优选地,所述信息识别方法还包括以所提取出的术语更新基础术语。更优选地,在对基础术语的更新改变了基础术语的数量的情况下,基于更新后的基础术语,更新术语提取规则;基于更新后的术语提取规则,再次从所述第二非结构化文本中提取新的术语;再次进行术语的映射;以及再次执行对基础术语的更新,在对基础术语的更新未改变基础术语的数量的情况下,结束操作。优选地,所述信息识别方法还包括在基于所提取出的基础术语和所生成的术语提取规则,未能从第二非结构化文本中提取出新的术语时,基于关键字表,从所述第二非结构化文本中提取名称,作为所识别出的信息。优选地,所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。优选地,所述术语提取规则包括向左扩展规则和向右扩展规则。更优选地,所述生成术语提取规则的步骤包括以下子步骤基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集;对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识每个词的位置标签;针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。更优选地,所述从第二非结构化文本中提取出新的术语的步骤包括以下子步骤对所述第二非结构化文本中的各个句子,利用分词工具来分词,得到各个词及词性;在各个句子中,找出基础术语中包含的词,作为术语中心词;从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展;合并扩展后的词,得到新的术语。优选地,所述词典中的名称包含以下内容中的至少一项业务名称、产品名称、专利术语、和相关领域的关键词。本发明有效地解决了从非结构化文本中有效识别信息的问题,不仅能够从包含名称或同义词形式的非结构化文本中提取出信息,也能够从不包含名称或同义词形式的非结构化文本中提取出信息。此外,本发明具有自适应的学习功能从非结构化文本中,起初只能识别出少量名称,然后根据提取结果经过自适应的学习后,又可以识别出更多的名称,不 断循环上述学习过程可以尽可能全地识别出非结构化文本中的所有名称。另外,训练文本和测试文本可以是同样的文本,因此从某文本中学习到的规则可以直接应用于该文本,从而可以得到更加准确、更加全面的信息识别结果。


通过下面结合

本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中图I是示出了根据本发明第一实施例的用于识别非结构化文本中的业务信息的装置1000的示意方框图。图IA是示出了根据本发明第一实施例的业务信息识别装置1000的整体操作的流程图。图2以电信运营商为例、示出了非结构化文本I的具体实例。图3以电信运营商为例、示出了业务词典1110的具体实例。图4是示出了基础业务术语提取单元1200的操作的流程图。图4A以电信运营商为例、示出了基础业务术语提取单元1200的示例操作。图5是示出了业务术语提取规则生成单元1300的操作的流程图。图5A以电信运营商为例、示出了业务术语提取规则生成单元1300的示例操作。图5B示出了向左扩展规则生成的具体操作示例。图5C示出了业务术语提取规则库1130的具体示例。图6是示出了业务术语提取单元1400的操作的流程图。图6A以电信运营商为例、示出了业务术语提取单元1400的示例操作。图7是示出了业务术语映射单元1500的操作的流程图。图7A以电信运营商为例、示出了业务术语映射单元1500的示例操作。图7B以电信运营商为例、示出了业务术语映射单元1500的另一示例操作。图8示出了根据本发明第二实施例的用于识别非结构化文本中的业务信息的装置8000的示意方框图。
图8A是示出了根据本发明第二实施例的业务信息识别装置8000的整体操作的流程图。图9示出了根据本发明第三实施例的用于识别非结构化文本中的业务信息的装置9000的示意方框图。图9A示出了关键字表1140的具体示例。图10是示出了基于关键字的业务术语提取单元9700的操作的流程图。图IOA示出了基于关键字的业务术语提取单元9700的示例操作。

在本发明的所有附图中,相同或相似的结构和步骤均以相同或相似的附图标记标识。
具体实施例方式下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。在本发明中,所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词,这些信息可以存储在词典中。在本说明书中,将以服务提供商提供的业务为例,进行详细描述,但本意并非将本发明局限于以下详细描述的具体实施例。第一实施例图I是示出了根据本发明第一实施例的用于识别非结构化文本中的业务信息的装置1000的示意方框图。图IA是示出了根据本发明第一实施例的业务信息识别装置1000的整体操作的流程图。如图I所示,根据本发明第一实施例的业务信息识别装置1000包括存储单元1100、基础业务术语提取单元1200、业务术语提取规则生成单元1300、业务术语提取单元1400和业务术语映射单元1500。存储单元1100用于存储业务词典1110、基础业务术语库1120和业务术语提取规则库1130。业务词典1110用于存储服务提供商的各个业务名称和同义词形式(在本发明中,同义词形式不是必需的)。基础业务术语库1120用于存储基于业务词典1110从输入的非结构化文本I中提取出的基础业务术语。业务术语提取规则库1130用于存储的多条业务术语提取规则,例如,业务术语提取规则可以包括但不局限于向左扩展规则和向右扩展规则。基础业务术语提取单元1200根据业务词典1110,从输入的非结构化文本I中提取出非结构化文本I中所包含的业务名称,并写入基础业务术语库1120(图IA中的步骤S110)。业务术语提取规则生成单元1300基于由基础业务术语提取单元1200提取出的存储在基础业务术语库1120中的基础业务术语和非结构化文本1,生成业务术语提取规则(例如,向左扩展规则、向右扩展规则),并写入业务术语提取规则库1130(图IA中的步骤S120)。业务术语提取单元1400基于由基础业务术语提取单元1200提取出的存储在基础业务术语库1120中的基础业务术语、由业务术语提取规则生成单元1300生成的存储在业务术语提取规则库1130中的业务术语提取规则,从输入的非结构化文本I中提取出新的业务术语(图IA中的步骤S130)。业务术语映射单元1500将业务术语提取单元1400所提取出的每个业务术语映射到业务词典1110中最适合的业务,作为所识别出的业务/业务信息(图IA中的步骤S140)。作为基础业务术语提取单元1200、业务术语提取规则生成单元1300和业务术语提取单元1400的输入的非结构化文本I是自然语言形式的文本。服务提供商的非结构化文本可以是客户投诉/咨询/评论等。图2以电信运营商为例、示出了非结构化文本I的具体实例,如,“充值卡的有效期是多久”、“短号网出问题了,充100送30的话费也没赠送”
坐寸o另外,可选地,作为业务术语提取单元1400的输入,可以采用与非结构化文本I不同的非结构化文本2(部分不同或完全不同),即,将根据非结构化文本I生成的业务术语提 取规则应用于与之不同的非结构化文本2。通常,这种情况的优选应用场景应局限于相同服务的类似非结构化文本,例如,同一服务运营商不同月份的客户投诉/咨询。业务词典1110存储了服务提供商的各个业务名称,或者存储了服务提供商的各个业务名称和同义词形式。同样地,图3以电信运营商为例、示出了业务词典1110的具体实例,如“充值卡”、“短号集群网”、“充值优惠”、“GPRS”、“新闻早晚报纸”、“无故扣费”等业务,其中“短号网”是“短号集群网”的同义词,“gprs”是“GPRS”的同义词等。通常,业务词典1110是由服务提供商准备并提供的。图4是示出了基础业务术语提取单元1200的操作的流程图。如图4所示,基础业务术语提取单元1200执行以下操作步骤S410,从非结构化文本I中找出业务词典1110中的词;以及步骤S420,将所找到的词作为基础业务术语写入到基础业务术语库1120中。同样地,图4A以电信运营商为例、示出了基础业务术语提取单元1200的示例操作。针对非结构化文本“充值卡的有效期是多久”和“短号网出问题了,充100送30的话费也没赠送”,提取出基础业务术语“充值卡”和“短号网”,并写入基础业务术语库1120。图5是示出了业务术语提取规则生成单元1300的操作的流程图。如图5所示,业务术语提取规则生成单元1300执行以下操作。步骤S510,训练集收集基于基础业务术语库1120,从非结构化文本I中抽取出包含任一基础业务术语的句子,形成训练集。步骤S520,训练集自动标注对训练集中的每个训练句子,先利用公知的分词工具来分词,得到组成训练句子的各个词及其词性,然后自动标识每个词的位置标签。按照以下方法来标识每个词的位置标签今将基础业务术语的第一个词标记为A ;今将基础业务术语的最后一个词标记为C ;+将基础业务术语的中间词(即非第一个词也非最后一个词)标记为B ;+将基础业务术语之外的词标记为X。步骤S530,特征抽取针对训练集中基础业务术语包含的每个词Wf (假设Wf所处的句子的词序列为iWyWfiWgWfWMWfVWy),抽取以下两类特征类I :向左扩展特征,包括但不限于以下12个> Wf 的词性、
> Wf 的长度、> Wf在各个基础业务术语中出现的次数、> Wf在各个非结构化文本中出现的次数、> Wf作为基础业务术语第一个词的概率、> Wf作为基础业务术语中间词的概率、> Wf作为基础业务术语最后一个词的概率、> wf_J9词性、> Wf-JA 长度、
作为基础业务术语第一个词的概率、作为基础业务术语中间词的概率、> 作为基础业务术语最后一个词的概率。其中,为了适用于模型训练步骤S540的要求,可以将非离散(值难以穷举)的特征进行离散化。例如Wf作为基础业务术语第一个词的概率的计算方法首先,计算概率绝对值=Wf出现在各个基础业务术语第一个词的次数/Wf在各个基础业务术语中出现的次数;然后,通过将概率绝对值划分到区间
、(0.1,0.2]、(0.2,0.3]、(0.3,0. 4], (0.4,0. 5]、(0. 5,0. 6], (0. 6,0. 7], (0. 7,0. 8], (0. 8,0. 9]、(0. 9,I],从而实现概率值的离散化,以适用于模型训练步骤S540的要求。类2 :向右扩展特征,包括但不限于以下12个> Wf 的词性、> Wf 的长度、> Wf在各个基础业务术语中出现的次数、> Wf在各个非结构化文本中出现的次数、> Wf作为基础业务术语第一个词的概率、> Wf作为基础业务术语中间词的概率、> Wf作为基础业务术语最后一个词的概率、>界{+1的词性、>¥{+1的长度、>wf+1作为基础业务术语第一个词的概率、>wf+1作为基础业务术语中间词的概率、> wf+1作为基础业务术语最后一个词的概率。其中,为了适用于模型训练步骤S540的要求,可以将非离散(值难以穷举)的特征进行离散化。离散化方法同上。步骤S540,模型训练。首先,对训练集中基础业务术语包含的每个词Wf,识别出Wf的向左扩展类别和向右扩展类别,其中向左扩展类别的值域是{继续向左扩展,停止向左扩展},向右扩展类别的值域是{继续向右扩展,停止向右扩展}。具体的识别方法如下今向左扩展类别的识别如果Wf作为基础业务术语第一个词,则Wf的向左扩展类别是“停止向左扩展”,否则是“继续向左扩展”;以及今向右扩展类别的识别如果Wf作为基础业务术语最后一个词,则Wf的向右扩展类别是“停止向右扩展”,否则是“继续向右扩展”。然后,对训练集中所有的基础业务术语,生成以下集合>4勾成一个基础业务术语W的词集合为W = (W1, W2,…,WmI、>各个词的向左扩展特征集合为LF = (If1, If2,…,IfJ,其中Ifi = (f (L)!=Vi(L)1, f (L)2 = Vi (L)2,…,f (L)12 = Vi(L)12), f(L)」(j = I…12)为第 j 个向左扩展特征,Vi (L) j为词Wi的第j个向左扩展特征的值、>各个词的向右扩展特征集合为RF = Irf1, rf2,…,rfj,其中Tfi = K(R)1 =Vi(R)1, f (R)2 = Vi (R)2,…,f (R)12 = Vi(R)12), f(R)j(j = I…12)为第 j 个向右扩展特征 ,Vi (R) j为词Wi的第j个向右扩展特征的值、>各词的向左扩展类别集合为LC = Uc1, Ic2,…,IcJ、>各词的向右扩展类别集合为RC = Irc1, Tc2,…,rcj。其中m为词的个数,Ifi是词Wi的向左扩展特征,是词Wi的向右扩展特征,Ici是词Wi的向左扩展类别,rCi是词Wi的向右扩展类别,i = I…m。最后,米用机器学习方法,基于LF和LC来生成向左扩展规则集,基于RF和RC来生成向右扩展规则集。>向左扩展规则描述了 已知Wf是业务术语的一部分,是否将当前词Wf左边的词Wf^1也作为业务术语的一部分。>向右扩展规则描述了 已知Wf是业务术语的一部分,是否将当前词Wf右边的词wf+1也作为业务术语的一部分。规则反映了特征与扩展类别之间的关联,形式为“条件(特征名1,…,特征名n, )一扩展类别”例如向左扩展规则“Wf作为基础业务术语第一个词的概率=(0. 9,I]—停止向左扩展”。以下,给出了一种用在上述步骤S540中的机器学习方法的具体示例,用于生成向左扩展规则集(生成向右扩展规则集的具体示例与之类似),但显而易见的是,也可以利用公知的其他机器学习方法(如决策树算法等)来实现。(I)从12个向左扩展特征中选择重要特征,如“Wf的词性”、“Wf作为基础业务术语第一个词的概率”。(2)单特征规则提取计算根据上述每个重要特征的各值推导出每个向左扩展类别Ct的概率,其中Ct G {继续向左扩展,停止向左扩展},计算公式为
m
TAP(Va)j=k')=^~
I7其中如果Ifi =(…,f (L) j = Vi (L)j,…)中 Vi(L)j = Vj 且 Ici = CtJJ Si = I ;否则Si = 0 ;如果Ifi =(…,f (L) j = Vi(L)j,…)中 Vi(L)j = Vj,则 Ti = I ;否则 Ti = 0 ;
其中,V」是值域集合Vj = Iv1(L)j,…,Vi(L)j,…,vm (L)中的一个值,且遍历值域集合 ' 中的每一个值。例如,P( “wf作为基础业务术语第一个词的概率=(0.9,I]—停止向左扩展”)=2/2=1。如果P(" f (L)j = Vj-Ct")大于等于预先设定的概率阈值(如0.8),则生成条件为单个特征的向左扩展规则“f (L)j = Vj — ct”,并添加到向左扩展规则集中。(3)双特征规则提取如果P(" f(L)j = Vj — ct")小于预先设定的概率阈值,则联合12个向左扩展特征中的另一其他特征,重复步骤(2),计算公式可类似地扩展为
权利要求
1.ー种信息识别装置,包括 基础术语提取单元,用于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语; 术语提取规则生成単元,用于基于由所述基础术语提取单元提取出的基础术语和所述第一非结构化文本,生成术语提取规则; 术语提取単元,用于基于由所述基础术语提取单元提取出的基础术语、由所述术语提取规则生成単元生成的术语提取规则,从第二非结构化文本中提取出新的术语; 术语映射単元,用于将所述术语提取单元所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
2.根据权利要求I所述的信息识别装置,其特征在于 所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者 所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。
3.根据权利要求I或2所述的信息识别装置,其特征在于 所述术语映射単元基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或 所述术语映射単元基于字符串相似度,找出与所述术语提取单元所提取出的术语最相似的名称,作为所述最适合的名称。
4.根据权利要求I 3之一所述的信息识别装置,还包括 基础术语扩展单元,用于以所述术语提取单元所提取出的术语更新基础术语。
5.根据权利要求4所述的信息识别装置,其特征在于 在所述基础术语扩展单元对基础术语的更新改变了基础术语的数量的情况下, 所述术语提取规则生成単元基于更新后的基础术语,更新术语提取规则; 所述术语提取单元基于更新后的术语提取规则,再次执行从所述第二非结构化文本中提取新的术语的操作; 所述术语映射単元再次执行术语映射操作;以及 所述基础术语扩展单元再次执行对基础术语的更新操作, 在所述基础术语扩展单元对基础术语的更新未改变基础术语的数量的情况下, 所述术语提取规则生成単元、所述术语提取单元、所述术语映射単元和所述基础术语扩展单元结束操作。
6.根据权利要求I 5之一所述的信息识别装置,还包括 基于关键字的术语提取単元,用于在所述术语提取单元未能提取出新术语时,基于关键字表从所述第二非结构化文本中提取名称,作为所识别出的信息。
7.根据权利要求I 6之一所述的信息识别装置,其特征在于 所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。
8.根据权利要求I 7之一所述的信息识别装置,其特征在于 所述术语提取规则包括向左扩展规则和向右扩展规则。
9.根据权利要求8所述的信息识别装置,其特征在于 所述术语提取规则生成单元执行以下操作基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集; 对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识姆个词的位置标签; 针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。
10.根据权利要求8或9所述的信息识别装置,其特征在于所述术语提取单元执行以下操作 对所述第二非结构化文本中的各个句子,利用分词工具来分词,得到各个词及词性; 在各个句子中,找出基础术语中包含的词,作为术语中心词; 从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展; 合并扩展后的词,得到新的术语。
11.根据权利要求I 10之一所述的信息识别装置,其特征在于 所述词典中的名称包含以下内容中的至少ー项业务名称、产品名称、专利术语、和相关领域的关键词。
12.—种信息识别方法,包括 根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语; 基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则; 基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语; 将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
13.根据权利要求12所述的信息识别方法,其特征在于 所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者 所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。
14.根据权利要求12或13所述的信息识别方法,其特征在于 在术语-名称映射步骤中 基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或 基于字符串相似度,找出与所提取出的术语最相似的名称,作为所述最适合的名称。
15.根据权利要求12 14之一所述的信息识别方法,还包括 以所提取出的术语更新基础术语。
16.根据权利要求15所述的信息识别方法,其特征在于 在对基础术语的更新改变了基础术语的数量的情况下, 基于更新后的基础术语,更新术语提取规则; 基于更新后的术语提取规则,再次从所述第二非结构化文本中提取新的术语; 再次进行术语的映射;以及 再次执行对基础术语的更新,在对基础术语的更新未改变基础术语的数量的情况下,结束操作。
17.根据权利要求12 16之一所述的信息识别方法,还包括 在基于所提取出的基础术语和所生成的术语提取规则,未能从第二非结构化文本中提取出新的术语时,基于关键字表,从所述第二非结构化文本中提取名称,作为所识别出的信
18.根据权利要求12 17之一所述的信息识别方法,其特征在于 所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。
19.根据权利要求12 18之一所述的信息识别方法,其特征在于 所述术语提取规则包括向左扩展规则和向右扩展规则。
20.根据权利要求19所述的信息识别方法,其特征在于 所述生成术语提取规则的步骤包括以下子步骤 基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集; 对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识姆个词的位置标签; 针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。
21.根据权利要求19或20所述的信息识别方法,其特征在于 所述从第二非结构化文本中提取出新的术语的步骤包括以下子步骤 对所述第二非结构化文本中的各个句子,利用分词工具来分词,得到各个词及词性; 在各个句子中,找出基础术语中包含的词,作为术语中心词; 从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展; 合并扩展后的词,得到新的术语。
22.根据权利要求12 21之一所述的信息识别方法,其特征在于 所述词典中的名称包含以下内容中的至少ー项业务名称、产品名称、专利术语、和相关领域的关键词。
全文摘要
本发明提出了一种用于识别非结构化文本中的信息的方法和装置,能够处理包含/不包含名称或同义词形式的非结构化文本。根据本发明的信息识别装置包括基础术语提取单元,用于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;术语提取规则生成单元,用于基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则;术语提取单元,用于基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语;术语映射单元,用于将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
文档编号G06F17/27GK102693244SQ20111007730
公开日2012年9月26日 申请日期2011年3月23日 优先权日2011年3月23日
发明者丰强泽, 齐红威 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1