一种自动识别产品命名实体的方法及装置的制作方法

文档序号:6618910阅读:212来源:国知局

专利名称::一种自动识别产品命名实体的方法及装置的制作方法
技术领域
:本发明涉及语言处理领域,尤其涉及一种自动识别产品命名实体的方法及装置。
背景技术
:当今互联网上,拥有大量的信息,除了少部分图片和视频,绝大多数的信息是由文本来组织的,包括大量的新闻、介绍性文章等内容。这些文本信息中,有相当数量与产品有关,例如现在互联网硬件网站的介绍、评测性文章中都大量的出现产品信息。现有的技术不能有效自动的从这些信息中识别出文章中出现的产品信息,更缺乏相关技术,对文章的产品信息进行提取。相关工作包括产品命名实体识别的研究,产品命名实体是指在文本(文章中)出现的用来表征产品信息的短语片段。产品命名实体识别属于计算语言学的研究领域。目前有关文献发表的方法主要为基于统计/概率模型的命名实体识别,采用隐马尔可夫模型HMM、条件随机场CRF等方法进行命名实体识别。相关研究有中国科学院计算技术研究所张华平等的相关工作、富士通公司和中国科学院自动化所的刘非凡等进行的相关工作。这些识别方案是建立在一定的训练样本的统计/概率模型的基础之上,在学习/识别过程中不利用知识信息。同时其未对文本信息中潜在的命名实体进4亍标注,而不进行与知识库的对应;导致了知道这个是一个实体,但是不知道这个实体具体是什么的问题。
发明内容本发明要解决的技术问题是提供一种自动识别产品命名实体的方法及装置,能够识别出文本中的产品命名实体,并将该产品命名实体与知识库中的产品信息相对应。为了解决上述问题,本发明提供了一种自动识别产品命名实体的方法,包括根据各产品的产品信息构建产品知识库;识别文本中的产品命名实体;将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品。进一步地,所述根据各产品的产品信息构建产品知识库的步骤包括对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出该网页内各产品的产品信息,包括产品名、公司名、技术参数和出现频率,所述产品名包括厂家、品牌名、型号、系列名等信息中的一个或几个;计算产品名中各信息t对产品e的权重V(t|e):先得到出现各e,的概率P(e,)的总和,所述e,为包含t的产品;然后用出现e的概率P(e)除以所述总和得到V(t|e);以产品为条目,将产品信息和产品名中各信息的权重构建为产品知识库。进一步地,所述识别文本中的产品命名实体的步骤包括根据具体领域产品命名实体的构成规则,设定隐马尔可夫模型的状态集合以及产品命名实体的状态模板;通过对语料库的标注和最大似然法获取概率参数,所述语料库是指人工已经标注好状态的文本资料;进行状态标注时将词性和知识信息作为基本状态分类标准;所述知识信息包括潜在的公司名、品牌名、型号和系列名中的一个或几个;将文本分割为句子;利用隐马尔可夫模型计算出最大概率状态序列,根据最大概率状态序列匹配相应的产品命名实体的状态模板,识别出句子中所包括的产品命名实体。进一步地,将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品的步骤包括6计算识别出来的产品命名实体对所述产品知识库中的各产品的匹配度;当计算该产品命名实体对于一个产品e的匹配度时,在所述产品知识库中查找该产品命名实体中每个词对于该产品e的权重,然后相加得到对于该产品e的匹配度;对所述产品知识库中的所有产品的匹配度进行排序,确定匹配度最高的产品为所述识别出来的产品命名实体所对应的产品知识库中的产品。进一步地,所述的方法还包括当计算对某个产品的匹配度时,如果所述识别出来的产品命名实体前第d个词为该产品的厂商信息,则将对该产品的匹配度增加l/d+4。本发明还提供了一种自动识别产品命名实体的装置,包括构建单元,用于根据各产品的产品信息构建产品知识库;识别单元,用于识别文本中的产品命名实体;对应单元,用于将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产印o进一步地,所述构建单元包括提取模块,用于对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出该网页内各产品的产品信息,包括产品名、公司名、技术参数和出现频率,所述产品名包括厂家、品牌名、型号、系列名等信息中的一个或几个;权重计算模块,用于计算产品名中各信息t对产品e的权重V(t|e):先得到出现各e,的概率P(e,)的总和,所述e,为包含t的产品;然后用出现e的概率P(e)除以所述总和得到V(t|e);建库模块,用于以产品为条目,将产品信息和产品名中各信息的权重构建为产品知识库。进一步地,所述识别单元包括设置模块,用于根据具体领域产品命名实体的构成规则,设定隐马尔可夫模型的状态集合以及产品命名实体的状态模板;参数计算模块,通过对预存的语料库的标注和最大似然法获取概率参数,所述语料库是指人工已经标注好状态的文本资料;进行状态标注时将词性和知识信息作为基本状态分类标准;所述知识信息包括潜在的公司名、品牌名、型号和系列名中的一个或几个;识别模块,用于将文本分割为句子,利用隐马尔可夫模型计算出最大概率状态序列,根据最大概率状态序列匹配相应的产品命名实体的状态模板,分别识别出各句子中所包括的产品命名实体。进一步地,所述对应单元包括计算模块,计算识别出来的产品命名实体对所述产品知识库中的各产品的匹配度;该产品命名实体对于一个产品e的匹配度为所述产品知识库中该产品命名实体中每个词对于该产品e的权重之和;选择模块,用于对匹配度排序,选择匹配度最高的产品为所述识别出来的产品命名实体所对应的产品知识库中的产品。进一步地,所述对应单元还包括加权模块,用于当所述识别出来的产品命名实体前第d个词为某个产品的厂商信息时,将对该产品的匹配度增加1/d+4。本发明的技术方案能够自动的提取文本中关于产品命名实体的语义信息,并将其与产品知识库中的相关数据项相对应,提高了识别的正确性,并图1为实施例二中的自动识别产品命名实体的装置的示意框图。具体实施例方式下面将结合附图及实施例对本发明的技术方案进行更详细的说明。本文中,产品知识库是指存储产品信息通过自动、手工办法维护,并具有自更新能力的数据库。其中每一数据项对应一种具体的硬件产品,包含产品名、生产厂家等可以帮助识别的产品信息。实施例一,一种自动识别产品命名实体的方法,包括根据各产品的产品信息构建产品知识库;识别文本中的产品命名实体;将识别出的产品命名实体与所述产品知识库中的产品进行匹S己,确定所述识别出的产品命名实体为所述产品知识库中匹配度最高的产品。本实施例中,所述根据各产品的产品信息构建产品知识库的步骤包括对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出该网页内各产品的产品信息,包括产品名、公司名、技术参数、出现频率(一般用相关文章数量来替换)等等,所述产品名包括厂家、品牌名、型号、系列名等信息中的一个或几个;以产品为条目,将产品信息构建为产品知识库,并自适应调节产品名中各信息的权重。如一网页中的文本标题为"佳能EOS450D(CanonEos450D),,,标注了实体标准名为佳能EOS450D,别名为CanonEos450D。而在该网页后继部分中标注了相关文章。利用该信息及下一等式V(t|e)=P(t|g)P(e)~~可以计算出每个词的权重,V(tle)为词t对实体e(这里就是指产品)的权重,P(elt)为出现e在t下的概率,具体为后面的分式,其中P(e)为出现实体e的概率,e'为包含词t的各实体,一个词t可能包含在多个实体中,比如厂家名。在大量抓取网页信息的时候,概率用所述出现频率近似,也不排除用其它方式得到。建立好的产品知识库以产品为条目,每个条目中包括该产品的产品名和其它产品信息,还包括构成该产品名的各个组成部分的词的权重信息。每个词t在产品e的权重V(tle)即为上以等式所求。这里的词t就是指上文所述的产品名中的一种信息,比如厂家、品牌名、型号或系列名。本实施例中,所述识别文本中的产品命名实体的步骤包括根据具体领域产品命名实体的主要构成规则,设定隐马尔可夫模型的状态集合以及产品命名实体的状态模板;对要识别的文本按句子切割,分割后分别按照各句子中相应语义成分的相对位置、句子角色匹配所述状态模块,根据所述状态模板对句子里的词语进行状态标注;进行状态标注时除了将词性作为基本状态分类标准以外,本实施例中还利用了知识信息,对潜在的公司名、品牌名、型号和系列名进行状态分类。例如利用知识信息标注潜在的品牌名、潜在系列名和潜在型号中的一个或几个。潜在的品牌名、系列名、型号的列表是根据具体领域事先整理出来的。比如文本中的一个句子为"这款联想天逸F31A-ST配备的250GB硬盘",其中"联想"为实体内品牌名,"天逸"为系列名,"F31A-ST"为型号;将句子中相应词的状态分别标注为所述实体的品牌、系列名和型号。根据具体领域产品实体定义状态集合,通过对语料库的标注和最大似然法获取概率参数,所述语料库是指人工已经标注好状态(就是实体)的文本资料,所述概率参数即概率矩阵,是隐马尔可夫模型中的三要素之一,直观来说就是代表什么样的序列有多大概率是实体;然后将任意的文本作为观察序列,利用隐马尔可夫模型可以计算出最大概率状态序列,根据最大概率状态序列匹配相应的产品命名实体的状态模板,获取相应的识别结果,即识别出句子中所包括的产品命名实体。实际应用中也可以利用其它模型进行状态模板的匹配。过机器学习来计算出概率参数;之后利用概率参数和观察值来计算最有可能的结果。需要注意的是,实际文本中出现的产品命名实体有可能是一个完整的实体中的一部分,有可能缺少厂家,型号,系列名等产品信息中的一个或多个。本实施例中,所述将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品的步骤包括相应的,对于识别出来的产品命名实体,通过计算权重V(tle)和,可以得到这个产品命名实体对知识库中的产品e的匹配度。同时可以进一步利用该产品命名实体所在文本上下文中出现的厂商信息对所述匹配度进行加权,加斥又办法为1.0」,实体前第d个词指示了产品e的厂商信息d+40,之前没有指示产品e的厂商信息最后的Me即为所述识别出来的产品命名实体对产品e的匹配度。对产品知识库中的所有产品el,e2,…,en做匹配度计算后排序,确定匹配度最高的产品为所述识别出来的产品命名实体所对应的产品知识库中的产品。比如包含所述识别出来的产品命名实体的句子为Wlw2...wn,k就是该产品命名实体第一个词的位置,l为该产品命名实体结束的词的位置,即wkwk+1...Wl为一个实体,Wi就是所述识别出来的产品命名实体中的一个词;也就是说当计算所述识别出来的产品命名实体对于某个产品e的匹配度时,在所述产品知识库中查找该产品命名实体中每个词对于该产品e的权重,然后相加得到对于该产品e的匹配度;如果进行加权,则当所述识别出来的产品命名实体前第d个词为某个产品的厂商信息时,将对该产品e的匹配度增加1/d+4。实际应用时,还可以用别的产品信息来进行加权;加权的值也可以是其它计算式。下面用一个实例具体说明。例如规定可能的观察值的集合如下将待识别的句子进行中文分词且按照PKU-POS规定的词性集合进行词性标注;每种词性归为一种观察值。PKU-POS是一种由北京大学计算语言所创立的汉语词性标注标准,例如名词为n,人名nr等等。并利用知识信息标注潜在的品牌名、潜在系列名和潜在型号中的一个或几个。如果某个词是一个已知的公司、商标、组织的名称,确定其观察值为"CN,,;如果某个词是一个字母、数字的组合,确定其观察值为潜在的型号名"画,,;如果某个词是一个潜在的限制属性,确定其观察值为"LA"。将不同的观察值作为不同的状态,利用观察值来判断哪一字段最有可能是实体;由出现过的多个状态的各种连接方式得到不同的状态模块。得到如表1所示的状态集合和如表2所示的产品命名实体的状态模板表l、状态集合<table>tableseeoriginaldocumentpage12</column></row><table>表2、产品命名实体的模板<table>tableseeoriginaldocumentpage12</column></row><table>通过以上一些要素可以利用隐马尔可夫^t型进行命名实体识别。然后通过从中关村在线zol.com.cn上获取的信息,进行与所述产品知识库的对应工作,例如如下一句"S550相机继承了尼康COOLPIX系列产品的优点"其中仅S550—词被识别为实体。假设库中拥有"尼康S550"和"纽曼S550"两个产品,且这两个产品的出现频度一样。根据上一等式,该实体仍能被正确识别为尼康S550,因为其上下文出现了"尼康",在和式1.0/(d+4)这一项中提供较高权重,对知识库中所有实体排序后"尼康S550"的匹配度将最高,因此识别结果为尼康S550。实施例二,一种自动识别产品命名实体的装置,如图l所示,包括构建单元,用于才艮据各产品的产品信息构建产品知识库;识别单元,用于识别文本中的产品命名实体;对应单元,用于将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产口Po本实施例中,所述构建单元包括提取模块,用于对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出该网页内各产品的产品信息,包括产品名、公司名、技术参数和出现频率,所述产品名包括厂家、品牌名、型号、系列名等信息中的一个或几个;权重计算模块,用于计算产品名中各信息t对产品e的权重V(t|e):先得到出现各e,的概率P(e,)的总和,所述e,为包含t的产品;然后用出现e的概率P(e)除以所述总和得到V(t|e);所述概率可以但不限于为所述出现频率;建库模块,用于以产品为条目,将产品信息和产品名中各信息的权重构建为产品知识库。本实施例中,所述识别单元包括设置模块,用于根据具体领域产品命名实体的构成规则,设定隐马尔可夫模型的状态集合以及产品命名实体的状态模板;参数计算模块,通过对预存的语料库的标注和最大似然法获取概率参数,所述语料库是指人工已经标注好状态的文本资料;进行状态标注时将词性和知识信息作为基本状态分类标准;所述知识信息包括潜在的公司名、品牌名、型号和系列名中的一个或几个;识别模块,用于将文本分割为句子,利用隐马尔可夫模型计算出最大概率状态序列,根据最大概率状态序列匹配相应的产品命名实体的状态模板,分别识别出各句子中所包括的产品命名实体。本实施例中,所述对应单元包括计算模块,计算识别出来的产品命名实体对所述产品知识库中的各产品的匹配度;该产品命名实体对于一个产品e的匹配度为所述产品知识库中该产品命名实体中每个词对于该产品e的权重之和;选捧模块,用于对产品知识库中的所有产品做匹配度计算后排序,选择匹配度最高的产品为所述识别出来的产品命名实体所对应的产品知识库中的产品。本实施例中,所述对应单元还可以包括加权模块,用于当所述识别出来的产品命名实体前第d个词为某个产品的厂商信息时,将对该产品的匹配度增加1/d+4。其它实现细节可以与实施例一相同。当然,本发明还可有其他多种实施例,在不背离本明精神及其实质的形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。权利要求1、一种自动识别产品命名实体的方法,包括根据各产品的产品信息构建产品知识库;识别文本中的产品命名实体;将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品。2、如权利要求l所述的方法,其特征在于,所述根据各产品的产品信息构建产品知识库的步骤包括对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出该网页内各产品的产品信息,包括产品名、公司名、技术参数和出现频率,所述产品名包括厂家、品牌名、型号、系列名等信息中的一个或几个;计算产品名中各信息t对产品e的权重V(t|e):先得到出现各e,的概率P(e,)的总和,所述e,为包含t的产品;然后用出现e的概率P(e)除以所述总和得到V(t|e);以产品为条目,将产品信息和产品名中各信息的权重构建为产品知识库。3、如权利要求1所述的方法,其特征在于,所述识别文本中的产品命名实体的步骤包括根据具体领域产品命名实体的构成规则,设定隐马尔可夫模型的状态集合以及产品命名实体的状态才莫板;通过对语料库的标注和最大似然法获取概率参数,所述语料库是指人工已经标注好状态的文本资料;进行状态标注时将词性和知识信息作为基本状态分类标准;所述知识信息包括潜在的公司名、品牌名、型号和系列名中的一个或几个;将文本分割为句子;利用隐马尔可夫模型计算出最大概率状态序列,根据最大概率状态序列匹配相应的产品命名实体的状态模板,识别出句子中所包括的产品命名实体。4、如权利要求2所述的方法,其特征在于,将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品的步骤包括计算识别出来的产品命名实体对所述产品知识库中的各产品的匹配度;当计算产品命名实体对一个产品e的匹配度时,在所述产品知识库中查找该产品命名实体中每个词对于该产品e的权重,然后相加得到对于该产品e的匹配度;对所述产品知识库中的所有产品的匹配度进行排序,确定匹配度最高的产品为所述识别出来的产品命名实体所对应的产品知识库中的产品。5、如权利要求4所述的方法,其特征在于,还包括当计算对某个产品的匹配度时,如果所述识别出来的产品命名实体前第d个词为该产品的厂商信息,则将对该产品的匹配度增加1/d+4。6、一种自动识别产品命名实体的装置,其特征在于,包括构建单元,用于根据各产品的产品信息构建产品知识库;识别单元,用于识别文本中的产品命名实体;对应单元,用于将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品07、如权利要求6所述的装置,其特征在于,所述构建单元包括提取模块,用于对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出该网页内各产品的产品信息,包括产品名、公司名、技术参数和出现频率,所述产品名包括厂家、品牌名、型号、系列名等信息中的一个或几个;权重计算模块,用于计算产品名中各信息t对产品e的权重V(t|e):先得到出现各e,的概率P(e,)的总和,所述e,为包含t的产品;然后用出现e的概率P(e)除以所述总和得到V(t|e);建库模块,用于以产品为条目,将产品信息和产品名中各信息的权重构建为产品知识库。8、如权利要求6所述的装置,其特征在于,所述识别单元包括设置模块,用于根据具体领域产品命名实体的构成规则,设定隐马尔可夫模型的状态集合以及产品命名实体的状态模板;参数计算模块,通过对预存的语料库的标注和最大似然法获取概率参数,所述语料库是指人工已经标注好状态的文本资料;进行状态标注时将词性和知识信息作为基本状态分类标准;所述知识信息包括潜在的公司名、品牌名、型号和系列名中的一个或几个;识别模块,用于将文本分割为句子,利用隐马尔可夫模型计算出最大概率状态序列,根据最大概率状态序列匹配相应的产品命名实体的状态模板,分别识别出各句子中所包括的产品命名实体。9、如权利要求7所述的装置,其特征在于,所述对应单元包括计算模块,计算识别出来的产品命名实体对所述产品知识库中的各产品的匹配度;该产品命名实体对于一个产品e的匹配度为所述产品知识库中该产品命名实体中每个词对于该产品e的权重之和;其中,k是所述识别出来的产品命名实体第一个词在包含该产品命名实体的句子中的位置,1为该产品命名实体结束的词在包含该产品命名实体的句子中的位置;Wi是所述识别出来的产品命名实体中的一个词;选择模块,用于对匹配度排序,选择匹配度最高的产品为所述识别出来的产品命名实体所对应的产品知识库中的产品。10、如权利要求9所述的装置,其特征在于,所述对应单元还包括加权模块,用于当所述识别出来的产品命名实体前第d个词为某个产品的厂商信息时,将对该产品的匹配度增加1/d+4。全文摘要本发明公开了一种自动识别产品命名实体的方法及装置;方法包括根据各产品的产品信息构建产品知识库;识别文本中的产品命名实体;将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品。本发明能够识别出文本中的产品命名实体,并将该产品命名实体与知识库中的产品信息相对应。文档编号G06F17/30GK101576910SQ200910085070公开日2009年11月11日申请日期2009年5月31日优先权日2009年5月31日发明者于文渊申请人:北京学之途网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1