一种短文本信息提取方法和装置与流程

文档序号:15445443发布日期:2018-09-14 23:18阅读:172来源:国知局

本发明涉及数据处理技术领域,尤其涉及的是一种短文本信息提取方法和装置。



背景技术:

短文本在生活中有广泛的应用,包括短信、聊天记录、微博、购物评论等。以短信为例,在通讯运营领域,短信是重要的通讯手段之一。通讯运营商,广告营销商,普通商户,银行业及个人即时通讯均会通过短信的形式进行信息的传输。因而,短信的种类有多元化的情况,例如广告推送短信、业务通知短信、手机验证短信、以及普通人群间的互动短信等。

海量短文本数据中蕴藏着大量的信息,比如,人名、地名、品牌名、店铺名、产品名、号码、时间等,因此,如何精准定位短文本的种类,识别出短文本中的有用信息,是需要解决的问题。



技术实现要素:

本发明所要解决的技术问题是提供一种短文本信息提取方法和装置,能够自动从海量短文本数据中高效地提取出关注的信息,适应性好。

本发明实施例提供了一种短文本信息提取方法,该方法包括:

对短文本训练集中的各个短文本进行聚类;

建立每一个短文本类别的模型,并对所述模型中出现的命名实体进行标注;

将目标短文本与各个短文本类别的模型进行匹配,在成功匹配到短文本模型后,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取。

可选地,所述对短文本训练集进行短文本聚类,包括:

对所述短文本训练集中的各个短文本进行分词;

将词语作为短文本的特征,确定每一个短文本中各个词语的权重,根据短文本中各个词语以及词语的权重确定所述短文本的词语特征;

将词语划分为n个主题,将主题作为短文本的特征,用潜在语义索引lsi算法将短文本的特征维度从词语特征维度降低为主题特征维度;

通过聚类算法将所述训练集中的各个短文本聚类为多个类别。

可选地,所述确定每一个短文本中各个词语的权重,包括:

对任意一个短文本中的任意一个词语,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重。

可选地,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重,包括:采用词频-逆向文件频率tf-idf算法确定词语在短文本中的权重q:

将词语在短文本中的出现次数n除以所述短文本包含的词语总数n1后得到的商作为第一参数,将所述短文本所在的训练集包含的短文本总数n2除以1与所述词语出现的短文本总数m的和得到的商的对数作为第二参数,将所述第一参数与所述第二参数的乘积作为所述词语在所述短文本中的权重q。

可选地,所述建立每一个短文本类别的模型,包括:建立每一个短文本类别的特征谱隐马尔科夫模型phmm;

其中,建立任意一个短文本类别的phmm模型,包括:

根据词语之间的相似度进行所述类别的两两短文本之间的比对找到最大公共子序列,所述最大公共子序列中各个位置的词语对应于phmm模型的各个匹配状态;

对每一个匹配状态,在所述匹配状态的位置上出现的各个词语以及每一个词语在该位置上出现的概率构成了所述匹配状态的概率分布;每一个匹配状态还对应一个插入状态和一个删除状态;

将任意一个短文本表示为所述phmm模型中的一条路径,所述路径开始于开始状态,结束于终止状态,中间至少经过一个匹配状态,所述路径上不同状态之间依概率转移。

可选地,所述建立每一个短文本类别的特征谱隐马尔科夫模型phmm之前,所述方法还包括:

从每一个短文本类别中抽取样本:从所述类别中挑选出现频次最高的短文本作为种子,根据余弦相似度找出距离所述种子最近且不重复的a个短文本,将这些选出的a+1个短文本作为所述类别的样本以用于建立所述类别的特征谱隐马尔科夫模型。

可选地,所述对所述模型中出现的命名实体进行标注,包括:

对所述模型上的匹配状态和插入状态进行标注,标注出属于命名实体的部分。

可选地,所述将目标短文本与各个短文本类别的模型进行匹配,包括:

确定目标短文本与各类短文本模型的匹配度;其中,目标短文本与任意一类短文本模型的匹配度是:所述目标短文本对应的该类短文本phmm模型中的匹配路径包含的匹配状态个数m与所述phmm模型中的匹配状态总数n的比值;n大于或等于m;

将匹配度最高的phmm模型对应的短文本类别作为所述目标短文本归属的类别。

本发明实施例提供了一种短文本信息提取装置,包括:

聚类模块,用于对短文本训练集中的各个短文本进行聚类;

建模模块,用于建立每一个短文本类别的模型,并对所述模型中出现的命名实体进行标注;

信息提取模块,用于将目标短文本与各个短文本类别的模型进行匹配,在成功匹配到短文本模型后,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取。

可选地,聚类模块,用于采用以下方式对短文本训练集进行短文本聚类:

对所述短文本训练集中的各个短文本进行分词;

将词语作为短文本的特征,确定每一个短文本中各个词语的权重,根据短文本中各个词语以及词语的权重确定所述短文本的词语特征;

将词语划分为n个主题,将主题作为短文本的特征,用潜在语义索引lsi算法将短文本的特征维度从词语特征维度降低为主题特征维度;

通过聚类算法将所述训练集中的各个短文本聚类为多个类别。

可选地,聚类模块,用于采用以下方式确定每一个短文本中各个词语的权重:

对任意一个短文本中的任意一个词语,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重。

可选地,聚类模块,用于采用以下方式根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重:采用词频-逆向文件频率tf-idf算法确定词语在短文本中的权重q:

将词语在短文本中的出现次数n除以所述短文本包含的词语总数n1后得到的商作为第一参数,将所述短文本所在的训练集包含的短文本总数n2除以1与所述词语出现的短文本总数m的和得到的商的对数作为第二参数,将所述第一参数与所述第二参数的乘积作为所述词语在所述短文本中的权重q。

可选地,建模模块,用于采用以下方式建立每一个短文本类别的模型:建立每一个短文本类别的特征谱隐马尔科夫模型phmm;

其中,建立任意一个短文本类别的phmm模型,包括:

根据词语之间的相似度进行所述类别的两两短文本之间的比对找到最大公共子序列,所述最大公共子序列中各个位置的词语对应于phmm模型的各个匹配状态;

对每一个匹配状态,在所述匹配状态的位置上出现的各个词语以及每一个词语在该位置上出现的概率构成了所述匹配状态的概率分布;每一个匹配状态还对应一个插入状态和一个删除状态;

将任意一个短文本表示为所述phmm模型中的一条路径,所述路径开始于开始状态,结束于终止状态,中间至少经过一个匹配状态,所述路径上不同状态之间依概率转移。

可选地,建模模块,还用于在建立每一个短文本类别的特征谱隐马尔科夫模型phmm之前,还从每一个短文本类别中抽取样本:从所述类别中挑选出现频次最高的短文本作为种子,根据余弦相似度找出距离所述种子最近且不重复的a个短文本,将这些选出的a+1个短文本作为所述类别的样本以用于建立所述类别的特征谱隐马尔科夫模型。

可选地,建模模块,用于采用以下方式对所述模型中出现的命名实体进行标注:

对所述模型上的匹配状态和插入状态进行标注,标注出属于命名实体的部分。

可选地,信息提取模块,用于采用以下方式将目标短文本与各个短文本类别的模型进行匹配:

确定目标短文本与各类短文本模型的匹配度;其中,目标短文本与任意一类短文本模型的匹配度是:所述目标短文本对应的该类短文本phmm模型中的匹配路径包含的匹配状态个数m与所述phmm模型中的匹配状态总数n的比值;n大于或等于m;

将匹配度最高的phmm模型对应的短文本类别作为所述目标短文本归属的类别。

与现有技术相比,本发明实施例提供的一种短文本信息提取方法和装置,对短文本训练集中的各个短文本进行聚类,建立每一个短文本类别的模型,并对所述模型中出现的命名实体进行标注,将目标短文本与各个短文本类别的模型进行匹配,在成功匹配到短文本模型后,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取。本发明实施例能够自动从海量短文本数据中高效地提取出关注的信息,适应性好。

附图说明

图1为本发明实施例中一种短文本信息提取方法的流程图。

图2为本发明实施例中一种短文本信息提取装置示意图。

图3为本发明示例1中对短文本训练集进行短文本聚类的方法流程图。

图4为本发明示例2中对各类短文本进行建模和标注的方法流程图。

图4-1为本发明示例2中一种phmm模型结构的示意图。

图4-2为本发明示例2中根据一类短文本样本建立的phmm模型结构的示意图。

图4-3为本发明示例2中一个短文本样本对应的phmm模型结构中的一条路径的示意图。

图4-4为本发明示例2中另一个短文本样本对应的phmm模型结构中的一条路径的示意图。

图4-5为本发明示例2中对phmm模型结构进行命名实体标注的示意图。

图5为本发明示例3中利用各类短文本的phmm模型对目标短文本进行归类与信息提取的方法的流程图。

图5-1为本发明示例3中第一类短文本样本的phmm模型结构的示意图。

图5-2为本发明示例3中第二类短文本样本的phmm模型结构的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

如图1所示,本发明实施例提供了一种短文本信息提取方法,该方法包括:

s110,对短文本训练集中的各个短文本进行聚类;

s120,建立每一个短文本类别的模型,并对所述模型中出现的命名实体进行标注;

s130,将目标短文本与各个短文本类别的模型进行匹配,在成功匹配到短文本模型后,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取;

所述方法还可以包括下述特点:

在本实施例中,所述对短文本训练集进行短文本聚类,包括:

对所述短文本训练集中的各个短文本进行分词;

将词语作为短文本的特征,确定每一个短文本中各个词语的权重,根据短文本中各个词语以及词语的权重确定所述短文本的词语特征;

将词语划分为n个主题,将主题作为短文本的特征,用潜在语义索引(latentsemanticindexing,简称lsi)算法将短文本的特征维度从词语特征维度降低为主题特征维度;

通过聚类算法将所述训练集中的各个短文本聚类为多个类别;

在一种实施方式中,所述确定每一个短文本中各个词语的权重,包括:

对任意一个短文本中的任意一个词语,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重;

在一种实施方式中,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重,包括:采用词频-逆向文件频率tf-idf算法确定词语在短文本中的权重q:

将词语在短文本中的出现次数n除以所述短文本包含的词语总数n1后得到的商作为第一参数,将所述短文本所在的训练集包含的短文本总数n2除以1与所述词语出现的短文本总数m的和得到的商的对数作为第二参数,将所述第一参数与所述第二参数的乘积作为所述词语在所述短文本中的权重q;

其中,tf-idf算法确定词语在短文本中的权重q可以参见下述公式1-1;

在一种实施方式中,所述通过聚类算法将所述训练集中的各个短文本聚类为多个类别,包括:通过k-means算法将所述训练集中的各个短文本聚类为多个类别;

在本实施例中,所述建立每一个短文本类别的模型,包括:建立每一个短文本类别的特征谱隐马尔科夫模型(profilehiddenmarkovmodel,简称phmm);

其中,建立任意一个短文本类别的phmm模型,包括:

根据词语之间的相似度进行所述类别的两两短文本之间的比对找到最大公共子序列,所述最大公共子序列中各个位置的词语对应于phmm模型的各个匹配状态;

对每一个匹配状态,在所述匹配状态的位置上出现的各个词语以及每一个词语在该位置上出现的概率构成了所述匹配状态的概率分布;每一个匹配状态还对应一个插入状态和一个删除状态;

将任意一个短文本表示为所述phmm模型中的一条路径,所述路径开始于开始状态,结束于终止状态,中间至少经过一个匹配状态,所述路径上不同状态之间依概率转移;

在一种实施方式中,所述建立每一个短文本类别的特征谱隐马尔科夫模型phmm之前,所述方法还包括:

从每一个短文本类别中抽取样本:从所述类别中挑选出现频次最高的短文本作为种子,根据余弦相似度找出距离所述种子最近且不重复的a个短文本,将这些选出的a+1个短文本作为所述类别的样本以用于建立所述类别的特征谱隐马尔科夫模型;

在一种实施方式中,所述对所述模型中出现的命名实体进行标注,包括:

对所述模型上的匹配状态和插入状态进行标注,标注出属于命名实体的部分。

在本实施例中,所述将目标短文本与各个短文本类别的模型进行匹配,包括:

确定目标短文本与各类短文本模型的匹配度;其中,目标短文本与任意一类短文本模型的匹配度是:所述目标短文本对应的该类短文本phmm模型中的匹配路径包含的匹配状态个数m与所述phmm模型中的匹配状态总数n的比值;n大于或等于m;

将匹配度最高的phmm模型对应的短文本类别作为所述目标短文本归属的类别;

如图2所示,本发明实施例提供了一种短文本信息提取装置,包括:

聚类模块201,用于对短文本训练集中的各个短文本进行聚类;

建模模块202,用于建立每一个短文本类别的模型,并对所述模型中出现的命名实体进行标注;

信息提取模块203,用于将目标短文本与各个短文本类别的模型进行匹配,在成功匹配到短文本模型后,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取。

在本实施例中,聚类模块,用于采用以下方式对短文本训练集进行短文本聚类:

对所述短文本训练集中的各个短文本进行分词;

将词语作为短文本的特征,确定每一个短文本中各个词语的权重,根据短文本中各个词语以及词语的权重确定所述短文本的词语特征;

将词语划分为n个主题,将主题作为短文本的特征,用潜在语义索引lsi算法将短文本的特征维度从词语特征维度降低为主题特征维度;

通过聚类算法将所述训练集中的各个短文本聚类为多个类别。

在本实施例中,聚类模块,用于采用以下方式确定每一个短文本中各个词语的权重:

对任意一个短文本中的任意一个词语,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重。

在一种实施方式中,聚类模块,用于采用以下方式根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重:采用词频-逆向文件频率tf-idf算法确定词语在短文本中的权重q:

将词语在短文本中的出现次数n除以所述短文本包含的词语总数n1后得到的商作为第一参数,将所述短文本所在的训练集包含的短文本总数n2除以1与所述词语出现的短文本总数m的和得到的商的对数作为第二参数,将所述第一参数与所述第二参数的乘积作为所述词语在所述短文本中的权重q。

在本实施例中,建模模块,用于采用以下方式建立每一个短文本类别的模型:建立每一个短文本类别的特征谱隐马尔科夫模型phmm;

其中,建立任意一个短文本类别的phmm模型,包括:

根据词语之间的相似度进行所述类别的两两短文本之间的比对找到最大公共子序列,所述最大公共子序列中各个位置的词语对应于phmm模型的各个匹配状态;

对每一个匹配状态,在所述匹配状态的位置上出现的各个词语以及每一个词语在该位置上出现的概率构成了所述匹配状态的概率分布;每一个匹配状态还对应一个插入状态和一个删除状态;

将任意一个短文本表示为所述phmm模型中的一条路径,所述路径开始于开始状态,结束于终止状态,中间至少经过一个匹配状态,所述路径上不同状态之间依概率转移。

在一种实施方式中,建模模块,还用于在建立每一个短文本类别的特征谱隐马尔科夫模型phmm之前,还从每一个短文本类别中抽取样本:从所述类别中挑选出现频次最高的短文本作为种子,根据余弦相似度找出距离所述种子最近且不重复的a个短文本,将这些选出的a+1个短文本作为所述类别的样本以用于建立所述类别的特征谱隐马尔科夫模型。

在本实施例中,建模模块,用于采用以下方式对所述模型中出现的命名实体进行标注:

对所述模型上的匹配状态和插入状态进行标注,标注出属于命名实体的部分。

在本实施例中,信息提取模块,用于采用以下方式将目标短文本与各个短文本类别的模型进行匹配:

确定目标短文本与各类短文本模型的匹配度;其中,目标短文本与任意一类短文本模型的匹配度是:所述目标短文本对应的该类短文本phmm模型中的匹配路径包含的匹配状态个数m与所述phmm模型中的匹配状态总数n的比值;n大于或等于m;

将匹配度最高的phmm模型对应的短文本类别作为所述目标短文本归属的类别。

示例1

如图3所示,对短文本训练集进行短文本聚类,可以包括下述步骤:

步骤s301,对训练集中的各个短文本进行分词;

其中,句子的语义单元是词语;

假设分词后词语与词语之间以空格分隔,分词样例如下所示:

分词前:

“【直销通】您的验证码是:422977。请不要把验证码泄露给其他人。如非本人操作,可不用理会!2015-05-31”

分词后:

“【直销通】您的验证码是:422977。请不要把验证码泄露给其他人。如非本人操作,可不用理会!2015-05–31”

步骤s302,将词语作为短文本的特征,确定每一个短文本中各个词语的权重,根据短文本中各个词语以及词语的权重确定所述短文本的词语特征;

比如,可以采用词频-逆向文件频率(termfrequency–inversedocumentfrequency,简称tf-idf)算法确定短文本中各个词语的权重q,具体计算公式参见前述公式(1-1);

比如,短文本集合中共有1,000,000个短文本,常见词“的”在99,999个短文本中出现,并且在某一短文本的出现频次是3次,这一短文本共有20个词,那么,“的”这个词在所述短文本中的权重q为0.15:

再比如,另一个词“直销”在99个短文本中出现,并且在上述短文本中的出现频次是1次,那么,“直销”这个词在所述短文本中的权重q是:

可以看出,虽然常见词“的”在短文本中的出现频率高于非常见词,但是,常见词如“您”、“的”和“是”等在很多文本中都出现,相对于“直销”、“验证”、“泄露”等非常见词,它们的出现次数对区分文本作用不大。因此,通过tf-idf算法可以降低常见词在短文本中的权重;

步骤s303,将词语划分为n个主题,将主题作为短文本的特征,用降维算法(比如,潜在语义索引(latentsematicindexing,简称lsi))将短文本的特征维度从词语特征维度降低为主题特征维度;

比如,由于短文本的词语特征维度(训练集中所有不重复的词语的数量)较大,因此采用降维算法降低短文本的特征维度;

比如,训练集有128076条短文本,其中含有110780个不同的词。通过降维,从词语特征维度降低到主题特征维度,从110780维降低到200维。

步骤s304,通过聚类算法(比如,k-means算法)将所述训练集中的各个短文本聚类为多个类别;

比如,设定聚类后的类别总数为k,然后运行k-means算法,将所述训练集中的各个短文本聚类为k个类别;

比如,聚类后的某个类别的部分数据如下所示:

'【直销通】您的验证码是:422977。请不要把验证码泄露给其他人。如非本人操作,可不用理会!2015-05-31',

'【直销通】您的验证码是:512388。请不要把验证码泄露给其他人。如非本人操作,可不用理会!',

'【酷士多网络】【旺财】您的验证码是:【84873】。请不要把验证码泄露给其他人。如非本人操作,可不用理会!',

'【轻松筹】验证码:79644。请不要把验证码泄露给其他人。如非本人操作,可不用理会',

'【轻松筹】验证码:99173。请不要把验证码泄露给其他人。如非本人操作,可不用理会',

'验证码:26392。请不要把验证码泄露给其他人。如非本人操作,可不用理会'

示例2

如图4所示,对短文本训练集中的各个类别建立模型,并对模型上出现的命名实体进行标注,可以包括下述步骤:

步骤s401,从所述短文本训练集的各个类别中抽取样本;

由于每个类别内短文本的数目很大,因此在建模前,需要从每个类别中挑选短文本样本进行建模;

可以先挑出在这个类别内,出现频次最高的短文本,然后以此短文本为种子,以lsi降维后的主题特征为特征,用余弦相似度找出距离所述种子最近且不重复的a个短文本,以这些挑选出的a+1个短文本作为此类别建模的样本集。

步骤s402,建立每一个短文本类别的特征谱隐马尔科夫模型(profilehiddenmarkovmodel,简称phmm);

如图4-1所示,一种phmm模型结构中,“开始”表示开始状态,“终止”表示终止状态,每一个模型只有一个开始状态和一个终止状态。“m”表示匹配状态,每一个匹配位置对应有一个匹配概率分布。“i”表示插入状态,所有的插入位置对应有一个插入概率分布。“d”表示删除状态,每一个匹配状态都有一个对应的删除状态。图中的每一个箭头表示状态的转移,对应有一个转移概率。虚线部分表示可重复的结构。根据模型中匹配状态的多少,模型的长度会有所不同。随着匹配状态增加,虚线重复区域数目也随之增加。

其中,建立任意一个短文本类别的phmm模型,包括:

根据词语之间的相似度进行所述类别的两两短文本之间的比对找到最大公共子序列,所述最大公共子序列中各个位置的词语对应于phmm模型的各个匹配状态;

对每一个匹配状态,在所述匹配状态的位置上出现的各个词语以及每一个词语在该位置上出现的概率构成了所述匹配状态的概率分布;每一个匹配状态还对应一个插入状态和一个删除状态;

将任意一个短文本表示为所述phmm模型中的一条路径,所述路径开始于开始状态,结束于终止状态,中间至少经过一个匹配状态,所述路径上不同状态之间依概率转移;

比如,“亲爱的张先生,您好”和“亲爱的王女士,您好”两者之间的最大公共子序列是“亲爱的,您好”。通过字词向量表示(比如,word2vec)得到的词语相似度可发现“先生”和“女士”的相似度很高,于是扩展得到相似子序列,是“亲爱的先生/女士,您好”。其中,word2vec可以根据词与其附近词语关系将词转为向量,使得相似的词语之间距离近,不相似的词语之间距离远。

最后确定出的最大公共子序列所含的词语数目即为匹配状态数目。对于每一个匹配状态,在所述匹配状态的位置上出现的各个词语以及每一个词语在该位置上出现的概率构成了所述匹配状态的概率分布;

例如,下面建立某类短文本样本的phmm模型结构:

其中,短文本样本的部分数据如下所示:

张一生,您好

张先生,您好

亲爱的张先生,您好

尊敬的张一生,您好

亲爱的王女士,您好

亲爱的王茹美,您好

亲爱的王茹美女士,您好

如图4-2所示,通过上述短文本样本建立一种phmm模型结构。其中,不存在的状态已经删除(比如,“,”对应的删除状态,“您好”对应的删除状态等)。匹配状态包括:“尊敬/亲爱”、“的”、“先生/女士”、“,”、“您好”。对于每一个短文本样本,都可以对应到模型中的一条路径。

其中,根据viterbi算法,“张一生,您好”短文本样本对应的路径如图4-3中虚线所示。此路径中包含有两个匹配状态(分别是“,”和“您好”),1个插入状态(“张一生”),3个删除状态(分别是“尊敬/亲爱”、“的”、“先生/女士”三个匹配状态对应的删除状态),1个开始状态和1个终止状态。“张一生,您好”短文本样本对应的概率是所述短文本对应的路径上所有的匹配状态概率、插入状态概率与状态转移概率的乘积。因此,“张一生,您好”短文本对应的概率为p1:

p1=0.1×0.01×1.0×1.0×0.1×1.0×1.0×1.0=1×10-4

根据上述viterbi算法,每个短文本样本可以确定一条路径。

类似地,“亲爱的王茹美女士,您好”短文本样本对应的路径图4-4中虚线所示。此路径中包含有5个匹配状态(分别是“尊敬/亲爱”、“的”、“先生/女士”“,”和“您好”),2个连续的插入状态(“王”和“茹美”),1个开始状态和1个终止状态。该短文本样本对应的概率为p2:

p2=0.9×0.5×1.0×1.0×0.1×0.1×0.01×0.8×0.5×1.0×1.0×1.0=1.8×10-5

步骤s403,对所述模型中出现的命名实体进行标注;

当模型建立后,针对每一个模型,对模型上的匹配状态和插入状态进行标注,标注出属于命名实体的部分。

如图4-5所示,左边两个虚线框内的插入状态词语是人的姓名,右边一个虚线框内的匹配状态词语是性别对应的称谓,可依此判定性别。同样的方法,可以在每个模型上对人名、地名、品牌名、店铺名、产品名、号码、时间等命名实体一一进行标注。

示例3

如图5所示,利用phmm模型对目标短文本进行分类和信息提取,所述phmm模型主要有两个功能,短文本归类和短文本中的命名实体识别。模型运用的流程如图5所示,对于目标短文本(新文本),首先将各类别的模型与新文本进行匹配(打分),每个模型对应一个匹配分,通过比较这些模型的分值,分值最高的模型所属的类别即为所述新文本所属的类别。在得到新文本对应的类别后,根据模型的标注,提取出新文本中对应于每一个命名实体标注的信息。模型匹配及信息提取的方法可以包括下述步骤:

步骤s501,确定目标短文本与各类短文本模型的匹配度;

其中,目标短文本与任意一类短文本模型的匹配度是:所述目标短文本对应的该类短文本phmm模型中的匹配路径包含的匹配状态个数m与所述phmm模型中的匹配状态总数n的比值;n大于或等于m;

比如有两个类别的短文本,第一类短文本的phmm模型结构如附图5-1所示,第二类短文本的phmm模型结构如附图5-2所示;

如图5-1所示,第一类短文本包含的匹配状态为:“【”、“有利”、“网”、“】”、“您”、“于”、“2014年”,共有7个匹配状态;

如图5-2所示,第二类短文本包含的匹配状态为:“验证”、“码”、“:”、“。”、“请”、“不要”、“把”、“验证”、“码”、“泄露”、“给”、“其他”、“人”、“。”、“如”、“非”、“本人”、“操作”、“,”、“可”、“不”、“用”、“理会”,共有23个匹配状态;图5-2中将第6-22个匹配状态用带重复的匹配状态进行表示(虚线框中的部分),没有在附图5-2中一一展示匹配状态对应的词语。

假设目标短文本是:

【直销通】您的验证码是:422977请不要把验证码泄露给其他人。如非本人操作,可不用理会!2015-05-31

利用上面两类短文本的phmm模型,计算目标短文本与模型的匹配度。

其中,对于第一类短文本的模型,所述目标短文本在模型中的匹配路径是:

m1i1i1d2d3m4m5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5i5d6d7

匹配度=3/7

其中,对于第二类短文本的模型,所述目标短文本在模型中的匹配路径是:

i0i0i0i0i0i0m1m2i2m3i3d4m5m6m7m8m9m10m11m12m13m14m15m16m17m18m19m20m21m22m23i23i23i23i23i23i23

匹配度=22/23

其中,在上述phmm模型中,mi表示模型中第i个匹配状态(i从1开始编号);ij表示模型中第j个插入状态(j从0开始编号),ij与mj对应,ij是在mj之后插入词语;dk表示第k个删除状态,dk表示mk对应的删除状态。

步骤s502,将匹配度最高的phmm模型对应的短文本类别作为所述目标短文本归属的类别;

步骤s503,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取;

得到短文本的类别及其在模型中对应的路径后,利用模型中命名实体标注信息,识别出短文本中的命名实体。

根据上面的例子,如果第二类短文本的phmm模型的命名实体标注信息只有一个:i3(验证码),则根据所述标注信息,可得到目标短文本中的“422977”是一个验证码,将所述“422977”作为验证码提取出来。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1