基于条件随机场确定句子标记序列的终端及方法与流程

文档序号:12468857阅读:来源:国知局

技术特征:

1.一种基于条件随机场确定句子标记序列的终端,其特征在于,所述终端包括:

处理模块,用于根据条件随机场的概率模型对待标记句子进行处理,得到所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值;其中,所述条件随机场的概率模型是通过对第二训练语料序列进行条件随机场的概率模型训练后得到的,所述第二训练语料序列是通过对第一训练语料序列进行单个字符的间隔处理,利用间隔符号将所述第一训练语料序列中的各个字符进行一一间隔并进行序列标注后得到的;

确定模块,用于根据所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值与预设规则,确定出所述待标记句子的标记序列。

2.根据权利要求1所述的终端,其特征在于,所述处理模块,具体用于利用空格符号将所述第一训练语料序列中的各个字符进行一一间隔;或,利用换行符号将所述第一训练语料序列中的各个字符进行一一间隔。

3.根据权利要求1所述的终端,其特征在于,所述确定模块,具体用于利用维特比算法及所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值,计算得到所述所有单个字符所构成的所有序列中的每一个序列的分数值;

将所述每一个序列的分数值通过指数函数和归一化处理,得到所述每一个序列的概率值;

将在所述所有单个字符所构成的所有序列中的概率值最大的序列确定为所述待标记句子的标记序列。

4.根据权利要求3所述的终端,其特征在于,所述确定模块,还具体用于利用公式计算得到所述所有单个字符所构成的所有序列中的每一个序列的分数值,其中,所述s为待标记句子,所述l为一个序列,所述i为单个字符,所述n为字符数,所述j为样本,所述m为样本数,所述λ为系数;

所述将所述每一个序列的分数值通过指数函数和归一化处理,得到所述每一个序列的概率值,包括:

利用公式计算得到所述每一个序列的概率值。

5.根据权利要求1所述的终端,其特征在于,所述处理模块,还具体用于

根据条件随机场的概率公式构建极大似然函数其中,所述x为单个字符,所述y为文本,所述k、K、λ为系数,所述S为由T个字符组成的词序列,所述i为单个字符,所述j为样本,所述w、σ为系数,所述q为参数,所述d为维度,所述为上下文相加后的词向量;

根据公式计算得到对数似然;

第j个样本的第ij个词的负对数似然为:

第j个样本的第ij个词在遇到第kij个非叶节点时的负对数似然为:

根据计算所述的梯度;

对每一个样本进行迭代,其中,根据对每个参数q进行迭代,得到根据对每个字符i进行迭代,得到其中,所述η为系数。

6.一种基于条件随机场确定句子标记序列的方法,其特征在于,所述方法包括:

根据条件随机场的概率模型对待标记句子进行处理,得到所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值;其中,所述条件随机场的概率模型是通过对第二训练语料序列进行条件随机场的概率模型训练后得到的,所述第二训练语料序列是通过对第一训练语料序列进行单个字符的间隔处理,利用间隔符号将所述第一训练语料序列中的各个字符进行一一间隔并进行序列标注后得到的;

根据所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值与预设规则,确定出所述待标记句子的标记序列。

7.根据权利要求6所述的方法,其特征在于,所述利用间隔符号将所述第一训练语料序列中的各个字符进行一一间隔,包括:

利用空格符号将所述第一训练语料序列中的各个字符进行一一间隔;

或,利用换行符号将所述第一训练语料序列中的各个字符进行一一间隔。

8.根据权利要求6所述的方法,其特征在于,所述根据所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值与预设规则,确定出所述待标记句子的标记序列,包括:

利用维特比算法及所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值,计算得到所述所有单个字符所构成的所有序列中的每一个序列的分数值;

将所述每一个序列的分数值通过指数函数和归一化处理,得到所述每一个序列的概率值;

将在所述所有单个字符所构成的所有序列中的概率值最大的序列确定为所述待标记句子的标记序列。

9.根据权利要求8所述的方法,其特征在于,所述利用维特比算法及所述待标记句子中的所有单个字符各自在所述待标记句子中存在所有关系的概率值,计算得到所述所有单个字符所构成的所有序列中的每一个序列的分数值,包括:

利用公式计算得到所述所有单个字符所构成的所有序列中的每一个序列的分数值,其中,所述s为待标记句子,所述l为一个序列,所述i为单个字符,所述n为字符数,所述j为样本,所述m为样本数,所述λ为系数;

所述将所述每一个序列的分数值通过指数函数和归一化处理,得到所述每一个序列的概率值,包括:

利用公式计算得到所述每一个序列的概率值。

10.根据权利要求6所述的方法,其特征在于,所述条件随机场的概率模型是通过对第二训练语料序列进行条件随机场的概率模型训练后得到的,包括:

根据条件随机场的概率公式构建极大似然函数其中,所述x为单个字符,所述y为文本,所述k、K、λ为系数,所述S为由T个字符组成的词序列,所述i为单个字符,所述j为样本,所述w、σ为系数,所述q为参数,所述d为维度,所述Cij为上下文相加后的词向量;

根据公式计算得到对数似然;

第j个样本的第ij个词的负对数似然为:

第j个样本的第ij个词在遇到第kij个非叶节点时的负对数似然为:

根据计算所述的梯度;

对每一个样本进行迭代,其中,根据对每个参数q进行迭代,得到根据对每个字符i进行迭代,得到其中,所述η为系数。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1