语料标注方法及装置与流程

文档序号:18739807发布日期:2019-09-21 01:38阅读:来源:国知局

技术特征:

1.一种语料标注方法,其特征在于,包括:

提取第一语料中的实体,并根据预设命名实体规则标注所述实体;

根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;

根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;

将经过标注后的所述实体、所述关键词、所述模板入库。

2.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中数据类别进行标注的步骤,所述对所述第一语料中数据类别的标注步骤包括:

按照百科类数据类别和闲聊类数据类别划分所述数据类别;

判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;

判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。

3.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中词级别进行标注的步骤,所述对所述第一语料中词级别进行标注的步骤包括:

在所述第一语料中提取出最小单元为词级别的词语;

根据不同预设词级别规则,标注出所述第一语料中的词语。

4.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中句级别进行标注的步骤,所述第一语料中句级别进行标注的步骤包括:

在所述第一语料中提取出最小单元为句级别的句子;

根据不同预设句级别规则,标注出所述第一语料中的词语。

5.根据权利要求1所述的语料标注方法,其特征在于,根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板包括:

根据所述实体和所述关键词抽象出第一句式,对所述第一句式进行扩展并确定主题或主语后得到所述模块,根据预设语句拓展模板规则标注所述模板。

6.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中相似语义进行标注的步骤,所述第一语料中相似语义进行标注的步骤包括:

判断第一语料中的第一句子和第二句子是否相似,

如果相似,则采用不同的标注;

如果不相似,则采用相同的标注。

7.一种语料标注装置,其特征在于,包括:

第一提取模块,用于提取第一语料中的实体,并根据预设命名实体规则标注所述实体;

第二提取模块,用于根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;

第三提取模块,用于根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;

入库模块,用于将经过标注后的所述实体、所述关键词、所述模板入库。

8.根据权利要求7所述的语料标注装置,其特征在于,还包括:类别标注模块,用于对所述第一语料中数据类别进行标注,所述标注模块包括:

类别标注单元,用于按照百科类数据类别和闲聊类数据类别划分所述数据类别;

第一判断单元,用于判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;

第二判断单元,用于判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。

9.根据权利要求7所述的语料标注装置,其特征在于,还包括:词标注模块,用于对所述第一语料中词级别进行标注,所述词标注模块包括:

词提取单元,用于在所述第一语料中提取出最小单元为词级别的词语;

词标注单元,用于根据不同预设词级别规则,标注出所述第一语料中的词语。

10.根据权利要求7所述的语料标注装置,其特征在于,还包括:句标注模块,所述句标注模块用于对所述第一语料中句级别进行标注,所述句标注模块包括:

句提取单元,用于在所述第一语料中提取出最小单元为句级别的句子;

句标注单元,用于根据不同预设句级别规则,标注出所述第一语料中的词语。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1