1.一种语料标注方法,其特征在于,包括:
提取第一语料中的实体,并根据预设命名实体规则标注所述实体;
根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;
根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;
将经过标注后的所述实体、所述关键词、所述模板入库。
2.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中数据类别进行标注的步骤,所述对所述第一语料中数据类别的标注步骤包括:
按照百科类数据类别和闲聊类数据类别划分所述数据类别;
判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;
判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。
3.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中词级别进行标注的步骤,所述对所述第一语料中词级别进行标注的步骤包括:
在所述第一语料中提取出最小单元为词级别的词语;
根据不同预设词级别规则,标注出所述第一语料中的词语。
4.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中句级别进行标注的步骤,所述第一语料中句级别进行标注的步骤包括:
在所述第一语料中提取出最小单元为句级别的句子;
根据不同预设句级别规则,标注出所述第一语料中的词语。
5.根据权利要求1所述的语料标注方法,其特征在于,根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板包括:
根据所述实体和所述关键词抽象出第一句式,对所述第一句式进行扩展并确定主题或主语后得到所述模块,根据预设语句拓展模板规则标注所述模板。
6.根据权利要求1所述的语料标注方法,其特征在于,还包括:对所述第一语料中相似语义进行标注的步骤,所述第一语料中相似语义进行标注的步骤包括:
判断第一语料中的第一句子和第二句子是否相似,
如果相似,则采用不同的标注;
如果不相似,则采用相同的标注。
7.一种语料标注装置,其特征在于,包括:
第一提取模块,用于提取第一语料中的实体,并根据预设命名实体规则标注所述实体;
第二提取模块,用于根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;
第三提取模块,用于根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;
入库模块,用于将经过标注后的所述实体、所述关键词、所述模板入库。
8.根据权利要求7所述的语料标注装置,其特征在于,还包括:类别标注模块,用于对所述第一语料中数据类别进行标注,所述标注模块包括:
类别标注单元,用于按照百科类数据类别和闲聊类数据类别划分所述数据类别;
第一判断单元,用于判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;
第二判断单元,用于判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。
9.根据权利要求7所述的语料标注装置,其特征在于,还包括:词标注模块,用于对所述第一语料中词级别进行标注,所述词标注模块包括:
词提取单元,用于在所述第一语料中提取出最小单元为词级别的词语;
词标注单元,用于根据不同预设词级别规则,标注出所述第一语料中的词语。
10.根据权利要求7所述的语料标注装置,其特征在于,还包括:句标注模块,所述句标注模块用于对所述第一语料中句级别进行标注,所述句标注模块包括:
句提取单元,用于在所述第一语料中提取出最小单元为句级别的句子;
句标注单元,用于根据不同预设句级别规则,标注出所述第一语料中的词语。