1.一种语言冲突的预测方法,其特征在于,包括以下步骤:
S1、用机器学习方法获得候选对话数据集;
S2、对数据集进行筛选,筛选出开始为文明对话而随后恶化为有害对话的对话数据,并在有害对话的上下文中标注其标签;在个人攻击的语境中给反社会评论贴上标签,建立语料库;
S3、下载所建立的语料库,使用convokit语料库类构建convokit语料库对象;
S4、提取语料的提示类型特征;
S5、在下载的语料库上训练一个QuestionTypology对象,将Wiki语料库加载到数据集对象;
S6、提取礼貌策略特征;
S7、创建成对的数据;
S8、根据提示类型特征、礼貌策略特征和成对数据,构造特征矩阵;
S9、使用logistic回归模型,比较显示的语用特征,从而对网络对话是否可能恶化进行预测。
2.根据权利要求1所述的语言冲突的预测方法,其特征在于,步骤S4使用convokit语料库的QuestionTypology分类器为每个话语学习提示类型特征,并计算出提示类型。
3.根据权利要求1所述的语言冲突的预测方法,其特征在于,步骤S6将convokit语料库的PolitenessStrategies分类器直接应用到数据集中。
4.根据权利要求1所述的语言冲突的预测方法,其特征在于,步骤S7中,首先建立一个数据框架将注释ID映射到它们的会话;然后使用每个对话的第一个和第二个评论的ID来补充用于恶化对话和良好对话的成对数据框架。
5.根据权利要求4所述的语言冲突的预测方法,其特征在于,步骤S8中,在成对数据基础上,为每对对话构造语用特征表,用于预测语言冲突;所述语用特征表将由对每个对话的第一个和第二个评论的提示类型和礼貌策略组成。