一种创建共享语料库的方法与流程

文档序号:11155028阅读:来源:国知局

技术特征:

1.一种创建共享语料库的方法,其特征在于,包括:

建立与通讯方对应的个人语料库,其中,所述通讯方的数目大于一;

将多个所述通讯方的个人语料库进行合并,获得共享语料库。

2.根据权利要求1所述的创建共享语料库的方法,其特征在于,建立与通讯方对应的个人语料库包括:

采集通讯方的会话内容;

获取所述会话内容中的会话对;

根据预设的场景标签,采集获得所述会话对与所述场景标签对应的场景标签值;

将所述会话对、所述场景标签以及与所述场景标签对应的场景标签值进行匹配组合,从而生成与所述通讯方对应的个人语料库。

3.根据权利要求2所述的创建共享语料库的方法,其特征在于,获取所述会话内容中的会话对包括:

根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句;

根据预设的类型判断规则,确定所述发起句和所述回复句的类型;

根据所述发起句以及所述发起句与下一条发起句之间的回复句提取基础会话对;

根据所述基础会话对、所述基础会话对中发起句和回复句的类型,提取至少一个会话对。

4.根据权利要求3所述的创建共享语料库的方法,其特征在于,根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句包括:

判断所述会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将所述会话句确定为发起句;

若有,则判断所述会话句是否与所述通讯对方发送的上文无语义关联,若是,则将所述会话句确定为发起句,否则将所述会话句确定为回复句。

5.根据权利要求4所述的创建共享语料库的方法,其特征在于,根据预设的类型判断规则,确定所述发起句的类型包括:

判断所述发起句是否为具有完整独立语义的语句,若是,则判断所述发起句是否由多个具有完整独立语义的单句组成,若是,则将所述发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断所述发起句是否包含具有完整独立语义的单句,若包含,则将所述发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;

搜索非标准单句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;

搜索非标准复句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述发起句是否有自己的上文和下文连续会话句,若有,则进一步判断所述发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。

6.根据权利要求4所述的创建共享语料库的方法,其特征在于,根据预设的类型判断规则,确定所述回复句的类型包括:

判断所述回复句是否为具有完整独立语义的语句,若是,则判断所述回复句是否由多个具有完整独立语义的单句组成,若是,则将所述回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断所述回复句是否包含具有完整独立语义的单句,若包含,则将所述回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;

搜索非标准单句回复句类型的所述回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;

搜索非标准复句回复句类型的所述回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述回复句是否有自己的上文和下文连续会话句,若有,则进一步判断所述回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。

7.根据权利要求6所述的创建共享语料库的方法,其特征在于,根据基础会话对、所述基础会话对中发起句的类型以及所述基础会话对中回复句的类型,提取至少一个会话对包括:

将所述基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;

将所述基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;

根据多种类型的所述发起句以及多种类型的所述回复句,组合至少一个语义关联的会话对进行提取。

8.根据权利要求7所述的创建共享语料库的方法,其特征在于,将多个所述通讯方的个人语料库进行合并,获得共享语料库包括:

将多个所述通讯方的个人语料库进行组合,获得组合语料库;

将所述组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。

9.根据权利要求8所述的创建共享语料库的方法,其特征在于,获得共享语料库之后还包括:

判断所述共享语料库中的会话对是否包含多个回复句,若是,则根据预设的规则对多个所述回复句进行智能排序。

10.根据权利要求9所述的创建共享语料库的方法,其特征在于,

所述预设的场景标签包括第一场景标签和第二场景标签,其中

所述所述第一场景标签包括:会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签中的一种或多种组合;

所述第二场景标签包括:会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签中的一种或多种组合。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1