一种创建共享语料库的方法与流程

文档序号:11155028阅读:227来源:国知局
一种创建共享语料库的方法与制造工艺
本发明涉及通信
技术领域
,具体涉及一种创建共享语料库的方法。
背景技术
:日常会话中,会话回复内容往往可以共享。例如企业员工与客户开展商务会话的场景中,销售经理张三针对意向客户询价报价的回复句,可以共享给销售经理李四乃至其他同事,故可以基于一个或多个通讯方的个人会话语料创建共享语料库。现有创建共享语料库,主要是通过人工创建的。人工创建共享语料库的工作量大,且建库质量普遍不高。针对该问题,本实施例提出了一种创建共享语料库的方法。技术实现要素:本发明提供了一种创建共享语料库的方法,以解决人工创建共享语料库的工作量大,且建库质量普遍不高的技术问题。本发明提供的创建共享语料库的方法,包括:建立与通讯方对应的个人语料库,其中,通讯方的数目大于一;将多个通讯方的个人语料库进行合并,获得共享语料库。进一步地,建立与通讯方对应的个人语料库包括:采集通讯方的会话内容;获取会话内容中的会话对;根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成与通讯方对应的个人语料库。进一步地,获取会话内容中的会话对包括:根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;根据预设的类型判断规则,确定发起句和回复句的类型;根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。进一步地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。进一步地,根据预设的类型判断规则,确定发起句的类型包括:判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。进一步地,根据预设的类型判断规则,确定回复句的类型包括:判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句,若有,则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。进一步地,根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型,提取至少一个会话对包括:将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。进一步地,将多个通讯方的个人语料库进行合并,获得共享语料库包括:将多个通讯方的个人语料库进行组合,获得组合语料库;将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。进一步地,获得共享语料库之后还包括:判断共享语料库中的会话对是否包含多个回复句,若是,则根据预设的规则对多个回复句进行智能排序。进一步地,预设的场景标签包括第一场景标签和第二场景标签,其中第一场景标签包括:会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签中的一种或多种组合;第二场景标签包括:会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签中的一种或多种组合。本发明具有以下有益效果:本发明提供的创建共享语料库的方法,通过建立与通讯方对应的个人语料库以及将多个通讯方的个人语料库进行合并,获得共享语料库,解决了人工创建共享语料库的工作量大,且建库质量普遍不高的技术问题。不仅大大减少了人工创建共享语料库的工作量,而且通过合并多个通讯方的个人语料库创建共享语料库,使得创建的共享语料库内容丰富,形式多样,具有较高的实用性和智能性。除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。附图说明构建本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构建对本发明的不当限定。在附图中:图1是本发明优选实施例创建共享语料库的方法流程图;图2是本发明优选实施例针对的精简实施例的创建共享语料库的方法流程图。具体实施方式以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。参照图1,本发明的优选实施例提供了一种创建共享语料库的方法,包括:步骤S101,建立与通讯方对应的个人语料库,其中,通讯方的数目大于一;步骤S102,将多个通讯方的个人语料库进行合并,获得共享语料库。本发明实施例提供的创建共享语料库的方法,通过建立与通讯方对应的个人语料库以及将多个通讯方的个人语料库进行合并,获得共享语料库,解决了人工创建共享语料库的工作量大,且建库质量普遍不高的技术问题。不仅大大减少了人工创建共享语料库的工作量,而且通过合并多个通讯方的个人语料库创建共享语料库,使得创建的共享语料库内容丰富,形式多样,具有较高的实用性和智能性。需要说明的是,由于本实施例是通过合并多个通讯方的个人语料库获得共享语料库,故在建立与通讯方对应的个人语料库时,通讯方的数目需大于一,也即需创建至少两个通讯方的个人语料库。可选地,建立与通讯方对应的个人语料库包括:采集通讯方的会话内容;获取会话内容中的会话对;根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成与通讯方对应的个人语料库。本发明实施例通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成与通讯方对应的个人语料库,不仅大大减少了人工建立个人语料库的工作量,而且根据会话对、场景标签以及与场景标签对应的场景标签值生成与通讯方对应的个人语料库,能较好地模拟真实会话场景,进一步使得创建的共享语料库也能较好地模拟真实会话场景。需要说明是,本发明实施例将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合生成个人语料库,也即按照“会话对+场景标签+场景标签值”的内容匹配组合规则,生成个人语料库。此外,由于不同的会话内容具有不同的场景特性,例如会话内容主题、会话意图、会话时间、会话地点、会话双方关系等等,故本实施例获取会话内容中的会话对后,进一步根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值,并将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人语料库。本实施例中的场景标签由用户自定义或自动获取,例如可以是会话内容主题,会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、健康状况、实时行为状态、星座、血型,会话通讯双方之间的关系、年龄差距、辈分差距,双方会话通讯的间隔时间、频率、时间跨度,会话内容的句型、句类、句式结构类型,以及总量标签中的一种或多种组合等等。且本实施例采集获得会话对与场景标签对应的场景标签值时,可以采取不同的方法实现,具体包括直接采集的方法,例如针对地点场景标签值,可以通过移动终端的GPS自动采集获得;推理的方法,例如针对通讯双方关系场景标签值,可以通过其他已经采集的场景标签值推理获得;计算与会话内容关联的词向量的方法,例如针对会话意图采集标签值,可以通过计算与会话内容关联的词向量获得;神经网络学习的方法,例如针对心情场景标签值,可以将会话内容或其他已经采集的场景标签值输入训练好的分类器分类获得。此外,本实施例还能结合上述所述的一种或多种方法自动获得场景标签值。可选地,获取会话内容中的会话对包括:根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;根据预设的类型判断规则,确定发起句和回复句的类型;根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。现有从会话内容中提取的会话对或问答对,往往是一问一答的会话对形式,而在实际的会话过程中,通讯双方进行会话并非完全符合一问一答的会话模式,例如针对通讯对方发送的会话句,通讯方可能回复了几条会话句,或针对通讯对方发送的多条会话句,通讯方可能只回复了一条会话句。故如果仅仅采取一问一答的形式提取对话对,可能存在以下问题:(1)对于一些没有以一问一答形式展现的会话内容,从会话内容中提取会话对的难度较大,且精度较低。例如对于多个发起句+多个回复句形式的会话内容,从中提取会话对时,需要分析与每一个发起句匹配的回复句,过程复杂,难度大,且精度较低。(2)由于现有根据会话内容提取的问答对或会话对一般都是比较标准的会话句,或结构比较简单的会话句,从而导致针对一些复杂或非标准结构的会话句不能精准提取完整性好和实用性高的会话对。(3)此外,由于以一问一答形式提取的会话对的完整性容易被破坏,从而导致提取的会话对不能准确模拟真实会话。针对上述问题,本发明提出了一种根据发起句和回复句的类型从会话内容中提取会话对的方法。针对该问题,本实施例通过根据会话内容中会话句的语义,确定会话内容中的发起句和回复句,根据预设的类型判断规则,确定发起句和回复句的类型,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对,以及根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对,解决了现有技术提取会话对的难度较大、精度较低的技术问题,打破了传统的一问一答的会话对形式的局限性,并且根据发起句和回复句的类型,不仅能快速有效地提取会话对,而且提取的会话对的精度和准确度也大大提升。此外,针对一些复杂或非标准结构的会话句,本发明实施例能精准提取完整性好和实用性高的会话对,从而使得提取的会话对能准确模拟真实会话,智能化程度较高。进一步地,本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复内容,以及匹配获得形式多样的智能回复内容,实用性较高。需要说明的是,本实施例在确定发起句和回复句的类型之前,首先预设发起句和回复句的类型以及与类型对应的类型判断规则,从而根据预设的类型判断规则,可以快速确定发起句和回复句的类型。本实施例可以通过采集通讯方的即时通讯账号、邮箱账号、微博号、手机号的会话内容获得会话内容,其中会话内容为文本、图片、语音、视频或动漫格式,且当会话内容是语音、图片、视频或动漫格式时,还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。可选地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。为了精准提取会话内容中的会话对,本实施例首先根据会话内容中会话句的语义,确定会话内容中的发起句和回复句,然后再进一步确定发起句和回复句的类型,从而根据发起句和回复句的类型精准提取会话对。其中,本实施例所指的根据会话内容中会话句的语义,确定会话内容中的发起句和回复句的具体过程为:判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句,若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。在实际的会话过程中,如果当前会话句在预设时间区间内无通讯对方发送的上文,一般将其认为是发起会话的起始句,也即发起句。例如假设当前会话句为12月3日发送的会话句,上一条会话句是通讯对方于12月1日发送的会话句,假设预设的时间区间为1天,则通过判断可知,当前会话句在预设时间区间内无通讯对方发送的上文,则将当前会话句认为是发起会话的起始句,也即将当前会话句判定为发起句。且本实施例预设的时间区间具体由用户自定义,例如可以是1小时、半天、一天、一个月等等,也即当判断出当前会话句在1小时、半天、一天、一个月内无通讯对方发送的上文,则判定当前会话句为发起句。此外,当会话句有通讯对方发送的上文时,根据实际会话内容可判断,会话句可能是回复通讯对方发送的上文的回复句;也可能不是回复通讯对方发送的上文,而是重新发起会话的发起句;或者同时是回复通讯对方发送的上文的回复句和重新发起会话的发起句。针对这种情况,本实施例通过判断会话句是否与通讯对方发送的上文无语义关联来确定会话句的类型。需要说明的是,本实施例中会话句是否与通讯对方发送的上文无语义关联,具体是指会话句是否包括与通讯对方发送的上文无语义关联的语句。例如,当会话句有通讯对方发送的上文,且通讯对方A发送的上文为“最近怎么样?”,则针对第一种情况的会话句(通讯方B:“挺好的”),可判断出该会话句不包括与通讯对方发送的上文无语义关联的语句,此时确定该会话句为回复句;针对第二种情况的会话句(通讯方B:“帮我缴电话费了吗?”),可判断出该会话句包括与通讯对方发送的上文无语义关联的语句,此时确定该会话句为发起句;针对第三种情况的会话句(通讯方B:“挺好的,帮我缴电话费了吗?”),可判断出该会话句同样包括与通讯对方发送的上文无语义关联的语句(“帮我缴电话费了吗?”),此时确定该会话句为发起句。本实施例通过判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文以及在有通讯对方发送的上文时判断会话句是否与通讯对方发送的上文无语义关联,可以精准确定会话内容中的发起句和回复句,为后续根据确定的发起句和回复句精准提取会话对以及根据提取的会话对建立个人语料库奠定基础。可选地,根据预设的类型判断规则,确定发起句的类型包括:判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。在实际的实施过程中,发起句可能以多种类型进行呈现,例如单句、复句、非标准句等等,且不同类型的发起句可能会影响或导致提取的会话对不同。针对该问题,本实施例按照预设的类型判断规则,确定发起句的类型。具体地,首先在发起句具有完整独立语义的前提下,通过判断发起句是由一个还是多个完整独立语义的单句组成,确定发起句为单句还是复句发起句类型,以及在发起句不具有完整独立语义的前提下,通过判断发起句是否包含具有完整独立语义的单句来确定发起句的类型为非标准复句还是非标准单句发起句类型;然后通过搜索非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,确定是否将发起句的类型衍生扩展为非标准句群发起句类型;最后通过判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,确定发起句的类型是否可以衍生扩展为句群发起句类型。具体地,本实施例确定发起句类型的过程本质上分为三个判别过程,即第一个判别过程是对每一条发起句按照四种发起句类型(单句、复句、非标准单句以及非标准复句)进行逐一判别;第二个判别过程是在进行完第一个判别过程后,接着判别非标准单句和非标准复句发起句类型的发起句是否可进一步衍生扩展为非标准句群发起句类型;第三个判别过程是在进行完第二个判别过程后,接着判别单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。本实施例通过确定发起句的类型,一方面有利于对发起句进行句子结构和成分的深度分析,另一方面,基于对发起句进行类型判断和结构分析,有利于更精准提取实用性高且形式多样的会话对。需要说明的是,本实施例中发起句是否有自己的上文和下文连续会话句具体是指发起句是否有发送发起句的发送方发送的上文和下文连续会话句。可选地,根据预设的类型判断规则,确定回复句的类型包括:判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句,若有,则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。本实施例判断回复句的类型和判断发起句的类型的原理和过程基本相同,故不再详述。且本实施例通过确定回复句的类型,一方面有利于对回复句进行句子结构和成分的深度分析,另一方面,基于对回复句进行类型判断和结构分析,有利于更精准提取实用性高且形式多样的会话对。需要说明的是,本实施例中回复句是否有自己的上文和下文连续会话句具体是指回复句是否有发送所述回复句的发送方发送的上文和下文连续会话句。可选地,根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型,提取至少一个会话对包括:将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。由于本实施例中发起句和回复句的类型包括多种,例如单句、复句、非标准单句、非标准复句,非标准句群、句群发起句类型,以及单句、复句、非标准单句、非标准复句、非标准句群、句群回复句类型,故在提取到基础会话对后,为了更精准提取实用性高且形式多样的会话对,本实施例首先将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句,然后将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句,最后根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取,从而可以组合获得多个会话对。例如假设发起句类型为复句发起句类型,回复句为复句回复句类型,则通过类型衍生扩展后,可以提取出单句发起句+单句回复句,复句发起句+单句回复句,单句发起句+复句回复句,复句发起句+复句回复句等多种形式的会话对。可选地,将多个通讯方的个人语料库进行合并,获得共享语料库包括:将多个通讯方的个人语料库进行组合,获得组合语料库;将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。由于本实施例创建的通讯方的个人语料库都是由会话对组成的,也即由会话发起句和与之对应的会话回复句组成。故本实施例在将多个通讯方的个人语料库进行合并,获得共享语料库时,首先将多个通讯方的个人语料库进行组合,获得组合语料库,然后将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。需要说明的是,本实施例将组合语料库中包含相同发起句的会话对进行同类项合并,即将包含相同发起句的会话对中的答复句合并。例如假设通讯方A的个人语料库包含会话对{发起句:最近怎么样?/回复句:挺好的},通讯方B的个人语料库包含会话对{发起句:最近怎么样?/回复句:老样子},则在将两个个人语料库组合后,将组合语料库中包含相同发起句的会话对进行同类项合并,也即可将上述两个个人语料库包含相同发起句(“最近怎么样?”)的会话对,合并为{发起句:最近怎么样?/回复句1:挺好的;回复句2:老样子}。本实施例通过将组合语料库中包含相同发起句的会话对进行同类项合并,可以获得精简的共享语料库,有利于后续根据共享语料库快速匹配获得会话回复内容。此外,本实施例还可以通过将组合语料库中包含相同回复句的会话对进行同类项合并,可以获得精简的共享语料库,有利于后续根据共享语料库快速匹配获得智能会话回复内容。例如:你们公司在哪里?怎么去你们公司?请问面试地址?这3个发起句的回复句都是:长沙市岳麓区桐梓坡集贤路长沙市留学生创业园对面。可选地,获得共享语料库之后还包括:判断共享语料库中的会话对是否包含多个回复句,若是,则根据预设的规则对多个回复句进行智能排序。由于本实施例将组合语料库中包含相同发起句的会话对进行同类项合并后,会话对中针对同一个发起句,可能包括多个回复句。针对该问题,本实施例在获得共享语料库之后还包括判断共享语料库中的会话对是否包含多个回复句,若是,则根据预设的规则对多个回复句进行智能排序,从而方便后续根据共享语料库快速获得更匹配的回复句。需要说明的是,本实施例可以根据预设的规则对多个回复句进行智能排序,例如根据回复句的使用频率、使用习惯、使用偏好、使用时间顺序等等规则对多个回复句进行智能排序。可选地,预设的场景标签包括第一场景标签和第二场景标签,其中第一场景标签包括:会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签中的一种或多种组合;第二场景标签包括:会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签中的一种或多种组合。下面针对一个精简实施例对本发明的创建共享语料库的方法进行更进一步说明。参照图2,本发明的精简实施例提供的创建共享语料库的方法,包括:步骤S201,建立与通讯方对应的个人语料库,其中,所述通讯方的数目大于一。具体地,假设本实施例中的通讯方包括通讯方A1和通讯方A2,由于针对不同的通讯方建立个人语料库的方法和过程相同,故本实施例仅对其中的一个通讯方,例如通讯方A1建立个人语料库进行具体说明。具体地,本实施例针对通讯方A1建立个人语料库的方法包括:步骤S2001,采集通讯方的会话内容。具体地,假设本实施例采集的会话内容为通讯方A1的即时通讯账号、邮箱账号、微博号、手机号与通讯对方B进行会话的会话内容,其中,会话内容为文本、图片、语音、视频或动漫格式,且当会话内容是语音、图片、视频或动漫格式时,还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例从会话内容中提取会话对的过程,本实施例以简单的通讯方A1与通讯对方B的会话内容进行说明,具体如下:A1:吃了吗?B:吃了。B:你呢?A1:帮我缴A1:费了吗?B:缴了总共100元。B:排队的人可真多。步骤S2002,判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。具体地,根据上述判断规则,可以确定会话内容中的发起句和回复句,假设本实施例通过判断获得会话内容中的发起句和回复句具体见表1。表1发起句回复句吃了吗?吃了。你呢?缴了总共100元。帮我缴排队的人可真多。费了吗?步骤S2003,判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型,若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将已确定类型的发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。具体地,假设本实施例首先根据步骤S2003中的第一个判别过程,判断出发起句的类型如下,具体见表2所示。表2序号发起句类型第一条发起句吃了吗?单句第二条发起句你呢?单句第三条发起句帮我缴非标准单句第四条发起句费了吗?非标准单句然后,根据步骤S2003中的第二个判别过程,即通过判断非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,确定是否将非标准单句和非标准复句发起句的类型衍生扩展为非标准句群发起句类型。通过具体判断可知,本实施例的第三条和第四条发起句可以合并成具有完整独立语义的语句,也即此时可以将第三条和第四条发起句的类型衍生扩展为非标准句群发起句类型,具体见表3所示。表3最后,根据步骤S2003中的第三个判别过程,判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。具体地,根据表3可知,本实施例不能将发起句进一步合并成语义关联的句群,也即在最后一个过程,不对发起句进一步进行衍生扩展。故最终获得发起句的类型如表3所示。步骤S2004,根据预设的类型判断规则,确定回复句的类型。本实施例确定回复句的类型的原理和过程和确定发起句的类型的原理和过程基本相同,故不再详述,假设本实施例判断出回复句的类型具体如表4所示。表4步骤S2005,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对。具体地,本实施例针对第一条发起句提取会话对时,首先判断第一条发起句与下一条发起句之间是否有回复句,若有,则根据所述发起句和所述回复句提取基础会话对,由于第一条和第二条发起句之间有回复句,则根据第一条发起句和回复句提取基础会话对。需要说明的是,本实施例在确定发起句与下一条发起句之间包含回复句后,还需计算发起句与回复句是否语义关联,且只有在语义关联的情况下,才提取基础会话对,否则不提取。本实施例假设第一条发起句和第一条回复句语义关联,则可以提取出基础会话对,假设为基础会话对1,基础会话对1的具体内容如表5所示。同理,本实施例针对第二条发起句提取基础会话对时,首先判断第二条发起句与第三条发起句之间是否有回复句,通过判断可知,第二条和第三条发起句之间不包含回复句,则放弃第二条发起句作为发起句。同样地,根据第三条和第四条发起句,假设可以提取语义关联的基础会话对2,基础会话对2的具体内容如表5所示。表5步骤S2006,将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句。具体地,由于本实施例中发起句的类型共有六种,分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群发起句类型,故本实施例首先根据基础会话对中发起句的类型进行衍生扩展,由于本实施例中基础会话对1中的发起句的类型为单句发起句类型,其无法进一步衍生扩展成其他五种发起句类型,故此时只包含一种类型的发起句,即单句发起句类型的发起句,具体如表6所示。而根据基础会话对2中的发起句的类型,可以进一步衍生扩展成其他类型的发起句,例如单句发起句类型,具体如表6所示。表6步骤S2007,将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句。具体地,由于本实施例中回复句的类型共有六种,分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群回复句类型。故本实施例首先根据基础会话对中回复句的类型进行衍生扩展,由于本实施例中基础会话对1中的回复句的类型为单句回复句类型,其无法进一步衍生扩展成其他五种回复句类型,故此时只包含一种类型的回复句,即单句回复句类型的回复句,具体如表7所示。而根据基础会话对2中的回复句的类型,可以进一步衍生扩展成其他类型的回复句,例如复句回复句类型,具体如表7所示。表7步骤S2008,根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。具体地,由于针对基础会话对1,发起句和回复句的类型只有一种,故此时只能提取一个会话对,而针对基础会话对2,由于发起句的类型和复句的类型为多种,故可组合获得多个会话对,具体见表8,表8为根据基础会话对2提取的6个会话对。表8步骤S2009,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值。具体地,本实施例在采集与会话对对应的且与预设的场景标签对应的场景标签值时,首先预设场景标签,然后针对每个会话对分别采集与预设的场景标签对应的场景标签值。假设本实施例预设的场景标签包括会话内容主题、会话意图、地点、天气、会话通讯双方关系、通讯对象的年龄、职业的多种组合,则可以采集到与每一个会话对对应的场景标签值,具体见表9所示。需要说明的是,本实施例中由于会话对1-会话对6均为基础会话对2的衍生扩展会话对,故与基础会话对2的场景标签对应的场景标签值相同。此外,本实施例针对不同的对话对可以设置不同的场景标签,且设置的场景标签的数目也可以不同。表9步骤S2010,将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。具体地,本实施例将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,也即按照“会话对+场景标签+场景标签值”的内容组合规则,生成通讯方A1的个人专属语料库。步骤S202,将多个所述通讯方的个人语料库进行合并,获得共享语料库。具体地,本实施例针对通讯方A2建立个人语料库的方法和过程与通讯方A1的方法和过程相同。且本实施例将通讯方A1和通讯方A2的个人语料库进行合并的具体过程为:首先将通讯方A1和通讯方A2的个人语料库进行组合,获得组合语料库,然后将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。步骤S203,判断共享语料库中的会话对是否包含多个回复句,若是,则根据预设的规则对多个回复句进行智能排序。由于本实施例将组合语料库中包含相同发起句的会话对进行同类项合并后,会话对中针对同一个发起句,可能包括多个回复句。故本实施例在获得共享语料库后,进一步判断共享语料库中的会话对是否包含多个回复句,若是,则根据预设的规则对多个回复句进行智能排序。具体地,本实施例可以根据回复句的使用频率、使用习惯、使用偏好、使用时间顺序等等规则对多个回复句进行智能排序。本发明实施例提供的创建共享语料库的方法,通过建立与通讯方对应的个人语料库以及将多个通讯方的个人语料库进行合并,获得共享语料库,解决了人工创建共享语料库的工作量大,且建库质量普遍不高的技术问题。不仅大大减少了人工创建共享语料库的工作量,而且通过合并多个通讯方的个人语料库创建共享语料库,使得创建的共享语料库内容丰富,形式多样,具有较高的实用性和智能性。同时不难看出,相比于直接根据多个通讯方的会话内容创建共享语料库,本实施例通过合并多个通讯方的个人语料库获得共享语料库更简便和快捷。以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1