一种自动建立个人专属语料库的方法与流程

文档序号:12667519阅读:266来源:国知局
一种自动建立个人专属语料库的方法与流程

本发明涉及通信技术领域,具体涉及一种自动建立个人专属语料库的方法。



背景技术:

目前,智能会话系统中用于自动回复的会话回复内容,往往是通过匹配会话语料库的方式获取。上述过程中的会话语料库,主要是通过人工创建的。人工建库的工作量大,且建库质量普遍不高。此外,现有技术方案中的会话语料库几乎都是通用于所有用户的,不具备个人专属性和针对性。针对该问题,故本实施例提出了一种基于会话内容自动建立个人专属语料库的方法。



技术实现要素:

本发明提供了一种自动建立个人专属语料库的方法,以解决现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。

本发明提供的自动建立个人专属语料库的方法,包括:

采集通讯方的会话内容;

获取会话内容中的会话对;

根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;

将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。

进一步地,获取会话内容中的会话对包括:

逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;

若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,或发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句。

进一步地,根据发起句,以及发起句与下一条发起句之间的回复句提取会话对包括:

判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取;

若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

进一步地,逐一判断发起句后是否还包含发起句包括:

逐一判断发起句是否为最后一条会话句,若是,则停止会话对提取操作,若否,则判断发起句后是否还包含发起句。

进一步地,将发起句组以及发起句组后与其关联的回复句作为会话对提取包括:

获取发起句组后的所有回复句;

分别计算每一条回复句与发起句组中的每一条发起句之间的关联度;

根据关联度和预设的关联度阈值,获得发起句组后与其关联的回复句;

将发起句组,以及发起句组后与其关联的回复句作为会话对进行提取。

进一步地,采集通讯方的会话内容包括:

采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料;

将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

进一步地,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值包括:

预设场景标签库,场景标签库至少包括一个场景标签;

在场景标签库中选择与会话对关联的场景标签;

采集获得会话对与场景标签对应的场景标签值。

进一步地,在场景标签库中选择与会话对关联的场景标签包括:

获取会话对的会话内容主题;

计算会话内容主题的词向量与场景标签库中的场景标签的词向量之间的相似度;

根据相似度选取预设阈值数目的与会话对关联的场景标签。

进一步地:

会话内容包括文本、图片、语音或视频格式的会话内容。

进一步地,场景标签包括:

会话内容主题,会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、星座、血型,会话通讯双方之间的关系、年龄差距、辈分差距,双方会话通讯的间隔时间、频率、时间跨度,会话内容的句型、句类、句式结构类型,以及总量标签中的一种或多种组合。

本发明具有以下有益效果:

本发明提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。

除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构建对本发明的不当限定。在附图中:

图1是本发明优选实施例自动建立个人专属语料库的方法流程图;

图2是本发明优选实施例针对的精简实施例一的自动建立个人专属语料库的方法的流程图;

图3是本发明优选实施例针对的精简实施例二的自动建立个人专属语料库的方法的流程图;

图4是本发明优选实施例针对的精简实施例三的自动建立个人专属语料库的方法的流程图;

图5是本发明优选实施例针对的精简实施例四的自动建立个人专属语料库的方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1,本发明的优选实施例提供了一种自动建立个人专属语料库的方法,包括:

步骤S101,采集通讯方的会话内容;

步骤S102,获取会话内容中的会话对;

步骤S103,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;

步骤S104,将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。

本发明实施例提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。

此外,本发明实施例直接根据会话对、场景标签以及与场景标签对应的场景标签值生成个人专属语料库,完全模拟真实会话场景建立个人专属语料库,使得建立的个人专属语料库更全面和可靠。更进一步地,基于本发明实施例自动建立的具备个人专属性的会话语料库,能匹配获得真实模拟通讯方回复的精准回复内容。

需要说明是,本发明实施例将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合生成个人专属语料库,也即按照“会话对+场景标签值”的内容匹配组合规则,生成个人专属语料库。此外,由于不同的会话内容具有不同的场景特性,例如会话内容主题、会话时间、会话地点、会话双方关系等等,故本实施例获取会话内容中的会话对后,进一步根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值,并将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。本实施例中的场景标签由用户自定义,例如可以是会话内容主题,会话意图,会话通讯双方的时间、地点、日期、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、星座、血型,会话通讯双方之间的关系、年龄差距、辈分差距,双方会话通讯的间隔时间、频率、时间跨度,会话内容的句型、句类、句式结构类型,以及总量标签中的一种或多种组合等等。

可选地,获取会话内容中的会话对包括:

逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;

若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,或发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句。

由于现有采集的会话对或问答对的形式往往是一问一答的问答形式,而在实际的会话过程中,通讯双方进行会话并非完全符合一问一答的会话模式,例如针对通讯对方发送的会话句,通讯方可能回复了几条会话句,或针对通讯对方发送的多条会话句,通讯方可能只回复了一条会话句。也即真实会话过程中,会话对可能是包括多种形式的会话对,而非仅仅是一问一答的会话对形式,例如多个发起句+一个回复句、一个发起句+多个回复句等等。

故如果仅仅采取一问一答的形式提取对话对,可能存在以下问题:对于一些没有以一问一答形式展现的会话内容,从会话内容中提取会话对的难度较大,且精度较低。例如对于多个发起句+多个回复句形式的会话内容,从中提取会话对时,需要分析与每一个发起句匹配的回复句,过程复杂,难度大,且精度较低。此外,由于以一问一答形式提取的会话对的完整性会被破坏,从而导致基于提取的会话对建立的个人专属语料库不能准确模拟真实会话。

针对该问题,本实施例通过逐一判断发起句后是否还包含发起句的方式,能提取出不同类型的会话对。具体地,当本实施例判断出发起句后不包含发起句时,则将发起句以及发起句后与发起句关联的回复句作为会话对进行提取。该情形下,发起句后可能包括一条或多条回复句,且有些可能是针对发起句的答复,有些可能与发起句无关联,故本实施例仅仅提取与发起句关联的回复句。而当发起句后只包含一条回复句时,可以直接将该条回复句作为与发起句关联的回复句。

例如假设会话内容为“通讯对方:最近怎么样?/通讯方:挺好的,你怎么样呢?”,则无需计算与发起句关联的回复句,直接将回复句“挺好的,你怎么样呢?”作为与发起句关联的回复句,并将发起句“最近怎么样?”和回复句“挺好的,你怎么样呢?”作为会话对进行提取并保存。而当假设会话内容为“通讯对方:最近怎么样?/通讯方:挺好的。/通讯方:你怎么样呢?”,则需要分别计算回复句“挺好的。”和回复句“你怎么样呢?”与发起句“最近怎么样?”之间的关联度,并从中选择出与发起句关联的回复句,以及将发起句和与发起句关联的回复句作为会话对进行提取并保存。本实施例具体可以通过计算发起句和回复句之间的语义关联度或相似度获得两者之间的关联度,且可以预先设定关联度阈值,并通过判断关联度与关联度阈值选取与发起句关联的回复句。

本实施例通过逐一判断发起句后是否还包含发起句的方式,能提取出不同类型的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,本实施例从会话内容中提取的会话对形式多样,更真实模拟会话过程,为后续根据自动建立的个人专属语料库匹配获得精准的回复内容奠定基础。

需要说明的是,当本实施例中的发起句为通讯对方发送的会话句时,回复句则为通讯方发送的会话句,而当发起句为通讯方发送的会话句时,则回复句则为通讯对方发送的会话句。因此,本实施例采集的通讯方的会话内容可能是通讯对方主动发起会话的模式,也可能是通讯方主动发起会话的模式,由此可见,本实施例提取的会话对要么是通讯方回复通讯对方的会话对,要么是通讯方主动发起会话的会话对,具有较强的针对性和专属性,为后续建立具有针对性和专属性的个人专属语料库奠定基础。

可选地,根据发起句,以及发起句与下一条发起句之间的回复句提取会话对包括:

判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取;

若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

具体地,当本实施例判断出发起句后还包括发起句,且发起句与下一条发起句之间包含回复句时,将发起句以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对进行提取。例如假设会话内容为“通讯对方:最近怎么样?/通讯方:挺好的,你怎么样呢?/通讯对方:我也挺好的。”,则容易看出发起句(通讯对方:最近怎么样?)与下一条发起句(通讯对方:我也挺好的。)之间的回复句为“通讯方:挺好的,你怎么样呢?”,由于此时仅包括一条回复句,故直接将发起句以及发起句与下一条发起句之间的回复句作为会话对进行提取,当发起句与下一条发起句之间包括多条回复句时,则需选择与发起句关联的回复句进行提取。

当本实施例判断出发起句后还包括发起句,且发起句与下一条发起句之间不包含回复句时,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句。当判断出发起句组后不包括发起句时,将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取。当本实施例判断出发起句后还包括发起句,且发起句与下一条发起句之间不包含回复句时,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句。当判断出发起句组后包括发起句时,将发起句组以及发起句组与发起句组的下一条发起句之间的与发起句组关联的回复句作为会话对进行提取。

可选地,逐一判断发起句后是否还包含发起句包括:

逐一判断发起句是否为最后一条会话句,若是,则停止会话对提取操作,若否,则判断发起句后是否还包含发起句。

具体地,当本实施例判断出发起句为最后一条会话句时,则停止会话对提取操作,否则判断发起句后是否还包含发起句。

可选地,将发起句组以及发起句组后与其关联的回复句作为会话对进行提取包括:

获取发起句组后的所有回复句;

分别计算每一条回复句与发起句组中的每一条发起句之间的关联度;

根据关联度和预设的关联度阈值,获得发起句组后与其关联的回复句;

将发起句组,以及发起句组后与其关联的回复句作为会话对进行提取。

当本实施例获得发起句组,且判断出发起句组后不包括发起句时,可能在发起句组后获得多个回复句,针对该问题,本实施例仅选取与发起句组关联的回复句进行提取。具体地,本实施例将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取时,首先获取发起句组后的所有回复句,然后分别计算每一条回复句与发起句组中的每一条发起句之间的关联度,并根据关联度和预设的关联度阈值,获得发起句组后与发起句组关联的回复句,最后将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取。

例如假设会话内容为“通讯对方:小陈?/通讯对方:你在吗?/通讯方:周姐。/通讯方:你好,我在店里呢。”,可以获得发起句组为“通讯对方:小陈?/通讯对方:你在吗?”,然后分别计算回复句与发起句组(发起句组中的发起句)是否关联,若是,则将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取。也即当上述两条回复句均与发起句组关联时,则提取的会话对为“通讯对方:小陈?/通讯对方:你在吗?/通讯方:周姐。/通讯方:你好,我在店里呢。”,当仅仅回复句“通讯方:你好,我在店里呢。”与发起句组关联时,则提取的会话对为“通讯对方:小陈?/通讯对方:你在吗?/通讯方:你好,我在店里呢。”。

可选地,采集通讯方的会话内容包括:

采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料;

将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

由于本实施例是通过对会话句进行逐一判断的方式获得会话对,在实际的实施过程中,一条会话内容可能包括多个会话句,例如“小陈,你在吗?我想去你们店里做护理,你有时间吗?我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?”,针对这种情况,本实施例在采集通讯方的会话内容时,首先采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料,然后将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

本实施例对会话语料进行拆分时,具体可以根据标点符号对会话语料进行拆分,且拆分之后的会话句包括会话句内容和发送会话句内容的发送方。本实施例通过对包含多个会话句的会话语料进行拆分,有利于后续快速精准地提取会话对。

可选地,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值包括:

预设场景标签库,场景标签库至少包括一个场景标签;

在场景标签库中选择与会话对关联的场景标签;

采集获得会话对与场景标签对应的场景标签值。

本实施例采集获得场景标签值一般是首先通过预设场景标签,然后根据场景标签采集获得会话对与场景标签对应的场景标签值两个步骤实现,而在实际的实施过程中,由于不同的会话对可能关联不同的场景标签,或者不同的会话对与不同的场景标签的关联度不同,故为了更精准获得与会话对对应的场景标签值,本实施例首先预设用于存储场景标签的场景标签库,然后在场景标签库中选择与会话对关联的场景标签,最后再根据与会话对关联的场景标签采集获得会话对与场景标签对应的场景标签值。

具体地,在场景标签库中选择与会话对关联的场景标签可以通过人工自定义,例如针对不同的会话对,人工选择不同的场景标签。且本方案定义的与会话对关联的场景标签可以以多种关联形式进行关联,例如与会话对的会话内容关联,与会话对的会话内容主题关联,与会话对的会话时间关联等等。

可选地,在场景标签库中选择与会话对关联的场景标签包括:

获取会话对的会话内容主题;

计算会话内容主题的词向量与场景标签库中的场景标签的词向量之间的相似度;

根据相似度选取预设阈值数目的与会话对关联的场景标签。

具体地,本实施例在场景标签库中选择与会话对关联的场景标签可以通过人工选择,也可以自动选择。具体地,首先获取会话对的会话内容主题,然后计算会话内容主题的词向量与场景标签库中的场景标签的词向量之间的相似度,最后根据相似度选取预设阈值数目的与会话对关联的场景标签。

本实施例通过获取会话对的会话内容主题,以及通过计算会话内容主题的词向量和场景标签库中的场景标签的词向量之间的相似度,实现了在场景标签库中智能选择与会话对关联的场景标签,大大减少了人工选择与会话对关联的场景标签的工作量,且根据会话对的会话内容主题选择的与会话对关联的场景标签可靠性高,为后续建立可靠的个人专属语料库奠定数据基础。需要说明的是,本实施例计算会话内容主题的词向量与场景标签库中的场景标签的词向量之间的相似度后,可以通过预设阈值,然后根据相似度排名从高至低选择预设阈值数目的与会话对关联的场景标签。

可选地:会话内容包括文本、图片、语音或视频格式的会话内容。

为了使自动建立的个人语料库具备专属性,本实施例采集的用于建立个人专属语料库的会话内容是通讯方的个人会话内容,也即是通讯方与其他通讯对方进行会话的会话内容。具体地,可以通过采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯方进行会话的会话内容获得个人会话内容。本实施例中的会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音或视频格式的会话内容时,首先将语音、图片或视频格式的会话内容转换为文本格式的会话内容。

本实施例通过采集通讯方的个人会话内容建立个人专属语料库,使得生成的个人语料库均由通讯方与其他通讯对方进行会话的会话语料构成,从而使得自动建立的个人专属语料库具有个人专属性和较强的针对性。

可选地,场景标签包括:

会话内容主题,会话意图,会话通讯双方的时间、地点、日期、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、星座、血型,会话通讯双方之间的关系、年龄差距、辈分差距,双方会话通讯的间隔时间、频率、时间跨度,会话内容的句型、句类、句式结构类型,以及总量标签中的一种或多种组合。

具体地,本实施例的场景标签不限于只包括会话内容主题,会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、星座、血型,会话通讯双方之间的关系、年龄差距、辈分差距,双方会话通讯的间隔时间、频率、时间跨度,会话内容的句型、句类、句式结构类型,以及总量标签中的一种或多种组合,具体由用户根据需要自定义,也即用户可以增加或删除场景标签。

需要说明的是,本实施例采集与会话意图场景标签对应的场景标签值时,可以通过预先建立会话意图识别模型,用于识别通讯方和/或通讯对方的会话意图。具体地,首先训练好与会话对样本对应的会话意图识别模型,然后根据训练好的会话意图识别模型识别通讯方和/或通讯对方针对会话对的会话意图。

下面针对四个精简实施例对本发明的自动建立个人专属语料库的方法进行更进一步说明。

精简实施例一

参照图2,本发明的精简实施例一提供的自动建立个人专属语料库的方法,包括:

步骤S201,采集通讯方的会话内容。

具体地,假设本实施例中的通讯方为A,则可以通过采集通讯方A的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话内容,获得通讯方A的会话内容,其中,会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音、图片或视频格式的会话内容时,还包括将语音、图片或视频格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例建立个人专属语料库的过程,本实施例以二部分简单的通讯方A的会话内容进行说明,具体如下:

第一部分(通讯方A与通讯对方B的会话内容):

A:军鸽机器人店长多少钱一套?

B:军鸽机器人店长现在5000元一套。

B:现在购买还可以在5000元的基础上打8折。

第二部分(通讯方A与通讯对方C的会话内容):

A:周姐,在吗?

C:在的。

A:您上次让我帮您查的肩颈卡项的剩余次数,我查了,还有5次。

C:我最近肩颈不舒服,打算预约明天来店里做肩颈。

C:你明天在店里吗?

步骤S202,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;

若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

具体地,针对第一部分的会话内容,容易判断出第一条会话句为发起句,即第一条会话句是通讯方发送的会话句。且该发起句不是最后一条会话句,则本实施例接着判断该发起句后是否还包括发起句,由于该发起句后没有通讯方发送的会话句了,也即该发起句后不包含发起句,因此,将发起句以及发起句后与发起句关联的回复句作为会话对进行提取。具体地,首先获得该发起句后的所有回复句(第一个回复句为“A:军鸽机器人店长现在5000元一套。”,第二个回复句为“现在购买还可以在5000元的基础上打8折。”),然后分别计算第一个回复句和第二个回复句与发起句(“B:军鸽机器人店长多少钱一套?”)的关联度,并通过比较计算出的关联度与预设的关联度阈值判断哪些回复句与发起句关联,假设本实施例计算出第一个和第二个回复句都与发起句关联,则可以获得会话对1,具体见表1。

针对第二部分的会话内容,容易判断出第一条会话句也为发起句,即第一条会话句是通讯方发送的会话句。且该发起句不是最后一条会话句,则本实施例接着判断该发起句后是否还包括发起句,由于该发起句后还有通讯方发送的会话句,也即该发起句后还包含发起句,则继续判断发起句与下一条发起句之间是否包含发起句,由于本实施例第一条会话(“周姐,在吗?”)与下一条发起句(“您上次让我帮您查的肩颈卡项的剩余次数,我查了,还有5次。”)之间包括发起句(“在的。”),故将发起句以及发起句与下一条发起句之间的与发起句关联的发起句作为会话对进行提取,则可以获得会话对2,具体见表1。

本实施例在提取完第二个会话对后,继续判断第二部分会话内容中后续的发起句是否为最后一条会话句,过程与前述相同,则针对第二部分会话内容,还可以提取会话对3(假设发起句“C:你明天在店里吗?”与回复句“A:您上次让我帮您查的肩颈卡项的剩余次数,我查了,还有5次。”不关联),具体见表1。

表1

步骤S203,预设场景标签库,场景标签库至少包括一个场景标签。

具体地,本实施例假设场景标签库包括至少一个场景标签,且假设场景标签为会话内容主题,会话意图,会话通讯双方的时间、地点、日期、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、星座、血型,会话通讯双方之间的关系、年龄差距、辈分差距,双方会话通讯的间隔时间、频率、时间跨度,会话内容的句型、句类、句式结构类型,以及总量标签中的一种或多种组合。

步骤S204,在场景标签库中选择与会话对关联的场景标签。

具体地,本实施例在场景标签库中选择与会话对关联的场景标签时,需要针对每一个会话对选取与其关联的场景标签,且在选择与会话对关联的场景标签时可以人工选择,也可以通过计算会话对的会话内容主题的词向量与场景标签库中的场景标签的词向量之间的相似度获得与会话对关联的场景标签,假设本实施例通过计算获得与每一个会话对关联的场景标签,具体如表2所示。其中,表2中的场景标签下打“√”符合代表该场景标签与会话对关联。需要说明的是,本实施例针对不同的对话对可以选取不同数目的与会话对关联的场景标签。

表2

步骤S205,采集获得会话对与场景标签对应的场景标签值。

具体地,本实施例在获得与会话对关联的场景标签后,继续采集获得会话对与场景标签对应的场景标签值,也即针对每个会话对分别采集与其关联的场景标签对应的场景标签值,具体见表3所示。

表3

步骤S206,将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。

具体地,本实施例将会话对,场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,也即按照“会话对+场景标签值”的内容组合规则,生成个人专属语料库。

本发明实施例提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。

精简实施例二

参照图3,本发明的精简实施例二提供的自动建立个人专属语料库的方法,包括:

步骤S301,采集通讯方的会话内容。

具体地,假设本实施例中的通讯方为A,则可以通过采集通讯方A的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话内容,获得通讯方A的会话内容,其中,会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音、图片或视频格式的会话内容时,还包括将语音、图片或视频格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例建立个人专属语料库的过程,本实施例以三部分简单的通讯方A的会话内容进行说明,具体如下:

第一部分(通讯方A与通讯对方B的会话内容):

B:你好。

B:这个手机多少钱?

B:有折扣吗?

A:你好,这个手机现在售价5000元每台,暂时没有折扣。

第二部分(通讯方A与通讯对方C的会话内容):

C:小陈,你在吗?

C:我想去你们店里做护理,你有时间吗?

C:我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?

A:周姐你好,我在店里呢。

A:周姐,您的肩颈卡项还有5次呢~

A:请问您什么时候过来?

第三部分(通讯方A与通讯对方D的会话内容):

D:最近怎么样?

D:要不要出来逛街?

A:挺好的,可以出来一起逛逛。

A:上次借你的书什么时候还我?

步骤S302,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;

若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

具体地,针对第一部分的会话内容,容易判断出第一条会话句为发起句,即第一条会话句是通讯对方发送的会话句。且该发起句不是最后一条会话句,则本实施例接着判断该发起句后是否还包括发起句,由于该发起句后还包括通讯对方发送的会话句,也即该发起句后包含发起句。因此,继续判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对进行提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句。由于本实施例中的发起句(“你好?”)与下一条发起句(“这个手机多少钱?”)之间不包含回复句,则采集连续的发起句,直至出现回复句,获得发起句组,也即可以获得发起句组为“B:你好。/B:这个手机多少钱?/B:有折扣吗?”,且由于发起句组后不包括发起句了,则将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取,且假设此时提取出的会话对为会话对1,具体见表4。

针对第二部分,通过判断可以获得发起句组,且由于发起句组后包括多个回复句,故需首先获取发起句组后的所有回复句,然后分别计算每一条回复句与发起句组中的每一条发起句之间的关联度,并根据关联度和预设的关联度阈值,获得发起句组后与发起句组关联的回复句,最后将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取,且假设此时提取出的会话对为会话对2(假设发起句组后的所有回复句都与发起句组关联),具体见表4。

针对第三部分,通过判断可以获得发起句组,且由于发起句组后包括多个回复句,故需首先获取发起句组后的所有回复句,然后分别计算每一条回复句与发起句组中的每一条发起句之间的关联度,并根据关联度和预设的关联度阈值,获得发起句组后与发起句组关联的回复句,最后将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取,且假设此时提取出的会话对为会话对3(假设回复句“A:上次借你的书什么时候还我?”与发起句组不关联),具体见表4。

表4

步骤S303,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值。

具体地,本实施例在采集与会话对对应的,且与预设的场景标签对应的场景标签值时,首先预设场景标签,然后针对每个会话对分别采集与预设的场景标签对应的场景标签值。假设本实施例预设的场景标签包括会话内容主题、会话意图、地点、天气、会话通讯双方关系、通讯对象的年龄、职业的多种组合,则可以采集到与每一个会话对对应的场景标签值,具体见表5所示。需要说明的是,本实施例针对不同的对话对可以设置不同的场景标签,且设置的场景标签的数目也可以不同。

表5

步骤S304,将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。

具体地,本实施例将会话对,场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,也即按照“会话对+场景标签值”的内容组合规则,生成个人专属语料库。

本发明实施例提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。

此外,本实施例通过逐一判断会话句的方式,能提取出完整的更真实模拟会话的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,本实施例从会话内容中提取的会话对形式多样,更真实模拟会话过程,为后续根据自动建立的个人专属语料库匹配获得精准的回复内容奠定基础。

精简实施例三

参照图4,本发明的精简实施例三提供的自动建立个人专属语料库的方法,包括:

步骤S401,采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料。

假设本实施例采集的会话语料为“通讯对方B:小陈,你在吗?我想去你们店里做护理,你有时间吗?我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?/通讯方A:周姐你好,我在店里呢?您的肩颈卡项还有5次呢~请问您什么时候过来?”。

步骤S402,将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

通过步骤S401采集的会话语料可以看出,会话语料中的一条会话内容包括多个会话句,例如通讯对方发送的会话内容“小陈,你在吗?我想去你们店里做护理,你有时间吗?我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?”,包括3个会话句,故本实施例将包含多个会话句的会话语料拆分成由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。具体地,通过拆分可以获得由会话句组成的会话内容,具体如下:

B:小陈,你在吗?

B:我想去你们店里做护理,你有时间吗?

B:我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?

A:周姐你好,我在店里呢。

A:周姐,您的肩颈卡项还有5次呢~

A:请问您什么时候过来?

步骤S403,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;

若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

由于本实施例中的会话内容与精简实施例二中第二部分的会话内容完全相同,故针对其提取会话对的过程不再详述,且提取的会话对具体可参照表4中的会话对2。

步骤S404,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值。

具体地,本实施例在采集与会话对对应的,且与预设的场景标签对应的场景标签值时,首先预设场景标签,然后针对每个会话对分别采集与预设的场景标签对应的场景标签值。假设本实施例预设的场景标签包括会话内容主题、会话意图、地点、天气、会话通讯双方关系、通讯对象的年龄、职业的多种组合,则可以采集到与每一个会话对对应的场景标签值。由于本实施例中的会话对与精简实施例二中第二部分的会话内容完全相同,预设的场景标签也相同,故采集的与预设的场景标签对应的场景标签值也相同,具体可参照表5。

步骤S405,将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。

具体地,本实施例将会话对,场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,也即按照“会话对+场景标签值”的内容组合规则,生成个人专属语料库。

本发明实施例提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。

此外,本实施例通过逐一判断会话句的方式,能提取出完整的更真实模拟会话的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和答复句之间的关联度提取会话对,提升了会话对的提取精度。此外,本实施例从会话内容中提取的会话对形式多样,更真实模拟会话过程,为后续根据自动建立的个人专属语料库匹配获得精准的回复内容奠定基础。且本实施例通过对包含多个会话句的会话语料进行拆分,有利于后续快速精准地提取会话对。

精简实施例四

参照图5,本发明的精简实施例四提供的自动建立个人专属语料库的方法,包括:

步骤S501,采集通讯方的会话内容。

具体地,假设本实施例中的通讯方为A,则可以通过采集通讯方A的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话内容,获得通讯方A的会话内容,其中,会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音、图片或视频格式的会话内容时,还包括将语音、图片或视频格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例建立个人专属语料库的过程,本实施例以两部分简单的通讯方A的会话内容进行说明,具体如下:

第一部分(通讯方A与通讯对方B的会话内容):

B:我最近看了一本写的不错的书。

A:是吗?我最近也看了一本觉得不错的书。

B:我看的这本书是罗辑思维节目强烈推荐的。

A:那能不能借给我看看?

B:没问题。

第二部分(通讯方A与通讯对方C的会话内容):

C:今天心情不好。

A:我也心情不好。

C:你怎么啦?

A:这2天感冒发烧,一直不见好。

步骤S502,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;

若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

由于针对第一部分和第二部分的会话内容提取会话对的过程和前述精简实施例的过程一样,故不再细述。假设本实施例根据第一部分会话内容提取出两个会话对,根据第二部分的会话内容提出出两个会话对,具体见表6。

表6

由此可见,本实施例提取的会话对不仅能从形式涵盖不同类型的会话对(例如单个会话句+单个回复句、单个会话句+多个回复句、多个会话句+单个回复句、多个会话句+多个回复句等等),还能从内容上或其他方面涵盖不同类型的会话对,例如从内容上涵盖开放式类型会话对(会话对1和会话对3),或封闭式类型会话对(会话对4)等等,也即不管会话内容中包含何种会话对类型,本实施例都可以对其进行精准采集,且采集获得的会话对能真实模拟会话,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,本实施例从会话内容中提取的会话对形式和内容多样,更真实模拟会话过程,为后续根据自动建立的个人专属语料库匹配获得精准的回复内容奠定基础。

步骤S503,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值。

具体地,本实施例在采集与会话对对应的,且与预设的场景标签对应的场景标签值时,首先预设场景标签,然后针对每个会话对分别采集与预设的场景标签对应的场景标签值。假设本实施例预设的场景标签包括会话内容主题、会话意图、地点、天气、会话通讯双方关系、通讯对象的年龄、职业的多种组合,则可以采集到与每一个会话对对应的场景标签值。本实施例根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值的方法具体参照前述精简实施例的方法,故不再细述。

步骤S504,将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。

具体地,本实施例将会话对,场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,也即按照“会话对+场景标签值”的内容组合规则,生成个人专属语料库。

本发明实施例提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。

此外,本实施例从会话内容中提取的会话对形式和内容多样,更真实模拟会话过程,为后续根据自动建立的个人专属语料库匹配获得精准的回复内容奠定基础。且本实施例通过对包含多个会话句的会话语料进行拆分,有利于后续快速精准地提取会话对。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1