一种根据会话内容提取会话对的方法与流程

文档序号:12666048阅读:177来源:国知局
一种根据会话内容提取会话对的方法与流程

本发明涉及通信技术领域,具体涉及一种根据会话内容提取会话对的方法。



背景技术:

目前,从会话内容中提取的会话对或问答对,往往是一问一答的会话对形式,而在实际的会话过程中,通讯双方进行会话并非完全符合一问一答的会话模式,例如针对通讯对方发送的会话句,通讯方可能回复了几条会话句,或针对通讯对方发送的多条会话句,通讯方可能只回复了一条会话句。

故如果仅仅采取一问一答的形式提取对话对,可能存在以下问题:对于一些没有以一问一答形式展现的会话内容,从会话内容中提取会话对的难度较大,且精度较低。例如对于多个发起句+多个回复句形式的会话内容,从中提取会话对时,需要分析与每一个发起句匹配的回复句,过程复杂,难度大,且精度较低。此外,由于以一问一答形式提取的会话对的完整性容易被破坏,从而导致提取的会话对不能准确模拟真实会话。



技术实现要素:

本发明提供了一种根据会话内容提取会话对的方法,以解决现有从会话内容中提取会话对的难度较大,且精度较低的技术问题。

本发明提供的根据会话内容提取会话对的方法,包括:

采集通讯方的会话内容;

逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取,若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,或发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句。

进一步地,根据发起句,以及发起句与下一条发起句之间的回复句提取会话对包括:

判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取;

若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

进一步地,逐一判断发起句后是否还包含发起句包括:

逐一判断发起句是否为最后一条会话句,若是,则停止会话对提取操作,若否,则判断发起句后是否还包含发起句。

进一步地,将发起句组以及发起句组后与其关联的回复句作为会话对提取包括:

获取发起句组后的所有回复句;

分别计算每一条回复句与发起句组中的每一条发起句之间的关联度;

根据关联度和预设的关联度阈值,获得发起句组后与其关联的回复句;

将发起句组,以及发起句组后与其关联的回复句作为会话对进行提取。

进一步地,采集通讯方的会话内容包括:

采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料;

将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

进一步地:会话内容包括文本、图片、语音、视频或动漫格式的会话内容。

本发明具有以下有益效果:

本发明提供的根据会话内容提取会话对的方法,通过采集通讯方的会话内容,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,或发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句,解决了现有技术提取会话对的难度较大,精度较低的技术问题,不仅打破了传统的一问一答的会话对形式,而且能提取出不同类型的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,通过本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复,以及匹配获得形式多样的智能回复内容,实用性较高。

除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构建对本发明的不当限定。在附图中:

图1是本发明优选实施例根据会话内容提取会话对的方法流程图;

图2是本发明优选实施例针对的精简实施例一的根据会话内容提取会话对的方法的流程图;

图3是本发明优选实施例针对的精简实施例二的根据会话内容提取会话对的方法的流程图;

图4是本发明优选实施例针对的精简实施例三的根据会话内容提取会话对的方法的流程图;

图5是本发明优选实施例针对的精简实施例四的根据会话内容提取会话对的方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1,本发明的优选实施例提供了一种根据会话内容提取会话对的方法,包括:

步骤S101,采集通讯方的会话内容;

步骤S102,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取,若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,或发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句。

本发明实施例提供的根据会话内容提取会话对的方法,通过采集通讯方的会话内容,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,或发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句,解决了现有技术提取会话对的难度较大,精度较低的技术问题,不仅打破了传统的一问一答的会话对形式,而且能提取出不同类型的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,通过本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复,以及匹配获得形式多样的智能回复内容,实用性较高。

具体地,当本实施例判断出发起句后不包含发起句时,则将发起句以及发起句后与发起句关联的回复句作为会话对进行提取。该情形下,发起句后可能包括一条或多条回复句,且有些可能是针对发起句的答复,有些可能与发起句无关联,故本实施例仅仅提取与发起句关联的回复句。而当发起句后只包含一条回复句时,可以直接将该条回复句作为与发起句关联的回复句。

例如假设会话内容为“通讯对方:最近怎么样?/通讯方:挺好的,你怎么样呢?”,则无需计算与发起句关联的回复句,直接将回复句“挺好的,你怎么样呢?”作为与发起句关联的回复句,并将发起句“最近怎么样?”和回复句“挺好的,你怎么样呢?”作为会话对进行提取并保存。而当假设会话内容为“通讯对方:最近怎么样?/通讯方:挺好的。/通讯方:你怎么样呢?”,则需要分别计算回复句“挺好的。”和回复句“你怎么样呢?”与发起句“最近怎么样?”之间的关联度,并从中选择出与发起句关联的回复句,以及将发起句和与发起句关联的回复句作为会话对进行提取并保存。本实施例具体可以通过计算发起句和回复句之间的语义关联度或相似度获得两者之间的关联度,且可以预先设定关联度阈值,并通过判断关联度与关联度阈值选取与发起句关联的回复句。

需要说明的是,当本实施例中的发起句为通讯对方发送的会话句时,回复句则为通讯方发送的会话句,而当发起句为通讯方发送的会话句时,则回复句则为通讯对方发送的会话句。因此,本实施例采集的通讯方的会话内容可能是通讯对方主动发起会话的模式,也可能是通讯方主动发起会话的模式,由此可见,本实施例提取的会话对要么是通讯方回复通讯对方的会话对,要么是通讯方主动发起会话的会话对,具有较强的针对性和专属性。此外,通过本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复,以及匹配获得形式多样的智能回复内容,实用性较高。

可选地,根据发起句,以及发起句与下一条发起句之间的回复句提取会话对包括:

判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取;

若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

具体地,当本实施例判断出发起句后还包括发起句,且发起句与下一条发起句之间包含回复句时,将发起句以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对进行提取。例如假设会话内容为“通讯对方:最近怎么样?/通讯方:挺好的,你怎么样呢?/通讯对方:我也挺好的。”,则容易看出发起句(通讯对方:最近怎么样?)与下一条发起句(通讯对方:我也挺好的。)之间的回复句为“通讯方:挺好的,你怎么样呢?”,由于此时仅包括一条回复句,故直接将发起句以及发起句与下一条发起句之间的回复句作为会话对进行提取,当发起句与下一条发起句之间包括多条回复句时,则需选择与发起句关联的回复句进行提取。

当本实施例判断出发起句后还包括发起句,且发起句与下一条发起句之间不包含回复句时,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句。当判断出发起句组后不包括发起句时,将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取。当本实施例判断出发起句后还包括发起句,且发起句与下一条发起句之间不包含回复句时,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句。当判断出发起句组后包括发起句时,将发起句组以及发起句组与发起句组的下一条发起句之间的与发起句组关联的回复句作为会话对进行提取。

可选地,逐一判断发起句后是否还包含发起句包括:

逐一判断发起句是否为最后一条会话句,若是,则停止会话对提取操作,若否,则判断发起句后是否还包含发起句。

具体地,当本实施例判断出发起句为最后一条会话句时,则停止会话对提取操作,否则判断发起句后是否还包含发起句。

可选地,将发起句组以及发起句组后与其关联的回复句作为会话对进行提取包括:

获取发起句组后的所有回复句;

分别计算每一条回复句与发起句组中的每一条发起句之间的关联度;

根据关联度和预设的关联度阈值,获得发起句组后与其关联的回复句;

将发起句组,以及发起句组后与其关联的回复句作为会话对进行提取。

当本实施例获得发起句组,且判断出发起句组后不包括发起句时,可能在发起句组后获得多个回复句,针对该问题,本实施例仅选取与发起句组关联的回复句进行提取。具体地,本实施例将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取时,首先获取发起句组后的所有回复句,然后分别计算每一条回复句与发起句组中的每一条发起句之间的关联度,并根据关联度和预设的关联度阈值,获得发起句组后与发起句组关联的回复句,最后将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取。

例如假设会话内容为“通讯对方:小陈?/通讯对方:你在吗?/通讯方:周姐。/通讯方:你好,我在店里呢。”,可以获得发起句组为“通讯对方:小陈?/通讯对方:你在吗?”,然后分别计算回复句与发起句组(发起句组中的发起句)是否关联,若是,则将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取。也即当上述两条回复句均与发起句组关联时,则提取的会话对为“通讯对方:小陈?/通讯对方:你在吗?/通讯方:周姐。/通讯方:你好,我在店里呢。”,当仅仅回复句“通讯方:你好,我在店里呢。”与发起句组关联时,则提取的会话对为“通讯对方:小陈?/通讯对方:你在吗?/通讯方:你好,我在店里呢。”。

可选地,采集通讯方的会话内容包括:

采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料;

将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

由于本实施例是通过对会话句进行逐一判断的方式获得会话对,在实际的实施过程中,一条会话内容可能包括多个会话句,例如“小陈,你在吗?我想去你们店里做护理,你有时间吗?我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?”,针对这种情况,本实施例在采集通讯方的会话内容时,首先采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料,然后将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

本实施例对会话语料进行拆分时,具体可以根据会话内容的句型、句式、或标点符号等对会话语料进行拆分,且拆分之后的会话句包括会话句内容和发送会话句内容的发送方。本实施例通过对包含多个会话句的会话语料进行拆分,有利于后续快速精准地提取会话对。

可选地:会话内容包括文本、图片、语音或视频格式的会话内容。

具体地,可以通过采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯方进行会话的会话内容获得个人会话内容。本实施例中的会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音或视频格式的会话内容时,首先将语音、图片或视频格式的会话内容转换为文本格式的会话内容。

下面针对四个精简实施例对本发明的根据会话内容提取会话对的方法进行更进一步说明。

精简实施例一

参照图2,本发明的精简实施例一提供的根据会话内容提取会话对的方法,包括:

步骤S201,采集通讯方的会话内容。

具体地,假设本实施例中的通讯方为A,则可以通过采集通讯方A的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话内容,获得通讯方A的会话内容,其中,会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音、图片或视频格式的会话内容时,还包括将语音、图片或视频格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例从会话内容中提取会话对的过程,本实施例以二部分简单的通讯方A的会话内容进行说明,具体如下:

第一部分(通讯方A与通讯对方B的会话内容):

A:军鸽机器人店长多少钱一套?

B:军鸽机器人店长现在5000元一套。

B:现在购买还可以在5000元的基础上打8折。

第二部分(通讯方A与通讯对方C的会话内容):

A:周姐,在吗?

C:在的。

A:您上次让我帮您查的肩颈卡项的剩余次数,我查了,还有5次。

C:我最近肩颈不舒服,打算预约明天来店里做肩颈。

C:你明天在店里吗?

步骤S202,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取,若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

针对第一部分的会话内容,容易判断出第一条会话句为发起句,即第一条会话句是通讯方发送的会话句。且该发起句不是最后一条会话句,则本实施例接着判断该发起句后是否还包括发起句,由于该发起句后没有通讯方发送的会话句了,也即该发起句后不包含发起句,因此,将发起句以及发起句后与发起句关联的回复句作为会话对进行提取。具体地,首先获得该发起句后的所有回复句(第一个回复句为“A:军鸽机器人店长现在5000元一套。”,第二个回复句为“现在购买还可以在5000元的基础上打8折。”),然后分别计算第一个回复句和第二个回复句与发起句(“B:军鸽机器人店长多少钱一套?”)的关联度,并通过比较计算出的关联度与预设的关联度阈值判断哪些回复句与发起句关联,假设本实施例计算出第一个和第二个回复句都与发起句关联,则可以获得会话对1,具体见表1。

针对第二部分的会话内容,容易判断出第一条会话句也为发起句,即第一条会话句是通讯方发送的会话句。且该发起句不是最后一条会话句,则本实施例接着判断该发起句后是否还包括发起句,由于该发起句后还有通讯方发送的会话句,也即该发起句后还包含发起句,则继续判断发起句与下一条发起句之间是否包含发起句,由于本实施例第一条会话(“周姐,在吗?”)与下一条发起句(“您上次让我帮您查的肩颈卡项的剩余次数,我查了,还有5次。”)之间包括发起句(“在的。”),故将发起句以及发起句与下一条发起句之间的与发起句关联的发起句作为会话对进行提取,则可以获得会话对2,具体见表1。

本实施例在提取完第二个会话对后,继续判断第二部分会话内容中后续的发起句是否为最后一条会话句,过程与前述相同,则针对第二部分会话内容,还可以提取会话对3(假设发起句“C:你明天在店里吗?”与回复句“A:您上次让我帮您查的肩颈卡项的剩余次数,我查了,还有5次。”不关联),具体见表1。

表1

本发明实施例提供的根据会话内容提取会话对的方法,通过采集通讯方的会话内容,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯方发送的会话句,回复句为通讯对方发送的会话句,解决了现有技术提取会话对的难度较大,精度较低的技术问题,不仅打破了传统的一问一答的会话对形式,而且能提取出不同类型的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,通过本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复,以及匹配获得形式多样的智能回复内容,实用性较高。

精简实施例二

参照图3,本发明的精简实施例二提供的根据会话内容提取会话对的方法,包括:

步骤S301,采集通讯方的会话内容。

具体地,假设本实施例中的通讯方为A,则可以通过采集通讯方A的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话内容,获得通讯方A的会话内容,其中,会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音、图片或视频格式的会话内容时,还包括将语音、图片或视频格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例建立从会话内容中提取会话对的过程,本实施例以三部分简单的通讯方A的会话内容进行说明,具体如下:

第一部分(通讯方A与通讯对方B的会话内容):

B:你好。

B:这个手机多少钱?

B:有折扣吗?

A:你好,这个手机现在售价5000元每台,暂时没有折扣。

第二部分(通讯方A与通讯对方C的会话内容):

C:小陈,你在吗?

C:我想去你们店里做护理,你有时间吗?

C:我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?

A:周姐你好,我在店里呢。

A:周姐,您的肩颈卡项还有5次呢~

A:请问您什么时候过来?

第三部分(通讯方A与通讯对方D的会话内容):

D:最近怎么样?

D:要不要出来逛街?

A:挺好的,可以出来一起逛逛。

A:上次借你的书什么时候还我?

步骤S302,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取,若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

针对第一部分的会话内容,容易判断出第一条会话句为发起句,即第一条会话句是通讯对方发送的会话句。且该发起句不是最后一条会话句,则本实施例接着判断该发起句后是否还包括发起句,由于该发起句后还包括通讯对方发送的会话句,也即该发起句后包含发起句。因此,继续判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对进行提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句。由于本实施例中的发起句(“你好?”)与下一条发起句(“这个手机多少钱?”)之间不包含回复句,则采集连续的发起句,直至出现回复句,获得发起句组,也即可以获得发起句组为“B:你好。/B:这个手机多少钱?/B:有折扣吗?”,且由于发起句组后不包括发起句了,则将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取,且假设此时提取出的会话对为会话对1,具体见表2。

针对第二部分,通过判断可以获得发起句组,且由于发起句组后包括多个回复句,故需首先获取发起句组后的所有回复句,然后分别计算每一条回复句与发起句组中的每一条发起句之间的关联度,并根据关联度和预设的关联度阈值,获得发起句组后与发起句组关联的回复句,最后将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取,且假设此时提取出的会话对为会话对2(假设发起句组后的所有回复句都与发起句组关联),具体见表2。

针对第三部分,通过判断可以获得发起句组,且由于发起句组后包括多个回复句,故需首先获取发起句组后的所有回复句,然后分别计算每一条回复句与发起句组中的每一条发起句之间的关联度,并根据关联度和预设的关联度阈值,获得发起句组后与发起句组关联的回复句,最后将发起句组以及发起句组后与发起句组关联的回复句作为会话对进行提取,且假设此时提取出的会话对为会话对3(假设回复句“A:上次借你的书什么时候还我?”与发起句组不关联),具体见表2。

表2

本发明实施例提供的根据会话内容提取会话对的方法,通过采集通讯方的会话内容,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,解决了现有技术提取会话对的难度较大,精度较低的技术问题,不仅打破了传统的一问一答的会话对形式,而且能提取出不同类型的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,通过本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复,以及匹配获得形式多样的智能回复内容,实用性较高。

此外,本实施例通过逐一判断会话句的方式,能提取出完整的更真实模拟会话的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,本实施例从会话内容中提取的会话对形式多样,更真实模拟会话过程。

精简实施例三

参照图4,本发明的精简实施例三提供的根据会话内容提取会话对的方法,包括:

步骤S401,采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料。

假设本实施例采集的会话语料为“通讯对方B:小陈,你在吗?我想去你们店里做护理,你有时间吗?我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?/通讯方A:周姐你好,我在店里呢?您的肩颈卡项还有5次呢~请问您什么时候过来?”。

步骤S402,将会话语料拆分为由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。

通过步骤S401采集的会话语料可以看出,会话语料中的一条会话内容包括多个会话句,例如通讯对方发送的会话内容“小陈,你在吗?我想去你们店里做护理,你有时间吗?我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?”,包括3个会话句,故本实施例将包含多个会话句的会话语料拆分成由会话句组成的会话内容,其中会话句包括会话句内容和发送会话句内容的发送方。具体地,通过拆分可以获得由会话句组成的会话内容,具体如下:

B:小陈,你在吗?

B:我想去你们店里做护理,你有时间吗?

B:我肩颈不舒服,想做肩颈,我的肩颈卡项还有剩余吗?

A:周姐你好,我在店里呢。

A:周姐,您的肩颈卡项还有5次呢~

A:请问您什么时候过来?

步骤S403,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取,若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

由于本实施例中的会话内容与精简实施例二中第二部分的会话内容完全相同,故针对其提取会话对的过程不再详述,且提取的会话对具体可参照表2中的会话对2。

本发明实施例提供的根据会话内容提取会话对的方法,通过采集通讯方的会话内容,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,解决了现有技术提取会话对的难度较大,精度较低的技术问题,不仅打破了传统的一问一答的会话对形式,而且能提取出不同类型的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,通过本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复,以及匹配获得形式多样的智能回复内容,实用性较高。

此外,本实施例通过逐一判断会话句的方式,能提取出完整的更真实模拟会话的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,本实施例从会话内容中提取的会话对形式多样,更真实模拟会话过程。且本实施例通过对包含多个会话句的会话语料进行拆分,有利于后续快速精准地提取会话对。

精简实施例四

参照图5,本发明的精简实施例四提供的根据会话内容提取会话对的方法,包括:

步骤S501,采集通讯方的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话语料。

具体地,假设本实施例中的通讯方为A,则可以通过采集通讯方A的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话内容,获得通讯方A的会话内容,其中,会话内容包括文本、图片、语音或视频格式的会话内容,且当会话内容是语音、图片或视频格式的会话内容时,还包括将语音、图片或视频格式的会话内容转换为文本格式的会话内容。本实施例以两部分简单的通讯方A的会话内容进行说明,具体如下:

第一部分(通讯方A与通讯对方B的会话内容):

B:我最近看了一本写的不错的书。

A:是吗?我最近也看了一本觉得不错的书。

B:我看的这本书是罗辑思维节目强烈推荐的。

A:那能不能借给我看看?

B:没问题。

第二部分(通讯方A与通讯对方C的会话内容):

C:今天心情不好。

A:我也心情不好。

C:你怎么啦?

A:这2天感冒发烧,一直不见好。

步骤S502,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取,若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句。

具体地,本实施例根据发起句,以及发起句与下一条发起句之间的回复句提取会话对具体包括:首先判断发起句与下一条发起句之间是否包含回复句,若是,则将发起句,以及发起句与下一条发起句之间的与发起句关联的回复句作为会话对提取,若否,则采集连续的发起句,直至出现回复句,获得发起句组,并判断发起句组后是否还包括发起句,若否,则将发起句组以及发起句组后与其关联的回复句作为会话对提取,若是,则将发起句组,以及发起句组与下一条发起句之间的与发起句组关联的回复句作为会话对提取。

由于针对第一部分和第二部分的会话内容提取会话对的过程和前述精简实施例的过程一样,故不再细述。假设本实施例根据第一部分会话内容提取出两个会话对,根据第二部分的会话内容提出出两个会话对,具体见表3。

表3

由此可见,本实施例提取的会话对不仅能从形式涵盖不同类型的会话对(例如单个会话句+单个回复句、单个会话句+多个回复句、多个会话句+单个回复句、多个会话句+多个回复句等等),还能从内容上或其他方面涵盖不同类型的会话对,例如从内容上涵盖开放式类型会话对(会话对1和会话对3),或封闭式类型会话对(会话对4)等等,也即不管会话内容中包含何种会话对类型,本实施例都可以对其进行精准采集,且采集获得的会话对能真实模拟会话,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,本实施例从会话内容中提取的会话对形式和内容多样,更真实模拟会话过程。

本发明实施例提供的根据会话内容提取会话对的方法,通过采集通讯方的会话内容,逐一判断发起句后是否还包含发起句,若否,则将发起句以及发起句后与其关联的回复句作为会话对提取;若是,则根据发起句,以及发起句与下一条发起句之间的回复句提取会话对,其中发起句为通讯对方发送的会话句,回复句为通讯方发送的会话句,解决了现有技术提取会话对的难度较大,精度较低的技术问题,不仅打破了传统的一问一答的会话对形式,而且能提取出不同类型的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。此外,通过本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复,以及匹配获得形式多样的智能回复内容,实用性较高。

此外,本实施例通过逐一判断会话句的方式,能提取出完整的更真实模拟会话的会话对,实现了自动并快速对会话内容中的会话对进行提取,且通过根据发起句和回复句之间的关联度提取会话对,提升了会话对的提取精度。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1