信息分割方法及装置的制造方法

文档序号:9631525阅读:491来源:国知局
信息分割方法及装置的制造方法
【技术领域】
[0001]本公开涉及信息处理技术领域,尤其涉及一种信息分割方法及装置。
【背景技术】
[0002]计算机对自然语言处理所涉及的内容有:分词、词性标注、命名实体识别、双语对齐、机器翻译、信息检索、知识抽取、自动文摘、文本聚类、文本分类、拼写纠错等。相关技术中,用户通过移动终端进行通讯,例如通过短信、微信、qq等通讯工具来实现双方的交流,这些交流的信息中可能包含有重要的信息,为提高用户的体验度,移动终端可对其中的重要信息进行挖掘,从而为用户自动收集重要信息。

【发明内容】

[0003]本公开实施例提供一种信息分割方法及装置。所述技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种信息分割方法,包括:
[0005]获取通讯会话序列,所述通讯会话序列包括至少两个消息;
[0006]确定所述通讯会话序列的特征;
[0007]根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列中每个消息的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注彳g息训练获得的;
[0008]按照所述场景标注信息对所述通讯会话序列进行场景分割。
[0009]本公开的实施例提供的技术方案可以包括以下有益效果:
[0010]上述技术方案,通过确定通讯会话序列的特征,并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息,进而根据场景标注信息对通讯会话序列进行场景分割,使得对通讯会话序列的场景分割更加准确,且更加符合用户通讯会话时的场景。[0011 ] 在一个实施例中,所述获取通讯会话序列,包括:
[0012]获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
[0013]根据预设参数对所述通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
[0014]该实施例中,通过预设参数对通讯会话消息集合进行分割处理,从而得到多个通讯会话序列,使得后续对通讯会话序列进行场景分割时,能够降低对大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
[0015]在一个实施例中,所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
[0016]该实施例中,通过第一时间间隔、第一预设关键词中的至少一种对通讯会话消息集合进行分割处理,从而得到多个通讯会话序列,使得后续对通讯会话序列进行场景分割时,能够降低对大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
[0017]在一个实施例中,当所述预设参数包括第一时间间隔时,根据预设参数对所述通讯会话消息集合进行分割处理,包括:
[0018]判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;
[0019]当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
[0020]该实施例中,对于第一时间间隔等于或大于预设时间间隔的相邻两个消息,能够将这两个相邻消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
[0021]在一个实施例中,所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中,包括:
[0022]当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;
[0023]当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;
[0024]当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
[0025]该实施例中,能够将包含第一预设关键词的消息与其之前或之后的消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
[0026]在一个实施例中,所述特征包括以下特征中的至少一种:
[0027]所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
[0028]相邻的所述消息之间的第二时间间隔;
[0029]相邻的所述消息具有相同来源;
[0030]相邻的所述消息中包含相同的属于预设词性的词;
[0031]所述消息中包含的属于所述预设词性的词;
[0032]所述消息的开始词;
[0033]所述消息的结束词。
[0034]该实施例中,通过对通讯会话序列的一个或多个特征进行确定,使得通讯会话序列的特征确定更加准确,从而能够准确地根据特征确定通讯会话序列的场景标注信息,实现对通讯会话序列的准确分割。
[0035]在一个实施例中,所述方法还包括:
[0036]获取至少两个样本通讯会话序列;
[0037]根据预设特征集合确定所述至少两个样本通讯会话序列的特征;
[0038]确定所述至少两个样本通讯会话序列的场景标注信息;
[0039]根据所述至少两个样本通讯会话序列的特征及所述至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
[0040]该实施例中,通过确定多个样本通讯会话序列的特征及场景标注信息,并根据多个样本通讯会话序列的特征及场景标注信息生成预设模型,使得预设模型能够被用于对样本会话序列进行场景分割。
[0041 ] 在一个实施例中,所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
[0042]该实施例中,通过确定通讯会话序列的开始会话场景、中间会话场景、结束会话场景或无关会话场景,使得在根据场景标注信息分割通讯会话序列时更加准确,且更加符合用户通讯会话时的场景。
[0043]根据本公开实施例的第二方面,提供一种信息分割装置,包括:
[0044]第一获取模块,用于获取通讯会话序列,所述通讯会话序列包括至少两个消息;
[0045]第一确定模块,用于确定所述第一获取模块获取的通讯会话序列的特征;
[0046]第二确定模块,用于根据所述第一确定模块确定的通讯会话序列的特征及预设模型,确定所述通讯会话序息的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
[0047]分割模块,用于按照所述第二确定模块确定的场景标注信息对所述通讯会话序列进行场景分割。
[0048]在一个实施例中,所述第一获取模块包括:
[0049]获取子模块,用于获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
[0050]分割子模块,用于根据预设参数对所述获取子模块获取到的通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
[0051 ] 在一个实施例中,所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
[0052]在一个实施例中,所述分割子模块,用于当所述预设参数包括第一时间间隔时,判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
[0053]在一个实施例中,所述分割子模块,用于当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
[0054]在一个实施例中,所述第一确定模块确定的特征包括以下特征中的至少一种:
[0055]所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
[0056]相邻的所述消息之间的第二时间间隔;
[0057]相邻的所述消息具有相同来源;
[0058]相邻的所述消息中包含相同的属于预设词性的词;
[0059]所述消息中包含的属于所述预设词性的词;
[0060]所述消息的开始词;
[0061]所述消息的结束词。
[0062]在一个实施例中,所述装置还包括:
[0063]第二获取模块,用于获取至少两个样本通讯会话序列;
[0064]第三确定模块,用于根据预设特征集合确定所述第二获取模块获取的至少两个样本通讯会话序列的特征;
[0065]第四确定模块,用于确定所述第二获取模块获取的至少两个样本通讯会话序列的场景标注信息;
[0066]生成模块,用于根据所述第三确定模块确定的至少两个样本通讯会话序列的特征及所述第四确定模块确定的至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
[0067]在一个实施例中,所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
[0068]根据本公开实施例的第三方面,提供一种信息分割装置,包括:
[0069]获取通讯会话序列,所述通讯会话序列包括至少两个消息;
[0070]确定所述通讯会话序列的特征;
[0071]根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
[0072]按照所述场景标注信息对所述通讯会话序列进行场景分割。
[0073]应当理解的是,以上的一般描述和后文的
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1