文本分割方法、装置、设备及存储介质与流程

文档序号:18643525发布日期:2019-09-11 23:56阅读:175来源:国知局
文本分割方法、装置、设备及存储介质与流程

本发明涉及文本分割技术领域,尤其涉及一种文本分割方法、装置、设备及存储介质。



技术实现要素:

现有的文本分割方法一般采用以下两种方式:

第一种是基于外部结构信息的方法。例如,在对网页的超文本标记语言(html,hypertextmarkuplanguage)文本进行分割时,可以参考html标签信息。如,<head>标签中的内容通常是标题,需要与<p>标签下的正文分割开;<list>标签下的内容会以列表形式展现,其内容也与普通文本有明显区别,需要从文本中单独提取出来;遇到<strong>标示的加粗文本,可能代表总结或者强调的含义,可以酌情在此段文字后执行分割。

第二种是基于语义相关性的方法。在文本摘要领域中,一些方法会参考句子与文章标题、主题的关系,判断文本的分割点。首先计算每个句子与文章标题或主题的相关性得分,之后设置一个相关性阈值,将连续的几个相关性高于或低于阈值的句子作为一个短文本片段。

可见,上述第一种方法的应用场景受限于数据格式。当数据格式发生改变,或者没有可依赖的外部结构信息时,方法便无法生效。上述第二种方式需要以文章的标题或主题作为判断依据,当文章没有标题,或是得不到具体、正确的主题时,方法的效果会大打折扣。因此,上述两种方法的应用领域均受到限制。

发明内容

本发明实施例提供一种文本分割方法及装置,以至少解决现有技术中的以上技术问题。

第一方面,本发明实施例提供了一种文本分割方法,包括:

针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;

根据所述关联度确定所述句子间隔是否为文本分割点;

在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。

在一种实施方式中,所述确定所述句子间隔的前句与后句的关联度,包括:

根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度。

在一种实施方式中,所述根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度,包括:

确定所述前句与所述后句的语义关联对应的语义关联矩阵,确定所述前句及所述后句的句式结构对应的句式矩阵,并确定所述后句的引导词对应的引导词矩阵;

对所述语义关联矩阵、所述句式矩阵及所述引导词矩阵分别进行线性变换;

将所述线性变换的结果组合成所述前句与后句的关联信息向量;

将所述关联信息向量输入预先训练的关联度预测模型,得到所述前句与后句的关联度。

在一种实施方式中,所述确定所述前句与所述后句的语义关联对应的语义关联矩阵,包括:

对所述前句中的词对应的词向量进行计算,得到所述前句的语义表示矩阵;并对所述后句中的词对应的词向量进行计算,得到所述后句的语义表示矩阵;

将所述前句的语义表示矩阵与所述后句的语义表示矩阵相乘,得到所述前句与所述后句的语义关联对应的语义关联矩阵。

在一种实施方式中,所述计算的方式为:采用双向长短期记忆模型、词袋模型或基于转换器的双向编码表示模型进行计算。

在一种实施方式中,所述确定所述前句及所述后句的句式结构对应的句式矩阵,包括:

采用预先设计的句式模板,分别确定所述前句的句式信息及所述后句的句式信息;

根据所述前句的句式信息生成所述前句的句式向量,并根据所述后句的句式信息生成所述后句的句式向量;

将所述前句的句式向量与所述后句的句式向量组合,得到所述前句及所述后句的句式结构对应的句式矩阵。

在一种实施方式中,所述确定所述后句的引导词对应的引导词矩阵,包括:

分别确定所述后句中的前n个词对应的词向量,所述n为整数;

将确定的所述词向量拼接为所述后句的引导词对应的引导词矩阵。

在一种实施方式中,所述针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度之前,还包括:

采用预先设置的列表模板,识别原始文本中的列表文本;

将所述原始文本中的列表文本分割出去,将所述原始文本中剩余的部分作为所述第一文本。

第二方面,本发明实施例还提出一种关联度预测模型的训练方法,方法包括:

生成两个相邻样本句子的关联信息向量,并获取所述两个相邻样本句子的实际关联度;

将所述关联信息向量输入关联度预测模型;

将所述关联度预测模型输出的预测关联度与所述实际关联度进行比较,根据比较结果调整所述关联度预测模型的参数。

在一种实施方式中,所述生成两个相邻样本句子的关联信息向量,包括:

确定样本前句与样本后句的语义关联对应的语义关联矩阵,确定样本前句及样本后句的句式结构对应的句式矩阵,并确定样本后句的引导词对应的引导词矩阵;其中,所述样本前句为所述两个相邻样本句子中的前一个句子,所述样本后句为所述两个相邻样本句子中的后一个句子;

对所述语义关联矩阵、所述句式矩阵及所述引导词矩阵分别进行线性变换;

将所述线性变换的结果组合成所述两个相邻样本句子的关联信息向量。

在一种实施方式中,还包括:

从不同文档中选取文本片段,将选取的文本片段拼接成第一文本片段;将所述第一文本片段中的拼接位置作为弱正例;

将同一文档中连续的文本片段拼接成第二文本片段;将所述第二文本片段中的拼接位置作为强正例;

将所述第一文本片段中除所述弱正例以外的句子间隔,和/或所述第二文本片段中除所述强正例以外的句子间隔作负例;

将所述弱正例、强正例或所述负例前后的两个句子确定为所述两个相邻样本句子。

第三方面,本发明实施例还提出一种文本分割装置,包括:

关联度确定模块,用于针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;

分割点确定模块,用于根据所述关联度确定所述句子间隔是否为文本分割点;

文本分割模块,用于在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。

在一种实施方式中,所述关联度确定模块,用于根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度。

第四方面,本发明实施例还提出一种关联度预测模型的训练装置,包括:

样本确定模块,用于生成两个相邻样本句子的关联信息向量,并获取所述两个相邻样本句子的实际关联度;

输入模块,用于将所述关联信息向量输入关联度预测模型;

参数调整模块,用于将所述关联度预测模型输出的预测关联度与所述实际关联度进行比较,根据比较结果调整所述关联度预测模型的参数。

第五方面,本发明实施例提供了一种文本分割设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中,所述文本分割设备的结构中包括处理器和存储器,所述存储器用于存储支持所述文本分割设备执行上述文本分割方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述文本分割设备还可以包括通信接口,用于与其他设备或通信网络通信。

第六方面,本发明实施例提供了一种关联度预测模型的训练设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中,所述关联度预测模型的训练设备的结构中包括处理器和存储器,所述存储器用于存储支持所述关联度预测模型的训练设备执行上述关联度预测模型的训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述关联度预测模型的训练设备还可以包括通信接口,用于与其他设备或通信网络通信。

第七方面,本发明实施例提供了一种计算机可读存储介质,用于存储文本分割设备所用的计算机软件指令,其包括用于执行上述文本分割方法或关联度预测模型的训练方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果:

本发明实施例提出一种文本分割方法,针对每个句子间隔,确定句子间隔的前句与后句的关联度。根据关联度确定对应的句子间隔是否为文本分割点,如果是,则在该句子间隔的位置分割文本。由于在分割文本时不需要利用外部结构信息或标题信息等外部信息,本发明实施例的文本分割方法的应用领域更广泛。本发明实施例还提出一种关联度预测模型训练方法,能够训练用于预测两个相邻句子的关联度的模型。

上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1为本发明实施例的一种文本分割方法实现流程图一;

图2为本发明实施例的一种文本分割方法实现流程图二;

图3为本发明实施例的一种文本分割方法中,步骤s11中确定句子间隔的前句与后句的关联度的实现流程图;

图4为本发明实施例的一种文本分割方法中,步骤s111中确定前句与后句的语义关联对应的语义关联矩阵的实现流程图;

图5为本发明实施例的一种文本分割方法中,步骤s111中确定前句与后句的句式结构对应的句式矩阵的实现流程图;

图6为本发明实施例的一种文本分割方法中,步骤s111中确定后句的引导词对应的引导词矩阵的实现流程图;

图7为本发明实施例的一种文本分割方法的实现框架示意图;

图8为本发明实施例的一种文本分割方法中,确定句子间隔是否为文本分割点的实现框架示意图;

图9为本发明实施例的一种关联度预测模型的训练方法中实现流程图;

图10为本发明实施例的一种文本分割装置结构示意图一;

图11为本发明实施例的一种文本分割装置结构示意图二;

图12为本发明实施例的文本分割设备或关联度预测模型的训练设备结构示意图。

具体实施方式

在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例主要提供了文本分割方法和装置,下面分别通过以下实施例进行技术方案的展开描述。

图1为本发明实施例的一种文本分割方法实现流程图一,包括:

s11:针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;

s12:根据所述关联度确定所述句子间隔是否为文本分割点;

s13:在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。

本发明实施例可以将句号作为一个句子的结尾。相应地,前一个句子的句号与后一个句子的第一个字之间的位置,可以作为句子间隔。由上述过程可见,本发明实施例将文本分割问题看作对句子序列的分割问题,遍历每个句子,判断在该句的末尾是否需要进行文本分割。通过依次判断每个句子间隔是否为文本分割点,并在是文本分割点的情况下分割文本,实现了对整个文本的分割。一段第一文本中可以有多个文本分割点,也就是可以被分割为多段文本。

可见,本发明实施例在分割文本时,不需要利用外部结构信息或标题信息等外部信息,应用领域更广泛。

上述第一文本可以指不包含列表的普通文本。本发明实施例可以首先检测并提取原始文本中的列表格式的文本(即列表文本)。之后,对剩余的第一文本进行分割。如图2所示,图2为本发明实施例的一种文本分割方法实现流程图二,包括:

s201:采用预先设置的列表模板,识别原始文本中的列表文本;

s202:将所述原始文本中的列表文本分割出去,将所述原始文本中剩余的部分作为第一文本;

s11:针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;

s12:根据所述关联度确定所述句子间隔是否为文本分割点;

s13:在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。

在一种可能的实施方式中,通过互联网数据挖掘及人工标注的方法设置所述多个列表模版。每个列表模板中包含一种常用列表的格式内容。如“第n步:”、“其n,”、”n、”等,其中,n代表数字。列表的格式内容中还可以包括各种形式的数字,如“1”、“一”、“i”等。

相应地,上述步骤s201的具体方式可以为:遍历原始文本中的每个句子,检测各个句子的前几个词是否与列表模板匹配,若匹配则记录下来。如果有位置相近的几个句子与同一列表模板匹配,并且数字呈连续递增关系,则认为这些句子范围内的文本属于列表文本。将该列表文本从原始文本中分割出去,剩余上述第一文本。

针对上述列表文本,如果列表文本的长度较短,则可作为单独的段落分割出来。如果列表文本的长度较长,则可以将其中的每一项(列表中的“第一”、“第二”等各种形式的数字之后的文本称为项)作为单独的段落分割出来。

在一种可能的实施方式中,上述步骤s11中确定句子间隔的前句与后句的关联度,包括:

根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度。

图3为本发明实施例的一种文本分割方法中,步骤s11中确定句子间隔的前句与后句的关联度的实现流程图,包括:

s111:确定所述前句与所述后句的语义关联对应的语义关联矩阵,确定所述前句及所述后句的句式结构对应的句式矩阵,并确定所述后句的引导词对应的引导词矩阵;

s112:对所述语义关联矩阵、句式矩阵及引导词矩阵分别进行线性变换;

s113:将所述线性变换的结果组合成所述前句与后句的关联信息向量;

s114:将所述关联信息向量输入预先训练的关联度预测模型,得到所述前句与所述后句的关联度。

图4为本发明实施例的一种文本分割方法中,步骤s111中确定前句与后句的语义关联对应的语义关联矩阵的实现流程图,包括:

s11141:对所述前句中的词对应的词向量进行计算,得到所述前句的语义表示矩阵;并对所述后句中的词对应的词向量进行计算,得到所述后句的语义表示矩阵;

s11142:将所述前句的语义表示矩阵与所述后句的语义表示矩阵相乘,得到所述前句与所述后句的语义关联对应的语义关联矩阵。

在一种可能的实施方式中,步骤s11141中的计算方式可以为:采用双向长短期记忆(lstm,longshort-termmemory)模型、词袋模型(bow,bag-of-wordsmodel)或基于转换器的双向编码表示(bert,bidirectionalencoderrepresentationfromtransformers)模型进行计算。

在步骤s11141中,可以采用前句/后句中的所有词对应的词向量进行计算,或者采用前句/后句中的实词对应的词向量计算对应的语义表示矩阵。其中,实词可以指含有词汇意义和语法意义的词,包括名词、动词、形容词、数词、量词、代词等。

通过观察统计发现,文本中的疑问句、感叹句、列举句等句式,以及句子长度、短句数量对文本分割有较大影响。特别是列举句式、多短句句式,很难从语义角度利用机器学习模型捕捉。因此,本发明实施例设计了基本的句式模板用于提取句式信息。得到句式信息后,可以将其向量化以便于计算。

图5为本发明实施例的一种文本分割方法中,步骤s111中确定前句与后句的句式结构对应的句式矩阵的实现流程图,包括:

s11151:采用预先设计的句式模板,分别确定所述前句的句式信息及所述后句的句式信息;

s11152:根据所述前句的句式信息生成所述前句的句式向量,并根据所述后句的句式信息生成所述后句的句式向量;

s11153:将所述前句的句式向量与所述后句的句式向量组合,得到所述前句及所述后句的句式结构对应的句式矩阵。

在本发明实施例中,句式向量的维度与句式模板的个数有关。例如,如果预先设计t个句式模板,则可以用一个t维的句式向量表示句式信息。句式向量中的每个元素对应一个句式模板。对于一个句子,如果确定该句子的句式为第t种句式(也就是与第t个句式模板匹配),则可以将该句子的句式向量中的第t个元素设置为1,其它元素设置为0。在一种可能的实施方式中,将上述前句的句式向量与后句的句式向量组合,可以得到一个2行t列的句式矩阵。该句式矩阵中包含了前句和后句的句式结构信息。其中,句式矩阵的第1行可以为前句的句式向量,句式矩阵的第2行可以为后句的句式向量。

除了句式外,发明人发现一些表达逻辑的引导词可以对文本分割起标示作用,如“然而”、“例如”、“以上”等。因此,本发明实施例可以将引导词作为文本分割的一个依据。

图6为本发明实施例的一种文本分割方法中,步骤s111中确定后句的引导词对应的引导词矩阵的实现流程图,包括:

s11161:分别确定所述后句中的前n个词对应的词向量,所述n为整数;

s11162:将确定的所述词向量拼接为所述后句的引导词对应的引导词矩阵。

其中,引导词矩阵的每一行可以为步骤s11161中确定的每一个词向量。

在一种可能的实施方式中,上述步骤s112中的线性变换可以指采用预先设定的矩阵分别与所述语义关联矩阵、句式矩阵或引导词矩阵相乘,分别得到一个向量。例如:

如果语义关联矩阵(记为a)为l×p的矩阵(即行数为l,列数为p),则可以利用一个预先设置的1×l的矩阵b,计算b与a的乘积,得到一个新的向量v1,向量v1的维度为p。

如果句式矩阵(记为c)为2×t的矩阵,则可以利用一个预先设置的1×2的矩阵d,计算d与c的乘积,得到一个新的向量v2,向量v2的维度为t。

如果引导词矩阵(记为e)为x×y的矩阵,则可以利用一个预先设置的1×x的矩阵f,计算f与e的乘积,得到一个新的向量v3,向量v3的维度为y。

上述步骤s113中,将线性变换的结果组合成所述前句与后句的关联信息向量的方式可以为:将上述得到的3个向量依次连接,得到关联信息向量。

例如,将上述v1、v2和v2依次连接,得到维度为(p+t+y)的关联信息向量。

如图7为本发明实施例的一种文本分割方法的实现框架示意图。在图7中,文本分割方法包括2个步骤。其中,步骤1包括列表提取阶段。本发明实施例可以采用预先设置的列表模板提取并分割原始文本中的列表文本。步骤2为分割阶段。本发明实施例遍历句子,对于每两个连续的句子,根据前句与后句的语义关联(也可以称为相似度)、前句的句式结构、后句的句式结构、以及后句的引导词,生成前句与后句的关联信息向量。将关联信息向量输入关联度预测模型,得到前句与后句的关联度。根据关联度,可以确定是否将前句和后句之间的句子间隔作为文本分割点。

如图8为本发明实施例的一种文本分割方法中,确定句子间隔是否为文本分割点的实现框架示意图。在图8中,确定两个连续的句子(即句子1和句子2)之间的句子间隔能否作为文本分割点。可以将句子1的每个词的词向量分别输入正向lstm模型和反向lstm模型,其中,正向lstm模型和反向lstm模型构成双向lstm模型。将正向lstm模型和反向lstm模型的输出结果进行处理,得到句子1的语义表示矩阵。对句子2采用与句子1相同的处理方式,得到句子2的语义表示矩阵。将句子1的语义表示矩阵与句子2的语义表示矩阵相乘,得到句子1与句子2的语义关联矩阵。之后,将句子1与句子2的语义关联矩阵、句子1与句子2的句式矩阵、以及句子2的引导词矩阵组合,得到句子1与句子2的关联信息向量。将句子1与句子2的关联信息向量输入关联度预测模型,输出句子1与句子2的关联度。其中,关联度预测模型可以采用softmax分类模型。关联度预测模型输出的结果可以是一个(0,1)区间内的数值。本发明实施例可以预先设置一个阈值,当关联度预测模型输出的句子1与句子2的关联度超过该阈值时,可以将句子1的结束位置作为文本分割点,在句子1的结束位置分割文本。如果句子1与句子2的关联度不超过该阈值,则继续针对句子2与句子3执行相同的操作,直至文本中的句子遍历完毕。

本发明实施例还提出一种关联度预测模型的训练方法,该关联度预测模型用于预测两个相邻句子的关联度。如图9为本发明实施例的一种关联度预测模型的训练方法中实现流程图,包括:

s91:生成两个相邻样本句子的关联信息向量,并获取所述两个相邻样本句子的实际关联度;

s92:将所述关联信息向量输入关联度预测模型;

s93:将所述关联度预测模型输出的预测关联度与所述实际关联度进行比较,根据比较结果调整所述关联度预测模型的参数。

在一种可能的实施方式中,所述步骤s91中,生成两个相邻样本句子的关联信息向量,包括:

确定样本前句与样本后句的语义关联对应的语义关联矩阵,确定样本前句及样本后句的句式结构对应的句式矩阵,并确定样本后句的引导词对应的引导词矩阵;其中,所述样本前句为所述两个相邻样本句子中的前一个句子,所述样本后句为所述两个相邻样本句子中的后一个句子;

对所述语义关联矩阵、句式矩阵及引导词矩阵分别进行线性变换;

将所述线性变换的结果组合成所述两个相邻样本句子的关联信息向量。

本实施例中,生成两个相邻样本句子的关联信息向量的具体方式与上述文本分割方法中的相应方法一致,在此不再赘述。

在一种可能的实施方式中,所述步骤s91中,两个相邻样本句子的实际关联度可以由人工设置。

在一种可能的实施方式中,还可以包括训练数据生成过程。本发明实施例中的训练数据可以包括正例和负例,其中,正例可以包括弱正例和强正例。正例是应该被分割的点,负例是不应该被分割的点。弱正例的作用是保证模型的底线,即能将明显不相关的文本分割开。强正例的作用是使模型达到更好的效果,即希望模型能学到基于语义的分割方法。

在一种可能的实施方式中,本发明实施例从不同文档中选取文本片段,将选取的文本片段拼接成第一文本片段;将所述第一文本片段中的拼接位置作为弱正例。本发明实施例可以从不同的文档中随机选取一些短片段拼接起来。

在一种可能的实施方式中,本发明实施例将同一文档中连续的文本片段拼接成第二文本片段;将所述第二文本片段中的拼接位置作为强正例。

在一种可能的实施方式中,本发明实施例将第一文本片段中除弱正例以外的句子间隔,和/或第二文本片段中除强正例以外的句子间隔作负例。

将所述弱正例、强正例或所述负例前后的两个句子确定为所述两个相邻样本句子。

本发明实施例还提出一种文本分割装置。参见图10,图10为本发明实施例的一种文本分割装置结构示意图一,包括:

关联度确定模块1010,用于针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;

分割点确定模块1020,用于根据所述关联度确定所述句子间隔是否为文本分割点;

文本分割模块1030,用于在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。

在一种可能的实施方式中,关联度确定模块1010,用于根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度。

在一种可能的实施方式中,关联度确定模块1010,用于确定所述前句与所述后句的语义关联对应的语义关联矩阵,确定所述前句及所述后句的句式结构对应的句式矩阵,并确定所述后句的引导词对应的引导词矩阵;

对所述语义关联矩阵、句式矩阵及引导词矩阵分别进行线性变换;

将所述线性变换的结果组合成所述前句与后句的关联信息向量;

将所述关联信息向量输入预先训练的关联度预测模型,得到所述前句与所述后句的关联度。

在一种可能的实施方式中,关联度确定模块1010,用于对所述前句中的词对应的词向量进行计算,得到所述前句的语义表示矩阵;并对所述后句中的词对应的词向量进行计算,得到所述后句的语义表示矩阵;

将所述前句的语义表示矩阵与所述后句的语义表示矩阵相乘,得到所述前句与所述后句的语义关联对应的语义关联矩阵。

在一种可能的实施方式中,关联度确定模块1010,用于采用双向长短期记忆模型、词袋模型或基于转换器的双向编码表示模型进行计算。

在一种可能的实施方式中,关联度确定模块1010,用于采用预先设计的句式模板,分别确定所述前句的句式信息及所述后句的句式信息;

根据所述前句的句式信息生成所述前句的句式向量,并根据所述后句的句式信息生成所述后句的句式向量;

将所述前句的句式向量与所述后句的句式向量组合,得到所述前句及所述后句的句式结构对应的句式矩阵。

在一种可能的实施方式中,关联度确定模块1010,用于分别确定所述后句中的前n个词对应的词向量,所述n为整数;将确定的所述词向量拼接为所述后句的引导词对应的引导词矩阵。

图11为本发明实施例的一种文本分割装置结构示意图二,包括:

关联度确定模块1010、分割点确定模块1020、文本分割模块1030及列表分割模块1140;其中,所述关联度确定模块1010、分割点确定模块1020及文本分割模块1030与上述实施例中的相应模块相同,在此不再赘述。

所述列表分割模块1140,用于采用预先设置的列表模板,识别原始文本中的列表文本;将所述原始文本中的列表文本分割出去,将所述原始文本中剩余的部分作为所述第一文本。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。

本发明实施例还提出一种文本分割及一种关联度预测模型的训练设备,如图12为本发明实施例的文本分割设备或关联度预测模型的训练设备结构示意图,包括:

存储器11和处理器12,存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的文本分割方法或关联度预测模型的训练方法。所述存储器11和处理器12的数量可以为一个或多个。

所述设备还可以包括:

通信接口13,用于与外界设备进行通信,进行数据交换传输。

存储器11可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

如果存储器11、处理器12和通信接口13独立实现,则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(isa,industrystandardarchitecture)总线,外部设备互连(pci,peripheralcomponentinterconnect)总线或扩展工业标准体系结构(eisa,extendedindustrystandardarchitecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果存储器11、处理器12和通信接口13集成在一块芯片上,则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1