基于人工智能的切分语句的方法和装置与流程

文档序号：12305333阅读：384来源：国知局

本申请涉及计算机技术领域，具体涉及自然语言处理技术领域，尤其涉及基于人工智能的切分语句的方法和装置。

背景技术：

人工智能(artificialintelligence)，英文缩写为ai。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

在中文语言处理的过程中，通过语句切分技术对文本进行边界是一项重要的技术。传统的分界方案主要包括基础切词和短语切词，在进行分类时，常用的方案为命名实体识别(ner，namedentityrecognition)，可用于识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

然而，这些现有的切词方案只能提供单一的切词结果，无法满足不同应用对片段边界的不同需求。ner等传统的分类信息方案只能识别专名片段，对于描述性片段无法提供分类信息，只能通过词表和其他人工挖掘信息。因此，存在提高对现有的语句分割方案进行改进的需要。

技术实现要素：

本申请的目的在于提出一种改进的基于人工智能的切分语句的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种基于人工智能的切分语句的方法，该方法包括：对待切分的原始语句进行切词，以得到原始语句中的词语集合；对初始值为原始语句的待切分语句执行语句切分步骤，语句切分步骤包括：根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段，其中每个子语句片段是单个词语或词语组合；判断所切分成的多个子语句片段中是否存在不属于词语集合中的子语句片段；若存在不属于词语集合中的子语句片段，则将不属于词语集合中的子语句片段作为待切分语句继续执行语句切分步骤；关联存储原始语句以及每次执行语句切分步骤所得到的多个子语句片段。

在一些实施例中，基于待切分语句中的词语提取出至少一种特征向量，包括：将待切分语句中每个词语的词向量提取为特征向量；根据待切分语句中的词语在搜索语句词典中的出现情况提取特征向量，其中搜索语句词典是对用户在进行搜索时所使用的搜索语句进行统计而生成的；根据待切分语句在原始语句的上下文语句提取特征向量。

在一些实施例中，根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段，包括：根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量；将至少一种特征向量输入至循环神经网络模型，以根据循环神经网络模型输出的序列确定对待切分语句进行切分的切分点，其中，循环神经网络模型用于表征根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量与用于描述切分时待切分语句中的各个词语是否为切分时的序列的对应关系；按照所确定的切分点将待切分语句切分成多个子语句片段。

在一些实施例中，根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量，包括以下至少一项：根据待切分语句中不同词语组成的词语组合在搜索语句词典中是否有匹配的搜索语句和/或在搜索语句词典中匹配的搜索语句的分值提取特征向量；根据搜索语句词典中以待切分语句中每个词语为开始、中间或结束的搜索语句的数目或分值之和提取词语对应的特征向量；其中，搜索语句词典中记录使用搜索引擎搜索过的搜索语句，每个搜索语句的分值是根据搜索语句的搜索频次和/或用户搜索时的使用反馈信息生成的。

在一些实施例中，根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量，还包括以下至少一项：提取待切分语句中每个词语的词向量；提取待切分语句在原始语句的上下文语句的上下文特征向量。

在一些实施例中，上述方法还包括搜索语句词典构建步骤，包括：获取用户使用搜索引擎时输入的搜索语句集合；按照搜索语句的搜索频次对搜索语句集合进行筛选；根据搜索语句的搜索频次以及用户使用搜索语句搜索时的使用反馈信息，生成搜索语句中每个搜索语句的分值；将搜索语句与对应的分值关联存储，以构建搜索语句词典。

在一些实施例中，上述方法还包括模型训练步骤，模型训练步骤包括：获取按照最少切分算法预先对样本语句进行迭代切分所生成的切分结果；根据每次切分的切分结果生成训练样本，并使用生成的训练样本训练循环神经网络模型；其中，训练样本中的输入向量是根据每次切分所针对的被切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量，训练样本中的输入向量是用于描述每次切分所针对的被切分语句中的各个词语是否为切分点的序列。

在一些实施例中，上述关联存储原始语句以及每次执行语句切分步骤所得到的多个子语句片段，包括：将原始语句作为根节点，并依次将每次被执行语句切分步骤的待切分语句与切分所得到的多个子语句片段作为父节点与对应的多个子节点，构建成节点为语句片段的树形层级结构。

第二方面，本申请实施例提供了一种基于人工智能的切分语句的装置，装置包括：切词单元，用于对待切分的原始语句进行切词，以得到原始语句中的词语集合；切分单元，用于驱动以下子单元对初始值为原始语句的待切分语句执行语句切分步骤：切分子单元，用于根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段，其中每个子语句片段是单个词语或词语组合；判断子单元，判断所切分成的多个子语句片段中是否存在不属于词语集合中的子语句片段；执行单元，若存在不属于词语集合中的子语句片段，则将不属于词语集合中的子语句片段作为待切分语句反馈至切分单元；存储单元，用于关联存储原始语句以及每次执行语句切分步骤所得到的多个子语句片段。

在一些实施例中，切分子单元包括：提取模块，用于根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量；确定模块，用于将至少一种特征向量输入至循环神经网络模型，以根据循环神经网络模型输出的序列确定对待切分语句进行切分的切分点，其中，循环神经网络模型用于表征根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量与用于描述切分时待切分语句中的各个词语是否为切分时的序列的对应关系；切分模块，用于按照所确定的切分点将待切分语句切分成多个子语句片段。

在一些实施例中，提取模块用于执行以下至少一项：根据待切分语句中不同词语组成的词语组合在搜索语句词典中是否有匹配的搜索语句和/或在搜索语句词典中匹配的搜索语句的分值提取特征向量；根据搜索语句词典中以待切分语句中每个词语为开始、中间或结束的搜索语句的数目或分值之和提取词语对应的特征向量；其中，搜索语句词典中记录使用搜索引擎搜索过的搜索语句，每个搜索语句的分值是根据搜索语句的搜索频次和/或用户搜索时的使用反馈信息生成的。

在一些实施例中，提取模块还用于执行以下至少一项：提取待切分语句中每个词语的词向量；提取待切分语句在原始语句的上下文语句的上下文特征向量。

在一些实施例中，上述装置还包括搜索语句词典构建单元，用于：获取用户使用搜索引擎时输入的搜索语句集合；按照搜索语句的搜索频次对搜索语句集合进行筛选；根据搜索语句的搜索频次以及用户使用搜索语句搜索时的使用反馈信息，生成搜索语句中每个搜索语句的分值；将搜索语句与对应的分值关联存储，以构建搜索语句词典。

在一些实施例中，上述装置还包括模型训练单元，模型训练单元用于：获取按照最少切分算法预先对样本语句进行迭代切分所生成的切分结果；根据每次切分的切分结果生成训练样本，并使用生成的训练样本训练循环神经网络模型；其中，训练样本中的输入向量是根据每次切分所针对的被切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量，训练样本中的输入向量是用于描述每次切分所针对的被切分语句中的各个词语是否为切分点的序列。

在一些实施例中，存储单元进一步用于：将原始语句作为根节点，并依次将每次被执行语句切分步骤的待切分语句与切分所得到的多个子语句片段作为父节点与对应的多个子节点，构建成节点为语句片段的树形层级结构。

第三方面，本申请实施例提供了一种用于切分语句的设备，包括：一个或多个处理器；一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一项所描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如第一方面中任一项所描述的方法。

本申请提供的基于人工智能的切分语句的方法和装置，可以利用搜索引擎的搜索记录实现对原始语句进行多层次多粒度的切分，使得切分结果可以得到更广泛的应用。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于人工智能的切分语句的方法的一个实施例的流程图；

图3是图2对应实施例中涉及到的语句切分步骤的流程图；

图4是构建搜索语句字典的一个示意图；

图5是以最少切分算法切分语句的示意图；

图6是根据本申请的基于人工智能的切分语句的装置的一个实施例的结构示意图；

图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的基于人工智能的切分语句的方法或基于人工智能的切分语句的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上发送的原始语句进行后续处理的后台服务器。后台服务器可以对接收到的原始语句等数据进行语句切分等处理，并将处理结果(例如切分结果)反馈给终端设备。

需要说明的是，本申请实施例所提供的基于人工智能的切分语句的方法一般由服务器105执行，也可以由终端设备101、102、103执行；相应地，基于人工智能的切分语句的装置一般设置于服务器105中，也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于人工智能的切分语句的方法的一个实施例的流程200。该基于人工智能的切分语句的方法，包括以下步骤：

步骤201，对待切分的原始语句进行切词，以得到原始语句中的词语集合。

在本实施例中，基于人工智能的切分语句的方法运行于其上的电子设备(例如图1所示的服务器或终端设备)可以采用各种切词算法对待切分的原始语句进行切词处理，从而得到该原始语句所包含的词语集合。该原始语句可以是预先存储在本地的，也可以是通过有线连接方式或者无线连接方式从用户操作的终端接收到的。

步骤202，对初始值为原始语句的待切分语句执行语句切分步骤。

在本实施例中，在基于步骤201中得到的词语集合之后，电子设备可以对待切分语句执行语句切分步骤。该语句切分步骤用于将待切分语句切分成更细粒度的多个子语句片段，语句切分步骤的具体执行流程可以参考图3。

如图3所示，语句切分步骤可以包括：步骤301，根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段；步骤302，判断所切分成的多个子语句片段中是否存在不属于所述词语集合中的子语句片段。

在步骤301中，电子设备可以优先将在搜索引擎中的搜索记录中出现过的单个词语或不同词语组成的词语组合作为切分后的子语句片段，也可以进一步依据搜索频次等其他特征进行切词。切分后的每个子语句片段是单个词语或词语组合。

在步骤302中，针对步骤301所切分出的各个子语句片段，电子设备可以分别片段每个子语句判断是否属于词语集合。该判断结果可用于后续操作。

步骤203，若多个子语句片段存在不属于词语集合中的子语句片段，则将不属于词语集合中的子语句片段作为待切分语句继续执行语句切分步骤。

在本实施例中，若步骤302的判断结果是存在不属于词语集合中的子语句片段时，电子设备可以将该不属于词语集合中的子语句片段作为待切分语句并继续执行上述语句切分步骤。需要说明的是，这一步骤可以循环多次，直至所有不属于词语集合中的子语句片段均已被执行语句切分步骤。

步骤204，关联存储所述原始语句以及每次执行所述语句切分步骤所得到的多个子语句片段。

在本实施例中，电子设备可以将原始语句以及每次执行所述语句切分步骤所得到的多个子语句片段关联在一起进行存储。实践中，可以通过各种存储结构进行存储。

在本实施例的一些可选实现方式中，步骤301中可以具体包括以下过程：根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量；将所述至少一种特征向量输入至循环神经网络模型，以根据所述循环神经网络模型输出的序列确定对所述待切分语句进行切分的切分点，其中，所述循环神经网络模型用于表征根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量与用于描述切分时待切分语句中的各个词语是否为切分时的序列的对应关系；按照所确定的切分点将待切分语句切分成多个子语句片段。

在该实现方式中，循环神经网络模型用于表征基于被切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量与各个词语在切分后的子语句片段中是否为切分点对应的序列的对应关系。如此，即可在向循环神经网络模型输入该至少一种特征向量时，根据循环神经网络模型输出的序列确定待切分语句中的各个词语是否为切分点，进而确定切分所得到的各个自语句片段。该循环神经网络模型的输入层是根据待切分语句提取出的特征向量，中间层是循环神经网络，最上层是softmax变换。循环神经网络模型输出的序列可以是由1，2组成的数字序列，其中数字序列中的每个数字与待切分语句中的每个词语对应，用于表征该词语是否是切分后的语句片段的切分点。例如，1可以表征该词语不是切分点，2可以表征该词语是切分点。例如，对于待切分语句“我要打车去黑龙江海拉尔”，其包含的最基本词语分别是“我”、“要”、“打车”、“去”、“黑龙江”、“海拉尔”，若输出的序列为(1，1，2，2，1，2)，则序列中1、1、2、2、1、2对应的数字分别表征“我”、“要”、“打车”、“去”、“黑龙江”、“海拉尔”是否为切分点。即，“打车”、“去”、“海拉尔”分别为切分点，其他词语不是切分点，对应的切分结果是“我要开车”、“去”、“黑龙江海拉尔”。需要说明的是，由于语句中最终一个词是否为切分点不会影响到切分结果，因此最后一个词也可以不通过数字进行表征。还需要说明的是，用1和2来分别表示词语是非切分点和切分点只是示例，实践中可以也可以用2表示非切分点且用1表示切分点，还可以使用其他不同数字分别表征是否为切分点。

在该实现方式中，可以使用循环神经网络模型执行每次的语句切分步骤，对语句切分具有较强的泛化处理能力，应用范围广。

在本实施例的一些可选实现方式中，上述根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量，可以包括以下至少一项：根据待切分语句中不同词语组成的词语组合在搜索语句词典中是否有匹配的搜索语句和/或在搜索语句词典中匹配的搜索语句的分值提取特征向量；根据搜索语句词典中以待切分语句中每个词语为开始、中间或结束的搜索语句的数目或分值之和提取词语对应的特征向量；其中，所述搜索语句词典中记录使用搜索引擎搜索过的搜索语句，每个搜索语句的分值是根据搜索语句的搜索频次和/或用户搜索时的使用反馈信息生成的。该搜索语句词典可以作为其他操作的基础词典，可以反映出词语或词语组合是否被用户搜索过以及具体的搜索频次。

图4示出了“我要打车去黑龙江”这一句子中涉及到的词语或词语组合在搜索语句中所匹配的搜索语句以及搜索语句的分值。其中，“我”这一词语所匹配的搜索语句的分值为6.42，“要”这一词语所匹配的搜索语句的分值为5.09，“我”和“要”这一词语组合所匹配的搜索语句的分值为6.36，“打车”这一词语所匹配的搜索语句的分值为5.31，“我”和“打车”这一词语组合所匹配的搜索语句的分值为5.39，“我”、“要”、“打车”这一词语组合所匹配的搜索语句的分值为4.65，“去”这一词语所匹配的搜索语句的分值为3.02，“我”和“去”这一词语组合所匹配的搜索语句的分值为6.36，“我”、“要”、“去”这一词语组合所匹配的搜索语句的分值为3.51，“黑龙江”这一词语所匹配的搜索语句的分值为7.69，“海拉尔”这一词语所匹配的搜索语句的分值为8.06，“我”和“打车”这一词语组合所匹配的搜索语句的分值为3.33。

根据待切分语句中不同词语组成的词语组合在搜索语句词典中是否有匹配的搜索语句时，是指词语组合在搜索语句词典中存在匹配的搜索语句和不存在匹配的搜索语句这两种情形下分别提取出不同的特征向量。在根据待切分语句中不同词语组成的词语组合在搜索语句词典中匹配的搜索语句的分值提取特征向量时，可以根据搜索语句的分值提取相应的特征向量。对于图4中的示例，“我”和“要”这一词语组合所匹配的搜索语句的分值为6.36，则可以根据该6.36提取出前两个词语所组成的词语组合所对应的特征向量。

对于在根据以搜索语句词典中以待切分语句中每个词语为开始、中间或结束的搜索语句的数目或分值之和提取词语对应的特征向量，以“我”这一词语开头的搜索语句作为示例进行说明。以“我”这一词语开头的搜索语句分别包括“我”、“要”组成的搜索语句，“我”、“打车”组成的搜索语句、“我”、“要”、“打车”组成的搜索语句，“我”、“去”组成的搜索语句以及“我”、“要”、“去”组成的搜索语句，可见以“我”这一词语开头的搜索语句的数目为5。此外，这四个搜索语句的分值分别是6.36、5.39、4.65、6.36、3.51，则分值之和为26.27。此时，在根据以搜索语句词典中以待切分语句中“我”为开始、中间或结束的搜索语句的数目或分值之和提取词语对应的特征向量即可以根据5和/或26.27等数值提取相应的特征向量。同理，在以“要”为中间的搜索语句的数目或分值之和提取词语对应的特征向量时，对应的搜索语句包括“我”、“要”、“打车”组成的搜索语句以及“我”、“要”、“去”组成的搜索语句，数目为2，对应的分值之和为4.65+3.51＝8.16，从而可以根据2和/或8.16提取特征向量。以某一词语为结束的搜索语句的数目或分值之和提取词语对应的特征向量与开始、中间的方式相似，这里不再赘述。

该实现方式中，通过查询各种词语组合在搜索语句词典中的分值即可提取出相应的特征向量，提取特征向量的方式较为简单。

在本实施例的一些可选实现方式中，上述根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量，还包括以下至少一项：提取待切分语句中每个词语的词向量；提取待切分语句在所述原始语句的上下文语句的上下文特征向量。在该实现方式中，在提取出至少一种特征向量时，还可以通过其他两种方式提取特征向量：第一种方式是将待切分语句中每个词语的词向量提取为特征向量；第二种方式是根据待切分语句在原始语句的上下文语句提取出特征向量。

该实现方式中，除了根据搜索语句词典提取特征向量外，还提取单个词语的词向量以及上下文特征向量，使得通过循环神经网络模型执行语句切分步骤的通用性和准确性更高，进一步提高了整体方案的完善性。

在本实施例的一些可选实现方式中，上述方法还包括搜索语句词典构建步骤。其中，该搜索语句词典构建步骤可以按如下方式执行：首先，获取用户使用搜索引擎时输入的搜索语句集合。其次，按照搜索语句的搜索频次对搜索语句集合进行筛选。之后，可以根据搜索语句的搜索频次以及用户使用搜索语句搜索时的使用反馈信息，生成搜索语句中每个搜索语句的分值。最后，可以将搜索语句与对应的分值关联存储，以构建搜索语句词典。通过该方式构建的搜索语句词典，后续过程中可以从搜索语句词典查找搜索语句以及搜索语句对应的分值。

可选的，可以按照以下具体过程生成搜索语句词典：首先，可以获取用户搜索日志。该用户搜索日志中可以包括用户使用搜索引擎输入的搜索语句集合、搜索语句集合中每个搜索语句的搜索频次以及用户使用搜索语句搜索时的使用反馈信息。搜索频次是指搜索语句被搜索的次数。使用反馈信息是用户使用搜索语句后对搜索结果的满意度评价信息，该满意度评价信息可以是正面的或负面的，还可以通过数值进行量化。通常，使用反馈信息可以根据用户是否对搜索结果进一步进行点选来确定，因此反馈信息也可称为点击扩展特征。其次，可以通过搜索频次将搜索语句集合中较低频次的搜索语句滤出，保留下搜索频次较高的搜索语句，以供后续处理。接着，可以根据搜索频次和使用反馈信息分别对各个搜索语句进行打分，得到搜索语句的搜索频次得分和满意度得分，在通过一定的计算方式对搜索频次得分和满意度得分进行计算后得到搜索语句的最终分值。满意度得分可以是搜索引擎按照统一的策略进行打分而得到的，也可以是直接采用搜索频次得分或者使用对搜索频次进行相应处理而得到的分值。

可选的，计算最终分值的公式是：

score＝scoresatisfy*log2(scoresatisfy/countsearch)

在上式中，score是搜索语句的最终分值，scoresatisfy是满意度分值，countsearch是搜索频次分值。

该实现方式的方案在构建词典时不需要人工挖掘专项片段，可以直接使用有噪数据即可构建词典，通用性较强。

在本实施例的一些可选实现方式中，步骤204可以具体包括：将所述原始语句作为根节点，并依次将每次被执行所述语句切分步骤的待切分语句与切分所得到的多个子语句片段作为父节点与对应的多个子节点，构建成节点为语句片段的树形层级结构。在构建时，可以将原始语句作为该树形层级结构中的根节点。之后，可以将每次被执行语句切分步骤的待切分语句与切分所得到的多个子语句片段分别作为父节点与对应的多个子节点，从而逐步构建树形层级结构的后续节点。该实现方式中，以树这一数据结构将每次切分的切分结果关联存储在一起，有助于提高后续过程进行查找的效率。

在本实施例的一些可选实现方式中，上述方法还包括模型训练步骤。该模型训练步骤可以以如下方式执行：获取按照最少切分算法预先对样本语句进行迭代切分所生成的切分结果；根据每次切分的切分结果生成训练样本，并使用生成的训练样本训练所述循环神经网络模型；其中，训练样本中的输入向量是根据每次切分所针对的被切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量，训练样本中的输入向量是用于描述每次切分所针对的被切分语句中的各个词语是否为切分点的序列。在使用单个训练样本进行训练时，由于每次被切分语句中的词语数量不确定，特征向量的个数也无法事先确定，可以每次将定长的特征向量输入至模型中并通过循环输入对模型进行训练。

在按照最少切分算法预先对样本语句进行迭代切分所生成的切分结果中的每一次切分中，可以根据切分关系确定父节点中的语句片段中的各个词语是否为切分点。例如，当被且分语句片段为“我要打车去黑龙江海拉尔”且切分后的多个语句片段分别是“我要打车”、“去”、“黑龙江海拉尔”，此时可以分析出在“我要打车去黑龙江海拉尔”这一语句片段的各个词语“我”、“要”、“打车”、“去”、“黑龙江”、“海拉尔”中，“打车”、“去”、“海拉尔”可以认为是切分点，而其他词语可以认为是非切分点。此时，若用数字1表征非切分点而用数字2表征切分点，则对应的序列为(1，1，2，2，1，2)，该序列即可作为训练用的输出向量。再将根据被切分语句提取出的至少一种特征向量作为输入向量，即可得到已知输入向量和输出向量的训练样本。至少一种特征向量的提取过程可以参考上述语句切分步骤中提取至少一种特征向量的过程，这里不再赘述。最后，即可利用得到的训练样本对循环神经网络模型进行训练。

其中，上述最少切分算法是每次切分时使待切分语句中切出的子语句的数目最小的方法。可选的，当出现多个切分方式均使得切出的子语句的数目最小时，则可以通过切分后各个子语句的得分之乘积判断采用哪一种切分方式。例如，可以采用得分之乘积最大者作为所选取的切分方式。通过递归方式依次使用最小切分算法，直到切出的子语句为最基本的词语时，即可得到多层次的切分结果。实践中，需要根据对大量的样本语句进行切分所得到的切分结果生成训练样本，以便于生成处理效果更优的循环神经网络模型。图5是以对原始语句“我要打车去黑龙江海拉尔”为例对切分过程进行描述的示意图。首先，采用最小切分算法对原始语句“我要打车去黑龙江海拉尔”进行切分，从而得到子语句最少的切分结果为：“我要打车”、“去”、“黑龙江海拉尔”。其中，“去”已经是基础词语，不需要继续切分，而“我要打车”和“黑龙江海拉尔”则不是基础词语，还需要继续将“我要打车”和“黑龙江海拉尔”分别作为待切分语句继续进行切分。在对“我要打车”进一步切分时，可以采用最少切分算法切分出“我要”和“打车”两个子语句片段，之后进一步将“我要”切分成“我”和“要”。对于“黑龙江海拉尔”，可以采用最少切分算法切分出“黑龙江”和“海拉尔”。最后，即可得到如图5所示的用于表征多层次切分结果的样本树形层级结构。通过最少切分算法切分即可得到对循环神经网络进行训练的训练样本，数据来源广泛，不需要人工精细加工。

本申请的上述实施例提供的方法可以循环对原始语句进行多层次多粒度的切分，使得切分结果可以得到更广泛的应用，通用性强。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种基于人工智能的切分语句的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的基于人工智能的切分语句的装置600包括：切词单元601、切分单元602、执行单元603和存储单元604。其中，切词单元601用于对待切分的原始语句进行切词，以得到原始语句中的词语集合；切分单元602用于驱动以下子单元对初始值为所述原始语句的待切分语句执行语句切分步骤：切分子单元，用于根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段，其中每个子语句片段是单个词语或词语组合；判断子单元，判断所切分成的多个子语句片段中是否存在不属于所述词语集合中的子语句片段；执行单元603用于若多个子语句片段存在不属于词语集合中的子语句片段，则将不属于词语集合中的子语句片段作为待切分语句反馈至切分单元602；而存储单元604用于关联存储所述原始语句以及每次执行所述语句切分步骤所得到的多个子语句片段。

在本实施例的一些可选实现方式中，切分子单元包括：提取模块，用于根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录，提取出至少一种特征向量；确定模块，用于将所述至少一种特征向量输入至循环神经网络模型，以根据所述循环神经网络模型输出的序列确定对所述待切分语句进行切分的切分点，其中，所述循环神经网络模型用于表征根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量与用于描述切分时待切分语句中的各个词语是否为切分时的序列的对应关系；切分模块，用于按照所确定的切分点将待切分语句切分成多个子语句片段。

在本实施例的一些可选实现方式中，提取模块用于执行以下至少一项：根据待切分语句中不同词语组成的词语组合在搜索语句词典中是否有匹配的搜索语句和/或在搜索语句词典中匹配的搜索语句的分值提取特征向量；根据搜索语句词典中以待切分语句中每个词语为开始、中间或结束的搜索语句的数目或分值之和提取词语对应的特征向量；其中，所述搜索语句词典中记录使用搜索引擎搜索过的搜索语句，每个搜索语句的分值是根据搜索语句的搜索频次和/或用户搜索时的使用反馈信息生成的。

在本实施例的一些可选实现方式中，提取模块还用于执行以下至少一项：提取待切分语句中每个词语的词向量；提取待切分语句在所述原始语句的上下文语句的上下文特征向量。

在本实施例的一些可选实现方式中，装置600还包括搜索语句词典构建单元(未示出)，用于：获取用户使用搜索引擎时输入的搜索语句集合；按照搜索语句的搜索频次对搜索语句集合进行筛选；根据搜索语句的搜索频次以及用户使用搜索语句搜索时的使用反馈信息，生成所述搜索语句中每个搜索语句的分值；将搜索语句与对应的分值关联存储，以构建所述搜索语句词典。

在本实施例的一些可选实现方式中，装置600还包括模型训练单元，所述模型训练单元用于：获取按照最少切分算法预先对样本语句进行迭代切分所生成的切分结果；根据每次切分的切分结果生成训练样本，并使用生成的训练样本训练所述循环神经网络模型；其中，训练样本中的输入向量是根据每次切分所针对的被切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量，训练样本中的输入向量是用于描述每次切分所针对的被切分语句中的各个词语是否为切分点的序列。

在本实施例的一些可选实现方式中，存储单元204进一步用于：将所述原始语句作为根节点，并依次将每次被执行所述语句切分步骤的待切分语句与切分所得到的多个子语句片段作为父节点与对应的多个子节点，构建成节点为语句片段的树形层级结构。

此外，本申请提供了一种基于人工智能的切分语句的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中，该电子设备可以是终端设备或服务器。下面参考图7，其示出了适于用来实现本申请实施例的终端设备/服务器的计算机系统700的结构示意图。图7示出的终端设备/服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(cpu)701，其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram703中，还存储有系统700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

以下部件连接至i/o接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(cpu)701执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括切词单元、切分单元、执行单元和存储单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，切词单元还可以被描述为“用于对待切分的原始语句进行切词以得到原始语句中的词语集合的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：对待切分的原始语句进行切词，以得到所述原始语句中的词语集合；对初始值为所述原始语句的待切分语句执行语句切分步骤，所述语句切分步骤包括：根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段，其中每个子语句片段是单个词语或词语组合；判断所切分成的多个子语句片段中是否存在不属于所述词语集合中的子语句片段；若存在不属于所述词语集合中的子语句片段，则将不属于所述词语集合中的子语句片段作为待切分语句继续执行所述语句切分步骤；关联存储所述原始语句以及每次执行所述语句切分步骤所得到的多个子语句片段。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王一鸣
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种多功能公路养护车的制作方法与工艺
上一篇：一种栀子花香蓝莓荸荠面包的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。