信息处理方法和装置与流程

文档序号:18619714发布日期:2019-09-06 22:22阅读:111来源:国知局
信息处理方法和装置与流程

本申请涉及计算机领域,具体涉及互联网领域,尤其涉及信息处理方法和装置。



背景技术:

在可提供文本的浏览和下载的站点中,需要预先建立文本与相应的知识点语句的对应关系。目前,通常采用的建立文本与相应的知识点语句的对应关系的方式为:预先利用多个知识点语句通过ac自动机(aho-corasickautomaton)算法构建出字典树,对于一个文本,该文本中的关键语句需要与参与构建字典树的一个知识点语句完全匹配才能查找出匹配的知识点语句,建立文本与查找出的知识点语句的对应关系。

一方面,查找与文本匹配的知识点语句的过程开销大,另一方面,对于与知识点语句语义相同仅个别与语义关联度低的词语不同的文本中的关键语句,依然会导致无法查找出与用户输入的语句匹配的知识点语句,进而无法建立文本与知识点语句的对应关系。



技术实现要素:

本申请实施例提供了信息处理方法和装置。

第一方面,本申请实施例提供了信息处理方法,该方法包括:对文本中的关键语句进行分词,得到关键语句对应的词语集合;基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,其中,一个权重模式匹配树预先基于多个用于构建所述权重模式匹配树的知识点语句构建,多个用于构建所述权重模式匹配树的知识点语句中的每一个知识点语句在权重模式匹配树中对应一个路径,路径中包含知识点语句中的部分词语中的每一个词语各自对应的节点,部分词语中的每一个词语各自对应的节点的权重之和大于权重和阈值。

第二方面,本申请实施例提供了信息处理装置,该装置包括:处理单元,配置用于对文本中的关键语句进行分词,得到关键语句对应的词语集合;查找单元,配置用于基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,其中,一个权重模式匹配树预先基于多个用于构建所述权重模式匹配树的知识点语句构建,多个用于构建所述权重模式匹配树的知识点语句中的每一个知识点语句在权重模式匹配树中对应一个路径,路径中包含知识点语句中的部分词语中的每一个词语各自对应的节点,部分词语中的每一个词语各自对应的节点的权重之和大于权重和阈值。

本申请实施例提供的信息处理方法和装置,通过对文本中的关键语句进行分词,得到关键语句对应的词语集合;基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,其中,一个权重模式匹配树预先基于多个用于构建所述权重模式匹配树的知识点语句构建,多个用于构建所述权重模式匹配树的知识点语句中的每一个知识点语句在权重模式匹配树中对应一个路径,路径中包含知识点语句中的部分词语中的每一个词语各自对应的节点,部分词语中的每一个词语各自对应的节点的权重之和大于权重和阈值。实现了预先基于由多个知识点中的权重较高的部分词语参与构建权重模式字典树,在查找与关键语句对应的词语集合匹配的知识点语句时,当关键语句中包含一个知识点中权重较高的部分词语时,即可作为与关键语句对应的词语集合匹配的知识点语句,进而建立文本与知识点语句的对应关系。一方面,减少了建立文本与知识点语句的对应关系的过程的开销,另一方面,与知识点语句语义相似的关键语句均可以被查找出,建立文本与知识点语句的对应关系。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出了可以应用于本申请的信息处理方法或装置的实施例的示例性系统架构;

图2示出了根据本申请的信息处理方法的一个实施例的流程图;

图3示出了知识点语句参与构建权重模式匹配树的一个示意图;

图4示出了通过多个权重匹配树查找知识点语句的一个示意图;

图5示出了根据本申请的信息处理装置的一个实施例的结构示意图;

图6示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用于本申请的信息处理方法或装置的实施例的示例性系统架构。

如图1所示,系统架构包括终端101、网络102、服务器103。网络102可以为有线通信网络或无线通信网络。

服务器103可以为用于提供知识类型的文本的浏览和下载的站点的服务器。服务器103预先利用海量的知识点语句,构建多个权重模式匹配树,通过构建出的多个权重模式匹配树,分别查找出与每一个文本中的关键语句匹配的知识点语句,分别建立每一个文本与查找出的相应地知识点语句的对应关系。

服务器103可以接收包含终端101的用户在提供知识类型的文本的浏览和下载的站点的页面输入的与期望获取的知识类型的文本相关的搜索式的搜索请求。当用户在站点输入与搜索式与一个知识点语句匹配时,服务器103可以查找出与用户输入的搜索式匹配的知识点语句,然后,可以查找出与用户输入的搜索式匹配的知识点语句对应的文本,将查找出的知识点语句对应的文本发送至终端101以供终端101的用户浏览和下载。

请参考图2,其示出了根据本申请的信息处理方法的一个实施例的流程。本申请实施例所提供的信息处理方法可以由服务器(例如图1中的服务器103)执行。该方法包括以下步骤:

步骤201,对文本中的关键语句进行分词,得到关键语句对应的词语集合。

在本实施例中,文本可以为提供文本浏览和下载的站点中的文本。文本中的关键语句可以为文本的题目、文本的摘要中的语句等。可以对关键语句进行分词,得到关键语句对应的词语集合,关键语句对应的词语集合中包含每一个对关键语句进行分词之后得到的词语。

例如,一个知识类型的文本,该文本的题目为“一元一次函数的应用”,将该题目作为该文本的关键语句,分词之后得到的词语包括:一元、一次、函数、的、应用。该文本对应的词语集合中的词语包括:一元、一次、函数、的、应用。

步骤202,基于权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,建立文本和知识点语句的对应关系。

在本实施例中,在得到关键语句对应的词语集合之后,可以基于至少一个权重模式匹配树,查找出与文本中的关键语句匹配的知识点语句。

在本实施例中,可以预先对多个知识点语句按照预设类型例如按照知识点语句描述的知识点所属的学科进行分类,利用每一个类型的知识点语句分别构建一个权重模式匹配树。

对于一个文本,可以首先确定该文本所属的类型,一个文本所属的类型可以为多个,可以分别利用该文本所属的每一个类型对应的权重模式匹配树查找出该查找出与文本中的关键语句匹配的知识点语句。

在本实施例中,一个权重模式匹配树预先基于多个用于构建该权重模式匹配树的知识点语句构建。对于一个用于构建该权重模式匹配树的知识点语句,该知识点语句中的部分词语参与构建该权重模式匹配树。多个用于构建该权重模式匹配树的知识点语句中的每一个知识点语句在该权重模式匹配树中对应一个路径,一个知识点语句对应的路径中包含该知识点语句中的参与构建该权重模式匹配树的部分词语中的每一个词语各自对应的节点,参与构建该权重模式匹配树的部分词语中的词语的权重之和大于权重和阈值。

在本实施例中,一个知识点语句中的一个词语的权重可以是指该词语在该知识点语句中的权重。同一个词语在不同的知识点语句中的权重可以不同。一个知识点语句中的一个词语的权重即为权重模式匹配树中该知识点语句对应的路径上该词语对应的节点的权重。一个用于构建权重模式匹配树的知识点语句中的权重较高的词语即按照在知识点语句中的权重进行排序后的次序靠前的多个词语可以作为该知识点语句中的参与构建权重模式匹配树的部分词语,可以预先从该用于构建权重模式匹配树的知识点选取出多个权重较高的词语作为参与构建该权重模式匹配树的部分词语,部分词语中的词语的权重之和大于权重和阈值。

在一个用于构建权重模式匹配树的一个知识点语句参与构建该权重模式匹配树的过程中,从根节点所在的层之下的一层开始,确保该知识点语句中的

参与构建该权重模式匹配树的部分词语中的词语的总数量层中的每一层中均存在与该知识点语句中的部分词语中的一个词语对应的节点。当在一层中不存在一个词语对应的节点,则在该层创建该词语对应的节点。一个词语的权重越高,该词语对应的节点所在的层的层次序越低。该知识点语句中的部分词语中的相邻的词语对应的节点连接,构成一个该知识点语句对应的路径。

例如,对于一个用于构建一个权重模式匹配树的知识点语句“一元一次函数的应用”,选取出的参与构建该权重模式匹配树的权重较高的词语一元、一次、函数的权重之和大于权重和阈值,权重较高的词语一元、二次、函数可以参与构建权重模式匹配树。权重的大小关系表示为函数>一次>一元>应用>的。权重模式匹配树中,分别在根节点所在的层的下一层开始的三层中依次包括函数对应的节点、一次对应的节点、一元对应的节点。

在基于权重模式匹配树,查找与一个文本中的关键语句匹配的知识点语句时,从根节点开始逐层查找是否存在该键语句对应的词语集合中的词语对应的节点。当查找出的词语对应的节点的权重之和大于阈值时,则停止查找,可以确定最新查找出的词语与本次查找过程中第一个查找出的词语之间的路径中的每一个词语,该路径上的所有词语即为用于构建该权重模式匹配树的一个知识点语句中的参与构建该权重模式匹配树的部分词语,进而可以确定该路径上的所有词语对应的一个用于构建该权重模式匹配树的一个知识点语句,将该知识点语句作为与该文本中的关键语句匹配的知识点语句,进而查找出该文本中的关键语句匹配的知识点语句,可以建立该文本与知识点语句的对应关系。

在本实施例的一些可选的实现方式中,在构建一个权重模式匹配树时,可以分别对多个用于构建该权重模式匹配树的知识点语句中的每一个知识点语句执行构建操作。构建操作中包含路径建立子操作。

在构建操作中,可以首先对该知识点语句进行分词,得到该知识点语句对应的词语集合,该知识点语句对应的词语集合包含对该知识点语句进行分词之后得到的每一个词语。可以根据该知识点语句对应的词语集合中的每一个词语对应的平均权重,对该知识点语句中的词语按照权重由高到低的顺序进行排序,该知识点语句对应的词语集合中的一个词语在该知识点语句中的权重越高,排序后该词语的次序越小。一个词语对应的平均权重可以为该词语在多个用于构建该权重模式匹配树的知识点语句中的权重的均值。排序后该知识点语句对应的词语集合中的每一个词语分别在该知识点语句对应的词语集合中的词语的总数量层中的一层,待构建权重模式匹配树中的根节点所在的层为首层,排序后该知识点语句对应的词语集合中的一个词语次序越小,该词语对应的节点所在的层的层次序越低,排序后该知识点语句对应的词语集合中的次序最小的词语在待构建的权重模式匹配树的根节点所在的层的下一层。

在通过路径建立子操作访问该知识点语句对应的词语集合中的词语对应的节点时,按照次序由小到大的次序,从排序后该知识点语句对应的词语集合中的次序最小的词语开始,依次访问排序后该知识点语句对应的词语集合中的词语对应的节点,一次路径建立子操作访问排序后该知识点语句对应的词语集合中的一个词语对应的节点。

在对一个知识点语句的一次路径建立子操作中,可以判断是否满足预设条件,预设条件包括:当前权重和大于或等于权重和阈值并且当前相似度大于或等于相似度阈值。

当前权重和为最新词语对应的节点与已访问到的节点的权重之和,即当前权重和为最新词语在该知识点语句中的权重与所有已访问到的节点对应的词语在该知识点语句中的权重之和。

当前相似度为最新词语和已访问到的节点对应的词语构成的词语集合与该知识点语句对应的词语集合之间的相似度。当前相似度为最新词语和已访问到的节点对应的词语构成的词语集合与该知识点语句对应的词语集合之间的可以当前相似度为最新词语和已访问到的节点对应的词语构成的词语集合与该知识点语句对应的词语集合之间的杰卡德(jaccard)相似度。

在计算杰卡德相似度时,可以分别生成当前相似度为最新词语和已访问到的节点对应的词语构成的词语集合的向量和该知识点语句对应的词语集合的向量,计算两个向量的杰卡德相似度。在当前相似度为最新词语和已访问到的节点对应的词语构成的词语集合的向量中,每一个分量为最新词语和已访问到的节点对应的词语构成的词语集合中的一个词语在该知识点语句中的权重。在该知识点语句对应的词语集合的向量中,每一个分量为该知识点语句对应的词语集合中的一个词语在该知识点语句中的权重。

在对一个知识点语句的一次路径建立子操作中,当满足预设条件时,在判断是否满足预设条件之后,建立该知识点语句与最新词语对应的节点的对应关系。可以将该知识点语句的序号加入到最新词语对应的节点的节点数据中的列表中来建立知识点语句与最新词语对应的节点的对应关系。当满足预设条件时,可以将最新词语对应的节点的类型设置为叶子节点。在建立该知识点语句与最新词语对应的节点的对应关系以及可以将最新词语对应的节点的类型设置为叶子节点之后,本次路径建立子操作结束。

在对一个知识点语句的一次路径建立子操作中,在判断是否满足预设条件之后,当不满足预设条件时,可以将最新词语对应的节点的类型设置为非叶子节点,访问排序后的该知识点语句对应的词语集合中的最新词语的下一个词语对应的节点,确定再次执行路径建立子操作。从而,该次路径建立子操作的下一次路径建立子操作被执行。

在对所有参与构建知识点语句分别执行构建操作之后,可以确定每一个访问过的节点。可以通过ac自动机算法确定每一个访问过的节点的失配指针,设置每一个访问过的节点的失配指针。

请参考图3,其示出了知识点语句参与构建权重模式匹配树的一个示意图。

在图3中,示出了5个参与构建权重模式匹配树的知识点语句“一次函数的应用”、“一元一次函数”、“一元一次函数的学习”、“导数函数的应用”、“导数的应用”中的各个词语各自对应的节点。其中,节点301为“导数函数的应用”中的“导数”对应的节点,节点302为“导数函数的应用”中的“应用”对应的节点。节点303为“导数的应用”中的“导数”对应的节点,节点304为“导数的应用”中的“应用”对应的节点。

在图3中,一个词语对应的节点中的【】表示节点的节点数据中的列表。一个词语对应的节点中的【】中无序号时,则表示词语对应的节点,一个词语对应的节点中的【】中的序号表示知识点语句的序号。

知识点语句的标识为知识点语句的序号,知识点语句“一次函数的应用”的序号为1、知识点语句“一元一次函数”的序号为2、知识点语句“一元一次函数的学习”的序号为3、知识点语句“导数函数的应用”的序号为4、知识点语句“导数的应用”的序号为5。

假设5个参与构建权重模式匹配树的知识点语句为全部参与构建权重模式匹配树的多个知识点语句。

5个参与构建权重模式匹配树的知识点语句中的所有词语对应的平均权重的大小关系表示为:函数>导数>一次>一元>应用>学习>的。

对于知识点语句“一次函数的应用”,根据平均权重排序后知识点语句“一次函数的应用”对应的词语集合中的词语的次序的大小关系表示为“函数”<“一次”。通过两次路径建立子操作依次访问了函数对应的节点、一次对应的节点。当知识点语句“一次函数的应用”参与构建权重模式匹配树之前在相应的层中不存在“函数”对应的节点、“一次”对应的节点时,则会首先创建“函数”对应的节点、“一次”对应的节点,然后,访问“函数”对应的节点、“一次”对应的节点。在第二次路径建立子操作中,计算出的当前权重和为知识点语句“一次函数的应用”中的“函数”对应的节点在“一次函数的应用”中的权重即“一次函数的应用”中的“函数”在“一次函数的应用”中的权重与“一次函数的应用”中的“一次”对应的节点在“一次函数的应用”中的权重即“一次函数的应用”中的“一次”在“一次函数的应用”中的权重之和,该当前权重和大于权重和阈值,计算出的当前相似度也大于相似度阈值,在“一次”对应的节点的节点数据中的列表中加入“一次函数的应用”的序号,加入之后列表表示为【1】,并且将“一次”对应的节点的节点数据中的节点类型字段设置为叶子节点。

对于知识点语句“一元一次函数”,根据平均权重排序后的“一元一次函数”对应的词语集合中的次序的大小关系表示为函数<一次<一元。通过两次路径建立子操作依次访问函数对应的节点、一次对应的节点,在第二次路径建立子操作中计算出的当前权重和为“一元一次函数”中的函数对应的节点在“一元一次函数”中的权重与“一元一次函数”中的一次对应的节点在“一元一次函数”中的权重,第二次路径建立子操作计算出的当前权重和小于权重和阈值,再次执行路径建立子操作,在第三次路径建立子操作中访问排序后“一元一次函数”中的一次的下一个词语即“一元一次函数”中的一元对应的节点,第三次路径建立子操作中计算出的当前权重和大于权重和阈值并且相似度大于相似度阈值,因此,将“一元一次函数”中的一次对应的节点的节点数据中的节点类型字段设置为非叶子节点,“一元一次函数”中的一次对应的节点的节点数据中的列表加入“一元一次函数”的序号。

对于知识点语句“一元一次函数的学习”,根据平均权重排序后的“一元一次函数的学习”对应的词语集合中的词语的次序的大小关系表示为函数<一次<一元<学习<的。通过三次路径建立子操作依次访问“一元一次函数的学习”中的函数对应的节点、“一元一次函数的学习”中的一次对应的节点、“一元一次函数的学习”中的一元对应的节点,在第三次路径建立子操作中计算出的当前权重和即“一元一次函数的学习”中的函数对应的节点、“一元一次函数的学习”中的一次对应的节点、”一元一次函数的学习“一元一次函数的学习”一元一次函数的学习”中的权重之和,该当前权重和大于权重和阈值并且当前相似度也大于相似度阈值,在“一元一次函数的学习”中的一元对应的节点的节点数据中的列表加入“一元一次函数的学习”的序号,加入之后列表表示为【2,3】。

对于知识点语句“导数函数的应用”,根据平均权重排序后的“导数函数的应用”对应的词语集合中的词语的次序的大小关系可以表示为函数<导数<应用<的,在第三次路径建立子操作中,计算出的当前权重之和,该当前权重和大于权重和阈值,计算出的当前相似度也大于相似度阈值,在“导数函数的应用”中的应用对应的节点即节点302的节点数据中的列表中加入“导数函数的应用”的序号,加入之后列表表示为【4】,并且将“导数函数的应用”中的应用对应的节点的节点数据中的节点类型设置为叶子节点。

对于知识点语句“导数的应用”,根据平均权重排序后的“导数的应用”对应的词语集合中的词语的次序的大小关系可以表示为导数<应用<的。通过两次路径建立子操作依次访问“导数的应用”中的函数对应的节点、“导数的应用”中的一次对应的节点,在第二次路径建立子操作中计算出的当前权重和大于权重和阈值,在“导数的应用”中的应用对应的节点即节点304的节点数据中的列表中加入“导数的应用”的序号,加入之后列表表示为【5】,并且,计算出的当前相似度也大于相似度阈值,将“导数的应用”中的应用对应的节点的节点数据中的节点类型设置为叶子节点。

在分别对5个参与构建权重模式匹配树的知识点语句中的每一个参与构建权重模式匹配树的知识点语句执行构建操作之后,可以对每一个访问过的节点通过ac自动机算法计算出每一个访问过的节点的失配指针。

在本实施例的一些可选的实现方式中,在基于一个权重模式匹配树,查找出与关键语句匹配的一个知识点语句时,可以通过一次语句查找操作完成。语句查找操作包含路径查找子操作。

在一次语句查找操作中,可以首先确定起始节点集合,起始节点集合中一个起始节点为权重模式匹配树的根节点的子节点中关键语句对应的词语集合中的一个词语对应的节点。换言之,当权重模式匹配树中根节点所在的层的下一层中一个节点为与关键语句对应的词语集合中的一个词语对应的节点时,则该节点可以作为起始节点。然后,可以对于起始节点集合中的每一个起始节点,执行路径查找子操作。

在对一个起始节点的路径查找子操作中,可以首先查找出该起始节点对应的所有目标路径,起始节点对应的目标路径中的首个节点为起始节点,起始节点对应的目标路径中包括关键语句对应的词语集合中的至少一个词语各自对应的节点。换言之,当一个路径的在自上至下的顺序中第一个节点为起始节点时,则该路径可以作为起始节点的目标路径。

可以采用深度遍历的方式查找出起始节点对应的所有目标路径,在查找起始节点对应的目标路径的过程中当访问到的节点为叶子节点时,访问失配指针指向的节点。

对于每一个起始节点对应的目标路径,当目标路径的最后一个节点对应有知识点语句时,将目标路径的最后一个节点对应的知识点语句作为查找出的与关键语句对应的词语集合匹配的知识点语句。

当利用节点的节点数据中的列表存储知识点语句的序号时,可以在当目标路径的最后一个节点的节点数据中的列表非空时,将目标路径的最后一个节点的节点数据中的列表的每一个知识点语句的序号各自对应的知识点语句作为查找出的与关键语句对应的词语集合匹配的知识点语句。

在本实施例的一些可选的实现方式中,可以预先构建多个权重模式匹配树。可以根据知识点语句中的最大全局平均权重词语,对用于构建多个权重模式匹配树的所有知识点进行分组,得到多个知识点语句集合。最大全局平均权重词语为对应的全局平均权重最大的词语。一个词语对应的平全局平均权重可以为该词语在用于构建多个权重模式匹配树的所有知识点语句中的权重的均值。一个知识点语句集合中的每一个知识点语句中的最大全局平均权重词语相同。一个知识点语句集合对应一个最大全局平均权重词语。

在得到多个知识点语句集合之后,可以分别利用每一个知识点语句集合,构建每一个知识点语句集合各自对应的权重模式匹配树。同时,分别建立每一个知识点语句集合各自对应的权重模式匹配树与知识点语句集合对应的最大全局平均权重词语的对应关系。一个权重模式匹配树对应一个最大全局平均权重词语。

对于一个关键语句,可以从多个权重模式匹配树中查找出对应的全局最大权重词语为关键语句对应的词语集合中的一个词语的权重模式匹配树;分别基于每一个查找出的权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句。

请参考图4,其示出了通过多个权重匹配树查找知识点语句的一个示意图。

一个文本中的关键语句包含词语1、词语2、词语3。词语1对应于权重模式匹配树1,换言之,权重模式匹配树1基于最大全局平均权重词语均为词语1的多个知识点语句而构建。词语2对应于权重模式匹配树2,换言之,权重模式匹配树2基于全局最大权重词语均为词语2的多个知识点语句而构建。词语3对应于权重模式匹配树3,换言之,权重模式匹配树3基于全局最大权重词语均为词语3的多个知识点语句而构建。

在查找与该关键语句匹配的知识点语句时,分别基于词语1对应于权重模式匹配树1,词语2对应于权重模式匹配树2,词语3对应于权重模式匹配树3,分别查找出与该关键语句匹配的知识点语句。

请参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应。

如图5所示,本实施例的信息处理装置包括:处理单元501,查找单元502。其中,处理单元501配置用于对文本中的关键语句进行分词,得到关键语句对应的词语集合;查找单元502配置用于基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,其中,一个权重模式匹配树预先基于多个用于构建所述权重模式匹配树的知识点语句构建,多个用于构建所述权重模式匹配树的知识点语句中的每一个知识点语句在权重模式匹配树中对应一个路径,路径中包含知识点语句中的部分词语中的每一个词语各自对应的节点,部分词语中的每一个词语各自对应的节点的权重之和大于权重和阈值。

在本实施例的一些可选的实现方式中,信息处理装置还包括:构建单元,配置用于分别对多个用于构建一个权重模式匹配树的知识点语句中的每一个知识点语句执行构建操作,构建操作包括:根据知识点语句中的每一个词语对应的平均权重,对知识点语句对应的词语集合中的词语进行排序,得到词语序列以及执行路径建立子操作,路径建立子操作包括:当满足预设条件时,建立知识点语句与最新词语对应的节点的对应关系,将最新词语对应的节点的类型设置为叶子节点,最新词语为最新访问到的所述词语序列中的词语;当不满足预设条件时,将最新词语对应的节点的类型设置为非叶子节点,访问词语序列中最新词语的下一个词语对应的节点,确定再次执行路径建立子操作,预设条件包括:当前权重和大于权重和阈值并且当前相似度大于相似度阈值,其中,当前权重和为最新词语对应的节点与已访问到的节点的权重之和,当前相似度为最新词语和已访问到的节点对应的词语构成的词语集合与所述知识点语句对应的词语集合之间的相似度;对于每一个访问过的节点,分别配置访问过的节点的失配指针,得到所述权重模式匹配树。

在本实施例的一些可选的实现方式中,查找单元进一步配置用于:对于至少一个权重模式匹配树的每一个权重模式匹配树,执行语句查找操作,所述语句查找操作包括:确定起始节点集合以及对于起始节点集合中的每一个起始节点,执行路径查找子操作,得到起始节点对应的目标路径,其中,起始节点集合中一个起始节点为对应于关键语句对应的词语集合中的一个词语的权重模式匹配树的根节点的一个子节点,所述路径查找子操作包括:查找出起始节点对应的所有目标路径,其中,起始节点对应的目标路径中的首个节点为起始节点,起始节点对应的目标路径中包括关键语句对应的词语集合中的至少一个词语各自对应的节点,在查找起始节点对应的目标路径的过程中当访问到的节点为叶子节点时,访问所述节点的失配指针指向的节点;对于每一个起始节点对应的目标路径,当起始节点对应的目标路径的最后一个节点对应有知识点语句时,将目标路径的最后一个节点对应的知识点语句作为查找出的与关键语句对应的词语集合匹配的知识点语句。

在本实施例的一些可选的实现方式中,信息处理装置还包括:分组单元,配置用于根据知识点语句中的全局最大权重词语,对用于构建多个权重模式匹配树的所有知识点语句进行分组,得到多个知识点语句集合,其中,一个知识点语句集合中的每一个知识点中的全局最大权重词语相同,全局最大权重词语为对应的全局平均权重最大的词语,一个词语对应的全局平均权重为所述词语在用于构建多个权重模式匹配树的所有知识点语句中的权重的均值;分别利用多个知识点语句集合中的每一个知识点语句集合,构建出每一个知识点语句集合各自对应的权重模式匹配树;分别建立构建出的每一个权重模式匹配树与全局最大权重词语的对应关系。

在本实施例的一些可选的实现方式中,信息处理装置还包括:选取单元,配置用于从多个权重模式匹配树中查找出对应的全局最大权重词语为关键语句对应的词语集合中的一个词语的权重模式匹配树;将查找出的权重模式匹配树作为所述至少一个权重模式匹配树

图6示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

如图6所示,计算机系统包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有计算机系统操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:输入部分606;输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,本申请的实施例中描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本申请的方法中限定的上述功能。

本申请还提供了一种服务器,该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述步骤201-202中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述步骤201-202中描述的操作。

本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。上述计算机可读介质承载有一个或者多个程序,当一个或者多个程序被服务器执行时,使得服务器:对文本中的关键语句进行分词,得到关键语句对应的词语集合;基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,其中,一个权重模式匹配树预先基于多个用于构建所述权重模式匹配树的知识点语句构建,多个用于构建所述权重模式匹配树的知识点语句中的每一个知识点语句在权重模式匹配树中对应一个路径,路径中包含知识点语句中的部分词语中的每一个词语各自对应的节点,部分词语中的每一个词语各自对应的节点的权重之和大于权重和阈值。

需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括处理单元,查找单元。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1