文本处理方法、装置、设备以及存储介质与流程

文档序号:26142182发布日期:2021-08-03 14:26阅读:91来源:国知局
文本处理方法、装置、设备以及存储介质与流程

本公开涉及数据处理技术领域,尤其涉及人工智能、自然语言处理、大数据领域。



背景技术:

相关技术中的自然语言文本的结构化信息提取处理,尤其在商业推广领域中根据商品信息构建商品类目体系的应用场景中,通常采用客户表达和人工标注相结合的方式进行构建,面对数十万到百万量级的数据量,存在人工标注成本高、处理效率低的缺陷。



技术实现要素:

本公开提供了一种文本处理方法、装置、设备以及存储介质。

根据本公开的一方面,提供了一种文本处理方法,包括:

获取待处理文本集和结构化文本集;其中,待处理文本集包含多个待处理文本,结构化文本集包含多个参考结构化文本;

构建每个参考结构化文本对应的第一模板表示;并且,对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;

对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。

根据本公开的另一方面,提供了一种文本处理模型的训练方法,包括:

利用待处理文本样本,确定目标结构化文本;

将待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;

根据目标结构化文本和预测结构化文本的差异,对待训练的文本处理模型进行训练,直至差异在允许范围内。

根据本公开的另一方面,提供了一种文本处理装置,包括:

文本集获取模块,用于获取待处理文本集和结构化文本集;其中,待处理文本集包含多个待处理文本,结构化文本集包含多个参考结构化文本;

模板表示构建模块,用于构建每个参考结构化文本对应的第一模板表示;并且,用于对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;

匹配模块,用于对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。

根据本公开的另一方面,提供了一种文本处理模型的训练装置,包括:

目标结构化文本确定模块,用于利用待处理文本样本,确定目标结构化文本;

预测结构化文本获取模块,用于将待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;

训练模块,用于根据目标结构化文本和预测结构化文本的差异,对待训练的文本处理模型进行训练,直至差异在允许范围内。

根据本公开的另一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与该至少一个处理器通信连接的存储器;其中,

该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术,提高了海量文本数据下的文本处理效率,降低了人工处理的人工成本。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1示出根据本公开实施例的文本处理方法的流程图;

图2示出本公开实施例的文本处理方法中进行模板匹配的具体流程图;

图3示出本公开实施例的文本处理方法中确定第二模板表示的具体流程图;

图4示出本公开实施例的文本处理方法中进行模板匹配的具体流程图;

图5示出本公开实施例的文本处理方法中构建第一模板表示的具体流程图;

图6示出本公开实施例的文本处理方法中构建第一模板表示的具体流程图;

图7示出本公开实施例的文本处理方法中得到候选结构化文本的具体流程图;

图8示出本公开实施例的文本处理方法中构建第二模板表示的具体流程图;

图9示出本公开实施例的文本处理方法中构建第二模板表示的具体流程图;

图10示出本公开实施例的文本处理方法中构建第二模板表示的具体流程图;

图11示出本公开实施例的文本处理方法中获取待处理文本集和结构化文本集的具体流程图;

图12示出根据本公开实施例的文本处理模型的训练方法的流程图;

图13示出根据本公开实施例的文本处理装置的示意图;

图14示出根据本公开实施例的文本处理模型的训练装置的示意图;

图15是用来实现本公开实施例的文本处理方法的电子设备的框图;

图16是本公开实施例的文本处理模型的训练方法的具体示例图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

下面参考图1至图11描述根据本公开实施例的文本处理方法。

如图1所示,根据本公开实施例的方法包括以下步骤:

s101:获取待处理文本集和结构化文本集;其中,待处理文本集包含多个待处理文本,结构化文本集包含多个参考结构化文本;

s102:构建每个参考结构化文本对应的第一模板表示;并且,对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;

s103:对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。

示例性地,在步骤s101中,待处理文本可以为自然语言文本。参考结构化文本可以在待处理文本集的基础上,通过对各个待处理文本进行结构化信息提取处理,得到与各个待处理文本相对应的结构化文本信息,作为参考结构化文本并构建结构化文本集。

可以理解的是,在以上示例的基础上,对于结构化文本集中的任一个参考结构化文本,待处理文本集中存在至少一个待处理文本与该参考结构化文本相对应。

示例性地,在步骤s102中,参考结构化文本对应的第一模板表示,可以采用参考结构化文本与上文前缀和/或下文后缀相组合的方式进行构建。

例如,参考结构化文本为“面部减肥吸脂”,第一模板表示可以为“面部减肥吸脂会反弹吗”,即采用“参考结构化文本”与“下文后缀”相结合的构建方式;或者可以为“想做面部减肥吸脂哪家医院好”,即采用“上文前缀”、“参考结构化文本”以及“下文后缀”相结合的构建方式。

类似地,候选结构化文本对应的第二模板表示,可以采用与第一模板表示相同或相似的构建方式,此处不再赘述。

需要说明的是,对待处理文本进行结构化处理得到候选结构化文本的处理方式,可以采用与生成参考结构化文本不同的处理方式,以在多个参考结构化文本的基础上对结构化文本集进行扩展。

例如,可以将待处理文本进行切词处理,得到多个词单元。基于多个词单元,从中选取n个词单元进行重组并生成语言片段,得到候选结构化文本。

示例性地,在步骤s103中,针对第一模板表示和第二模板表示进行模板匹配,可以根据第一模板表示和第二模板表示之间的相关性进行匹配和过滤,以从多个候选结构文本中确定出符合预设条件的模板匹配结果所对应的第二模板表示。

在一个具体示例中,可以通过计算第一模板表示和第二模板表示之间的语义相似度,基于语义相似度确定出满足预设条件的模板匹配结果所对应的第二模板表示,并将第二模板表示对应的候选结构化文本作为目标结构化文本,添加至结构化文本集中,从而实现对结构化文本集的补充和扩展。

本公开实施例的方法可以应用于业务推广营销场景,下面结合具体应用场景描述根据本公开实施例的方法。

在该应用场景中,待处理文本为业务主发布的业务信息,且业务信息为自然语言文本。

首先,获取业务信息集和种子业务集。基于不同业务主发布的多个业务信息,构建业务信息集,作为待处理文集。针对每个业务信息,进行初步的结构化信息提取处理,以得到每个业务信息对应的种子业务点,并将种子业务点添加至目标业务点集中。

然后,针对每个种子业务点,构建种子业务点对应的第一模板表示,其中,第一模板表示为包括种子业务点的模板化表达式,且通过种子业务点与上文前缀和/或下文后缀的方式进行构建。

并且,对业务信息进行结构化处理,得到业务信息对应的候选业务点,构建候选业务点对应的第二模板表示。其中,第二模板表示可以采用与第一模板表示相同或相似的方法构建。

最后,针对每个候选业务点,对候选业务点对应的第二模板表示与每个种子业务点对应的第一模板表示分别进行模板匹配,在模板匹配结果满足预设条件的情况下,将候选业务点作为目标业务点,添加至目标业务点集中,由此,完成对业务推广营销场景下业务类目体系的构建。

根据本公开实施例的方法,实现了对待处理文本的结构化信息的进一步挖掘,从而在参考结构化文本的基础上,对结构化文本集进行扩展和补充,提高了对自然语言文本的结构化信息处理的提取精度。再者,通过模板匹配的方式对候选结构化文本进行过滤和筛选,可以满足海量文本数据下的文本处理效率,并且降低人力标注的成本。

如图2所示,在一种实施方式中,模板匹配结果包括语义相似度和支持度;步骤s103可以包括以下步骤:

s201:针对每个候选结构化文本,计算候选结构化文本对应的第二模板表示与每个第一模板表示之间的语义相似度;

s202:基于语义相似度,计算满足语义相似度阈值的语义相似度所对应的第一模板表示的数量,得到候选结构化文本的支持度。

语义相似度阈值满足语义相似度,可以理解为,语义相似度大于或等于语义相似度阈值。其中,语义相似度阈值可以根据实际情况具体设置。

示例性地,可以通过计算第二模板表示与第一模板表示之间的余弦相似度、欧氏距离、曼哈顿距离和jaccard相似系数(jaccardcoefficient)中的至少一项,得到二者之间的语义相似度。

对于每个第二模板表示,根据第二模板表示与每个参考结构化文本所对应的第一模板表示之间的语义相似度,确定出语义相似度大于语义相似度阈值的语义相似度所对应的第一模板表示的数量,以得到候选结构化文本的支持度。换而言之,候选结构化文本的支持度用于表征,所有的第一模板表示中,与第二模板表示的语义相似度大于语义相似度阈值的第一模板表示的数量。

根据上述实施方式,通过计算候选结构化文本对应的第二模板表示与每个第一模板表示之间的语义相似度,并根据语义相似度计算候选结构化文本的支持度,可以从语义相似程度和数量的角度对第二模板表示和第二模板表示进行匹配,提高了匹配精准度。

如图3所示,在一种实施方式中,确定满足预设条件的模板匹配结果所对应的第二模板表示,步骤s103还可以包括以下步骤:

s301:在候选结构化文本的支持度满足支持度阈值的情况下,将候选结构化文本对应的第二模板表示确定为满足预设条件的模板匹配结果所对应的第二模板表示。

支持度满足支持度阈值,可以理解为,支持度大于或等于支持度阈值。其中,支持度阈值可以根据实际情况具体设置。例如,支持度阈值可以设置为5,针对某个候选结构化文本,在与该候选结构化文本对应的第二模板表示的语义相似度满足语义相似度阈值的第一模板表示的数量,大于或等于5的情况下,将该候选结构化文本添加至结构化文本集。

通过上述实施方式,可以提高模板匹配的精准度,确保了最终确定出的候选结构化文本相比于参考结构化文本具有较高的相关性,从而使添加至结构化文本集中的结构化文本具有较高的规范化和统一性。

如图4所示,在一种实施方式中,步骤s102包括以下步骤:

s401:针对每个参考结构化文本,获取待处理文本集中与参考结构化文本相匹配的待处理文本;

s402:基于与参考结构化文本相匹配的待处理文本,构建参考结构化文本对应的第一模板表示。

示例性地,可以通过关键字匹配的方式获取与参考结构化文本相匹配的待处理文本。具体而言,基于参考结构化文本,遍历待处理文本集,查找出与参考结构化文本的字面信息相匹配的待处理文本。

例如,参考结构化文本为“面部减肥吸脂”,通过关键字匹配,从待处理文本集中查找出包含“面部减肥吸脂”的多个待处理文本:“面部减肥吸脂会反弹吗”、“面部减肥吸脂哪家医院好”以及“北京面部减肥吸脂哪家医院好”等,以上待处理文本均与该参考结构化文本相匹配。

基于与参考结构化文本相匹配的每个待处理文本,构建参考结构化文本对应的第一模板表示。也就是说,在获取到的与参考结构化文本相匹配的第一模板表示的数量为多个的情况下,构建出的参考结构化文本的第一模板表示的数量为对应的多个。

根据上述实施方式,通过利用与参考结构化文本相匹配的待处理文本构建参考结构化文本对应的第一模板表示,所得到的第一模板表示比较符合待处理文本的自然语言表达方式,并且无需参考其他语料库,降低了第一模板表示的构建难度。

如图5所示,在一种实施方式中,步骤s402包括以下步骤:

s501:针对与参考结构化文本相匹配的待处理文本,获取待处理文本的页面浏览量;

s502:在页面浏览量满足预设条件的情况下,构建参考结构化文本对应的第一模板表示。

示例性地,步骤s501中,在业务推广营销场景中,待处理文本为不同业务主发布的历史业务信息,待处理文本的页面浏览量即为历史业务信息的页面浏览量。

示例性地,步骤s502中,基于与参考结构化文本相匹配的待处理文本的页面浏览量,对与参考结构化文本相匹配的待处理文本进行过滤。预设条件可以为预先设置的页面浏览量阈值,在与参考结构化文本相匹配的待处理文本的页面浏览量小于页面浏览量阈值的情况下,将该待处理文本进行过滤,并保留大于或等于页面浏览量阈值的页面浏览量所对应的待处理文本,作为构建参考结构化文本对应的第一模板表示的依据。其中,页面浏览量阈值可以根据实际情况具体设置。

通过上述实施方式,基于待处理文本的页面浏览量,对与参考结构化文本的相匹配的待处理文本进行过滤,从而保证构建第一模板表示所依据的待处理文本具有一定的关注度,提高了参考结构化文本对应的第一模板表示的商业参考价值。

如图6所示,步骤s402还可以包括以下步骤:

s601:将参考结构化文本作为第一插槽单元;

s602:在与参考结构化文本相匹配的待处理文本中,确定出与参考结构化文本相匹配的第一文本单元;

s603:在与参考结构化文本相匹配的待处理文本中,将第一文本单元替换为第一插槽单元,得到参考结构化文本对应的第一模板表示。

在一个具体示例中,参考结构化文本为“面部减肥吸脂”,将参考结构化文本作为第一插槽单元[slot]。与参考结构化文本相匹配的待处理文本可以包括“面部减肥吸脂会反弹吗”、“北京面部减肥吸脂哪家医院好”、“面部减肥吸脂哪家好”以及“想做面部减肥吸脂哪家医院好”,基于以上待处理文本,确定出其中的与参考结构化文本字面匹配的第一文本单元即“面部减肥吸脂”以及第一文本单元的具体位置。然后,在待处理文本中用第一插槽单元[slot]替换第一文本单元,得到参考结构化文本对应的第一模板表示,即:{w1:“[slot]会反弹吗”,w2:“[地域词][slot]哪家医院好”,w3:“[slot]哪家好”,w4:“想做[slot]哪家医院好”},其中,w1至w4均为参考结构化文本“面部减肥吸脂”对应的第一模板表示。

如图7所示,在一种实施方式中,步骤s102包括以下步骤:

s701:将待处理文本集中的每个待处理文本输入至训练好的语言模型,进行切词和重组处理,得到待处理文本的候选结构化文本。

可以理解的是,步骤s701中的语言模型可以采用各种能够实现对待处理文本进行切词和重组处理的语言模型。

示例性地,语言模型可以采用n-gram语言模型。n-gram语言模型又叫做n元语言模型,该模型的基本思想是将待处理文本的文字内容所包含的多个字节单元(gram),重组为包含n个字节单元的语言片段(n-gram)。基于得到的多个语言片段,对各语言片段的出现频率进行统计,并输出出现频率最高的语言片段。其中,n-gram输出的出现频率最高的语言片段即可作为候选结构化文本。

示例性地,在n=1即语言片段中仅包含一个字节单元时,得到的语言片段为一元语言片段(unigram);在n=2即语言片段中包含两个字节单元时,得到的语言片段为二元语言片段(bigram);在n=3即语言片段中包含三个字节单元时,得到的语言片段为三元语言片段(trigram)。其中,n可以根据实际情况具体设置。

在一个具体示例中,待处理文本为“北京雅思英语培训多少钱”,将待处理文本输入至训练好的n-gram语言模型。首先经过切词处理,得到多个字节单元,即“北京”、“雅思”、“英语”、“培训”和“多少钱”。然后,经过重组得到由n个字节单元重组形成的n元语言片段,最后输出出现频率最高的n元语言片段作为待处理文本对应的候选结构化文本。例如,在n=1的情况下,得到的一元语言片段为“雅思”;在n=2的情况下,得到的二元语言片段为“雅思英语”或者“英语培训”;在n=3的情况下,得到的三元语言片段为“雅思英语培训”。

需要说明的是,n-gram语言模型可以由本领域技术人员采用已知的或未来可知悉的各种方法训练得到。

根据上述实施方式,通过利用语言模型构建待处理文本的候选结构化文本,一方面可以在已经获取到的参考结构化文本的基础上,对待处理文本进一步处理生成候选结构化文本,作为扩充结构化文本集的候选补充文本;另一方面,降低了候选结构化文本的构建难度,提高了候选结构化的构建效率。

如图8所示,在一种实施方式中,步骤s102包括以下步骤:

s801:针对每个候选结构化文本,获取待处理文本集中与候选结构化文本相匹配的待处理文本;

s802:基于待处理文本集中与候选结构化文本相匹配的待处理文本,构建候选结构化文本对应的第二模板表示。

示例性地,可以通过关键字匹配的方式获取与候选结构化文本相匹配的待处理文本。具体而言,基于候选结构化文本,遍历待处理文本集,查找出与候选结构化文本的字面信息相匹配的待处理文本。

例如,候选结构化文本为“肩部吸脂”,通过关键字匹配,从待处理文本集中查找出包含“肩部吸脂”的多个待处理文本:“肩部吸脂会反弹吗”和“肩部吸脂哪家医院好”等,以上待处理文本均与该候选结构化文本相匹配。

基于与候选结构化文本相匹配的每个待处理文本,构建候选结构化文本对应的第二模板表示。也就是说,在获取到的与候选结构化文本相匹配的第二模板表示的数量为多个的情况下,构建出的候选结构化文本对应的第二模板表示的数量为对应的多个。

根据上述实施方式,通过利用与候选结构化文本相匹配的待处理文本构建候选结构化文本对应的第一模板表示,第二模板表示和第一模板表示的模板构建形式相同,从而为后续对第一模板表示和第二模板表示进行模板匹配提供了基础,并且无需参考其他语料库,降低了第二模板表示的构建难度。

如图9所示,在一种实施方式,步骤s802包括以下步骤:

s901:基于待处理文本集中与候选结构化文本相匹配的待处理文本,获取待处理文本的相关参数,相关参数包括待处理文本的页面浏览量和/或交易记录;

s902:在待处理文本的相关参数满足预设条件的情况下,构建候选结构化文本对应的第二模板表示。

示例性地,步骤s901中,在业务推广营销场景中,待处理文本为不同业务主发布的历史业务信息,待处理文本的页面浏览量即为历史业务信息的页面浏览量和/或交易记录。

示例性地,步骤s902中,基于与候选结构化文本相匹配的待处理文本的页面浏览量,对与候选结构化文本相匹配的待处理文本进行过滤。预设条件可以为预先设置的页面浏览量阈值和/或交易数量阈值,在与候选结构化文本相匹配的待处理文本的页面浏览量小于页面浏览量阈值的情况下,将该待处理文本进行过滤;和/或,在与候选结构化文本相匹配的待处理文本的交易记录小于交易数量阈值的情况下,对该待处理文本进行过滤,并保留大于或等于页面浏览量阈值和/或交易数量阈值的待处理文本,作为构建候选结构化文本对应的第二模板表示的参照。其中,页面浏览量阈值可以根据实际情况具体设置。

通过上述实施方式,针对与候选结构化文本相匹配的待处理文本,可以对关注度和/或交易量较低的待处理文本进行过滤,从而确保最终确定出的候选结构化文本具有一定的商业价值。

如图10所示,在一种实施方式中,步骤s802包括以下步骤:

s1001:将候选结构化文本作为第二插槽单元;

s1002:获取与候选结构化文本相匹配的待处理文本中与候选结构化文本相匹配的第二文本单元

s1003:在与候选结构化文本相匹配的待处理文本中,将第二文本单元替换为第二插槽单元,得到候选结构化文本对应的第二模板表示。

在一个具体示例中,候选结构化文本为“肩部吸脂”,将该候选结构化文本作为第二插槽单元[slot]。与候选结构化文本相匹配的待处理文本可以包括“肩部吸脂会反弹吗”、“北京肩部吸脂哪家医院好”、“肩部吸脂哪家好”以及“想做肩部吸脂哪家医院好”,基于以上待处理文本,确定出其中的与候选结构化文本字面匹配的第二文本单元即“肩部吸脂”以及第二文本单元的具体位置。然后,在待处理文本中用第二插槽单元[slot]替换第二文本单元,得到候选结构化文本对应的第二模板表示,即:{w1:“[slot]会反弹吗”,w2:“[地域词][slot]哪家医院好”,w3:“[slot]哪家好”,w4:“想做[slot]哪家医院好”},其中,w1至w4均为候选结构化文本“肩部吸脂”对应的第一模板表示。

如图11所示,在一种实施方式中,步骤s101包括以下步骤:

s1101:获取待处理文本集;

s1102:基于每个待处理文本,利用训练好的文本处理模型,提取出待处理文本对应的参考结构化文本;

s1103:基于参考结构化文本,构建结构化文本集。

示例性地,在步骤s1101中,针对业务推广营销场景下的结构化文本提取任务,待处理文本集可以通过获取不同业务主发布的多个业务信息进行构建。

示例性地,在步骤s1102中,文本处理模型可以为序列标注模型,更为具体地,序列标注模型可以采用命名实体识别模型。通过将待处理文本输入至训练好的命名实体识别模型,对待处理文本进行命名实体识别,并将输出的命名实体作为待处理文本对应的参考结构化文本。其中,命名实体识别模型具体可以采用最大熵模型、条件随机场(conditionalrandomfield,crf)模型、隐马尔科夫模型(hiddenmarkovmodel,hmm)或者神经网络等模型。

在一个具体示例中,以条件随机场模型为例,将待处理文本输入训练好的条件随机场模型后,利用bio标注法对待处理文本中的各个字节单元进行标注,根据标注结果,将标记为“o”的字节单元进行过滤,以及将标记为“b”和“i”的字节单元组合为字节片段并输出。其中,“b”和“i”分别表示名词短语的开头和中间,“o”表示不是名词短语。

通过上述实施方式,利用训练好的文本处理模型,可以自动获取待处理文本对应的参考结构化文本,无需人工对待处理文本进行标记,节省了人力标注成本,并且提高了参考结构化文本的获取效率以及提取精准度。

根据本公开的实施例,本公开还提供了一种文本处理模型的训练方法。

如图12所示,该训练方法具体包括以下步骤:

s1201:利用待处理文本样本,确定目标结构化文本;

s1202:将待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;

s1203:根据目标结构化文本和预测结构化文本的差异,对待训练的文本处理模型进行训练,直至差异在允许范围内。

在本公开实施例中,文本处理模型可以为序列标注模型,更为具体地,序列标注模型可以采用命名实体识别模型。其中,命名实体识别模型具体可以采用最大熵模型、条件随机场(conditionalrandomfield,crf)模型、隐马尔科夫模型(hiddenmarkovmodel,hmm)或者神经网络等模型。

示例性地,在步骤s1201中,可以将待处理文本样本与预先建立的百科词库进行匹配,并结合bio标注法进行标注,确定出目标结构化样本。

示例性地,在步骤s1202和s1203中,预测结构化文本和目标结构化文本的差异,可以通过人工评判的方式获得。其中,对于人工评判结果为不置信的目标结构化文本,通过人工标注的方式构建出目标结构化文本,并将对应的待处理文本样本重新输入文本处理模型再次训练。经过多轮的迭代调优,得到训练好的文本处理模型。

下面参考图16以一个具体示例描述根据本公开实施例的文本处理模型的训练方法,在该实例中,文本处理模型为crf模型。

如图16所示,对待处理文本样本与百科词库中的百科词条进行匹配,并通过bio标注法得到训练语料,确定出目标结构化样本。例如,匹配到的百科词条为“托福考试”,待处理文本样本(即拍卖词)为“北京托福考试哪里报名”,通过bio标注法对待处理文本样本进行标注,得到的标注结果为“北京:o”、“托福:b”、“考试:i”、“哪里:o”和“报名:o”。其中,“托福”和“考试”为目标结构化样本。

然后,将待处理文本样本输入待训练的crf模型,得到预测结构化文本。

最后,通过人工或机器的方式对预测结构化文本进行评估,得到预测结构化文本与目标结构化文本之间的差异。如果差异不在预设范围内,则通过模型标注或人工标注的方式,对不置信的预测结构化文本进行重新标注,并输入至文本处理模型进行训练,经过多轮迭代,得到训练好的文本处理模型。

基于以上示例,对于目标结构化文本的获取,无需人工进行标注,节省了人力成本,缩短了训练语料的标注时间,提高了文本处理模型的训练效率。

根据本公开的实施例,本公开还提供了一种文本处理装置。

如图13所示,该装置包括:

文本集获取模块1301,用于获取待处理文本集和结构化文本集;其中,待处理文本集包含多个待处理文本,结构化文本集包含多个参考结构化文本;

模板表示构建模块1302,用于构建每个参考结构化文本对应的第一模板表示;并且,用于对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;

匹配模块1303,用于对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。

在一种实施方式中,模板匹配结果包括语义相似度和支持度;匹配模块1303包括:

语义相似度计算子模块,用于针对每个候选结构化文本,计算候选结构化文本对应的第二模板表示与每个第一模板表示之间的语义相似度;

支持度计算子模块,用于基于语义相似度,计算满足语义相似度阈值的语义相似度所对应的第一模板表示的数量,得到候选结构化文本的支持度。

在一种实施方式中,匹配模块1303还包括:

第二模板表示确定单元,用于在候选结构化文本的支持度满足支持度阈值的情况下,将候选结构化文本对应的第二模板表示确定为满足预设条件的模板匹配结果所对应的第二模板表示。

在一种实施方式中,模板表示构建模块1302包括:

文本匹配子模块,用于针对每个参考结构化文本,获取待处理文本集中与参考结构化文本相匹配的待处理文本;

第一模板表示构建子模块,用于基于与参考结构化文本相匹配的待处理文本,构建参考结构化文本对应的第一模板表示。

在一种实施方式中,第一模板表示构建子模块包括:

页面浏览量获取单元,用于针对与参考结构化文本相匹配的待处理文本,获取待处理文本的页面浏览量;

第一模板表示构建单元,用于在页面浏览量满足预设条件的情况下,构建参考结构化文本对应的第一模板表示。

在一种实施方式中,第一模板表示构建子模块包括:

第一插槽单元确定单元,用于将参考结构化文本作为第一插槽单元;

第一文本单元确定单元,用于在与参考结构化文本相匹配的待处理文本中,确定出与参考结构化文本相匹配的第一文本单元;

第一模板表示构建单元,用于在与参考结构化文本相匹配的待处理文本中,将第一文本单元替换为第一插槽单元,得到参考结构化文本对应的第一模板表示。

在一种实施方式中,模板表示构建模块1302包括:

候选结构化文本构建子模块,用于将待处理文本集中的每个待处理文本输入至训练好的语言模型,进行切词和重组处理,得到待处理文本的候选结构化文本。

在一种实施方式中,模板表示构建模块1302包括:

文本匹配子模块,用于针对每个候选结构化文本,获取待处理文本集中与候选结构化文本相匹配的待处理文本;

第二模板表示构建子模块,用于基于待处理文本集中与候选结构化文本相匹配的待处理文本,构建候选结构化文本对应的第二模板表示。

在一种实施方式中,第二模板表示构建子模块包括:

参数获取单元,用于基于待处理文本集中与候选结构化文本相匹配的待处理文本,获取待处理文本的相关参数,相关参数包括待处理文本的页面浏览量和/或交易记录;

第二模板表示构建单元,用于在待处理文本的相关参数满足预设条件的情况下,构建候选结构化文本对应的第二模板表示。

在一种实施方式中,第二模板表示构建子模块包括:

第二插槽确定单元,用于将候选结构化文本作为第二插槽单元;

第二文本单元确定单元,用于获取与候选结构化文本相匹配的待处理文本中与候选结构化文本相匹配的第二文本单元;

第二模板表示构建单元,用于在与候选结构化文本相匹配的待处理文本中,将第二文本单元替换为第二插槽单元,得到候选结构化文本对应的第二模板表示。

在一种实施方式中,文本集获取模块1301包括:

待处理文本集获取子模块,用于获取待处理文本集;

参考结构化文本提取子模块,用于基于每个待处理文本,利用训练好的文本处理模型,提取出待处理文本对应的参考结构化文本;

结构化文本集构建子模块,用于基于参考结构化文本,构建结构化文本集。

根据本公开的实施例,本公开还提供了一种文本处理装置。

如图14所示,该装置包括:

目标结构化文本确定模块1401,用于利用待处理文本样本,确定目标结构化文本;

预测结构化文本获取模块1402,用于将待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;

训练模块1403,用于根据目标结构化文本和预测结构化文本的差异,对待训练的文本处理模型进行训练,直至差异在允许范围内。

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述,在此不再赘述。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。

如图15所示,电子设备1500包括计算单元1501,其可以根据存储在只读存储器(rom)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(ram)1503中的计算机程序来执行各种适当的动作和处理。在ram1503中,还可存储电子设备1500操作所需的各种程序和数据。计算单元1501、rom1502以及ram1503通过总线1504彼此相连。输入输出(i/o)接口1505也连接至总线1504。

电子设备1500中的多个部件连接至i/o接口1505,包括:输入单元1506,例如键盘、鼠标等;输出单元1507,例如各种类型的显示器、扬声器等;存储单元1508,例如磁盘、光盘等;以及通信单元1509,例如网卡、调制解调器、无线通信收发机等。通信单元1509允许电子设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理,例如文本处理方法。例如,在一些实施例中,文本处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1508。在一些实施例中,计算机程序的部分或者全部可以经由rom1502和/或通信单元1509而被载入和/或安装到电子设备1500上。当计算机程序加载到ram1503并由计算单元1501执行时,可以执行上文描述的文本处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1