文本处理方法、装置以及计算机设备与流程

文档序号：23419837发布日期：2020-12-25 11:42阅读：139来源：国知局

本申请实施例涉及云技术及人工智能技术领域，特别是涉及一种文本处理方法、装置以及计算机设备。

背景技术：

人工智能(artificialintelligence，ai)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，可使机器具有感知、推理与决策的功能。随着人工智能技术的快速发展，基于自然语言处理技术的文本韵律识别功能在文本分析领域所占的比重越来越大。

文本韵律识别是人工智能技术的一个重要应用领域，主要用于对用户输入的文本进行韵律识别，通过识别出文本中的正确韵律，为用户提供韵律指导。

目前的文本处理方式，通常是对文本中的重音或停顿分别进行检测，但在检测过程中不仅没有考虑重音词与非重音词之间的区别，也没有考虑文本停顿处不同词之间的区别，导致文本韵律识别准确率较低。

技术实现要素：

本申请实施例提供一种文本处理方法、装置以及计算机设备，用以提高文本韵律识别准确率。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种文本处理方法，所述方法包括：

接收待标注文本，所述待标注文本中包括至少两个单词；

根据所述待标注文本中各单词的文本特征，获取各单词的第一单词特征；

获取两个相邻单词的所述第一单词特征之间的距离特征，并基于所述距离特征对各单词的第一单词特征进行处理，得到各单词的第二单词特征；

根据所述第二单词特征，获取所述待标注文本的韵律识别结果，所述韵律识别结果包括停顿位置和重读位置。

第二方面，本申请实施例提供一种文本处理装置，所述装置包括：

文本接收模块，用于接收待标注文本，所述待标注文本中包括至少两个单词；

特征提取模块，用于根据所述待标注文本中各单词的文本特征，获取各单词的第一单词特征；获取两个相邻单词的所述第一单词特征之间的距离特征，并基于所述距离特征对各单词的第一单词特征进行处理，得到各单词的第二单词特征；

韵律识别模块，用于根据所述第二单词特征，获取所述待标注文本的韵律识别结果，所述韵律识别结果包括停顿位置和重读位置。

第三方面，本申请实施例提供一种计算机设备，其包括处理器和存储器，存储器存储有多条指令，指令适于处理器进行加载，以执行上述方法中的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行上述方法中的步骤。

第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的方法。

本申请实施例提供了一种文本处理方法、装置以及计算机设备，本申请实施例提供的方法在分析文本特征的基础上，还叠加了对特征之间距离特征的分析，充分研究了文本中重读词与非重读词的区别，以及停顿处左右不同词之间的语义区别，大大提升了文本的韵律识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本处理方法的应用场景示意图。

图2是本申请实施例提供的文本处理方法的流程示意图。

图3是本申请实施例提供的文本处理方法的具体流程示意图。

图4是本申请实施例提供的双向长短期记忆网络的结构示意图。

图5是本申请实施例提供的双向长短期记忆网络的框架流程示意图。

图6是本申请实施例提供的第二单词特征获取步骤的流程示意图。

图7是本申请实施例提供的文本处理方法的具体应用场景示意图。

图8是本申请实施例提供的文本处理效果的界面示意图。

图9是本申请实施例提供的文本处理装置的结构示意图。

图10是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，例如，第一单词特征和第二单词特征仅用于区分相同属性的不同特征向量，不代表按先后次序顺序进行的会话。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

其次需要说明的是，本申请实施例提供的文本处理方法，主要涉及云技术(cloudtechnology)领域及人工智能(artificialintelligence，ai)的自然语言处理技术(naturelanguageprocessing，nlp)。其一，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。其二，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。在本申请中，人工智能技术主要用于实现文本韵律识别。其三，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

最后还需说明的是，本申请实施例提供的文本处理方法，可以应用于如图1所示的文本处理系统中。其中，文本处理系统包括用户终端100和服务器200，用户终端100可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能音箱、智能手表等，但并不局限于此；服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(contentdeliverynetwork)、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端100和服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参阅图2，本申请实施例提供了一种文本处理方法，主要以该方法应用于上述图1中的服务器200来举例说明，该方法包括步骤s201～步骤s205，具体如下：

s201，接收待标注文本，所述待标注文本中包括至少两个单词。

其中，待标注文本是指需要标注停顿位置和重读位置的文本信息，包括但不局限于中英文文本，停顿是指句中语调短语之间的停顿，重读是指句中需重读的单词，重读单词与轻读单词对应。停顿位置和重读位置作用于待标注文本中，可指导用户提高文本朗读水平、文本歌唱水平等，具体作用功能可根据实际业务需求设定。

具体地，服务器200可实时接收用户终端100发送的待标注文本，用户终端100向服务器200发送待标注文本之前，可预先装载并运行有指定软件应用，该软件应用可帮助用户终端100获取用户输入的文本，作为后续分析的文本依据。即用户终端100包括一个交互界面并运行有指定应用软件，用户使用用户终端100打开该应用软件后，可通过交互界面输入文本信息并提交，也可进行语音输入使之转化为文本信息并提交，此时用户终端100可获取到该文本信息，进而将该文本信息作为待标注文本发送至服务器200。可以理解的是，用户输入的文本信息可以是英文文本信息，也可以是中文文本信息，还可以是其他国家母语信息，例如，韩文、日文、法文等。

更具体地，待标注文本中包括至少两个单词，单词的确定取决于待标注文本的文本信息类型，例如，待标注文本是英文文本信息“iamtall”，则其包括的三个单词，分别是“i”、“am”、“tall”；在另一个例子中，待标注文本是中文文本信息“我很高”，则其包括的三个单词，分别是“我”、“很”、“高”。

s202，根据所述待标注文本中各单词的文本特征，获取各单词的第一单词特征。

其中，文本特征是指各个单词的词性特征，也可以是指各个单词的词类特征，还可以是词性特征和词类特征的总称，单词的词性包括名词、动词、形容词等，单词的词类包括实词、虚词等，特征是一个客体或一组客体特性的抽象结果，则词性特征和词类特征均为描述单词词性和单词词类的抽象结果，该抽象结果可用指定标识表示，例如，标识“jj”表示形容词或序数词、标识“prp”表示人称代词、标识“vbp”表示动词非第三人称单数。可以理解的是，无论是词性特征还是词类特征，均可依据实际应用需求采用唯一对应的标识标注，但在文本特征分析过程中可用向量形式表示。

其中，第一单词特征是指分析文本特征所得各个单词的最终特征形态，其可用向量形式表示，例如，单词“tall”的第一单词特征为[0.0，0.4，0.5]。可以理解的是，第一单词特征是各个单词的最终特征形态，具体表示为一个特征向量，与最终特征形态对应的初始特征形态也可表示为一个特征向量，但两者向量元素通常不一致。本实施例涉及的初始特征形态将在下文进行描述。

需要说明的是，实词是词语中含有实际意义的词，实词能单独充当句子成分，即有词汇意义和语法意义的词，把语法功能作为主要依据，认为能够单独充当句法成分，有词汇意义和语法意义的是实词。虚词泛指没有完整意义的词汇，但有语法意义或功能的词，具有必须依附于实词或语句，表示语法意义，不能单独成句，不能单独作语法成分，且不能重叠的特点。

具体地，服务器200可以通过预先装载的词性标注工具-自然语言处理工具包(naturallanguagetoolkit，nltk)来获取各单词的文本特征。根据文本特征获取第一单词特征的具体步骤将在下文进行描述。

在一种实施例中，本步骤包括：对所述待标注文本进行分词处理，得到至少两个单词；提取所述至少两个单词中各单词的文本特征，并基于预存的数据向量映射关系获取各单词对应的字符向量，其中，所述文本特征至少包括以下之一：词性特征、词类特征；根据所述字符向量和所述文本特征，获取各单词的第一单词特征。

具体地，各单词的文本特征可借助nltk工具包提取，但提取文本特征之前，服务器200需对待标注文本进行分词处理，得到一个一个的单词后再针对单词个体提取文本特征，同时获取各单词对应的字符向量，字符向量即为对应单词的初始特征形态。其中，获取字符向量需借助服务器200预存的数据向量映射关系，而数据向量映射关系是一种数据映射机制，可将字符映射成其对应的实数向量。因此，服务器200可通过预存的数据向量映射关系，确定与各单词中各个字符存在映射关系的实数向量作为各单词对应的字符向量，某个单词对应的字符向量可以是一个或多个，具体数量依据组成单词的字符数量确定，例如，单词“tall”包括四个字符“t”、“a”、“l”、“l”，则单词“tall”对应的字符向量为4个，各个字符向量可查询数据向量映射关系确定唯一的一个向量。其中，根据字符向量和文本特征获取第一单词特征的具体步骤将在下文进行描述。

在一种实施例中，所述根据所述字符向量和所述文本特征，获取各单词的第一单词特征的步骤，包括：对所述字符向量进行关联处理，得到各单词的初始单词向量；根据所述初始单词向量和所述文本特征，获取各单词的第一单词特征。

具体地，可参阅图3，图3为本申请实施例提供的文本处理方法的具体流程示意图。图3中示出了本申请实施例在识别文本韵律的过程中所采用的模型-双向长短期记忆网络(bi-directionallongshort-termmemory，bi-lstm)，bi-lstm可对字符向量进行关联处理，即挖掘各个字符向量之间的关联信息，输出各单词对应的初始单词向量。服务器200将各单词的字符向量输入至bi-lstm，由bi-lstm分析输出各单词的初始单词向量之后，可结合预先得到的文本特征作进一步分析，以获取各单词的第一单词特征。

更具体地，可参阅图4，图4为本申请实施例提供的双向长短期记忆网络的结构示意图。图4中包括第一层的前向bi-lstm和第二层的后向bi-lstm，将某单词的字符向量作为“input”输入至前向bi-lstm，前向bi-lstm对应输出该单词的词向量“output”、后向bi-lstm对应输出该单词融合有上下文信息的字符向量“contextoutput”；将某单词的词向量作为“input”输入至前向bi-lstm，前向bi-lstm对应输出该单词的句向量“output”、后向bi-lstm对应输出该单词融合有上下文信息的词向量“contextoutput”。前向bi-lstm和后向bi-lstm各自输出的向量均可称之为隐向量，将前向和后向的隐向量进行拼接，得到的拼接向量可用于文本韵律预测，但本申请并非单纯地将前向和后向的隐向量进行拼接预测，而是引入了其他特征向量参与分析预测。本实施例涉及的其他特征向量将在下文进行描述。

在一种实施例中，所述根据所述初始单词向量和所述文本特征，获取各单词的第一单词特征的步骤，包括：将所述初始单词向量与所述文本特征进行拼接处理，得到目标单词向量；对所述目标单词向量进行关联处理，得到各单词的第一单词特征。

具体地，可参阅图3，图3中前向bi-lstm输出的单词向量即为各单词的初始单词向量，各单词的文本特征是采用nltk工具包预先提取到的特征，因此将各单词对应的初始单词向量和文本特征进行拼接，可得到该单词的目标单词向量，目标单词向量可用于输入至后向bi-lstm，以使后向bi-lstm对各单词的目标单词向量进行关联处理，输出各单词的第一单词特征。例如，图3中单词“i”的第一单词特征表示为[0.2，0.4，0.6]、单词“am”的第一单词特征表示为[0.1，0.4，0.5]、单词“tall”的第一单词特征表示为[0.0，0.4，0.5]。

需要说明的是，虽然本申请实施例中提出采用bi-lstm网络对字符向量进行关联处理，但不排除在其他实施例中将bi-lstm网络替换为卷积神经网络(convolutionalneuralnetwork，cnn)、注意力机制网络(attention)等。

更具体地，可参阅图5，图5是本申请实施例提供的双向长短期记忆网络的框架流程示意图。图5示出了单词“i”的词性为人称代词“prp”、单词“am”的词性为动词“vbp”、单词“tall”的词性为形容词“jj”，而代词、动词和形容词均归属于实词词类，实词“c”的词类特征为向量[0.1，0.2]。因此，结合图3可知，单词“i”的目标单词向量为初始单词向量[0.02，0.03…]、词性特征[0.1，0.5…]和词类特征[0.1，0.2]的向量集合；单词“am”的目标单词向量为初始单词向量[0.01，0.03…]、词性特征[0.1，0.5…]和词类特征[0.1，0.2]的向量集合；单词“tall”的目标单词向量为初始单词向量[0.01，0.03…]、词性特征[0.1，0.5…]和词类特征[0.1，0.2]的向量集合。

s203，获取两个相邻单词的所述第一单词特征之间的距离特征，并基于所述距离特征对各单词的第一单词特征进行处理，得到各单词的第二单词特征。

其中，距离特征是指两个特征向量的差值，例如，特征向量a为[0.2，0.3]、特征向量b为[0.1，0.2]，则特征向量a与特征向量b之间的距离特征为[0.1，0.1]。

其中，第二单词特征是第一单词特征与距离特征的拼接结果，其可用向量形式表示，例如图3所示单词“i”的第一单词特征为[0.2，0.4，0.6]、单词“am”的第一单词特征为[0.1，0.4，0.5]，则单词“i”与单词“am”之间的距离特征为[0.1，0，0.1]，由于两个相邻单词的第一单词特征之间的距离特征仅能作用于减数特征，即上述示例中的第一单词特征[0.2，0.4，0.6]，因此单词“i”的第二单词特征为[0.2，0.4，0.6，0.1，0，0.1]，单词“am”的第二单词特征取决于其与单词“tall”之间的距离特征，单词“tall”的第二单词特征取决于其与预设有效特征之间的距离特征。本实施例涉及的预设有效特征将在下文进行描述。

具体地，由于在绝大部分文本中，停顿边界或是重读与非重读词之间往往特征不太一致，如停顿位置前后的词往往语义和语法结构比较独立，重读与非重读之间往往词性不同，重读词一般由实词构成起到强调作用，而非重读词一般由虚词构成。为了凸显重读词与非重读词的区别，以及停顿位置处不同词之间的区别，本申请实施例提出针对两个相邻单词之间的第一单词特征进行距离计算，并将该距离特征与原有的第一单词特征进行拼接，共同用于预测停顿位置与重读位置。

更具体地，本申请提出的两个相邻单词，必须是具有相邻关系的两个单词，排除掉间隔相邻关系，即图3中具有相邻关系单词仅为两组，分别是单词“i”和单词“am”、单词“am”和单词“tall”。服务器200分析得到各单词的第一单词向量之后，可进一步获取两个相邻单词所对应第一单词向量之间的距离特征，进而将该距离特征作用于目标第一单词特征，即作为减数对象计算得到该距离特征的第一单词特征，即可得到该目标第一单词特征对应单词的第二单词特征，逐个处理待标注文本中各单词的第一单词特征，即可得到各单词的第二单词特征。本实施例涉及的第一单词特征处理步骤将在下文进行描述。

在一种实施例中，本步骤包括：根据所述待标注文本中各单词的相邻关系，获取两个相邻单词的所述第一单词特征之间的距离特征；基于所述距离特征，对各单词的第一单词特征进行拼接处理，得到各单词的第二单词特征。

具体地，可参阅图6，图6是本申请实施例提供的第二单词特征获取步骤的流程示意图。图6在图5基础上示出了如何计算两个相邻单词的第一单词特征之间的距离特征，即针对图4所示前向bi-lstm和后向bi-lstm综合输出的各个第一单词特征，如单词“i”的第一单词特征“output1”、单词“am”的第一单词特征“output2”、单词“tall”的第一单词特征“output3”，服务器200可根据各单词的相邻关系，获取两个相邻单词所对应第一单词特征之间的距离特征，并基于该距离特征作用对应目标第一单词特征来获取第二单词特征。

例如，第一单词特征“output1”与第一单词特征“output2”之间的距离特征为“dis1＝output1-output2”，距离特征“dis1”仅能作用于目标第一单词特征“output1”，无法作用于第一单词特征“output2”。

在一种实施例中，所述根据所述待标注文本中各单词的相邻关系，获取两个相邻单词的所述第一单词特征之间的距离特征的步骤，包括：根据所述待标注文本中各单词的相邻关系，确定所述待标注文本中相邻的第一单词和第二单词，其中，所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征；当所述待标注文本中的末位单词为所述第一单词时，计算所述末位单词的第一单词特征与预设有效特征之间的距离，作为所述距离特征；当所述待标注文本中的末位单词为所述第二单词时，计算目标第一单词的第一单词特征与所述末位单词的第一单词特征之间的距离，作为所述距离特征，所述目标第一单词为与所述末位单词相邻的单词。

其中，末位单词是指待标注文本中文本末位的单词，例如待标注文本“iamtall”中的末位单词为“tall”。

其中，预设有效特征是指预先设置用于供待标注文本中末位单词计算距离特征的有效特征，该特征在本申请实施例中可以是向量元素全为零的特征，零元素的数量和分布取决于末位单词其第一单词特征的向量元素，例如，图3示出了末位单词“tall”的第一单词特征为[0.0，0.4，0.5]，则对应的预设有效特征可以是[0，0，0]。可以理解的是，虽然本申请实施例提出该预设有效特征为全零元素特征，但在其他实施例中可依据实际应用需求设定，本申请具体不做限制。

其中，目标第一单词是指与待标注文本中末位单词相邻的单词，例如待标注文本“iamtall”中与末位单词“tall”相邻的单词“am”。

具体地，可参阅图6，分析待标注文本中相邻的第一单词和第二单词，使得第一单词的第一单词特征与第二单词的第一单词特征之差为距离特征，如上文所述距离特征dis1＝output1-output2，目的在于明确计算距离特征所需的减数特征和被减数特征，以便在末位单词为第一单词时，能够采用预设有效特征计算相应的距离特征，即当末位单词“tall”为第一单词时，可采用预设有效特征(如向量元素均为零的特征)，计算距离特征dis，dis＝“tall”的第一单词特征-预设有效特征，避免因末位单词无在其之后的相邻单词而无法计算距离特征。反之，当末位单词为第二单词时，可以采用与末位单词相邻前序单词的第一单词特征-目标第一单词特征作为减数特征、末位单词的第一单词特征作为被减数特征，计算两个特征之间的距离作为距离特征。

在一种实施例中，所述基于所述距离特征，对各单词的第一单词特征进行拼接处理，得到各单词的第二单词特征的步骤，包括：确定所述距离特征对应的第一单词和第二单词，其中，所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征；将所述距离特征与所述第一单词的第一单词特征进行拼接处理，得到拼接后的第一单词特征；确定各单词所述拼接后的第一单词特征，作为所述第二单词特征。

具体地，可参阅图6，服务器200获取到两个相邻单词所对应第一单词特征之间的距离特征后，由于需利用该距离特征对作为减数特征的第一单词特征进行处理，因此需确定计算得到该距离特征的减数特征和被减数特征，即将减数特征判定为第一单词的第一单词特征，将被减数特征判定为第二单词的第一单词特征，然后将距离特征与第一单词的第一单词特征进行拼接处理，得到第一单词其拼接后的第一单词特征，作为第一单词的第二单词特征。基于该第二单词特征获取方式，作用于待标注文本中的各个单词，即可得到各单词的第二单词特征。

s204，根据所述第二单词特征，获取所述待标注文本的韵律识别结果，所述韵律识别结果包括停顿位置和重读位置。

具体地，根据各单词的第二单词特征判定待标注文本中的停顿位置和重读位置，所涉及的具体判定方式将在下文描述。

在一种实施例中，本步骤包括：基于预设的降维向量，对所述第二单词特征进行降维变换处理，得到变换后的第二单词特征，所述变换后的第二单词特征包括两个特征向量元素；根据所述两个特征向量元素中的最大值元素，确定对应单词的停顿预测值和重读预测值；根据所述停顿预测值和所述重读预测值，获取所述待标注文本的停顿位置和重读位置，作为所述韵律识别结果。

其中，降维向量是相对于被降维向量而设定的随机向量，降维向量的向量元素随机，例如，被降维向量是1*6的向量，则若需将其降维至1*2向量，降维向量应选取6*2向量。

具体地，降维向量虽然包括随机向量元素，但其可不断更新而对第二单词特征进行降维变换处理，最终所得变换后的第二单词特征应该包括两个特征向量元素表示为[y1，y2]。针对变换后的第二单词特征所包括的两个特征向量元素，选取其中的最大值元素即可确定对应单词的停顿预测值和重读预测值，进而得到待标注文本的停顿位置和重读位置。

例如，可参阅图3以及上述实施例的描述，单词“i”的第一单词特征为[0.2，0.4，0.6]，单词“am”的第一单词特征为[0.1，0.4，0.5]，则单词“i”与单词“am”所对应第一单词特征之间的距离特征为[0.1，0，0.1]，由此可知单词“i”的第二单词特征为[0.2，0.4，0.6，0.1，0，0.1]，将其乘以一个6*2的降维向量，可得到1*2的第二单词特征，若该特征向量为[0.1，0.9]，选择最大值元素0.9的下标为预测值，则可确定单词“i”的停顿预测值和重读预测值分别为1，最终确定单词“i”非停顿也非重读。

在一种实施例中，本步骤之后还包括：发送所述韵律识别结果至终端，以使所述终端在展示所述待标注文本时对所述停顿位置和所述重读位置进行展示。

具体地，反馈至用户终端100的韵律识别结果，可以是未与待标注文本相结合的结果，即服务器200得到韵律识别结果之后，并未在待标注文本中就韵律识别结果进行停顿标注和重读标注，而是将韵律识别结果发送至用户终端100，由用户终端100在文本上进行标记并显示；韵律识别结果也可以是与待标注文本相结合的结果，即服务器200在文本上进行标记后，将标记后的文本发送至用户终端100，使得用户终端100可以直接显示标记后的文本。

更具体地，重读位置在文本中的标注可通过颜色、下划线、字体等呈现，即可用区别于非重读词的颜色标注重读词、在重读词下设置下划线、重读词的字体不同于非重读词的字体等。停顿位置在文本中的标注可通过间隔符、逗号等特殊字符呈现，即可在文本中的停顿位置-两词之间设置间隔符，该间隔符可以是竖线，也可以是斜线。需要说明的是，虽然本申请实施例列举了重读位置和停顿位置各自的标注呈现形式，但具体呈现形式本申请不作限制。

需要说明的是，由于上述实施例描述的方案包含两个任务：重读预测和停顿预测，将两个任务的分类损失进行加权相加，可得到整个网络的损失。通过前向传播计算出预测值进而计算出损失，反向传播计算出各参数导数进而更新网络参数，不仅可以共享两个任务的特征向量，而且可以提高两种任务的预测性能。计算所涉及的损失函数包括下述公式(1)和公式(2)，公式(1)为停顿或重读分类损失，公式(2)为最终损失，最终损失为两个任务的分类损失加权相加值：

l＝ylog(p)+(1-y)log(1-p)(1)

ltotal＝w*lstress+(1-w)*lbreak(2)

其中，y为人工标注标签(0或1)，p为模型预测的概率(如某个单词停顿的概率或某个单词重读的概率)，lstress为重读分类损失，lbreak为停顿分类损失，w为重读分类损失权重值，值为0到1之间，由多次试验结果确定具体数值。

本申请实施例提供了一种文本处理方法，通过接收待标注文本，并根据待标注文本中各单词的文本特征，获取各单词的第一单词特征，以便获取两个相邻单词的第一单词特征之间的距离特征，来获取各单词的第二单词特征，最终根据第二单词特征获取待标注文本中包括停顿位置和重读位置的韵律识别结果。该方法在分析文本特征的基础上，还叠加了对特征之间距离特征的分析，充分研究了文本中重读词与非重读词的区别，以及停顿处左右不同词之间的语义区别，大大提升了文本的韵律识别准确率。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

为使本领域技术人员充分理解本申请提出的文本处理方法，本申请实施例还提供一种应用场景，该应用场景应用上述的方法。具体地，该方法在该应用场景的应用可参阅图7-8，结合图7-8可知其流程如下：

本实施例主要针对待标注文本为英文文本时进行描述。如图7所示，上述文本处理方法包括以下步骤：

1)用户打开用户终端100上装载并运行的指定应用(application，app)，输入一句或一段待朗读的英文，输入的英文可参阅图8中(a)图所示内容；

2)用户触发该app中的虚拟控件-文本输入完成，即可向用户终端100提交其输入的英文；

3)app基于用户终端100将当前得到的英文文本发送给服务器200；

4)服务器200将英文文本发送给韵律生成模块；

5)韵律生成模块对输入的英文文本进行处理，生成该英文文本对应的包括停顿位置和重读位置的韵律标记；

6)服务器200接收到韵律生成模块生成的韵律标记后，将包含该韵律标记的韵律识别结果返回给app，以使app通过用户终端100交互界面展示给用户。

可以理解的是，图8中(b)图所示内容即为服务器200返回的韵律识别结果，包括已被标注有韵律标记-重读位置和停顿位置的英文文本，其中重读位置采用了下划线进行标注、停顿位置采用了竖直间隔线进行标注，但并不局限于此。韵律生成模块可设置于服务器200中，也可设置于其他服务器如边缘服务器中，具体位置可依据实际业务需求设定，本申请对此不做限制。

有益效果：本方案的测试集来自于aix-marsec(aix-machinereadablespokenenglishcorpus)，该数据集由5个小时的bbc录音构成，由11种说话风格53个不同的发音者录音而成，包含55000个标注单词，每个单词包含重音标注与停顿标注。其中80％数据用于训练，20％数据用于预测。本方案与现有的基于crf技术方案(crf)对比，具有明显优势。同时，将本方案(mtl-bi-lstm)与两个任务独立优化方案(sl-bi-lstm)进行对比，同样具有明显优势。具体地，可参阅表1所示基于精确率p，召回率r，f1这三个指标进行对比的结果：

表1采用不同技术方案进行重读预测和停顿预测的对比结果

由表可知，本方案较基于crf技术方案具有一定的优势。更进一步，本方案通过采用多任务同时优化方法，较两个任务独立优化方法，效果有很大提升。

相应的，图9是本申请实施例提供的文本处理装置900的结构示意图，请参阅图5，该装置包括以下模块：

文本接收模块901，用于接收待标注文本，所述待标注文本中包括至少两个单词；

特征提取模块902，用于根据所述待标注文本中各单词的文本特征，获取各单词的第一单词特征；获取两个相邻单词的所述第一单词特征之间的距离特征，并基于所述距离特征对各单词的第一单词特征进行处理，得到各单词的第二单词特征；

韵律识别模块903，用于根据所述第二单词特征，获取所述待标注文本的韵律识别结果，所述韵律识别结果包括停顿位置和重读位置。

在一种实施例中，特征提取模块902还用于根据所述待标注文本中各单词的相邻关系，获取两个相邻单词的所述第一单词特征之间的距离特征；基于所述距离特征，对各单词的第一单词特征进行拼接处理，得到各单词的第二单词特征。

在一种实施例中，特征提取模块902还用于根据所述待标注文本中各单词的相邻关系，确定所述待标注文本中相邻的第一单词和第二单词，其中，所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征；当所述待标注文本中的末位单词为所述第一单词时，计算所述末位单词的第一单词特征与预设有效特征之间的距离，作为所述距离特征；当所述待标注文本中的末位单词为所述第二单词时，计算目标第一单词的第一单词特征与所述末位单词的第一单词特征之间的距离，作为所述距离特征，所述目标第一单词为与所述末位单词相邻的单词。

在一种实施例中，特征提取模块902还用于确定所述距离特征对应的第一单词和第二单词，其中，所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征；将所述距离特征与所述第一单词的第一单词特征进行拼接处理，得到拼接后的第一单词特征；确定各单词所述拼接后的第一单词特征，作为所述第二单词特征。

在一种实施例中，特征提取模块902还用于对所述待标注文本进行分词处理，得到至少两个单词；提取所述至少两个单词中各单词的文本特征，并基于预存的数据向量映射关系获取各单词对应的字符向量，其中，所述文本特征至少包括以下之一：词性特征、词类特征；根据所述字符向量和所述文本特征，获取各单词的第一单词特征。

在一种实施例中，特征提取模块902还用于对所述字符向量进行关联处理，得到各单词的初始单词向量；根据所述初始单词向量和所述文本特征，获取各单词的第一单词特征。

在一种实施例中，特征提取模块902还用于将所述初始单词向量与所述文本特征进行拼接处理，得到目标单词向量；对所述目标单词向量进行关联处理，得到各单词的第一单词特征。

在一种实施例中，韵律识别模块903还用于基于预设的降维向量，对所述第二单词特征进行降维变换处理，得到变换后的第二单词特征，所述变换后的第二单词特征包括两个特征向量元素；根据所述两个特征向量元素中的最大值元素，确定对应单词的停顿预测值和重读预测值；根据所述停顿预测值和所述重读预测值，获取所述待标注文本的停顿位置和重读位置，作为所述韵律识别结果。

在一种实施例中，文本处理装置900还包括发送模块，用于发送所述韵律识别结果至终端，以使所述终端在展示所述待标注文本时对所述停顿位置和所述重读位置进行展示。

相应的，本申请实施例还提供一种计算机设备，该计算机设备包括服务器或者终端等。

如图10所示，该计算机设备可以包括射频(rf，radiofrequency)电路1001、包括有一个或一个以上计算机可读存储介质的存储器1002、输入单元1003、显示单元1004、传感器1005、音频电路1006、无线保真(wi-fi，wirelessfidelity)模块1007、包括有一个或者一个以上处理核心的处理器1008、以及电源1009等部件。本领域技术人员可以理解，图10中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

rf电路1001可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1008处理；另外，将涉及上行的数据发送给基站。存储器1002可用于存储软件程序以及模块，处理器1008通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。输入单元1003可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元1004可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

计算机设备还可包括至少一种传感器1005，比如光传感器、运动传感器以及其他传感器。音频电路1006包括扬声器，传声器可提供用户与计算机设备之间的音频接口。

wi-fi属于短距离无线传输技术，计算机设备通过wi-fi模块1007可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了wi-fi模块1007，但是可以理解的是，其并不属于计算机设备的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器1008是计算机设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行计算机设备的各种功能和处理数据，从而对手机进行整体监控。

计算机设备还包括给各个部件供电的电源1009(比如电池)，优选的，电源可以通过电源管理系统与处理器1008逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，计算机设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，计算机设备中的处理器1008会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1002中，并由处理器1008来运行存储在存储器1002中的应用程序，从而实现以下功能：

接收待标注文本，所述待标注文本中包括至少两个单词；

根据所述待标注文本中各单词的文本特征，获取各单词的第一单词特征；

获取两个相邻单词的所述第一单词特征之间的距离特征，并基于所述距离特征对各单词的第一单词特征进行处理，得到各单词的第二单词特征；

根据所述第二单词特征，获取所述待标注文本的韵律识别结果，所述韵律识别结果包括停顿位置和重读位置。

在一种实施例中，实现功能：根据所述待标注文本中各单词的相邻关系，获取两个相邻单词的所述第一单词特征之间的距离特征；基于所述距离特征，对各单词的第一单词特征进行拼接处理，得到各单词的第二单词特征。

在一种实施例中，实现功能：根据所述待标注文本中各单词的相邻关系，确定所述待标注文本中相邻的第一单词和第二单词，其中，所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征；当所述待标注文本中的末位单词为所述第一单词时，计算所述末位单词的第一单词特征与预设有效特征之间的距离，作为所述距离特征；当所述待标注文本中的末位单词为所述第二单词时，计算目标第一单词的第一单词特征与所述末位单词的第一单词特征之间的距离，作为所述距离特征，所述目标第一单词为与所述末位单词相邻的单词。

在一种实施例中，实现功能：确定所述距离特征对应的第一单词和第二单词，其中，所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征；将所述距离特征与所述第一单词的第一单词特征进行拼接处理，得到拼接后的第一单词特征；确定各单词所述拼接后的第一单词特征，作为所述第二单词特征。

在一种实施例中，实现功能：对所述待标注文本进行分词处理，得到至少两个单词；提取所述至少两个单词中各单词的文本特征，并基于预存的数据向量映射关系获取各单词对应的字符向量，其中，所述文本特征至少包括以下之一：词性特征、词类特征；根据所述字符向量和所述文本特征，获取各单词的第一单词特征。

在一种实施例中，实现功能：对所述字符向量进行关联处理，得到各单词的初始单词向量；根据所述初始单词向量和所述文本特征，获取各单词的第一单词特征。

在一种实施例中，实现功能：将所述初始单词向量与所述文本特征进行拼接处理，得到目标单词向量；对所述目标单词向量进行关联处理，得到各单词的第一单词特征。

在一种实施例中，实现功能：基于预设的降维向量，对所述第二单词特征进行降维变换处理，得到变换后的第二单词特征，所述变换后的第二单词特征包括两个特征向量元素；根据所述两个特征向量元素中的最大值元素，确定对应单词的停顿预测值和重读预测值；根据所述停顿预测值和所述重读预测值，获取所述待标注文本的停顿位置和重读位置，作为所述韵律识别结果。

在一种实施例中，实现功能：发送所述韵律识别结果至终端，以使所述终端在展示所述待标注文本时对所述停顿位置和所述重读位置进行展示。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以实现以下功能：

接收待标注文本，所述待标注文本中包括至少两个单词；

根据所述待标注文本中各单词的文本特征，获取各单词的第一单词特征；

获取两个相邻单词的所述第一单词特征之间的距离特征，并基于所述距离特征对各单词的第一单词特征进行处理，得到各单词的第二单词特征；

根据所述第二单词特征，获取所述待标注文本的韵律识别结果，所述韵律识别结果包括停顿位置和重读位置。

在一种实施例中，实现功能：发送所述韵律识别结果至终端，以使所述终端在展示所述待标注文本时对所述停顿位置和所述重读位置进行展示。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种文本处理方法、装置以及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林炳怀;王丽园
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：一种利用改性胶黏剂胶接修补Glare层板的方法与流程
上一篇：一种氮化镓衬底材料的抛光液的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。