文本处理方法、文本处理装置、电子设备以及计算机可读存储介质与流程

文档序号:26839398发布日期:2021-10-08 20:46阅读:64来源:国知局
文本处理方法、文本处理装置、电子设备以及计算机可读存储介质与流程

1.本发明涉及文本处理领域,尤其涉及一种包含实体对象的文本数据的文本处理方法、文本处理装置、电子设备以及计算机可读存储介质。


背景技术:

2.随着智能技术的发展,人们已经不满足于机器仅识别出文本(句子)的内容,而是希望机器能够更加智能,例如能够理解文本所表达的情绪。尤其是对于句子里涉及到实体对象的情况,这样的句子往往能够表达陈述者对于句子中所涉及的实体对象的评价或情感,例如,是正向还是负向,亦或是中性的。这有利于机器理解人类用户对于实体对象的情感或倾向性,从而为用户提供更有针对性的服务。
3.因此,现有技术中已经出现了通过对句子整体的分析来确定句子整体所表达的情感倾向,从而作为该句子中所涉及的实体对象的评价或情感倾向。但是在大部分情况下,涉及实体对象的文本句子往往都比较复杂,包含的文字也比较多,因此,现有的分析方案由于是基于句子整体作出的判断,并不能准确地反映文本句子对于该实体对象所要表达的真实评价或情感。


技术实现要素:

4.本发明实施例提供一种文本处理方法、文本处理装置、电子设备以及计算机可读存储介质,以解决现有技术中对于文本数据中包含的实体对象的评价倾向判定不准确的缺陷。
5.为达到上述目的,本发明实施例提供了一种文本处理方法,包括:
6.获取第一文本数据,其中,所述第一文本数据至少包含一个实体对象;
7.对所述第一文本数据进行分词处理以生成所述第一文本数据的每个词的词向量;
8.对所述词向量进行基于时序的算法处理和基于上下文的算法处理,以获得包含有所述实体对象在所述第一文本数据中的时序特征的第一结果和包含有所述实体对象在所述第一文本数据中的上下文特征的第二结果;
9.对所述第一结果和所述第二结果进行特征联合处理,以生成特征联合向量;
10.根据所述特征联合向量计算所述实体对象的评价结果,其中,所述评价结果标识所述第一文本数据对于所述实体对象的评价倾向。
11.本技术实施例提供了一种文本处理装置,包括:
12.输入层,用于获取第一文本数据,其中,所述第一文本数据至少包含一个实体对象;
13.预处理层,用于对所述第一文本数据进行分词处理以生成所述第一文本数据的每个词的词向量;
14.时序算法处理层,用于对所述词向量进行基于时序的算法处理,以获得包含有所
述实体对象在所述第一文本数据中的时序特征的第一结果;
15.上下文算法处理层,用于对所述词向量进行基于上下文的算法处理,以获得包含有所述实体对象在所述第一文本数据中的上下文特征的第二结果;
16.向量合并层,用于对所述第一结果和所述第二结果进行特征联合处理,以生成特征联合向量;
17.输出层,用于根据所述特征联合向量计算所述实体对象的评价结果,其中,所述评价结果标识所述第一文本数据对于所述实体对象的评价倾向。
18.本技术实施例提供了一种电子设备,包括:
19.存储器,用于存储程序;
20.处理器,用于运行所述存储器中存储的所述程序,所述程序运行时执行下述文本处理方法,包括:
21.获取第一文本数据,其中,所述第一文本数据至少包含一个实体对象;
22.对所述第一文本数据进行分词处理以生成所述第一文本数据的每个词的词向量;
23.对所述词向量进行基于时序的算法处理和基于上下文的算法处理,以获得包含有所述实体对象在所述第一文本数据中的时序特征的第一结果和包含有所述实体对象在所述第一文本数据中的上下文特征的第二结果;
24.对所述第一结果和所述第二结果进行特征联合处理,以生成特征联合向量;
25.根据所述特征联合向量计算所述实体对象的评价结果,其中,所述评价结果标识所述第一文本数据对于所述实体对象的评价倾向。
26.本技术实施例提供了一种计算机可读存储介质,其上存储有可被处理器执行的计算机程序,其中,该程序被处理器执行时实现下述文本处理方法,包括:
27.获取第一文本数据,其中,所述第一文本数据至少包含一个实体对象;
28.对所述第一文本数据进行分词处理以生成所述第一文本数据的每个词的词向量;
29.对所述词向量进行基于时序的算法处理和基于上下文的算法处理,以获得包含有所述实体对象在所述第一文本数据中的时序特征的第一结果和包含有所述实体对象在所述第一文本数据中的上下文特征的第二结果;
30.对所述第一结果和所述第二结果进行特征联合处理,以生成特征联合向量;
31.根据所述特征联合向量计算所述实体对象的评价结果,其中,所述评价结果标识所述第一文本数据对于所述实体对象的评价倾向。
32.本发明实施例提供的文本处理方法、文本处理装置、电子设备以及计算机可读存储介质,通过结合基于时序的算法处理和基于上下文的算法处理来对包含有实体对象的文本数据进行处理,获得了分别考虑了文本数据中词向量的时序的对于实体对象的评价特征向量以及文本数据中的各个词作为上下文的对于实体对象的评价特征向量,从而能够基于包含有这些信息的特征向量计算文本数据对于该实体对象的评价倾向,使得获得的评价倾向更加准确。
33.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
34.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
35.图1为根据本技术一个实施方式的文本处理的场景示意图;
36.图2为根据本技术一个实施方式的文本处理方法的流程示意图;
37.图3a和图3b为根据本技术一个实施方式的文本处理方法的流程示意图;
38.图4为根据本技术一个实施方式的文本处理装置的示意图;以及
39.图5为根据本技术一个实施方式的电子设备的示意图。
具体实施方式
40.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
41.随着智能技术的发展,人们已经不满足于机器仅识别出文本(句子)的内容,而是希望机器能够更加智能,例如能够理解文本所表达的情绪。尤其是对于句子里涉及到实体对象的情况,这样的句子往往能够表达陈述者对于句子中所涉及的实体对象的评价或情感,例如,是正向还是负向,亦或是中性的。这有利于机器理解人类用户对于实体对象的情感或倾向性,从而为用户提供更有针对性的服务。
42.因此,现有技术中已经出现了通过对句子整体的分析来确定句子整体所表达的情感倾向,从而作为该句子中所涉及的实体对象的评价或情感倾向。但是在大部分情况下,涉及实体对象的文本句子往往都比较复杂,包含的文字也比较多,因此,现有的分析方案由于是基于句子整体作出的判断,并不能准确地反映文本句子对于该实体对象所要表达的真实评价或情感。
43.本公开实施例提供的文本处理方法、文本处理装置以及电子设备可以应用于对包含有实体对象的文本数据进行处理的场景。
44.例如,图1为根据本技术一个实施方式的文本处理的场景示意图。如图1中所示,根据本技术实施例的文本处理方法可以运行在各种处理系统中,也可以运行在各种处理系统所连接到的云服务器上。在图1中,文本处理装置100可以从各种文本数据源101处获取文本数据111,或者也可以由用户将文本数据111输入到文本处理装置100中。在本技术实施例中,文本数据源101可以是网页或存储有各种文本数据的数据库,并且用户可以通过各种方式来输入文本数据111,例如用户可以通过用户的移动终端来将文本数据111输入到文本处理装置100中,或者文本装置100在获得用户的授权的情况下,可以按照与用户协商的方式自动从用户的输入中获取各种文本数据111。
45.在本技术实施例中,输入到文本处理装置100中的文本数据111包括至少一个实体对象。例如,输入的文本数据111可以为“女孩子喜欢化妆品”,其中,化妆品可以为本技术实施例中的实体对象,并且通过本技术实施例的文本处理方法能够确定该文本数据对于实体对象所表达的评价倾向。例如,该文本表达的是对于“化妆品”这一实体对象的正向评价倾
向,例如,喜欢。在一些情况下,文本数据中所包含的实体对象多于1个,例如,输入的文本数据111为“女孩子喜欢化妆品胜过电子产品。在该文本数据111中,包括了两个实体对象,即化妆品和电子产品。根据本技术实施例,文本数据111包括的实体对象的数目没有限制,可以根据实际情况而定。
46.如图1中所示,当文本数据111被输入到文本处理装置100中之后,通过文本处理装置100中的预处理层将其进行分词处理。在本技术实施例中,可以利用词嵌入处理(we,word embedding)来将文本数据111中的各词转换为词向量112,从而能够进一步在后续的算法处理层中进行处理。特别地,在本技术实施例中,可以进一步利用带有情感倾向的词嵌入处理(sswe,sentiment specific word embedding)来对输入的文本数据111进行词向量转换,从而能够获得带有情感信息的词向量112,能够更好地反映文本数据111中的词的情感倾向。例如,在上述示例中,即,输入的文本数据111为“女孩子喜欢化妆品胜过电子产品”的情况下,可以将其转换为五个词向量“女孩子”、“喜欢”、“化妆品”、“胜过”和“电子产品”。在本技术实施例中,在词向量的基础上,可以进一步根据文本数据111中的特定实体对象来将其分为实体对象左侧部分和实体对象右侧部分。例如,在上述示例中,可以针对“化妆品”这一实体对象来将文本数据111的词向量划分为第一部分(“女孩子”、“喜欢”、“化妆品”)以及第二部分(“化妆品”、“胜过”和“电子产品”)。从而在后续的算法处理中可以针对这两部分进行分别的计算。
47.在本实施例中,在获得了包含实体对象的词向量的第一部分和第二部分之后,可以将其分别输入到两个算法处理层来进行不同的计算处理。例如,在本技术实施例中,可以将第一部分和第二部分输入到时序算法处理层104中,来分别针对第一部分和第二部分进行基于时序的算法处理,例如lstm算法,从而获得包含有当前词之前或之后的词对于实体对象的评价贡献的评价特征向量。在本技术实施例中,可以将第一部分和第二部分输入到上下文算法处理层105中,来分别针对第一部分、第二部分以及包含所有向量的第三部分来进行基于上下文的算法处理,例如卷积神经网络处理,从而获得各词向量对于实体对象的评价贡献信息。
48.之后,在向量合并层106可以将具有不同侧重点的这两个算法处理层的计算结果进行特征联合计算,以获得针对该实体对象的特征向量,并输入到输出层107中进行最终的计算,以获得该文本数据111对于该实体对象“化妆品”的评价分类结果。例如,在输出层107中可以利用softmax函数来进行概率计算,从而获得该实体对象“化妆品”属于不同评价结果的概率,并最终确定该实体对象“化妆品”的评价倾向。
49.因此,通过本技术实施例的方案,能够通过结合基于时序的算法处理和基于上下文的算法处理来对包含有实体对象的文本数据进行处理,获得了分别考虑了文本数据中词向量的时序的对于实体对象的评价特征向量以及文本数据中的各个词作为上下文的对于实体对象的评价特征向量,从而能够基于包含有这些信息的特征向量计算文本数据对于该实体对象的评价倾向,使得获得的评价倾向更加准确。
50.接下来参考图2至图5详细描述根据本技术实施例的文本处理方法、文本处理装置、电子设备以及计算机可读存储介质。
51.图2为根据本技术一个实施方式的文本处理方法的流程示意图。如图2中所示,根据本技术实施例,本技术的文本处理方法可以包括:
52.s201,获取第一文本数据。
53.在本技术实施例中,可以从各种文本数据源来获得文本数据作为第一文本数据,并且本技术实施例所针对的第一文本数据可以至少包含一个实体对象。例如,“女孩子喜欢化妆品”,其中,化妆品可以为本技术实施例中的实体对象,从而能够利用本技术实施例所公开的文本处理方法来确定该第一文本数据对于实体对象所表达的评价倾向。例如,该文本表达的是对于“化妆品”这一实体对象的正向评价倾向,例如,喜欢。在一些情况下,文本数据中所包含的实体对象可以多于1个,例如,第一文本数据可以为“女孩子喜欢化妆品胜过电子产品”。在该文本数据111中,包括了两个实体对象,即化妆品和电子产品。根据本技术实施例,文本数据111包括的实体对象的数目没有限制,可以根据实际情况而定。
54.s202,对所述第一文本数据进行分词处理以生成所述第一文本数据的每个词的词向量。
55.在步骤s201获得了包含有实体对象的第一文本数据之后,可以对该第一文本数据进行分词,即向量化处理,以生成该第一文本数据中包括的各个词的词向量。
56.在本技术实施例中,可以利用词嵌入处理来将第一文本数据中的各词转换为词向量,从而能够进一步在后续的算法处理层中进行处理。特别地,在本技术实施例中,可以利用带有情感倾向的词嵌入处理来对输入的第一文本数据进行词向量转换,从而能够获得带有情感信息的词向量,能够更好地反映文本数据中的词的情感倾向。
57.例如,在上述示例中,第一文本数据可以为“女孩子喜欢化妆品胜过电子产品”,因此可以利用词嵌入处理将其转换为五个词向量“女孩子”、“喜欢”、“化妆品”、“胜过”和“电子产品”,以便于在后续的步骤中对这些词向量进行计算。
58.s203,对词向量进行基于时序的算法处理和基于上下文的算法处理,以获得包含有所述实体对象在所述第一文本数据中的时序特征的第一结果和包含有所述实体对象在所述第一文本数据中的上下文特征的第二结果。
59.在本技术实施例中,在步骤s202中获得了第一文本数据的各个词向量之后,可以在该步骤s203中对这些词向量进行具有不同侧重点和针对性的计算处理。例如,可以利用基于时序的算法,例如lstm来对这些词向量进行计算,以获得在分别以不同时序考虑第一文本数据中的各个词的之前或之后的词对于实体对象的评价贡献的评价特征向量。与基于时序的算法处理并行地,可以在步骤s203中,对输入的各个词向量进行基于上下文的算法处理,例如卷积神经网络计算,以获得第一文本数据中的各个词对于实体对象的评价贡献。
60.s204,对所述第一结果和所述第二结果进行特征联合处理,以生成特征联合向量。
61.在本技术实施例中,在步骤s203中通过两种侧重点不同的算法来获得了第一结果和第二结果之后,在步骤s204中可以将具有不同侧重点的这两个算法处理层的计算结果进行特征联合计算,以获得针对该实体对象的特征向量。即,对通过不同算法对第一文本数据进行计算获得的特征向量进行特征联合,从而将不同算法的特征向量关联在一起,形成了针对所指定的实体对象的特征联合向量。
62.s205,根据所述特征联合向量计算所述实体对象的评价结果。
63.在本技术实施例中,通过步骤s204中的特征联合处理,可以将不同算法的结果统一起来,从而可以在步骤s205中对这样的特征联合向量进行计算,所获的的评价结果标识所述第一文本数据对于所述实体对象的评价倾向。
64.在本技术实施例中,评价倾向可以是各种评价分类为度的评价,例如,“好”和“坏”以及“中性”这样的评价,也可以是“喜欢”、“不喜欢”以及“中性”或者可以是上述评价中正向和负向评价的进一步维度的分类,例如,“特别好”和“好”、“特别坏”和“坏”以及“特别喜欢”和“喜欢”、“特别不喜欢”和“不喜欢”等等。在本技术中对此没有特别的限制。只要能够区分出第一文本数据对于实体对象的评价倾向即可。
65.因此,通过本技术实施例的方案,能够通过结合基于时序的算法处理和基于上下文的算法处理来对包含有实体对象的文本数据进行处理,获得了分别考虑了文本数据中词向量的时序的对于实体对象的评价特征向量以及文本数据中的各个词作为上下文的对于实体对象的评价特征向量,从而能够基于包含有这些信息的特征向量计算文本数据对于该实体对象的评价倾向,使得获得的评价倾向更加准确。
66.图3a和图3b为根据本技术一个实施方式的文本处理方法的流程示意图。如图3a中所示,根据本技术实施例,本技术的文本处理方法可以包括:
67.s301,获取第一文本数据。
68.在本技术实施例中,可以从各种文本数据源来获得文本数据作为第一文本数据,并且本技术实施例所针对的第一文本数据可以至少包含一个实体对象。例如,“女孩子喜欢化妆品”,其中,化妆品可以为本技术实施例中的实体对象,从而能够利用本技术实施例所公开的文本处理方法来确定该第一文本数据对于实体对象所表达的评价倾向。例如,该文本表达的是对于“化妆品”这一实体对象的正向评价倾向,例如,喜欢。在一些情况下,文本数据中所包含的实体对象可以多于1个,例如,第一文本数据可以为“女孩子喜欢化妆品胜过电子产品”。在该文本数据111中,包括了两个实体对象,即化妆品和电子产品。根据本技术实施例,文本数据111包括的实体对象的数目没有限制,可以根据实际情况而定。
69.s302,对所述第一文本数据进行分词处理以生成所述第一文本数据的每个词的词向量。
70.在步骤s301获得了包含有实体对象的第一文本数据之后,可以对该第一文本数据进行分词,即向量化处理,以生成该第一文本数据中包括的各个词的词向量。
71.在本技术实施例中,可以利用词嵌入处理来将第一文本数据中的各词转换为词向量,从而能够进一步在后续的算法处理层中进行处理。特别地,在本技术实施例中,可以利用带有情感倾向的词嵌入处理来对输入的第一文本数据进行词向量转换,从而能够获得带有情感信息的词向量,能够更好地反映文本数据中的词的情感倾向。
72.例如,在上述示例中,第一文本数据可以为“女孩子喜欢化妆品胜过电子产品”,因此可以利用词嵌入处理将其转换为五个词向量“女孩子”、“喜欢”、“化妆品”、“胜过”和“电子产品”,以便于在后续的步骤中对这些词向量进行计算。
73.s3031,基于所述实体对象在所述第一文本数据中的位置将所述词向量划分为第一词向量组和第二词向量组。
74.在本技术实施例中,由于是需要计算第一文本数据对于所包含的实体对象的评价倾向,因此可以在获得了所包含的词向量的基础上,根据第一文本数据中实体对象的位置来将步骤s302中获得的词向量划分为两个部分。例如,第一词向量组可以包括实体对象对应的词向量以及位于实体对象左侧的所有词的词向量,并且第二词向量组包括实体对象对应的词向量以及位于实体对象右侧的所有词的词向量。
75.例如,在上述第一文本数据为“女孩子喜欢化妆品胜过电子产品”的情况下,针对“化妆品”这一实体对象,第一词向量组可以包括“女孩子”、“喜欢”、“化妆品”这三个词向量,并且第二词向量组可以包括“化妆品”、“胜过”和“电子产品”这三个词向量。
76.s3032,对所述第一文本数据的全部词向量分别进行前向ltsm计算和反向ltsm计算,以获得所述第一文本数据的各词的前向时序向量和反向时序向量。
77.在该步骤中,可以利用基于时序的算法来对第一文本数据的词向量进行计算,例如,可以利用ltsm来计算包含有当前词向量之前或之后的词向量的评价贡献信息的评价特征向量。例如,每个词的前向时序特征向量可以包含有在时序上位于该词之前的所有词的评价贡献信息,并且每个词的反向时序特征向量可以包含有在时序上位于该词之后的所有词的评价贡献信息。
78.例如,在本技术实施例中,在正向时序计算时,可以先对第一文本数据中的第一个词“女孩子”的词向量进行计算,以获得考虑该词向量的评价特征向量结果,接下来对词向量“喜欢”进行计算,在该计算中,不仅考虑该词向量而且考虑位于该词之前的词向量“女孩子”计算的评价特征向量结果,从而获得了不仅考虑词向量“喜欢”而且考虑了词向量“女孩子”的计算结果的评价特征向量结果,以此类推,一直计算到最后一个词“电子产品”的词向量的特征向量结果。
79.与上述计算过程类似地,也可以进一步进行反向lstm计算,即,先对最后一个词“电子产品”的词向量进行计算,以获得考虑该词向量的评价特征向量结果,接下来对倒数第二个词“胜过”的词向量进行计算,在该计算中,不仅考虑当前的词“胜过”的词向量而且考虑了该词后面的最后一个词“电子产品”的词向量的评价特征向量结果,从而获得了不仅考虑词向量“电子产品”而且考虑了词向量“胜过”的特征向量的特征向量结果,以此类推,一直计算到第一个词向量“女孩子”的评价特征向量结果。
80.因此,通过步骤s3032可以获得以正向时序计算的各词向量的评价特征向量结果和以反向时许计算的各词向量的评价特征向量结果。
81.s3033,根据所述第一词向量组对应的全部前向时序特征向量和所述第二词向量组对应的全部反向时序特征向量计算所述第一结果。
82.虽然在步骤s3032中获得了针对全部五个词向量“女孩子”、“喜欢”、“化妆品”、“胜过”和“电子产品”分别以正向时序和反向时序计算的各词向量的特征向量结果,但是在本技术实施例中,仅需要对应于第一词向量组,即包含实体对象“化妆品”以及其左侧的全部词的词向量,的特征向量结果,即以正向时序计算的特征向量,即前向时序向量以及对应于第二词向量组,即包含实体对象“化妆品”及其右侧全部词的词向量的特征向量结果,即以反向时序计算的特征向量,即反向时序向量。
83.例如,在该步骤可以根据与词向量“女孩子”、“喜欢”、“化妆品”对应的以正向时序计算的前向时序向量以及与词向量“化妆品”、“胜过”和“电子产品”对应的以反向时序计算的反向时序向量来分别计算与第一词向量组对应的时序计算结果和与第二词向量组对应的时序计算结果,从而能够获得考虑了词向量时序的实体对象“化妆品”两侧的两个文本部分对于该实体对象的评价贡献向量。在本技术实施例中,这样的两个评价贡献向量可以构成第一结果。
84.此外,在上述步骤s3031-s3033所示的基于时序的计算过程中,可以如上所述考虑
正向和反向时序下的各词向量的评价特征向量结果,而在实际应用中,文本数据中的各个词对于实体对象的评价贡献是不同的,即对于计算实体对象的评价倾向的重要性是不同的。因此,在本技术实施例中可以进一步引入注意力机制,来进一步确定词的重要性程度。
85.例如,如图3b所示,在步骤s3032之后,可以进一步包括下述步骤:
86.s3034,对第一词向量组对应的各个前向时序向量以及所述第二词向量组对应的各个反向时序向量进行注意力计算处理,生成各个前向时序向量的注意力数据和各个反向时序向量的注意力数据。
87.在本技术实施例中,可以通过计算各时序向量的注意力数据,从而获得对应的词与其他词,例如相邻的词之间的注意力权重信息,即,当前的词对于其他词的重要性或关联度。
88.例如,第一词向量组包含的词向量“女孩子”、“喜欢”、“化妆品”中,“喜欢”与“化妆品”之间的关联度可以高于“女孩子”与“化妆品”之间的关联度,因此,利用步骤s3034的结果可以识别出词向量“喜欢”对于实体对象的词向量“化妆品”的贡献度或重要性更高,因此,在后续的计算处理中,可以对于词向量“喜欢”给予更大的权重。
89.s3035,基于所述注意力数据,对所述第一词向量组对应的前向时序向量和所述第二词向量组对应的反向时序向量分别叠加,获得所述实体对象在所述第一词向量组和所述第二词向量组中的第一注意力特征向量和第二注意力特征向量。
90.如上所述,可以根据注意力数据来在对第一词向量组和第二词向量组的时序向量进行叠加计算,在该叠加计算中不同的词向量的时序向量被根据注意力数据给予了不同的注意力权重,因此能够更准确地反映各词对于实体对象的评价倾向的贡献,使得实体对象的评价结果的计算更加准确。
91.s3036,输出所述第一注意力特征向量和第二注意力特征向量作为所述第一结果。
92.因此,通过引入注意力机制,能够在进一步考虑第一文本数据中的各词向量对于实体对象的重要性,即注意力权重,来计算第一词向量组和第二词向量组的特征向量,使得计算出的特征向量更准确地反映第一词向量组和第二词向量组中各词向量对于实体对象的评价倾向。
93.s3041,基于所述实体对象在所述第一文本数据中的位置将所述词向量划分为第一词向量组和第二词向量组。
94.在本技术实施例中,由于是需要计算第一文本数据对于所包含的实体对象的评价倾向,因此可以在获得了所包含的词向量的基础上,根据第一文本数据中实体对象的位置来将步骤s302中获得的词向量划分为两个部分。例如,第一词向量组可以包括实体对象对应的词向量以及位于实体对象左侧的所有词的词向量,并且第二词向量组包括实体对象对应的词向量以及位于实体对象右侧的所有词的词向量。
95.例如,在上述第一文本数据为“女孩子喜欢化妆品胜过电子产品”的情况下,针对“化妆品”这一实体对象,第一词向量组可以包括“女孩子”、“喜欢”、“化妆品”这三个词向量,并且第二词向量组可以包括“化妆品”、“胜过”和“电子产品”这三个词向量。
96.s3042,分别对所述第一词向量组、所述第二词向量组以及所述第一文本数据的词向量进行卷积神经网络计算,以获得所述第一词向量组、所述第二词向量组以及所述第一文本数据的词向量的第一特征向量组、第二特征向量组和第三特征向量组。
97.在本技术实施例中,可以利用基于上下文的算法来对第一文本数据的词向量进行计算。例如,可以利用卷积神经网络来对第一词向量组中的词向量、第二词向量组中的词向量以及第一文本数据的全部词向量进行处理,以获得包含有这三组词向量对于实体对象的上下文关系的特征向量。
98.s3043,分别对所述第一特征向量组、第二特征向量组和第三特征向量组的特征向量进行池化处理以获得分别与所述第一词向量组、所述第二词向量组以及所述第一文本数据对应的第一卷积结果向量、第二卷积结果向量和第三卷积结果向量。
99.s3044,输出第一卷积结果向量、第二卷积结果向量和第三卷积结果向量作为所述第二结果。
100.在本技术实施例中,基于时序的算法处理的步骤s3031-s3033和基于上下文的算法处理的步骤s3041-s3044可以并行地进行。例如,可以将第一文本数据的词向量同时进行这两种算法处理,也可以先后进行这两种算法处理。例如,可以先进行基于时序的算法处理的步骤,或者也可以先进行基于上下文的算法处理的步骤。这两个算法处理的次序在本技术中没有限制,可以根据实际情况来确定。
101.s305,对所述第一结果和所述第二结果进行特征联合处理,以生成特征联合向量。
102.在本技术实施例中,在上述步骤中通过两种侧重点不同的算法来获得了第一结果和第二结果之后,在步骤s305中可以将具有不同侧重点的这两个算法处理层的计算结果进行特征联合计算,以获得针对该实体对象的特征向量。即,对通过不同算法对第一文本数据进行计算获得的特征向量进行特征联合,从而将不同算法的特征向量关联在一起,形成了针对所指定的实体对象的特征联合向量。
103.s306,对所述特征联合向量进行抽象计算,以获得标识所述文本数据对于所述实体对象的评价的至少一个抽象特征向量。
104.s307,根据所述抽象特征向量计算所述文本数据对于所述实体对象的评价结果。
105.在本技术实施例中,可以通过各种处理来根据抽象特征向量计算实体对象的评价结果。例如,可以利用softmax函数来计算实体对象的评价结果。
106.在本技术实施例中,评价倾向可以是各种评价分类为度的评价,例如,“好”和“坏”以及“中性”这样的评价,也可以是“喜欢”、“不喜欢”以及“中性”或者可以是上述评价中正向和负向评价的进一步维度的分类,例如,“特别好”和“好”、“特别坏”和“坏”以及“特别喜欢”和“喜欢”、“特别不喜欢”和“不喜欢”等等。在本技术中对此没有特别的限制。只要能够区分出第一文本数据对于实体对象的评价倾向即可。
107.因此,通过本技术实施例的方案,能够通过结合基于时序的算法处理和基于上下文的算法处理来对包含有实体对象的文本数据进行处理,获得了分别考虑了文本数据中词向量的时序的对于实体对象的评价特征向量以及文本数据中的各个词作为上下文的对于实体对象的评价特征向量,从而能够基于包含有这些信息的特征向量计算文本数据对于该实体对象的评价倾向,使得获得的评价倾向更加准确。
108.图4为根据本技术一个实施方式的文本处理装置的示意图。可以用于执行如图2、图3a及图3b所示的方法步骤。如图4所示,本技术实施例的文本处理装置包括输入层401、预处理层402、时序算法处理层403、上下文算法处理层404、向量合并层405和输出层406。
109.如图4中所示,输入层401可以用于获取第一文本数据,其中,所述第一文本数据至
少包含一个实体对象。
110.在本技术实施例中,可以从各种文本数据源来获得文本数据作为第一文本数据,并且本技术实施例所针对的第一文本数据可以至少包含一个实体对象。例如,“女孩子喜欢化妆品”,其中,化妆品可以为本技术实施例中的实体对象,从而能够利用本技术实施例所公开的文本处理方法来确定该第一文本数据对于实体对象所表达的评价倾向。例如,该文本表达的是对于“化妆品”这一实体对象的正向评价倾向,例如,喜欢。在一些情况下,文本数据中所包含的实体对象可以多于1个,例如,第一文本数据可以为“女孩子喜欢化妆品胜过电子产品”。在该文本数据111中,包括了两个实体对象,即化妆品和电子产品。根据本技术实施例,文本数据111包括的实体对象的数目没有限制,可以根据实际情况而定。
111.预处理层402可以用于对所述第一文本数据进行分词处理以生成所述第一文本数据的每个词的词向量。
112.在本技术实施例中,可以在预处理层402利用词嵌入处理来将第一文本数据中的各词转换为词向量,从而能够进一步在后续的算法处理层中进行处理。特别地,在本技术实施例中,可以利用带有情感倾向的词嵌入处理来对输入的第一文本数据进行词向量转换,从而能够获得带有情感信息的词向量,能够更好地反映文本数据中的词的情感倾向。
113.例如,在上述示例中,第一文本数据可以为“女孩子喜欢化妆品胜过电子产品”,因此可以在预处理层402利用词嵌入处理将其转换为五个词向量“女孩子”、“喜欢”、“化妆品”、“胜过”和“电子产品”,以便于在后续的步骤中对这些词向量进行计算。
114.时序算法处理层403可以用于对所述词向量进行基于时序的算法处理,以获得标识所述实体对象在所述第一文本数据中的时序特征的第一结果。
115.上下文算法处理层404可以用于对所述词向量进行基于上下文的算法处理,以获得标识所述实体对象在所述第一文本数据中的上下文特征的第二结果。
116.在本技术实施例中,对于预处理层402获得的第一文本数据的各个词向量,可以在该时序算法处理层403和上下文算法处理层404中对这些词向量进行具有不同侧重点和针对性的计算处理。例如,在时序算法处理层403中可以利用例如lstm来对这些词向量进行计算,以获得在分别考虑第一文本数据中的各个词的各个时刻对于实体对象的评价贡献。与基于时序的算法处理并行地,可以在上下文算法处理层404中对各个词向量进行基于上下文的算法处理,例如卷积神经网络计算,以获得第一文本数据中的各个词对于实体对象的评价贡献。
117.例如,时序算法处理层403中可以基于实体对象在第一文本数据中的位置将所述词向量划分为第一词向量组和第二词向量组。
118.在本技术实施例中,由于是需要计算第一文本数据对于所包含的实体对象的评价倾向,因此可以在获得了所包含的词向量的基础上,根据第一文本数据中实体对象的位置来在预处理层402中获得的词向量划分为两个部分。例如,第一词向量组可以包括实体对象对应的词向量以及位于实体对象左侧的所有词的词向量,并且第二词向量组包括实体对象对应的词向量以及位于实体对象右侧的所有词的词向量。
119.例如,在上述第一文本数据为“女孩子喜欢化妆品胜过电子产品”的情况下,针对“化妆品”这一实体对象,第一词向量组可以包括“女孩子”、“喜欢”、“化妆品”这三个词向量,并且第二词向量组可以包括“化妆品”、“胜过”和“电子产品”这三个词向量。
120.接下来,时序算法处理层403中可以对第一文本数据的全部词向量分别进行前向ltsm计算和反向ltsm计算,以获得所述第一文本数据的各词的前向时序特征向量和反向时序特征向量。
121.在该处理中,可以利用基于时序的算法来对第一文本数据的词向量进行计算,例如,可以利用ltsm来计算不同时序下各个词向量的评价贡献。例如,每个词的前向时序特征向量可以包含有在时序上位于该词之前的所有词的评价贡献信息,并且每个词的反向时序特征向量可以包含有在时序上位于该词之后的所有词的评价贡献信息。
122.例如,在本技术实施例中,在正向时序计算时,可以先对第一文本数据中的第一个词“女孩子”的词向量进行计算,以获得考虑该词向量的评价特征向量结果,接下来对词向量“喜欢”进行计算,在该计算中,不仅考虑该词向量而且考虑位于该词之前的词向量“女孩子”计算的评价特征向量结果,从而获得了不仅考虑词向量“喜欢”而且考虑了词向量“女孩子”的计算结果的评价特征向量结果,以此类推,一直计算到最后一个词“电子产品”的词向量的特征向量结果。
123.与上述计算过程类似地,也可以进一步进行反向lstm计算,即,先对最后一个词“电子产品”的词向量进行计算,以获得考虑该词向量的评价特征向量结果,接下来对倒数第二个词“胜过”的词向量进行计算,在该计算中,不仅考虑当前的词“胜过”的词向量而且考虑了该词后面的最后一个词“电子产品”的词向量的评价特征向量结果,从而获得了不仅考虑词向量“电子产品”而且考虑了词向量“胜过”的特征向量的特征向量结果,以此类推,一直计算到第一个词向量“女孩子”的评价特征向量结果。
124.因此,通过上述处理可以获得以正向时序计算的各词向量的评价特征向量结果和以反向时序计算的各词向量的评价特征向量结果。
125.接下来,时序算法处理层403中可以根据第一词向量组对应的全部前向时序向量和第二词向量组对应的全部反向时序向量计算第一结果。
126.例如,虽然在前述处理中获得了针对全部五个词向量“女孩子”、“喜欢”、“化妆品”、“胜过”和“电子产品”分别以正向时序和反向时序计算的各词向量的评价特征向量结果,但是在本技术实施例中,仅需要对应于第一词向量组,即包含实体对象“化妆品”以及其左侧的全部词的词向量,的特征向量结果,即以正向时序计算的特征向量,即前向时序向量以及对应于第二词向量组,即包含实体对象“化妆品”及其右侧全部词的词向量的特征向量结果,即以反向时序计算的特征向量,即反向时序向量。
127.例如,可以根据与词向量“女孩子”、“喜欢”、“化妆品”对应的以正向时序计算的前向时序向量以及与词向量“化妆品”、“胜过”和“电子产品”对应的以反向时序计算的反向时序向量来分别计算与第一词向量组对应的时序计算结果和与第二词向量组对应的时序计算结果,从而能够获得考虑了词向量时序的实体对象“化妆品”两侧的两个文本部分对于该实体对象的评价贡献向量。在本技术实施例中,这样的两个评价贡献向量可以构成第一结果。
128.此外,在时序算法处理层403中可以如上所述考虑正向和反向时序下的各词向量的评价特征向量结果,而在实际应用中,第一文本数据中的各个词对于实体对象的评价贡献是不同的,即对于计算实体对象的评价倾向的重要性是不同的。因此,在本技术实施例中可以进一步引入注意力机制,来进一步考虑词的重要性程度。
129.例如,在时序算法处理层403中可以进一步执行下述处理:对第一词向量组对应的各个前向时序向量以及所述第二词向量组对应的各个反向时序向量进行注意力计算处理,生成各个前向时序向量的注意力数据和各个反向时序向量的注意力数据。
130.在本技术实施例中,可以通过计算各时序向量的注意力数据,从而获得对应的词与其他词,例如相邻的词之间的注意力权重信息,即,当前的词对于其他词的重要性或关联度。
131.例如,第一词向量组包含的词向量“女孩子”、“喜欢”、“化妆品”中,“喜欢”与“化妆品”之间的关联度可以高于“女孩子”与“化妆品”之间的关联度,因此,利用步骤s3034的结果可以识别出词向量“喜欢”对于实体对象的词向量“化妆品”的贡献度或重要性更高,因此,在后续的计算处理中,可以对于词向量“喜欢”给予更大的权重。
132.接下来,在时序算法处理层403中可以基于所述注意力数据,对所述第一词向量组对应的前向时序向量和所述第二词向量组对应的反向时序向量分别叠加,获得所述实体对象在所述第一词向量组和所述第二词向量组中的第一注意力特征向量和第二注意力特征向量。
133.如上所述,可以根据注意力数据来在对第一词向量组和第二词向量组的时序向量进行叠加计算,在该叠加计算中不同的词向量的时序向量被根据注意力数据给予了不同的注意力权重,因此能够更准确地反映各词对于实体对象的评价倾向的贡献,使得实体对象的评价结果的计算更加准确。
134.最终,时序算法处理层403可以输出所述第一注意力特征向量和第二注意力特征向量作为所述第一结果。
135.因此,通过引入注意力机制,能够在进一步考虑第一文本数据中的各词向量对于实体对象的重要性,即注意力权重,来计算第一词向量组和第二词向量组的特征向量,使得计算出的特征向量更准确地反映第一词向量组和第二词向量组中各词向量对于实体对象的评价倾向。
136.在上下文算法处理层404中可以基于实体对象在第一文本数据中的位置将词向量划分为第一词向量组和第二词向量组。
137.在本技术实施例中,由于是需要计算第一文本数据对于所包含的实体对象的评价倾向,因此可以在获得了所包含的词向量的基础上,根据第一文本数据中实体对象的位置来将预处理层402中获得的词向量划分为两个部分。例如,第一词向量组可以包括实体对象对应的词向量以及位于实体对象左侧的所有词的词向量,并且第二词向量组包括实体对象对应的词向量以及位于实体对象右侧的所有词的词向量。
138.例如,在上述第一文本数据为“女孩子喜欢化妆品胜过电子产品”的情况下,针对“化妆品”这一实体对象,第一词向量组可以包括“女孩子”、“喜欢”、“化妆品”这三个词向量,并且第二词向量组可以包括“化妆品”、“胜过”和“电子产品”这三个词向量。
139.之后,上下文算法处理层404中可以分别对第一词向量组、第二词向量组以及第一文本数据的词向量进行卷积神经网络计算,以获得所述第一词向量组、所述第二词向量组以及所述第一文本数据的词向量的第一特征向量组、第二特征向量组和第三特征向量组。
140.在本技术实施例中,可以利用基于上下文的算法来对第一文本数据的词向量进行计算。例如,可以利用卷积神经网络来对第一词向量组中的词向量、第二词向量组中的词向
量以及第一文本数据的全部词向量进行处理,以获得包含有这三组词向量对于实体对象的上下文关系的特征向量。
141.之后,上下文算法处理层404中可以分别对所述第一特征向量组、第二特征向量组和第三特征向量组的特征向量进行池化处理以获得分别与所述第一词向量组、所述第二词向量组以及所述第一文本数据对应的第一卷积结果向量、第二卷积结果向量和第三卷积结果向量,并且输出第一卷积结果向量、第二卷积结果向量和第三卷积结果向量作为所述第二结果。
142.在本技术实施例中,在时序算法处理层403中进行的基于时序的算法处理和在上下文算法处理层404中进行的基于上下文的算法处理可以并行地进行,也可以先后进行。例如,可以先进行基于时序的算法处理的步骤,或者也可以先进行基于上下文的算法处理的步骤。这两个算法处理的次序在本技术中没有限制,可以根据实际情况来确定。
143.向量合并层405可以用于对所述第一结果和所述第二结果进行特征联合处理,以生成特征联合向量。
144.输出层406可以用于根据所述特征联合向量计算所述实体对象的评价结果。
145.在本技术实施例中,通过向量合并层405中的特征联合处理,可以将不同算法的结果统一起来,从而可以在输出层406中对这样的特征联合向量进行计算,所获的评价结果标识所述第一文本数据对于所述实体对象的评价倾向。
146.在本技术实施例中,评价倾向可以是各种评价分类为度的评价,例如,“好”和“坏”以及“中性”这样的评价,也可以是“喜欢”、“不喜欢”以及“中性”或者可以是上述评价中正向和负向评价的进一步维度的分类,例如,“特别好”和“好”、“特别坏”和“坏”以及“特别喜欢”和“喜欢”、“特别不喜欢”和“不喜欢”等等。在本技术中对此没有特别的限制。只要能够区分出第一文本数据对于实体对象的评价倾向即可。
147.因此,通过本技术实施例的方案,能够通过结合基于时序的算法处理和基于上下文的算法处理来对包含有实体对象的文本数据进行处理,获得了分别考虑了文本数据中词向量的时序的对于实体对象的评价特征向量以及文本数据中的各个词作为上下文的对于实体对象的评价特征向量,从而能够基于包含有这些信息的特征向量计算文本数据对于该实体对象的评价倾向,使得获得的评价倾向更加准确。
148.以上描述了文本处理装置的内部功能和结构,该装置可实现为一种电子设备。图5为根据本技术一个实施方式的电子设备的示意图。如图5所示,该电子设备包括存储器51和处理器52。
149.存储器51,用于存储程序。除上述程序之外,存储器51还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
150.存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
151.处理器52,不仅仅局限于中央处理器(cpu),还可能为图形处理器(gpu)、现场可编辑门阵列(fpga)、嵌入式神经网络处理器(npu)或人工智能(ai)芯片等处理芯片。处理器
52,与存储器51耦合,执行存储器51所存储的程序,该程序运行时执行上述任一的文本处理方法。
152.进一步,如图5所示,电子设备还可以包括:通信组件53、电源组件54、音频组件55、显示器56等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。
153.通信组件53被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如wifi,3g、4g或5g,或它们的组合。在一个示例性实施例中,通信组件53经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件53还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
154.电源组件54,为电子设备的各种组件提供电力。电源组件54可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
155.音频组件55被配置为输出和/或输入音频信号。例如,音频组件75包括一个麦克风(mic),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器51或经由通信组件53发送。在一些实施例中,音频组件55还包括一个扬声器,用于输出音频信号。
156.显示器56包括屏幕,其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
157.本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
158.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1