近义词挖掘方法、装置及电子设备与流程

文档序号：17360655发布日期：2019-04-09 22:02阅读：256来源：国知局

本申请涉及自然语言处理技术领域，具体涉及一种近义词挖掘方法、装置及电子设备。

背景技术：

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。近义概念挖掘是文本挖掘中一个重要的分支。近义概念挖掘是指发现与一个词或一段文本具有相近含义的词或文本的过程。

目前，一种常用的近义概念挖掘方法是基于词向量空间的近义概念挖掘方法，该方法将词向量空间分布视为语义空间分布，利用两个词向量之间的距离衡量两个对应词之间的相似度，即：两个词之间的词向量距离越近，则两个词的语义越相近。其中，词向量(Distributed Representation)是用来将语言中的词进行数学化的一种方式，词向量是一种低维实数向量，且包含词的语义信息。对一个词采用分布式表示的词向量进行表示，使得相似的词在词向量空间中的距离较近。

然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：由于在词向量空间中，不仅包括语义空间中大小，还包括语义空间的正反(极性、方向)，因此，仅依据词向量的距离对一个词在词向量空间进行近义挖掘时，会出现语义上相反的反义概念，例如“购买”通过词向量的距离会挖掘出来“出售”。

综上所述，现有技术存在近义词挖掘准确率较低的问题。

技术实现要素：

本发明实施例提供一种近义词挖掘方法、装置及电子设备，用以解决现有技术存在近义词挖掘准确率较低的问题。

第一方面，本发明实施例中提供了一种近义词挖掘方法，包括：获取待处理文本；获取所述文本的预设近义词；通过基于词向量的文档相似度算法，获取所述文本与各候选近义词之间的第一语义相似度；以及，通过所述文档相似度算法，获取所述预设近义词与所述候选近义词之间的第二语义相似度，所述候选近义词从预设词表中获取；根据所述第一语义相似度和所述第二语义相似度，确定所述文本的近义词。

结合第一方面，本发明在第一方面的第一种实现方式中，所述根据所述第一语义相似度和所述第二语义相似度，并确定所述文本的近义词，包括：根据第一选取规则和各候选近义词的所述第一语义相似度排名，对候选近义词进行选取，形成第一候选近义词集；以及，根据第二选取规则和各候选近义词的所述第二语义相似度排名，对候选近义词进行选取，形成第二候选近义词集；获取所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词；根据所述共同包括的候选近义词，确定所述近义词。

结合第一方面的第一种实现方式，本发明在第一方面的第二种实现方式中，所述根据所述共同包括的候选近义词，并确定所述近义词，包括：判断所述共同包括的候选近义词是否符合构词规则；若上述判断结果为是，则将符合所述构词规则的候选近义词作为所述近义词。

结合第一方面，本发明在第一方面的第三种实现方式中，所述根据所述第一语义相似度和所述第二语义相似度，并确定所述文本的近义词，包括：根据所述第一语义相似度和所述第二语义相似度、及预设权重，获取所述文本与所述候选近义词之间的第三语义相似度；根据第三选取规则和所述第三语义相似度对候选近义词进行选取；根据选取的候选近义词，确定所述近义词。

结合第一方面的第三种实现方式，本发明在第一方面的第四种实现方式中，所述第三语义相似度采用如下公式计算：Z＝α*X+(1-α)*Y，其中，X是所述第一语义相似度、Y是所述第二语义相似度，α是所述预设权重，α在0-1之间，Z是所述第三语义相似度。

结合第一方面的第三种实现方式或第一方面的第四种实现方式，本发明在第一方面的第五种实现方式中，所述根据选取的候选近义词，并确定所述近义词，包括：判断所述选取的候选近义词是否符合构词规则；若上述判断结果为是，则将符合所述构词规则的候选近义词作为所述近义词。

结合第一方面的第二种实现方式或第一方面的第五种实现方式，本发明在第一方面的第六种实现方式中，所述构词规则包括：所述候选近义词中包括所述文本中的字。

第二方面，本发明实施例提供了一种近义词挖掘装置，其包括用于执行上述方法设计中近义词挖掘装置行为相对应的模块。所述模块可以是软件和/或硬件。

第三方面，本发明实施例还提供了一种电子设备，其包括处理器和存储器，所述处理器其被配置为支持电子设备执行上述近义词挖掘方法中相应的功能。所述存储器用于与处理器耦合，其保存执行上述近义词挖掘方法必要的程序指令和数据。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第五方面，本发明实施例提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

相较于现有技术，本发明实施例提供的方案，通过获取所述文本的预设近义词；通过基于词向量的文档相似度算法，获取所述文本与候选近义词之间的第一语义相似度；以及，通过所述文档相似度算法，获取所述预设近义词与所述候选近义词之间的第二语义相似度；根据所述第一语义相似度和所述第二语义相似度，确定所述文本的近义词；这种处理方式，使得不仅待处理文本与候选近义词之间的词向量距离会对近义词挖掘结果产生影响，同时待处理文本的预设近义词与候选近义词之间的词向量距离也会对近义词挖掘结果产生影响，只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时，才会作为待处理文本的近义词；因此，可以有效提高近义词挖掘准确率。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

图1为本发明实施例提供的一种近义词挖掘方法的流程示意图；

图2为本发明实施例提供的一种近义词挖掘方法的第一具体流程示意图；

图3为本发明实施例提供的一种近义词挖掘方法的第二具体流程示意图；

图4为本发明实施例提供的一种近义词挖掘方法的第三具体流程示意图；

图5为本发明实施例提供的一种近义词挖掘方法的第四具体流程示意图；

图6为本发明实施例提供的一种近义词挖掘装置的结构示意图；

图7为本发明实施例提供的一种近义词挖掘装置的第一具体结构示意图；

图8为本发明实施例提供的一种近义词挖掘装置的第二具体结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图,对本发明的实施例中的技术方案做说明。

为了便于理解本发明实施例的技术方案，下面首先对方案的基本思想作简要说明。

本发明实施例提供的近义词挖掘方法，其基本思想是：不仅待处理文本与候选近义词之间的词向量距离会对近义词挖掘结果产生影响，同时待处理文本的预设近义词与候选近义词之间的词向量距离也会对近义词挖掘结果产生影响，只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时，才会作为待处理文本的近义词。因此，采用本发明实施例提供的近义词挖掘方法，可以有效提高近义词挖掘准确率。

下面结合图1，对本发明实施例提供的近义词挖掘方法进行详细说明。

在101部分，获取待处理文本。

从文本语言角度而言，所述待处理文本可以是各种语言的文本，例如中文文本或英文文本等。

在102部分，获取所述待处理文本的预设近义词。

所述预设近义词，可以是与所述文本具有相同或相近语义的近义词，是标准的近义词，所述预设近义词不包括与所述文本具有相反语义的词。具体实施时，可以通过人工设置方式设定所述预设近义词。

在103部分，通过基于词向量的文档相似度算法，获取所述文本与各候选近义词之间的第一语义相似度；以及，通过所述文档相似度算法，获取所述预设近义词与所述候选近义词之间的第二语义相似度。

本发明实施例提供的近义词挖掘方法，只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时，才会将其作为待处理文本的近义词。因此，在获取到待处理文本及其预设近义词后，首先需要通过基于词向量的文档相似度算法，分别获取所述文本与候选近义词之间的第一语义相似度、及所述预设近义词与所述候选近义词之间的第二语义相似度。

所述文本的候选近义词，可以包括预设词表中的所有词。所述候选近义词，还可以是从预设词表中筛选出的部分词，例如，可根据文本所属的业务领域(如金融领域，电商客服领域等)，从预设词表中筛选出该业务领域相关的部分词；这种处理方式，使得缩小候选近义词的检索范围；因此，可以有效提高挖掘速度。

所述第一语义相似度，可以是所述文本对应的词向量与候选近义词对应的词向量之间的距离。当所述文本与候选近义词之间的第一语义相似度较高时，由于词向量不仅具有大小，还具有正负方向，因此，候选近义词既可能是文本的近义词，也可能是文本的反义词。

相应的，所述第二语义相似度可以是所述预设近义词对应的词向量与候选近义词对应的词向量之间的距离。

由于基于词向量的文档相似度算法属于较为成熟的现有技术，因此，此处不在赘述。

在104部分，根据所述第一语义相似度和所述第二语义相似度，确定所述文本的近义词。

获取到所述第一语义相似度和所述第二语义相似度之后，就可以综合考虑这两个相似度值，并根据综合考虑结果，从候选近义词中选取一个或多个词作为文本的近义词。

具体实施时，可采用多种方式实现104部分，下面给出四种可用的具体实施方式，并分别对其实施方式进行说明。需要说明的是，104部分并不限于以下四种实施方式，也可以是任意可以根据所述第一语义相似度和所述第二语义相似度，确定所述文本的近义词的具体实施方式。

方式一、

请参见图2，其为本发明实施例提供近义词挖掘方法中104部分的第一种具体实施方式的流程图。在一个示例中，104部分可包括如下子部分：

在201部分中，根据第一选取规则和所述第一语义相似度对候选近义词进行选取，形成第一候选近义词集；以及，根据第二选取规则和所述第二语义相似度对候选近义词进行选取，形成第二候选近义词集。

所述第一选取规则，可以是选取语义相似度排在高位的候选近义词，如选取语义相似度最大的候选近义词；也可以是选取预设数量的语义相似度排在高位的候选近义词，如选取语义相似度排在前三位的候选近义词；还可以是选取高于阈值的语义相似度对应的候选近义词，如阈值为0.6，则将所有大于0.6的语义相似度对应的候选近义词作为近义词。

在一个示例中，所述第一选取规则为选取高于阈值的语义相似度对应的候选近义词。所属阈值可根据业务需求由人工根据经验确定。

所述第二选取规则可以与所述第一选取规则相同，也可以与所述第一选取规则不同。

当第一语义相似度满足所述第一选取规则时，将其对应的候选近义词选出，由这些候选近义词形成一个候选近义词集，即第一候选近义词集。相应的，当第二语义相似度满足所述第二选取规则时，将其对应的候选近义词选出，由这些候选近义词形成一个候选近义词集，即第二候选近义词集。

在202部分中，获取所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词。

如果一个候选近义词，既在所述第一候选近义词集内出现，又在所述第二候选近义词集内出现，则该候选近义词就是所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词。

在203部分中，将所述共同包括的候选近义词作为所述文本的近义词。

方式二、

请参见图3，其为本发明实施例提供近义词挖掘方法中104部分的第二种具体实施方式的流程图。在一个示例中，104部分可包括如下子部分：

在301部分中，根据第一选取规则和所述第一语义相似度对候选近义词进行选取，形成第一候选近义词集；以及，根据第二选取规则和所述第二语义相似度对候选近义词进行选取，形成第二候选近义词集。

301部分与上述201部分相同，此处不再赘述。

在302部分中，获取所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词。

302部分与上述202部分相同，此处不再赘述。

在303部分中，判断所述共同包括的各候选近义词是否符合构词规则，将符合所述构词规则的候选近义词作为所述近义词。

方式二是在方式一的基础之上，加了一个限制条件，即所述构词规则。利用构词规则可限定方式一的挖掘结果。采用这种处理方式，使得过滤掉不符合构词规则的候选近义词；因此，可以有效提高近义词挖掘结果的精准性和相关性。

所述构词规则，可包括以下规则的至少一项：1)所述候选近义词中包括所述文本中的字，例如，“提升”的近义词包括“提高”、“升高”等，近义词中均包括“提”或“升”；2)所述候选近义词中不包括所述文本及预设近义词的反义词中的字，例如，若“提升”的反义词包括“降低”，则“提升”的近义词中不包括“降”和/或“低”。

在一个示例中，构词规则为：候选近义词中包括待处理文本中的字、且不包括待处理文本的反义词中的字；所述判断所述共同包括的候选近义词是否符合构词规则的步骤，可采用如下方式：获取所述待处理文本及预设近义词的反义词，根据获取到的反义词判断所述共同包括的各候选近义词是否符合构词规则。以待处理文本“提升”为例，可先获取不包含“提”和“升”的反义词(如“降低”)，然后再根据该反义词判断所述共同包括的各候选近义词是否符合该构词规则，由此，可筛选出“提高”、“升高”等近义词，过滤掉包含“降”和/或“低”字的非近义词。采用这种处理方式，使得最终确定的近义词既不包括预设反义词中的字，又可包括待处理文本中出现的字；因此，可以有效提高近义词的准确率。

例如，用户输入待处理文本为：“购买”，分别采用现有技术、图2的技术方案、图3的技术方案进行近义词挖掘处理后，分别获得如下近义词挖掘结果：

现有技术下的挖掘结果：('出售',0.5741),('收购',0.5335),('置换',0.5225)

方式一的挖掘结果：('收购',0.5335),('置换',0.5225),('购置',0.5192)

方式二的挖掘结果：('收购',0.5335),('购置',0.5192),('购入',0.4935)

再例如，用户输入：用户输入待处理文本为：“为何”，分别采用现有技术、方式一、方式二进行近义词挖掘处理后，分别获得如下近义词挖掘结果：

现有技术下的挖掘结果：('为什么',0.6767),('为啥',0.5700),('难道',0.5635)

方式一的挖掘结果：('为什么',0.6767),('为啥',0.5700),('难道',0.5635)

方式二的挖掘结果：('为什么',0.6767),('为啥',0.5700),('缘何',0.4830)

在另一个示例中，在判断所述共同包括的各候选近义词是否符合构词规则之前，还包括如下步骤：1)获取所述待处理文本的词性；2)判断所述词性是否为动词或形容词；若是，则进入所述判断所述共同包括的各候选近义词是否符合构词规则的步骤。经大量实验表明，本发明实施例的技术方案，针对动词或形容词等词性的待处理文本，利用构词规则限定近义词的挖掘结果，可以有效保证近义词的准确率。

方式三、

请参见图4，其为本发明实施例提供近义词挖掘方法中104部分的第三种具体实施方式的流程图。在一个示例中，104部分可包括如下子部分：

在401部分中，根据所述第一语义相似度和所述第二语义相似度、及预设权重，获取所述文本与所述候选近义词之间的第三语义相似度。

在本实施方式中，文本与所述候选近义词之间的语义相似度，不仅取决于文本对应的词向量与所述候选近义词对应的词向量之间的距离，还取决于预设近义词对应的词向量与所述候选近义词对应的词向量之间的距离。

两个距离对第三语义相似度的影响力由预设权重决定。所述预设权重，可以由人工根据业务需求及经验确定。所述预设权重可设置在0至1之间。

在一个示例中，所述第三语义相似度采用如下公式计算：

Z＝α*X+(1-α)*Y

其中，X是所述第一语义相似度、Y是所述第二语义相似度，α是所述预设权重，α在0-1之间，Z是所述第三语义相似度。

在402部分中，根据第三选取规则和所述第三语义相似度对候选近义词进行选取。

所述第三选取规则，可以是选取第三语义相似度排在高位的候选近义词，也可以是选取预设数量的第三语义相似度排在高位的候选近义词，还可以是选取高于阈值的第三语义相似度对应的候选近义词。

在403部分中，将选取的候选近义词作为所述近义词。

方式四、

请参见图5，其为本发明实施例提供近义词挖掘方法中104部分的第四种具体实施方式的流程图。在一个示例中，104部分可包括如下子部分：

在501部分中，根据所述第一语义相似度和所述第二语义相似度、及预设权重，获取所述文本与所述候选近义词之间的第三语义相似度。

501部分与上述401部分相同，此处不再赘述。

在502部分中，根据第三选取规则和所述第三语义相似度对候选近义词进行选取。

502部分与上述402部分相同，此处不再赘述。

在503部分中，判断所述选取的各候选近义词是否符合构词规则，将符合所述构词规则的候选近义词作为所述近义词。

503部分与上述403部分相似，此处不再赘述。

从上述实施例可以看出，本发明实施例提供的方案，通过获取所述文本的预设近义词；通过基于词向量的文档相似度算法，获取所述文本与候选近义词之间的第一语义相似度；以及，通过所述文档相似度算法，获取所述预设近义词与所述候选近义词之间的第二语义相似度；根据所述第一语义相似度和所述第二语义相似度，确定所述文本的近义词；这种处理方式，使得不仅待处理文本与候选近义词之间的词向量距离会对近义词挖掘结果产生影响，同时待处理文本的预设近义词与候选近义词之间的词向量距离也会对近义词挖掘结果产生影响，只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时，才会作为待处理文本的近义词；因此，可以有效提高近义词挖掘准确率。

与本发明的一种近义词挖掘方法相对应，本发明还提供了一种近义词挖掘装置。

图6所示了上述实施例中所涉及的近义词挖掘装置涉及的结构示意图，所述文近义词挖掘装置包括：

文本获取单元601，用于获取待处理文本；

预设近义词获取单元602，用于获取所述文本的预设近义词；

语义相似度获取单元603，用于通过基于词向量的文档相似度算法，获取所述文本与各候选近义词之间的第一语义相似度；以及，通过所述文档相似度算法，获取所述预设近义词与所述候选近义词之间的第二语义相似度，所述候选近义词从预设词表中获取；

近义词确定单元604，用于根据所述第一语义相似度和所述第二语义相似度，确定所述文本的近义词。

图7所示了上述实施例中所涉及的近义词挖掘装置的第一具体结构示意图。可选的，所述近义词确定单元604包括：

候选近义词集获取子单元701，用于根据第一选取规则和各候选近义词的所述第一语义相似度排名，对候选近义词进行选取，形成第一候选近义词集；以及，根据第二选取规则和各候选近义词的所述第二语义相似度排名，对候选近义词进行选取，形成第二候选近义词集；

候选近义词获取子单元702，用于获取所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词；

第一近义词确定子单元703，用于根据所述共同包括的候选近义词，确定所述近义词。

可选的，所述第一近义词确定子单元

，具体用于获取所述待处理文本及预设近义词的反义词，根据获取到的反义词判断所述共同包括的候选近义词是否符合构词规则

，将符合所述构词规则的候选近义词作为所述近义词。

图8所示了上述实施例中所涉及的近义词挖掘装置的第二具体结构示意图。可选的，所述近义词确定单元604包括：

第三语义相似度获取子单元801，用于根据所述第一语义相似度和所述第二语义相似度、及预设权重，获取所述文本与所述候选近义词之间的第三语义相似度；

候选近义词选取子单元802，用于根据第三选取规则和所述第三语义相似度对候选近义词进行选取；

第三近义词确定子单元803，用于根据选取的候选近义词，确定所述近义词。

可选的，所述第三语义相似度采用如下公式计算：

Z＝α*X+(1-α)*Y

其中，X是所述第一语义相似度、Y是所述第二语义相似度，α是所述预设权重，α在0-1之间，Z是所述第三语义相似度。

可选的，所述第三近义词确定子单元

，具体用于获取所述待处理文本及预设近义词的反义词，根据获取到的反义词判断所述选取的候选近义词是否符合构词规则，将符合所述构词规则的候选近义词作为所述近义词。

可选的，所述构词规则包括：

所述候选近义词中包括所述文本中的字。

从上述实施例可以看出，本发明实施例提供的近义词挖掘装置，通过获取所述文本的预设近义词；通过基于词向量的文档相似度算法，获取所述文本与候选近义词之间的第一语义相似度；以及，通过所述文档相似度算法，获取所述预设近义词与所述候选近义词之间的第二语义相似度；根据所述第一语义相似度和所述第二语义相似度，确定所述文本的近义词；这种处理方式，使得不仅待处理文本与候选近义词之间的词向量距离会对近义词挖掘结果产生影响，同时待处理文本的预设近义词与候选近义词之间的词向量距离也会对近义词挖掘结果产生影响，只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时，才会作为待处理文本的近义词；因此，可以有效提高近义词挖掘准确率。

图9示出了本发明实施例提供的一种电子设备涉及的方框图。

所述电子设备包括处理器901和存储器902。处理器901执行图1至图5中近义词挖掘的处理过程和/或用于本申请所描述的技术的其他过程。存储器902用于存储近义词挖掘过程的程序代码和数据。

可选的，所述电子设备还可包括输入设备和/或显示器，其中，其中，输入设备用于输入包括待处理文本，显示器可用于显示该文本的近义词。

可选的，所述电子设备还可包括通信接口，通信接口用于实现所述设备与其他设备之间的通信。例如，当所述设备为RCS时，所述通信接口可以是用于实现RRS与RCS之间通信的通用公共无线电接口(common public radio interface，CPRI)。

可以理解的是，图9仅仅是电子设备的简化设计。可以理解的是，电子设备可以包含任意数量的处理器，存储器，输入设备，显示器，通信接口。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD)等。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于一种近义词挖掘装置的实施例而言，由于其基本相似于一种近义词挖掘方法实施例，所以描述的比较简单，相关之处参见一种近义词挖掘方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋宏飞;李健铨;晋耀红;杨凯程
技术所有人：北京神州泰岳软件股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。