文本相似度确定方法、装置、存储介质和电子设备与流程

文档序号：20875932发布日期：2020-05-26 16:31阅读：209来源：国知局

本公开涉及文本识别领域，具体地，涉及一种文本相似度确定方法、装置、存储介质和电子设备。

背景技术：

随着电子产品的智能化程度的不断提高，对文本进行自动识别和相似度比对的需求也越来越多。相关技术中，通常通过对两篇文本的用词的重合度进行比对，分析两篇文本的相似度。但是，用词复杂并且含义比较丰富的文章可能涵盖多个互相之间存在关联关系的领域。在这种情况下，用词的重合度并不能完全体现两篇文本的相似度，导致文本相似度分析的针对性不足，进而导致生成的文本相似度的精确度较低。

技术实现要素：

为克服相关技术中存在的问题，本公开的目的是提供一种文本相似度确定方法、装置、存储介质和电子设备。

为了实现上述目的，根据本公开实施例的第一方面，提供一种文本相似度确定方法，所述方法包括：

根据每个待测文本中的每个词语的词向量以及所述每个待测文本的词语数量，确定所述每个待测文本的文本向量；

根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量，确定所述每个待测文本的语义发散度；

根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度；

通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正，以获取两个所述待测文本之间的目标文本相似度，所述内容因子用于表征两个所述待测文本的文本内容对所述文本相似度的影响程度。

可选的，所述根据所述每个待测文本中每个词语的词向量以及所述词向量的数量，确定所述每个待测文本的文本向量，包括：

对所述每个待测文本进行词语切割，以获取所述每个待测文本中包含的多个词语和所述词语数量；

将每个所述词语转化为词向量；

获取所述多个词语的词向量的向量加和；

将所述向量加和除以所述词语数量的结果作为所述文本向量。

可选的，所述根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量，确定所述每个待测文本的语义发散度，包括：

计算所述每个词语的词向量与所述文本向量的余弦相似度；

获取所述多个词语的词向量对应的余弦相似度的相似度加和；

将所述相似度加和除以所述词语数量的结果作为所述语义发散度。

可选的，所述通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正，以获取两个所述待测文本之间的目标文本相似度，包括：

根据两个所述待测文本的语义发散度的差值和预设的阻尼指数，确定两个所述待测文本对应的发散度因子；

将所述发散度因子和所述内容因子作为预设的相似度系数算法的输入，以获取所述相似度系数算法输出的相似度系数；

将所述相似度系数与所述文本相似度的乘积作为所述目标文本相似度。

可选的，

若所述发散度因子大于预设阈值，所述相似度系数算法表示为：

penaltyterm＝(1+a)tanh(divergencefactor)；

若所述发散度因子小于或等于预设阈值，所述相似度系数算法表示为：

其中，所述penaltyterm为所述相似度系数，所述divergencefactor为所述发散度因子，所述a为所述内容因子。

可选的，所述根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度，包括：

将两个所述待测文本作为所述相似度评价模型的输入，以获取所述相似度评价模型输出的第一文本相似度作为所述文本相似度；或者，

通过预设的摘要提取模型，根据所述语义发散度确定每个所述待测文件的本文摘要；

将所述文本摘要作为所述相似度评价模型的输入，以将所述相似度评价模型输出的第二文本相似度作为所述文本相似度。

可选的，所述通过预设的摘要提取模型，根据所述语义发散度确定每个所述待测文件的本文摘要，包括：

根据所述待测文本的语义发散度、段落数量和句子数量，确定目标数量；

将所述句子数量作为所述摘要提取模型的参数，通过所述摘要提取模型确定所述待测文本的本文摘要，所述文本摘要的句子数量为所述目标数量。

根据本公开实施例的第二方面，提供一种文本相似度确定装置，所述装置包括：

向量确定模块，用于根据每个待测文本中的每个词语的词向量以及所述每个待测文本的词语数量，确定所述每个待测文本的文本向量；

发散度确定模块，用于根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量，确定所述每个待测文本的语义发散度；

相似度确定模块，用于根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度；

相似度修正模块，用于通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正，以获取两个所述待测文本之间的目标文本相似度，所述内容因子用于表征两个所述待测文本的文本内容对所述文本相似度的影响程度。

可选的，所述向量确定模块，用于：

对所述每个待测文本进行词语切割，以获取所述每个待测文本中包含的多个词语和所述词语数量；

将每个所述词语转化为词向量；

获取所述多个词语的词向量的向量加和；

将所述向量加和除以所述词语数量的结果作为所述文本向量。

可选的，所述发散度确定模块，用于：

计算所述每个词语的词向量与所述文本向量的余弦相似度；

获取所述多个词语的词向量对应的余弦相似度的相似度加和；

将所述相似度加和除以所述词语数量的结果作为所述语义发散度。

可选的，所述相似度修正模块，用于：

根据两个所述待测文本的语义发散度的差值和预设的阻尼指数，确定两个所述待测文本对应的发散度因子；

将所述发散度因子和所述内容因子作为预设的相似度系数算法的输入，以获取所述相似度系数算法输出的相似度系数；

将所述相似度系数与所述文本相似度的乘积作为所述目标文本相似度。

可选的，若所述发散度因子大于预设阈值，所述相似度系数算法表示为：

penaltyterm＝(1+a)tanh(divergencefactor)；

若所述发散度因子小于或等于预设阈值，所述相似度系数算法表示为：

其中，所述penaltyterm为所述相似度系数，所述divergencefactor为所述发散度因子，所述divergencefactor为所述发散度因子，所述a为所述内容因子。

可选的，所述相似度确定模块，用于：

将两个所述待测文本作为所述相似度评价模型的输入，以获取所述相似度评价模型输出的第一文本相似度作为所述文本相似度；或者，

通过预设的摘要提取模型，根据所述语义发散度确定每个所述待测文件的本文摘要；

将所述文本摘要作为所述相似度评价模型的输入，以将所述相似度评价模型输出的第二文本相似度作为所述文本相似度。

可选的，所述相似度确定模块，用于：

根据所述待测文本的语义发散度、段落数量和句子数量，确定目标数量；

将所述句子数量作为所述摘要提取模型的参数，通过所述摘要提取模型确定所述待测文本的本文摘要，所述文本摘要的句子数量为所述目标数量。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本公开实施例第一方面提供的文本相似度确定方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开实施例第一方面提供的文本相似度确定方法的步骤。

通过上述技术方案，本公开能够根据每个待测文本中的每个词语的词向量以及每个待测文本的词语数量，确定每个待测文本的文本向量；根据上述每个词语的词向量与该文本向量的相似度以及该词语数量，确定每个待测文本的语义发散度；根据预设的相似度评价模型确定上述两个待测文本之间的文本相似度；通过该语义发散度和预设的内容因子对该文本相似度进行修正，以获取上述两个待测文本之间的目标文本相似度，该内容因子用于表征上述两个待测文本的文本内容对该文本相似度的影响程度。能够根据结合文本内容所涵盖领域的广泛程度对两个文本的文本相似度进行修正，提高相似度分析的针对性和文本相似度的准确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种文本相似度确定方法的流程图；

图2是根据图1所示实施例示出的一种确定文本向量的方法的流程图；

图3是根据图1所示实施例示出的一种语义发散度确定方法的流程图；

图4是根据图1所示实施例示出的一种文本相似度修正方法的流程图；

图5是根据图1所示实施例示出的一种获取文本相似度的方法的流程图；

图6是根据一示例性实施例示出的一种文本相似度确定装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文本相似度确定方法的流程图，如图1所示，该方法包括：

步骤101，根据每个待测文本中的每个词语的词向量以及上述每个待测文本的词语数量，确定上述每个待测文本的文本向量。

示例地，在该步骤101中，可以首先通过预设的分词算法，例如，中文分词算法或n-gram分词算法对每个待测文本进行词语切割，获取该待测文本对应的多个词语。切割后的待测文本可以表示为：texti:[word1,word2,word3,word4,word5,....]，其中，texti为该待测文本，word1至word5为该待测文本中的第一个至第五个词语，并以此类推。之后，再通过wordembedding模型将每个词语转换为embedding词向量，并对所有词语的embedding词向量进行归一化处理，以获取该待测文本的文本向量。其中，将待测文本中的所有embedding词向量的和除以该词语数量，即为对embedding词向量进行归一化处理的过程，得到的结果即为该文本向量。

步骤102，根据上述每个词语的词向量与该文本向量的相似度以及该词语数量，确定上述每个待测文本的语义发散度。

其中，该语义发散度用于表征该待测文本的内容所涵盖的领域的广泛程度。具体地，如果一个待测文本只涉及某一个领域的相关内容，那么，该文本的语义发散度就很低，如果一个文本涉及多个领域的相关内容，那么该文本的语义发散度就较高。例如，文本1的内容为：由于某个知名运动员由于严重的伤病，导致无法参加某体育赛事，使他的粉丝到现场观看体育比赛的数量大量减少，导致该体育比赛举办地的旅游业和餐饮业的收入收到影响。文本2是该知名运动员参与的体育比赛的具体赛事报道。从语义上来讲，两个文本的核心内容都涉及该知名运动员，因此两个文本具备一定的关联，但是，文本2涉及的领域仅包括体育领域，而文本1除了体育领域之外还包含了医疗、旅游、经济等多个领域的内容。因此，可以认为文本1的语义发散度较高，而文本2的语义发散度较低。

示例地，可以计算该待测文本中的每一个词语对应的embedding词向量和该文本向量之间的余弦相似度，并在对每个该余弦相似度求和后做归一化处理，以得到该语义发散度。其中，将待测文本中的所有embedding词向量对应的余弦相似度的和除以该词语数量，即为对余弦相似度进行归一化处理的过程，得到的结果即为该语义发散度。可以理解的是，该语义发散度的数值与文本内容所涵盖的领域的广泛程度为正相关关系。该语义发散度实际为每个词向量(每个词语)和整个文本向量(整个待测文本)的相似度的平均值，用于表征每个词语和整个文本向量的相似度。若每个词语和整个文本向量的相似度都很高，说明整个待测文本涵盖的内容较为单一，反之，若每个词语和整个文本向量的相似度都较低，说明整个待测文本涵盖的内容较为广泛。

步骤103，根据预设的相似度评价模型确定两个待测文本之间的文本相似度。

示例地，在该步骤103中，可以采用现有的相似度评价模型确定两个待测文本之间的相似度，或者，可以通过上述的语义发散度分别提取两个待测文本的摘要，进而通过相似度评价模型对两个待测文本的摘要的相似度进行分析，以减少待测文本相似度分析的计算量。需要说明的是，在采用现有的相似度评价模型直接确定两个待测文本之间的相似度的情况下，可以不限制上述步骤101和102的语义发散度计算过程与该步骤103的执行顺序。在通过相似度评价模型对两个待测文本的摘要的相似度进行分析的情况下，由于摘要的提取过程涉及上述的语义发散度，因此，需要依照步骤编号的顺序依次执行上述步骤101、102和该步骤103。

步骤104，通过两个待测文本的语义发散度和预设的内容因子对该文本相似度进行修正，以获取两个待测文本之间的目标文本相似度。

其中，该内容因子用于表征上述两个待测文本的文本内容对该文本相似度的影响程度。

示例地，在上述步骤103之后，通过两个待测文本涉及的场景和语义发散度，对步骤103中确定的文本相似度进行修正(或称奖励和惩罚)。具体的，对该文本相似度进行修正的修正因子包括：发散度因子和内容因子。其中，该发散度因子可以通过两个待测文本的语义发散度计算获得，该内容因子可以根据两个待测文本所涉及的场景进行设定。例如，在医疗领域分析两篇病例的文本相似度时，该内容因子会被设定为1.5或者1.8。而在分析一般的互联网信息的文本相似度中，该内容因子通常可以被设定为1.2左右。在通过该发散度因子和内容因子的修正后获取到的目标文本相似度相对于上述步骤103中的文本相似度具备更高的准确度。

综上所述，本公开能够根据每个待测文本中的每个词语的词向量以及每个待测文本的词语数量，确定每个待测文本的文本向量；根据上述每个词语的词向量与该文本向量的相似度以及该词语数量，确定每个待测文本的语义发散度；根据预设的相似度评价模型确定上述两个待测文本之间的文本相似度；通过该语义发散度和预设的内容因子对该文本相似度进行修正，以获取上述两个待测文本之间的目标文本相似度，该内容因子用于表征上述两个待测文本的文本内容对该文本相似度的影响程度。能够根据结合文本内容所涵盖领域的广泛程度对两个文本的文本相似度进行修正，提高相似度分析的针对性和文本相似度的准确度。

图2是根据图1所示实施例示出的一种确定文本向量的方法的流程图，如图2所示，该步骤101可以包括：

步骤1011，对每个待测文本进行词语切割，以获取每个待测文本中包含的多个词语和该词语数量。

步骤1012，将每个词语转化为词向量。

步骤1013，获取上述多个词语的词向量的向量加和。

步骤1014，将该向量加和除以该词语数量的结果作为该文本向量。

示例地，该步骤1011-1014可以表示为一文本向量计算公式，通过该文本向量计算公式对该待测文本中的所有词语对应的embedding词向量进行求和并做归一化，以获取能够表达该待测文本的文本向量，其中，该文本向量计算公式可以表示为：

其中，为该待测文本的文本向量，为该待测文本中的任一词语对应的embedding词向量，|texti|为该待测文本中的词语数量。

图3是根据图1所示实施例示出的一种语义发散度确定方法的流程图，如图3所示，上述步骤102可以包括：

步骤1021，计算上述每个词语的词向量与该文本向量的余弦相似度。

步骤1022，获取上述多个词语的词向量对应的余弦相似度的相似度加和。

步骤1023，将该相似度加和除以该词语数量的结果作为该语义发散度。

示例地，该步骤1021-1023可以表示为一语义发散度计算公式，该语义发散度计算公式可以表示为：

其中，为该语义发散度，为该待测文本的文本向量，为该待测文本中的任一词语对应的embedding词向量，|texti|为该待测文本中词语的数量。另外，cossim(a，b)用于表示a与b的余弦相似度。

图4是根据图1所示实施例示出的一种文本相似度修正方法的流程图，如图4所示，上述步骤104可以包括：

步骤1041，根据两个待测文本的语义发散度的差值和预设的阻尼指数，确定上述两个待测文本对应的发散度因子。

示例地，该发散度因子为该阻尼指数与两个待测文本的语义发散度的差值的比值。该阻尼指数为两个待测文本的语义发散度相关的奖励/惩罚因子的评价基准。该阻尼指数为常数，通常被设定为0.15，用于避免随机选取的两个待测文本的语义发散度的差值无限趋近于0的情况。

步骤1042，将该发散度因子和该内容因子作为预设的相似度系数算法的输入，以获取该相似度系数算法输出的相似度系数。

其中，若该发散度因子大于预设阈值，该相似度系数算法表示为：

penaltyterm＝(1+a)tanh(divergencefactor)(3)；

若该发散度因子小于或等于预设阈值，该相似度系数算法表示为：

其中，penaltyterm为该相似度系数，divergencefactor为发散度因子，a为该内容因子。另外，其中的tanh()为正切值的计算符号，该预设阈值可以被设定为1。其中，若该发散度因子大于1，则需要对正常计算出的相似度施加一个奖励系数，上述公式(3)即为预先设定的奖励系数的计算公式，此时计算出的相似度系数大于1；若该发散度因子小于1，则需要对正常计算出的相似度施加一个惩罚系数，上述公式(4)即为预先设定的惩罚系数的计算公式，此时计算出的相似度系数小于1。

步骤1043，将该相似度系数与该文本相似度的乘积作为该目标文本相似度。

示例地，可以看出，若该相似度系数小于1，则认为该相似度系数为惩罚系数，此时，最终得到的目标文本相似度小于上述步骤103中计算出的文本相似度；若该相似度系数大于1，则认为该相似度系数为奖励系数，此时，最终得到的目标文本相似度大于上述步骤103中计算出的文本相似度。

图5是根据图1所示实施例示出的一种获取文本相似度的方法的流程图，如图5所示，上述步骤103可以包括：1031，或者，1032和1033。

步骤1031，将上述两个待测文本作为该相似度评价模型的输入，以获取该相似度评价模型输出的第一文本相似度作为该文本相似度。

步骤1032，通过预设的摘要提取模型，根据该语义发散度确定每个待测文本的本文摘要。

示例地，该步骤1032可以包括：通过预设的数量计算公式，根据该待测文本的语义发散度、段落数量和句子数量，确定目标数量；将该句子数量作为该摘要提取模型的参数，通过该摘要提取模型确定该待测文本的本文摘要，该文本摘要包含的句子数量为该目标数量。具体地，该数量计算公式可以表示为：

其中，sentancenum表示该目标数量，|text|表示上述的句子数量，|parargraphs|表示上述的段落数量，表示每个待测文本的语义发散度。通过该数量计算公式可以看出，该语义发散度越高，需要提取的文本摘要包含的句子数量就越多。在确定该文本摘要包含的句子数量(即该目标数量后)，可以通过该摘要提取模型对每个待测文本中的句子进行评分排序，进而选择排名靠前的该目标数量的句子组成该文本摘要。

步骤1033，将该文本摘要作为该相似度评价模型的输入，以将该相似度评价模型输出的第二文本相似度作为该文本相似度。

示例地，将该文本摘要输入该相似度评价模型，即可以得到两个待测文本的文本相似度。可以理解的是，若待测文本的文字数量很多，通过该相似度评价模型直接对两个待测文本进行相似度评价的计算量也会较大。因此，可以基于该语义发散度提取文本摘要(文字数量小于该待测文本)，以减小该相似度评价模型的计算量。同时，通过对上述步骤1023和1033进行测试分析，其结果表明：基于文本摘要提取的准确性，该文本摘要不会损失待测文本的语义信息，因此，在通过该文本摘要计算相似度时，不会降低计算结果的准确度。在本公开的一种实施例中，在步骤1032和1033之后，可以省略上述的步骤104中描述的修正过程，直接将该第二文本相似度作为上述的目标文本相似度。

在本公开的另一种实现方式中，上述的语义发散度还可以用于搜索引擎的页面排序中，具体地，可以在将多个文本导入搜索引擎时，可以把每个文本的语义发散度同时计算出来。若用户通过输入一个或多个关键字作为搜索种子词来搜索关联的相关文本时，可以认为用户想要查询的可能是语义发散度较低的内容。此时，可以将语义发散度作为惩罚/奖励系数，与搜索引擎针对每个搜索结果的搜索评分(该搜索评分用于表征文本相似度，该文本相似度为用户输入的关键词和搜索结果文本的相似度)相结合，进行搜索结果输出。该惩罚/奖励系数依然以上述的阻尼指数作为评价基准，通过该语义发散度进行计算，进而将计算出的惩罚/奖励系数和搜索评分的结果相乘获取新的搜索评分，并最终根据新的搜索评分对搜索结果进行排序和输出。

综上所述，本公开能够根据每个待测文本中的每个词语的词向量以及每个待测文本的词语数量，确定每个待测文本的文本向量；根据上述每个词语的词向量与该文本向量的相似度以及该词语数量，确定每个待测文本的语义发散度；根据预设的相似度评价模型确定上述两个待测文本之间的文本相似度；通过该语义发散度和预设的内容因子对该文本相似度进行修正，以获取上述两个待测文本之间的目标文本相似度，该内容因子用于表征上述两个待测文本的文本内容对该文本相似度的影响程度。能够根据结合文本的语义发散度和文本内容对两个文本的文本相似度进行修正，提高文本相似度获取过程的针对性和文本相似度的准确度。

图6是根据一示例性实施例示出的一种文本相似度确定装置的框图，如图6所示，该装置600包括：

向量确定模块610，用于根据每个待测文本中的每个词语的词向量以及每个待测文本的词语数量，确定每个待测文本的文本向量；

发散度确定模块620，用于根据上述每个词语的词向量与该文本向量的相似度以及该词语数量，确定每个待测文本的语义发散度；

相似度确定模块630，用于根据预设的相似度评价模型确定上述两个待测文本之间的文本相似度；

相似度修正模块640，用于通过两个待测文本的语义发散度和预设的内容因子对该文本相似度进行修正，以获取上述两个待测文本之间的目标文本相似度，该内容因子用于表征上述两个待测文本的文本内容对该文本相似度的影响程度。

可选的，该向量确定模块610，用于：

对每个待测文本进行词语切割，以获取每个待测文本中包含的多个词语和该词语数量；

将每个词语转化为词向量；

获取上述多个词语的词向量的向量加和；

将该向量加和除以该词语数量的结果作为该文本向量。

可选的，该发散度确定模块620，用于：

计算上述每个词语的词向量与该文本向量的余弦相似度；

获取上述多个词语的词向量对应的余弦相似度的相似度加和；

将该相似度加和除以该词语数量的结果作为该语义发散度。

可选的，该相似度修正模块640，用于：

根据上述两个待测文本的语义发散度的差值和预设的阻尼指数，确定上述两个待测文本对应的发散度因子；

将该发散度因子和该内容因子作为预设的相似度系数算法的输入，以获取该相似度系数算法输出的相似度系数；

将该相似度系数与该文本相似度的乘积作为该目标文本相似度。

可选的，若该发散度因子大于预设阈值，该相似度系数算法表示为：

penaltyterm＝(1+a)tanh(divergencefactor)；

若该发散度因子小于或等于预设阈值，该相似度系数算法表示为：

其中，该penaltyterm为该相似度系数，该divergencefactor为该发散度因子，该a为该内容因子。

可选的，该相似度确定模块630，用于：

将上述两个待测文本作为该相似度评价模型的输入，以获取该相似度评价模型输出的第一文本相似度作为该文本相似度；或者，

通过预设的摘要提取模型，根据该语义发散度确定每个待测文本的本文摘要；

将该文本摘要作为该相似度评价模型的输入，以将该相似度评价模型输出的第二文本相似度作为该文本相似度。

可选的，该相似度确定模块630，用于：

根据该待测文本的语义发散度、段落数量和句子数量，确定目标数量；

将该句子数量作为该摘要提取模型的参数，通过该摘要提取模型确定该待测文本的本文摘要，该文本摘要的句子数量为该目标数量。

综上所述，本公开能够根据每个待测文本中的每个词语的词向量以及每个待测文本的词语数量，确定每个待测文本的文本向量；根据上述每个词语的词向量与该文本向量的相似度以及该词语数量，确定每个待测文本的语义发散度；根据预设的相似度评价模型确定上述两个待测文本之间的文本相似度；通过该语义发散度和预设的内容因子对该文本相似度进行修正，以获取上述两个待测文本之间的目标文本相似度，该内容因子用于表征上述两个待测文本的文本内容对该文本相似度的影响程度。能够根据结合文本的语义发散度和文本内容对两个文本的文本相似度进行修正，提高文本相似度获取过程的针对性和文本相似度的准确度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702，多媒体组件703，输入/输出(i/o)接口704，以及通信组件705。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的文本相似度确定方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(staticrandomaccessmemory，简称sram)，电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory，简称eeprom)，可擦除可编程只读存储器(erasableprogrammableread-onlymemory，简称eprom)，可编程只读存储器(programmableread-onlymemory，简称prom)，只读存储器(read-onlymemory，简称rom)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。i/o接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如wi-fi，蓝牙，近场通信(nearfieldcommunication，简称nfc)，2g、3g或4g，或它们中的一种或几种的组合，因此相应的该通信组件705可以包括：wi-fi模块，蓝牙模块，nfc模块。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit，简称asic)、数字信号处理器(digitalsignalprocessor，简称dsp)、数字信号处理设备(digitalsignalprocessingdevice，简称dspd)、可编程逻辑器件(programmablelogicdevice，简称pld)、现场可编程门阵列(fieldprogrammablegatearray，简称fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文本相似度确定方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的文本相似度确定方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，本领域技术人员在考虑说明书及实践本公开后，容易想到本公开的其它实施方案，均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构，本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵耕弘;崔朝辉;赵立军;张霞
技术所有人：东软集团股份有限公司
我是此专利的发明人

上一篇：一种塑料制品回收用粉碎装置的制作方法
上一篇：一种防粘料的装载机用铲斗及装载机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。