一种文本内容相似度的识别方法及装置与流程

文档序号：35826713发布日期：2023-10-22 11:55阅读：46来源：国知局

本申请涉及计算机，尤其涉及一种文本内容相似度的识别方法及装置。

背景技术：

1、在数字产业全面发展的时代，各行各业都在积极部署行业数字化、信息化，寻求新的机遇和商机。为了从海量的招投标项目中识别出符合企业发展需求的项目，目前一般采用匹配关键词的方式实现。企业会根据自身需求设置一系列的关键词，比如当企业寻求网络安全类合作项目时，可以设置漏洞识别、网络管理等关键词。进一步地，企业可以将项目标书文件中的项目文本段落提取出，确定提取出的文本段落中包括的预设关键词的数量，从而确定项目是否符合企业需求。但是由于项目标书文件的撰写方式并不统一，描述用词也是千变万化，因此现有的关键词匹配的识别方式准确性较低。

技术实现思路

1、本申请提供一种文本内容相似度的识别方法及装置，用以提升从海量的项目文本中识别出企业所需要的项目文本的准确性和效率。

2、第一方面，本申请提出了一种文本内容相似度的识别方法，包括：

3、获取待识别的文本；

4、确定所述文本中每个词语的权重分值，以及确定所述每个词语对应词向量；其中，任一词语的权重分值用于表征所述任一词语在所述文本中的重要程度；所述任一词语的权重分值是根据所述任一词语在所述文本中出现的频次、所述任一词语的前一个词语在所述文本中出现的频次、所述任一词语的后一个词语在所述文本中出现的频次确定的；

5、结合所述每个词语的权重分值和词向量，确定所述文本的语句向量；

6、根据所述语句向量和预先存储的目标文本的语句向量之间的距离，确定所述待识别文本与所述目标文本之间的相似度。

7、在一些实施例中，确定所述文本中任一词语的权重分值，包括：

8、确定所述任一词语与所述任一词语的前一个词语在所述文本中组合出现的第一频次，以及确定所述任一词语与所述任一词语的后一各词语在所述文本中组合出现的第二频次；

9、根据所述第一频次、所述第二频次以及所述任一词语、所述任一词语的前一个词语、所述任一词语的后一各词语分别在所述文本中出现的频次，确定所述任一词语的权重分值。

10、在一些实施例中，所述确定所述任一词语对应词向量，包括：

11、确定所述文本中所述任一词语所属的语句；

12、将所述任一词语所属的语句包括的多个词语分别进行编码，得到所述多个词语分别对应的编码向量；

13、将所述多个词语中除所述任一词语之外的词语的编码向量输入到所述预先训练好的词向量模型中，得到所述任一词语的词向量。

14、在一些实施例中，所述结合所述每个词语的权重分值和词向量，确定所述文本的语句向量，包括：

15、将权重分值小于设定阈值的词语删除，剩余至少一个关键词；

16、以每个关键词的权重分值作为所述每个关键词的权重，计算至少一个关键词分别对应的词向量的加权和；

17、将所述加权和作为所述文本的语句向量。

18、第二方面，本申请提出了一种文本内容相似度的识别装置，所述装置包括：

19、获取单元，用于获取待识别的文本；

20、处理单元，被配置为执行：

21、确定所述文本中每个词语的权重分值，以及确定所述每个词语对应词向量；其中，任一词语的权重分值用于表征所述任一词语在所述文本中的重要程度；所述任一词语的权重分值是根据所述任一词语在所述文本中出现的频次、所述任一词语的前一个词语在所述文本中出现的频次、所述任一词语的后一个词语在所述文本中出现的频次确定的；

22、结合所述每个词语的权重分值和词向量，确定所述文本的语句向量；

23、根据所述语句向量和预先存储的目标文本的语句向量之间的距离，确定所述待识别文本与所述目标文本之间的相似度。

24、在一些实施例中，所述处理单元，具体用于：

25、确定所述任一词语与所述任一词语的前一个词语在所述文本中组合出现的第一频次，以及确定所述任一词语与所述任一词语的后一各词语在所述文本中组合出现的第二频次；

26、根据所述第一频次、所述第二频次以及所述任一词语、所述任一词语的前一个词语、所述任一词语的后一各词语分别在所述文本中出现的频次，确定所述任一词语的权重分值。

27、在一些实施例中，所述处理单元，具体用于：

28、确定所述文本中所述任一词语所属的语句；

29、将所述任一词语所属的语句包括的多个词语分别进行编码，得到所述多个词语分别对应的编码向量；

30、将所述多个词语中除所述任一词语之外的词语的编码向量输入到所述预先训练好的词向量模型中，得到所述任一词语的词向量。

31、在一些实施例中，所述处理单元，具体用于：

32、将权重分值小于设定阈值的词语删除，剩余至少一个关键词；

33、以每个关键词的权重分值作为所述每个关键词的权重，计算至少一个关键词分别对应的词向量的加权和；

34、将所述加权和作为所述文本的语句向量。

35、第三方面，提供了一种电子设备，所述电子设备包括控制器和存储器。存储器用于存储计算机执行指令，控制器执行存储器中的计算机执行指令以利用控制器中的硬件资源执行第一方面任一种可能实现的方法的操作步骤。

36、第四方面，提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

37、基于上述方案，本申请提出根据项目文本包括的词语所处的语句环境，确定各个词语的权重分值以及转化得到词向量，结合词语的权重分值和词向量确定用于表征待识别项目文本内容的语句向量，从而根据语句向量与目标文本的语句向量之间的距离确定待识别项目文本与目标文本之间的相似度。本申请提出通过计算待识别的项目文本内容与已经确定为企业需求的目标项目文本内容的相似度，确定待识别的项目是否为企业所需求的项目。相较于传统技术中通过关键词匹配或者语义模型的方式判断项目是否为企业所需要的项目的方式，本申请的方案能够有效提升识别项目的准确率和效率，可以从海量招投标项目中准确且快速地识别出企业所需要的项目。

技术特征：

1.一种文本内容相似度的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，确定所述文本中任一词语的权重分值，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述任一词语对应词向量，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述结合所述每个词语的权重分值和词向量，确定所述文本的语句向量，包括：

5.一种文本内容相似度的识别装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述处理单元，具体用于：

7.根据权利要求5或6所述的装置，其特征在于，所述处理单元，具体用于：

8.根据权利要求5或6所述的装置，其特征在于，所述处理单元，具体用于：

9.一种电子设备，其特征在于，包括：存储器以及控制器；

10.一种计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1-4中任一权利要求所述的方法。

技术总结
本申请公开了一种文本内容相似度的识别方法及装置，用以提升从大量项目文本中识别企业所需文本的效率和准确率。该方法包括：获取待识别的文本；确定文本中每个词语的权重分值，以及确定每个词语对应词向量；其中，任一词语的权重分值用于表征任一词语在文本中的重要程度；任一词语的权重分值是根据任一词语在文本中出现的频次、任一词语的前一个词语在文本中出现的频次、任一词语的后一个词语在文本中出现的频次确定的；结合每个词语的权重分值和词向量，确定文本的语句向量；根据语句向量和预先存储的目标文本的语句向量之间的距离，确定待识别文本与目标文本之间的相似度。

技术研发人员：裴迎栋,徐建华,左芳芳,邓丽华,李国钦
受保护的技术使用者：中国电信股份有限公司技术创新中心
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：裴迎栋徐建华左芳芳邓丽华李国钦
技术所有人：中国电信股份有限公司
我是此专利的发明人

上一篇：一种车牌识别方法、系统、电子设备及存储介质与流程
上一篇：数据处理方法、装置及相关设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。