一种基于聚类构建通用词库的方法、装置及电子设备与流程

文档序号:34643991发布日期:2023-06-29 17:34阅读:23来源:国知局
一种基于聚类构建通用词库的方法、装置及电子设备与流程

本技术涉及文本处理,具体而言,涉及一种基于聚类构建通用词库的方法、装置及电子设备。


背景技术:

1、相关部门主要使用公开招标的采购方式进行采购,公开招标具体是指采购人按照法定程序,通过发布招标公告,邀请所有潜在的不特定的供应商参加投标,采购人通过某种事先确定的标准,从所有投标供应商中择优评选出中标供应商,并与之签订相关部门采购合同的一种采购方式。

2、相关部门在通过招标进行采购时,根据采购要求提供招标文件,并向供应商展示招标文件,供应商则根据招标文件的内容选择是否参加投标。

3、实际中,招标文件中内容很可能违反一些相关参考规则文件,现有技术都是专门由核验人员对招标文件的内容进行核查,具体核查方式就是人工从相关参考规则文件中找出关键词,并记录成文件,然后将根据记录文件对招标文件进行检查,若招标文件中包括记录文件中的关键词,则对招标文件的相关部分进行标记,并反馈修改招标文件。上述人工形成记录文件的方式,一是人工对相关参考规则文件不熟悉,很可能遗漏检测内容,二是人工效率低,且难以保证全面性。


技术实现思路

1、有鉴于此,本技术提供了一种基于聚类构建通用词库的方法、装置及电子设备,通过处理并定位大量招标文本中的有效区间段落文本,并将有效区间段落文本中的语句进行聚类,构建通用词库,以便于基于该通用词库进行待发布招标文件的违规检测,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现漏检的问题,二是提高了检测效率。

2、第一方面,本技术实施例提供了一种基于聚类构建通用词库的方法,所述方法包括:

3、爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签;

4、针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本;

5、根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系;

6、将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。

7、在一种可能的实施方式中,所述针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本,包括:

8、针对每一所述招标文本,根据该招标文本对应的格式标签,确定每个段落信息;每个段落信息包括一组标签和该组标签对应的段落内容;每组标签包括一个或多个格式标签;

9、将每个段落信息中的段落内容确定为该招标文本的每一段文本。

10、在一种可能的实施方式中,所述根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本,包括:

11、根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;

12、遍历所述多段文本,确定具有指定关键词的第一段落文本;

13、根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;

14、根据所述第一段落文本和所述第二段落文本,确定该招标文本的有效区间段落文本。

15、在一种可能的实施方式中,所述根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,包括:

16、针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中的位于第一或者第二的字符位置以及该数字的后一个字符是指定字符;

17、从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字;

18、根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。

19、在一种可能的实施方式中,所述根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,包括:

20、获取所述第一段落文本的第一段落编码,并查找包括所述第一段落编码的第一组段落编码;所述第一组段落编码对应的多段文本为同一层级;

21、如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中不是最后一个位置,则确定所述第一组段落编码中所述第一段落编码与其后一个第二段落编码之间的段落文本为第二段落文本;

22、如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中是最后一个位置,则确定该同一层级上一层级的第二组段落编码,从所述第二组段落编码中确定该第一段落编码所属的第一上级段落编码,并确定所述第一上级段落编码后一个的第二上级段落编码,将所述第一段落编码和所述第二上级段落编码之间的段落文本确定为第二段落文本;

23、如果该同一层级没有上一层级的第二组段落编码,则查询该同一层级的下属一层级的第三组段落编码,并确定所述第三组段落编码中最后一个位置的第三段落编码,继续确定该第三段落编码的下属一层级的第三组段落编码,返回确定所述第三组段落编码中最后一个位置的第三段落编码的步骤,直至确定没有下属一层级的第三段落编码,将所述第一段落编码和没有下属一层级的第三段落编码之间的段落文本确定为第二段落文本。

24、在一种可能的实施方式中,所述将多个招标文本的有效区间段落文本中的语句进行聚类,包括:

25、针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句;

26、计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类。

27、在一种可能的实施方式中,所述针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句,包括:

28、针对每一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句;

29、从所述多个候选语句中选取包含汉字长度大于第二设定阈值的第一语句;

30、删除所述第一语句中的空格和指定异常符号,得到第二语句;

31、删除所述第二语句中的序号,得到该有效区间段落文本的多个有效语句。

32、在一种可能的实施方式中,所述计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类,包括:

33、选取一招标文本作为参考招标文本,将所述参考招标文本的每一有效语句分别与当前轮其他招标文本的每一有效语句计算相似度,并将相似度满足第一设定阈值的有效语句聚类;所述其他招标文件为除被选为参考招标文本的招标文本;

34、从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本,确定所述新的参考招标文本的每一目标有效语句和当前轮其他招标文本中的每一目标有效语句;将新的参考招标文本的每一目标有效语句分别与当前轮其他招标文本中的每一目标有效语句计算相似度,并将相似度满足第一设定阈值的目标有效语句聚类;其中,不同轮的所述其他招标文件不同,所述目标有效语句是未聚类成功的有效语句;

35、返回从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本的步骤,直至不存在剩余招标文本。

36、第二方面,本技术实施例还提供了一种基于聚类构建通用词库的装置,所述装置包括:

37、爬取模块,用于爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签;

38、分割模块,用于针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本;

39、确定模块,用于根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系;

40、聚类模块,用于将多个招标文本的有效区间段落文本中的语句进行聚类;

41、提取模块,用于提取每一类文本中不符合参考规则的通用关键词,构建通用词库。

42、第三方面,本技术实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面任一项所述的基于聚类构建通用词库的方法的步骤。

43、第四方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一项所述的基于聚类构建通用词库的方法的步骤。

44、本技术实施例提供的上述基于聚类构建通用词库的方法、装置及电子设备,通过爬取包括招标文本和表征文本格式的格式标签的多个招标文本数据,并以格式标签为分隔符将该招标文本分割为多段文本,然后,根据多段文本中基础序号的关联分布特征以及指定关键词,从多段文本中确定该招标文本中的有效区间段落文本;最后,将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。在上述过程中,通过构建通用词库为待发布招标文件的违规检测提供基础,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现遗漏检测的问题,二是提高了检测效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1