一种检测行政区域名称表述错位的方法、设备及介质与流程

文档序号:34173442发布日期:2023-05-15 06:07阅读:60来源:国知局
一种检测行政区域名称表述错位的方法、设备及介质与流程

本发明涉及语义检测,特别是一种检测行政区域名称表述错位的方法、设备及介质。


背景技术:

1、行政区域名称表述错位是一种常见的文字错误形式,例如以下表述形式:“安徽省南京市”、“南京市雨花区”、“南京句容市”,这些都是将行政区域的隶属关系表述错位了;实际正确的表述应该是“江苏省南京市”,“南京市雨花台区”,“镇江市句容市”。

2、通常情况下解决方式包括:1、人工校对;2、使用通用的错别字校对软件校对;3、使用macbert、kenlm这样的自然语言预测模型进行预测分析。其中,方式1容易出现人工校对遗漏的问题,特别是在校对内容体量较大时,并且,人工校对耗费工作量较大成本较高。方式2是采用比较通用错别字的检测方案,但是检出率和正确率都不高;方式3的算法模型方法进一步改善了方式1和2的问题,但是仅适合数值计算体量较小的应用场景,适用范围较窄。

3、文献1:中国授权发明专利cn114168705b公开了一种基于地址要素索引的中文地址匹配方法,利用余弦相似度计算方法对地址匹配结果集合进行筛选和排序,从而获得最优的匹配结果和对应的地址空间位置坐标;但是余弦相似度计算是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量当向量空间的个体数量增多且计算量大,当有新地址名称加入时,就必须重新计算词的权值;不仅操作繁琐,而且影响匹配操作的稳定性,出现大量匹配报错的问题。


技术实现思路

1、本发明的目的在于提供一种检测行政区域名称表述错位的方法、设备及介质,利用双数组trie树,获得待检测文本中的行政区域名称,通过构建模型库,定义前缀匹配规则,将从待检测文本中得到的各行政区域相互之间的隶属关系输入到模型库中完成匹配。

2、实现本发明目的的技术解决方案为:

3、一种检测行政区域名称表述错位的方法,该方法包括:

4、构建模型库,获取样本行政区域文本,模型库包括若干个行政区域名称以及各行政区域相互之间正确的隶属关系;

5、提取待检测文本中的所有行政区域名称,并与模型库中的各行政区域相互之间正确的隶属关系进行匹配,得到检测结果。

6、进一步的,模型库的构建步骤为:

7、预置包括若干行政区域名称的行政区域字典,并按照各行政区域名称对应的行政区域等级定义前缀匹配规则;

8、从含有若干行政区域相互之间隶属关系表述的若干种样本语料中,获取所有行政区域名称以及行政区域相互之间的隶属关系,并计算每种行政区域相互之间的隶属关系出现的统计频率,当统计频率达到合格阈值时,确定当前行政区域名称相互之间的隶属关系为正确关系;

9、构建模型库,用于存储正确关系以及其对应的行政区域名称。

10、进一步的,行政区域字典采用双数组trie树,其中:将前缀匹配规则存入双数组trie树的叶子节点中,前缀匹配规则表示各行政区域相互之间的隶属关系的正则表达式。

11、进一步的,利用双数组trie树对每一种样本语料进行正向最大匹配,得到若干个行政区域名称,取出其对应的前缀匹配规则,同时获取其上下文;将得到的若干个行政区域名称及其对应的前缀匹配规则,应用到获取的上下文中,得到若干个行政区域相互之间的隶属关系并累计得到统计频率。

12、进一步的,检测结果的具体匹配流程为:

13、利用双数组trie树,获得待检测文本中的行政区域名称,并取出其对应的前缀匹配规则,同时获取其上下文;

14、将获得的行政区域名称及其对应的前缀匹配规则,应用到获取的上下文中,得到各行政区域相互之间的归属关系;

15、将各行政区域相互之间的隶属关系输入到模型库中进行匹配,若匹配失败,则检测结果为待检测文本的当前行政区域名称相互之间的隶属关系表述错位;反之,则检测结果为表述正常。

16、本发明还提供了一种检测行政区域名称表述错位的设备,该设备包括用于存储计算机程序的存储器,以及用于执行计算机程序时实现上述一种检测行政区域名称表述错位的方法的步骤的处理器。

17、本发明还提供了一种计算机可读存储介质,该计算可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述一种检测行政区域名称表述错位的方法的步骤。

18、本发明与现有技术相比,其显著优点是:

19、1、通过采用双数组trie树算法来检测文本,不需要人工校对,降低了人工成本的同时还提高检测效率。

20、2、支持多种样本语料存储、构建模型库,可应用于各大类型网站内容、新闻、媒体、国家机关等机构的文案中省(自治区)、市、区(县)表述错位的检测,同时,结合训练不同的样本语料能够实现优化模型库的目的,具有广泛的应用前景。



技术特征:

1.一种检测行政区域名称表述错位的方法,其特征在于:该方法包括:

2.根据权利要求1所述的一种检测行政区域名称表述错位的方法,其特征在于:所述模型库的构建步骤为:

3.根据权利要求2所述的一种检测行政区域名称表述错位的方法,其特征在于:所述行政区域字典采用双数组trie树,其中:将所述前缀匹配规则存入所述双数组trie树的叶子节点中,所述前缀匹配规则表示各行政区域相互之间的隶属关系的正则表达式。

4.根据权利要求3所述的一种检测行政区域名称表述错位的方法,其特征在于:

5.根据权利要求4所述的一种检测行政区域名称表述错位的方法,其特征在于:所述检测结果的具体匹配流程为:

6.一种检测行政区域名称表述错位的设备,其特征在于,包括:

7.一种计算机可读存储介质,其特征在于:所述计算可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种检测行政区域名称表述错位的方法的步骤。


技术总结
本发明涉及一种检测行政区域名称表述错位的方法、设备及介质,该方法包括构建模型库,获取样本行政区域文本,模型库包括若干个行政区域名称以及各行政区域相互之间正确的隶属关系;提取待检测文本中的所有行政区域名称,并与模型库中的各行政区域相互之间正确的隶属关系进行匹配,得到检测结果。本发明与现有技术相比,其显著优点是:通过采用双数组Trie树算法来检测文本,不需要人工校对,同时还提高了检测效率;支持多种样本语料存储、构建模型库,可应用于各大类型网站内容、新闻、媒体、国家机关等机构的文案中省(自治区)、市、区(县)表述错位的检测;同时,结合训练不同的样本语料能够实现优化模型库的目的,具有广泛的应用前景。

技术研发人员:冯立二,张发雨,王宁,党章,孟奥,杨正云,杜宇,袁扬
受保护的技术使用者:江苏省未来网络创新研究院
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1