一种行政职位、职级姓名纠错方法和系统与流程

文档序号:28695481发布日期:2022-01-29 12:17阅读:190来源:国知局
一种行政职位、职级姓名纠错方法和系统与流程

1.本发明涉及互联网媒体技术领域,特别涉及一种行政职位、职级姓名纠错方法和系统。


背景技术:

2.行政人员姓名的正确书写在新闻和媒体报道中至关重要,但相关报道人员在稿件的书写中难免会由于工作失误把某些行政人员的姓名写错或者把正确的行政职位与错误的行政人员姓名搭配起来,导致报道的真实性和权威性遭到质疑。并且人工很难在长篇幅的报道中快速把错误的行政人员姓名找出来。如何快速且准确的定位到错误行政人员的位置并给出正确的提示,帮助稿件书写人员纠正书写以及搭配错误,成为现阶段文本纠错研究的重点。相关的研究人员也给出了一些思路和方法。
3.现有的方案中,一种方法是针对某地行政人员进行单独维护,主要的做法是统计当地行政人员的机构信息,做成机构+姓名的键值对,并保存在一张数据表里,通过命名实体识别将待检测文本中的人名和机构识别出来,并且将机构和人名进行随机组合,若组合后的机构命中了表里的键名(机构),并且人名与数据表键名对应的值(姓名)相似但不完全相同(三字人名中有两字相同),则认为行政人员姓名书写错误,返回正确的行政人员姓名,反之则不进行纠错。
4.另一种方法是从相关权威网站上获取所有行政职位唯一的行政人员(该职位下行政人员数量为1),例如:北京市市长:张三、上海市市长:李四、广州市市长:王二等,做成行政职位+姓名的键值对,保存在一张数据表里,然后通过命名实体识别将待检测文本中的人名识别出来,若识别出来的人名前面出现触发词—键名(北京市市长),且人名与表里键名对应的值(姓名)不一致,则认为行政人员姓名书写错误,返回正确的行政人员姓名,反之则不进行纠错。
5.上述现有技术存在如下技术问题:针对某地行政人员进行单独维护的方法虽然准召率较高,但仅能保障到当地的部分行政人员,并且只适用于三字行政人员错一字的情况(行政职位一样的情况下三字姓名中有两字相同通常认为是书写错误),局限性较多,实际应用场景体验较差,未能达到用户需求,而针对行政职位唯一进行判断的方法虽然克服了地域限制,对行政人员姓名的长度也不加限制(二三字行政人员均可识别)。但仅能维护到特定职位的行政人员,对于副职的情况无法覆盖。
6.另外上述两种方案均没有考虑职位与行政人员姓名不能做到精确匹配的问题,待检测文本中可能会出现多个人名,多个地点,多个机构和多个职位,如何找到每个行政人员对应的正确的机构和职位是行政人员姓名纠错的重点和难点,并且待检测文本中出现的机构可能是简称,(人民代表大会简称“人大”),需要把所有简称映射为全称,有些国家级机构不包含地点,需要对这些机构做特殊处理。数据的实时更新也是影响行政人员姓名纠错的关键因素,因此要想第一时间获取到最新的行政人员职位变动信息,需要把获取行政人员职位信息的链路自动化,每天定时更新。才能保证行政人员姓名纠错的准确性。


技术实现要素:

7.本发明其中一个目的在于提供一种行政职位、职级姓名纠错方法和系统,所述方法和系统通过建立职位、职级简称和全称的映射表,并根据映射表的全程和对应行政人员建立键值对,通过键值对匹配的方式将进行对应行政人员姓名的纠错。
8.本发明其中一个目的在于提供一种行政职位、职级姓名纠错方法和系统,所述方法和系统根据行政人员姓名最接近的行政职位和职级进行查找和匹配,从而可以提高就纠错的准确性。
9.本发明其中一个目的在于提供一种行政职位、职级姓名纠错方法和系统,所述方法和系统根据行政职位和行政人员距离最近的地点进行匹配,构建各级行政人员和行政职位的匹配表,从而可以实现不同行政地域的广泛覆盖。
10.为了实现至少一个上述发明目的,本发明进一步提供一种行政职位、职级姓名纠错方法:
11.获取新闻文本数据,识别新闻文本数据中所有的人名和地名,检索目标人名;
12.根据所述人名按句切割所述新闻文本数据,查找包含目标人名的句子中出现的机构和职位信息;
13.根据行政级别建立机构简称和机构全称的映射表;
14.建立包含标准的行政地点、行政机构和行政职位为键名,以对应行政人员姓名为键值的键值对;
15.获取目标人名对应的行政地点、行政机构和行政职位作为目标键名查找所述键值对,获取所述键名对应键值的行政人员姓名和目标人名对比,若不相同则执行纠错。
16.根据本发明其中一个较佳实施例,按人名切割所述新闻文本数据的方法还包括:遍历所有包含目标人名的句子,并识别所述包含目标人名的句子中是否包含其他人名,若包含则进一步执行对该句子按其他人名进行切割,直到句子只包含该目标人名。
17.根据本发明另一个较佳实施例,所述纠错方法包括:遍历所有包含所述目标人名的句子,并查找所述句子中首次出现的机构信息,用于键名数据的组建。
18.根据本发明另一个较佳实施例,当包含所述目标人名句子的机构信息为简称时,通过所述机构简称和机构全称的映射表查找到对应的机构全称,所述机构全称用于键名的组建。
19.根据本发明另一个较佳实施例,获取所述机构信息后,根据所述机构信息查找包含所述目标人名的句子在所述机构信息下的职位名称,若包含所述目标人名句子包含多个职位,则选取最接近所述目标人名的机构下距离最近的职位作为目标人名的职位组建键名。
20.根据本发明另一个较佳实施例,在完成所述目标人名对应的机构和职位识别后,则查找包含该目标人名句子的机构和职位对应的地点信息,若所述包含目标人名句子中不存在地点信息,则从新闻文本数据全文中查找距离所述目标人名最近的地点信息用于键名的组建。
21.根据本发明另一个较佳实施例,在完成所述目标人名对应的机构和职位识别后,则查找包含该目标人名句子的机构和职位对应的地点信息,判断该地点信息对应的行政级别,其中根据所述目标人名对应机构的行政级别判断该地点的行政级别,并生成目标地点
用于键名的组建。
22.根据本发明另一个较佳实施例,获取目标人名对应的机构名称、职位和地点作为键名和所述键值对列表进行匹配,若所述键名所对应的键值和当前目标人名不相同,则返回键值对应的人名。
23.根据本发明另一个较佳实施例,若所述键名所对应的键值中包含多个人名,且不包含当前的目标人名,则将目标人名和键值中的人名进行匹配,查找到至少一个字相同的人名返回,并同时返回查找到人名对应的机构和职位。
24.根据本发明另一个较佳实施例,若所述键名所对应的键值中包含多个人名,且不包含当前的目标人名,同时键值中任意一个名字的字均和所述目标人名不同,则将所述键值中所有人名返回,同时返回对应人名的机构和职位。
25.为了实现至少一个上述发明目的,本发明进一步提供一种行政职位、职级姓名纠错系统,所述纠错系统执行上述一种行政职位、职级姓名纠错方法。
26.本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被处理器执行上述一种行政职位、职级姓名纠错方法。
附图说明
27.图1显示的是本发明一种行政职位、职级姓名纠错方法的一种流程示意图。
28.图2显示的是本发明一种行政职位、职级姓名纠错方法中机构简称和机构全称的映射表。
29.图3显示的是本发明一种行政职位、职级姓名纠错方法的具体流程示意图。
具体实施方式
30.以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
31.可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
32.请结合图1-图3,本发明公开了一种一种行政职位、职级姓名纠错方法和系统,其中所述方法主要包括如下步骤:首先需要获取新闻文本数据,对所述新闻文本数据进行数据预处理,其中所述数据预处理的操作包括:去除所述新闻文本数据中的包括但不仅限于换行符、空格等杂质数据,去除文本中杂质数据后可以提高检测识别的成功率。进一步识别并去除包括但不仅限于免去、辞去、开除、不再担任等用于表示目标人名不在当前职位的特殊词对应的句子。由于目标人名在免去、辞去、开除、不再担任后,目标人名在对应行政机构的官网上将会删除对应的介绍,因此无需对该目标人名进行检测。
33.进一步的,采用ner(named entity recognition)命名实体识别经过数据预处理的新闻文本数据,其中所述ner命名实体识别所有在所述新闻文本数据中出现过的人名和地名,进一步根据识别的人名将所述新闻文本数据进行切割,所述切割方法包括:以句号或
逗号按句将识别的新闻文本数据进行切割,获取包含目标人名的所有句子。其中由于一个句子中可能包含多个人名,因此需要通过所述ner命名实体识别非目标人名的人名,并进一步根据非目标人名再次进行句子切割,使得最后所述目标人名所在的句子只包含所述目标人名。上述通过对目标人名句子的切割可以避免其他行政人员人名和职位职级信息造成影响。举例来说:新闻文本数据为:会议上,北京市委常委、副书记张三发表讲话并对李四局长的工作高度赞赏。将文本切割为“北京市委常委、副书记张三发表讲话并对”。
34.值得一提的是,在完成针对目标人名句子的切割后,进一步采用所述ner命名实体识别所有机构信息,其中针对所述目标人名需要查找包含所述目标人名切割句子的机构信息,若当前包含述目标人名切割后句子存在唯一的机构信息,则将该唯一的机构信息作为所述目标人名所在的机构信息,若当前包含所述目标人名切割后句子不存在机构信息或者在所述目标人名切割后句子中存在多个机构信息,或者在所述新闻文本数据全文中存在多个机构信息,则遍历所有切割后句子查找机构信息,并计算所有查找到的机构信息和所述目标人名之间的距离,若未找到机构信息,则不进行纠错,其中所述距离的计算方法包括:计算目标人名和所述机构信息之间的字符数,所述字符数表示为所述目标人名和所述机构信息之间的距离。本发明将所述目标人名和所述机构信息之间的字符数最小的机构名称作为所述目标人名所在的机构信息,将所述机构信息保存用于构建键名。当获取所述目标人名对应的机构名称后,进一步获取对应机构名称下的职位信息,所述职位信息获取方法如下:查找切割后句子中所述目标人名对应机构名称下的职位信息,若存在唯一的职位信息,则将该唯一的职位信息作为所述目标人名对应的职位信息。若所述切割后句子中所述目标人名对应机构名称下存在多个职位信息,或者不存在职位信息且在所述新闻文本数据中存在多个职位信息,则查找和所述目标人名对应机构距离最接近的职位信息,将所述最接近的职位信息保存用于键名的组建,若未找到职位信息。则不进行纠错。
35.在完成对所述目标人名对应的机构和职位的查询确定后,进一步查找包含述目标人名切割后句子中对应的机构和职位是否存在地点信息,若存在所述地点信息,则将所述地点信息保存,和之前查找获取的机构信息、职位信息和地点信息一同构建完整的键名。若所述包含述目标人名切割后句子中对应的机构和职位不包含地点信息,则在预处理后的新闻文本数据全文中查找所有的地点信息,并计算所述地点信息和目标人名对应的机构信息或职位信息最接近的地点信息作为所述目标人名的地点信息。值得一提的是,在本发明一个优选实施例中,在完成所述地点信息的距离判断后,需要判断地点信息对应的行政级别,其中所述行政级别包括但不仅限于省级和市级,所述地点的行政级别判断方法包括:获取所述机构或职位对应的行政级别,若所述机构或职位对应的行政级别为省级,则地点信息从省级地点中提取,若所述机构或职位对应的行政级别为市级,则所述地点信息则从市级地点中提取,由于所述地点信息是在所述机构和职位之前获取,因此地点信息根据所述机构和职位信息进行提取可以有效地避免地点和机构不匹配的问题。举例来说:新闻文本数据为“xx省政府省长yy来到zz市发表重要讲话”,在上述目标人名为yy,而目标人名对应的机构和职位分别为省政府和省长,根据所述机构和职位可以判断为省级地点,在上述文本中存在一个省级地点xx和一个市级地点zz,本发明根据地名信息的选取规则选取和所述机构职位匹配的省级地点xx作为目标人名yy的地点信息,在本发明另一可行实施例中,所述机构和职位可能是国家机构,比如:国家发改委、教育部等,在获取所述机构和职位名称后
无需对地点信息进行提取。
36.需要说明的是,本发明需要预先通过爬虫技术在各级政府机构爬取公开的行政人员姓名、所在机构、地点和职位信息等,以所在机构、地点和职位信息作为键名,并以对应的所述行政人员姓名作为键值建立键值对列表,所述键值对列表可以覆盖不同地域和职级的机构,因此具有广泛的适用性。
37.由于部分新闻稿件可能的文本存在对机构的简称描述,因此本发明进一步建立机构简称和结构全称的映射表,当查找到的机构信息为机构简称,则通过所述机构简称和结构全称的映射表提取对应的机构全称,所述机构全称用于构建键名。且预先构建的键值对列表中的机构皆为机构全称,从而使得查找纠错更加准确。本发明进一步还建立职位简称和职位全称的映射表,当查找到的职位信息为职位简称时,通过所述职位简称和职位全称的映射表中提取对应的职位全称,所述职位全称用于构建标准的键名。
38.在获取新闻文本数据并构建标准键名后,通过所述键名查找到对应的键值,其中所述键值的查找包括如下步骤:检测新闻文本数据并获取目标人名对应的标准地点信息、职位信息和机构信息作为键名查找对应键值,若所述键值的信息为唯一的人名且和所述目标人名保持一致,则不再对检测的目标人名进行纠错。若所述键值的人名信息和所述目标人名不一致,且所述键值人名信息为唯一的,则将唯一的键值人名信息返回替换目标人名以纠正错误。若匹配的键值中不包含所述目标人名,则识别所述目标人名的每一个字,将目标人名和键值中的人名进行匹配,查找到至少一个字相同的人名返回,并同时返回查找到人名对应的机构和职位。若匹配的键值中不包含所述目标人名,且键值中任意一个名字的字均和所述目标人名不同,则将所述键值中所有人名返回,同时返回对应人名的机构和职位。
39.本发明上述方法和系统主要有以下优势:
40.1、本发明涉及的方法具有广泛的覆盖面,可以覆盖到全国各地的各个行政单位。
41.2、由于本发明键值的匹配是从最小的单字开始,因此可以匹配覆盖字数为2个及2个以上的人名,
42.3、由于本发明采用句式切割的方式进行查询,可以有效地避免受到非相关人名、机构和职级的影响,具有较高的准确性。
43.4、根据机构和职位的级别获取对应地点的省级或市级等信息,可以避免高级别地点和低级别地点之间的错配问题。
44.5实时从各级政府网站更新信息,减少人事调动的造成的错误,可以实现即时纠错。
45.特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时,执行本技术的方法中限定的上述功能。需要说明的是,本技术上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存
储介质的更具体的例子可以包括但不限于:具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线段、电线段、光缆、rf等等,或者上述的任意合适的组合。
46.附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
47.本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明,本发明的目的已经完整并有效地实现,本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1