基于RPA及AI的文档纠错方法、装置、设备及介质与流程

文档序号:22471633发布日期:2020-10-09 22:03阅读:91来源:国知局
基于RPA及AI的文档纠错方法、装置、设备及介质与流程

本发明涉及自然语义处理应用领域,具体涉及一种基于rpa及ai的文档纠错方法、装置、设备及介质。



背景技术:

rpa(roboticprocessautomation,机器人流程自动化),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。rpa具有独特的优势:低代码、非侵入。低代码是说,rpa不需要很高的it水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,rpa可以模拟人的操作,不用软件系统开放接口。但是传统的rpa具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着ai(artificialintelligence)技术的不断发展,rpa与ai深度融合克服了传统rpa的局限,rpa及ai=handwork+headwork,正在极大的改变劳动力的价值。

rpa在处理任务的过程中,可能会应用到自然语言处理(naturallanguageprocessing,nlp)和光学字符识别(opticalcharacterrecognition,ocr)技术。其中,nlp是人工智能的一个子领域,可用于文本内容的理解和分类。ocr是指电子设备,例如扫描仪或数码相机,检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

目前,在利用ocr和nlp技术识别出文档内容的过程中,可对文档内容在语言表达上的缺陷进行调整,例如政治敏感性错误、常识性错误、多字漏字错误、标点符号错误等。但对于文档内容,特别是专业性文档、或法律性文档中的专业词汇的纠错,英文语法的纠错以及语气词的纠错仍有所缺失。



技术实现要素:

本发明实施例公开一种基于rpa及ai的文档纠错方法、装置、设备及介质,实现了自动将文档审核过程中不符合语言表达规则的内容进行纠错。

第一方面,本发明实施例公开了一种基于rpa及ai的文档纠错方法,该方法包括:

s1、对文档内容进行审核;

s2、将审核过程中不符合语言表达规则的内容进行纠错;

其中,所述语言表达规则包括:语气词表达规则、中英文语法规则和专业术语的表达方式。

可选的,所述步骤s2包括:

s21、将审核过程中对文档内容进行分词;

s22、依次遍历分词后的每个词语;

s23、将不符合语言表达规则的词语进行纠错。

可选的,所述步骤s23具体包括:

s231、确定所述文档内容的类型;

s232、根据所述类型,将不符合所述类型对应的语言表达规则的词语进行纠错。

可选的,所述步骤s232具体包括:

如果所述文档为法律性文件,则将所述法律性文件中的所有语气词进行删除。

可选的,所述步骤s23具体包括:

s231、识别所述词语是否为专业词语;

s232、如果所述词语为专业词语,则将所述专业词语与专业词数据库中对应的标准专业术语进行关键字匹配;

s233、如果匹配失败,则将所述专业词语修改为所述专业词数据库中对应标准专业术语的表示形式。

可选的,所述步骤s231,具体包括:

将所述词语与专业词数据库中的各个标准专业术语进行相似度匹配;

如果相似度值达到预设数值,则将所述词语作为专业词语。

可选的,所述步骤s23具体包括:

s231、如果所述词语为英文单词,则确定各个英文单词的词性及其在所属句子中的成分;

s232、将各英文单词的词性及所述成分与标准语法结构进行对比,并将对比结果中与标准语法结构不匹配的部分进行调整。

第二方面,本发明实施例还提供了一种基于rpa及ai的文档纠错装置,该装置包括:

文档审核模块,被配置为对文档内容进行审核;

文档纠错模块,被配置为将审核过程中不符合语言表达规则的内容进行纠错;

其中,所述语言表达规则包括:语气词表达规则、中英文语法规则和专业术语的表达方式。

可选的,所述文档纠错模块,包括:

分词单元,被配置为将审核过程中对文档内容进行分词;

词语遍历单元,被配置为依次遍历分词后的每个词语;

纠错单元,被配置为将不符合语言表达规则的词语进行纠错。

可选的,所述纠错单元,包括:

文档类型确定子单元,被配置为确定所述文档内容的类型;

纠错子单元,被配置为根据所述类型,将不符合所述类型对应的语言表达规则的词语进行纠错。

可选的,所述纠错子单元,具体被配置为:

如果所述文档为法律性文件,则将所述法律性文件中的所有语气词进行删除。

可选的,所述纠错单元,包括:

专业词语识别子单元,被配置为识别所述词语是否为专业词语;

关键字匹配子单元,被配置为如果所述词语为专业词语,则将所述专业词语与专业词数据库中对应的标准专业术语进行关键字匹配;

修改子单元,被配置为如果匹配失败,则将所述专业词语修改为所述专业词数据库中对应标准专业术语的表示形式。

可选的,所述专业词语识别子单元,具体被配置为:

将所述词语与专业词数据库中的各个标准专业术语进行相似度匹配;

如果相似度值达到预设数值,则将所述词语作为专业词语。

可选的,所述纠错单元,包括:

成分确定单元,被配置为如果所述词语为英文单词,则确定各个英文单词的词性及其在所属句子中的成分;

调整单元,被配置为将各英文单词的词性及所述成分与标准语法结构进行对比,并将对比结果中与标准语法结构不匹配的部分进行调整。

第三方面,本发明实施例还提供了一种计算机设备,包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明任意实施例所提供的基于rpa及ai的文档纠错方法的部分或全部步骤。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其存储计算机程序,所述计算机程序包括用于执行本发明任意实施例所提供的基于rpa及ai的文档纠错方法的部分或全部步骤的指令。

本发明实施例提供的技术方案,基于rpa及ai技术,实现了对文档内容的自动审核,通过将审核过程中不符合语言表达规则的内容自动进行纠错,可使得文档内容更加符合语言表达规则的要求,从而可帮助纸质传媒和内容创作平台减少因为疏忽而导致的错误表达,给用户提供更好的阅读体验。

与现有技术相比,本发明的发明点及有益效果如下:

1、基于rpa及ai技术,实现了自动对文档内容进行审核,并通过将审核过程中不符合语言表达规则的内容进行纠错,使得文档内容具有规范性的表达方式,从而提升用户的阅读体验。

2、基于rpa及ai技术,实现了自动对文档内容进行审核,并通过确定文档类型,可将不符合文档类型对应的语言表达规则的词语进行纠错,从而可帮助纸质传媒和内容创作平台减少因为疏忽而导致的错误表达,提升了用户的阅读体验。

3、本发明实施例的技术方案中,在识别出专业词语后,通过将该专业词语与专业词数据库中的标准专业术语进行关键字匹配,如果匹配失败,则说明文档中该专业词语的描述不符合行业规范,此时,可将文档内容中的专业词语修改为专业数据库中对应标准专业术语的表示形式,避免了由于形式错误而对用户的理解产生影响这一问题,提升了用户的阅读体验。

4、本发明实施例的技术方案中,如果分词后的词语为英文单词,则确定各个英文单词的词性及其在所属句子中的成分。通过将各英文单词的词性及其成分与标准语法结构进行对比,可将对比结果中与标准语法结构不匹配的部分进行调整,从而使得文档内容中英文的表达方式符合英语的语法规范,提升了用户的阅读体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于rpa及ai的文档纠错方法的流程示意图;

图2是本发明实施例提供的一种基于rpa及ai的文档纠错方法的流程示意图;

图3是本发明实施例提供的一种基于rpa及ai的文档纠错装置的结构示意图;

图4是本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的描述中,语气词是指表示语气的虚词,常用在句尾或句中停顿处表示种种语气。

本发明的描述中,专业术语是指特定领域对一些特定事物的统一的业内称谓,一般指的某一行业的专有名称简介。

本发明的描述中,句子成分是指句子的组成成分,也叫句法成分。在句子中,词与词之间有一定的组合关系,按照不同的关系,可以把句子分为不同的组成成分。句子成分由词或词组充当。例如现代汉语中的即主语、谓语和宾语等,英语中的表语、定语、状语、补足语和同位语等。

为了更清楚、明白地描述本发明实施例的内容,下面先对本发明实施例提供的技术进行简单介绍。

本发明实施例提供的技术方案,主要是在文档审核过程中,对不符合语言表达规则的文档内容进行纠错。具体可通过如下方式来实现:

将审核过程中对文档内容进行分词,依次遍历分词后的每个词语,并将不符合语言表达规则的词语进行纠错。其中,词语的表达是否符合语言表达规则,可通过文档类型来确定。例如,对于技术性文档、法律性文件,例如合同、财务文档等,由于这些类型的文件内容较为严肃和正式,通常不适合出现语气词,例如“呢”、“啊”等。如果在该类型的文档审核过程中,识别存在一些语气词,则将这些语气词进行删除。

具体的,以合同为例,如果合同内容中存在“双方约定在合同签订后10日内付款呢”,在识别出语气词“呢”之后,则将该语气词删除,即,自动纠错为“双方约定在合同签订后10日内付款”。

此外,对于文档内容中的一些专业性词语,如果确定出该专业性词语的表达方式与专业词数据库中的对应的标准专业术语的表达方式不同,则将该专业性词语修改为专业数据库中对应标准专业术语的表示形式。例如,将“财务共享核算中心”纠正为“财务共享服务中心”,从而使得该术语的表达方式符合业内的表达规范。

另外,对于英文的纠错,可预先配置英文语法的样式模板,例如“主语-系动词-表语”等,如果识别出文档内容中的英文单词不符合样式模板的表示方式,则将不匹配的部分进行调整,从而使得英文的表达方式符合英文的语法规则,提升用户的阅读体验。

实施例一

请参阅图1,图1是本发明实施例提供的一种基于rpa及ai的文档纠错方法的流程示意图。该方法典型的是应用于合同、财务文件的审核过程中,可由基于rpa及ai的文档纠错装置来执行,该装置可通过软件和/或硬件的方式实现,本发明实施例不做限定。如图1所示,本实施例提供的方法具体包括:

110、对文档内容进行审核。

其中,对文档内容的审核包括但不限于法律风险审核、语法、语序审核以及错别字审核等。本实施例提供的技术方案,主要是在文档内容的审核过程中,对文档内容中不符合语言表达规则的部分进行纠错。

示例性的,在进行文档内容审核前,可采用ocr识别方法对文档内容进行识别,并采用nlp技术对文档内容进行语义理解。在完成对文档内容的语义理解后,可对文档内容进行分词。通过依次遍历分词后的每个词语,可将不符合语言表达规则的词语进行纠错。

120、将审核过程中不符合语言表达规则的内容进行纠错。

其中,语言表达规则包括:语气词表达规则、中英文语法规则和专业术语的表达方式。

具体的,步骤120具体可通过如下方式来实现:

将审核过程中对文档内容进行分词,依次遍历分词后的每个词语,并将不符合语言表达规则的词语进行纠错。示例性的,可根据文档类型来判断词语是否符合该类型文档对应的语言表达规则。例如,对于技术性文档、法律性文件,例如合同、财务文档等,由于这些类型的文件内容较为严肃和正式,通常不适合出现语气词,例如“呢”、“啊”等。如果在该类型的文档审核过程中,识别存在一些语气词,则将该语气词进行删除。

作为一种可选的实施方式,将不符合语言表达规则的词语进行纠错,还可包括:

200、将审核过程中对文档内容进行分词,并依次遍历分词后的每个词语。

210、识别分词后的各词语是否为专业词语,若是,则执行步骤220;否则,返回执行步骤200。

作为一种可选的实施方式,在识别某个词是否为专业术语时,可将该词语与专业词数据库中的各个标准专业术语进行相似度匹配;如果相似度值达到预设数值,则将该专业词语作为专业术语。其中,相似度值可通过如下特征来表示:最小编辑距离、最长公共子串长度、tfidf加权平均的词向量余弦距离、词移距离wmd分数和基于句对的神经网络特征。

示例性的,由于专业术语一般是名词,因此,也可先判断该词语是否为名词,如果是名词,则再将该名词与专业术语库中的各个词进行相似度匹配。

220、将专业词语与专业词数据库中的各个标准专业术语进行关键字匹配。

230、如果匹配失败,则将专业词语修改为专业词数据库中对应标准专业术语的表示形式。

具体的,可依次遍历专业词语中的每个汉字,并将其与对应标准专业术语中对应位置的汉字进行比较,如果专业词语中的每个字均与标准专业术语中对应位置的汉字一致,则说明二者匹配成功;只要存在一个字不一致,则说明二者匹配失败。

作为另一种可选的实施方式,将不符合语言表达规则的词语进行纠错,还可包括:

如果分词后的词语为英文单词,则确定各个英文单词的词性及其在所属句子中的成分,并将各英文单词的词性及成分与标准语法结构进行对比,并将对比结果中与标准语法结构不匹配的部分进行调整。

其中,标准语法结构为英文使用过程中的语法模板,例如,主语+不及物动词(主谓结构),主语+系动词+表语(主系表结构)等。

在提取出英文单词的词性及句子成分后,如果对比得出该词性及成分与标准语法结构不相符,则按照标准语法结构对英文单词的位置进行调整。此方法同样适用于中文的语序、语法的纠错。具体的,如果将该方法应用于中文的语序、语法纠错,则需使用中文的语法模板作为标准语法结构。

本实施例提供的技术方案,基于rpa及ai技术,实现了对文档内容的自动审核,通过将审核过程中不符合语言表达规则的内容自动进行纠错,可使得文档内容更加符合语言表达规则的要求,从而可帮助纸质传媒和内容创作平台减少因为疏忽而导致的错误表达,给用户提供更好的阅读体验。此外,对于专业术语,本实施例提供的技术方案通过将文档内容汇总的专业词语与标准专业术语进行关键字匹配,可将不匹配的专业词语按照标准专业术语进行修正,以避免由于形式错误影响用户对文档内容的理解,从而提升了用户的阅读体验。另外,对于文档内容中的英文单词,如果确定该单词的词性及成分与标准语法结构不匹配,则将该英文单词在句中的位置进行调整,使得文档内容中英文的表达方式符合英语的语法规范,提升了用户的阅读体验。

实施例二

请参阅图3,图3是本发明实施例提供的一种基于rpa及ai的文档纠错装置的结构示意图。如图3所示,该装置包括:文档审核模块310和文档纠错模块320;其中,

文档审核模块310,被配置为对文档内容进行审核;

文档纠错模块320,被配置为将审核过程中不符合语言表达规则的内容进行纠错;

其中,所述语言表达规则包括:语气词表达规则、中英文语法规则和专业术语的表达方式。

可选的,所述文档纠错模块,包括:

分词单元,被配置为将审核过程中对文档内容进行分词;

词语遍历单元,被配置为依次遍历分词后的每个词语;

纠错单元,被配置为将不符合语言表达规则的词语进行纠错。

可选的,所述纠错单元,包括:

文档类型确定子单元,被配置为确定所述文档内容的类型;

纠错子单元,被配置为根据所述类型,将不符合所述类型对应的语言表达规则的词语进行纠错。

可选的,所述纠错子单元,具体被配置为:

如果所述文档为法律性文件,则将所述法律性文件中的所有语气词进行删除。

可选的,所述纠错单元,包括:

专业词语识别子单元,被配置为识别所述词语是否为专业词语;

关键字匹配子单元,被配置为如果所述词语为专业词语,则将所述专业词语与专业词数据库中对应的标准专业术语进行关键字匹配;

修改子单元,被配置为如果匹配失败,则将所述专业词语修改为所述专业词数据库中对应标准专业术语的表示形式。

可选的,所述专业词语识别子单元,具体被配置为:

将所述词语与专业词数据库中的各个标准专业术语进行相似度匹配;

如果相似度值达到预设数值,则将所述词语作为专业词语。

可选的,所述纠错单元,包括:

成分确定单元,被配置为如果所述词语为英文单词,则确定各个英文单词的词性及其在所属句子中的成分;

调整单元,被配置为将各英文单词的词性及所述成分与标准语法结构进行对比,并将对比结果中与标准语法结构不匹配的部分进行调整。

本发明实施例所提供的基于rpa及ai的文档纠错装置可执行本发明任意实施例所提供的基于rpa及ai的文档纠错方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于rpa及ai的文档纠错方法。

实施例三

请参阅图4,图4是本发明实施例提供的一种计算设备的结构示意图。如图4所示,该计算设备可以包括:

存储有可执行程序代码的存储器701;

与存储器701耦合的处理器702;

其中,处理器702调用存储器701中存储的可执行程序代码,执行本发明任意实施例所提供的基于rpa及ai的文档纠错方法。

本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行本发明任意实施例所提供的基于rpa及ai的文档纠错方法。

在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在本发明所提供的实施例中,应理解,“与a相应的b”表示b与a相关联,根据a可以确定b。但还应理解,根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其他信息确定b。

另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(read-onlymemory,rom)、随机存储器(randomaccessmemory,ram)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子抹除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种基于rpa及ai的文档纠错方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1