基于人工智能的长文本纠错方法、装置及计算机可读介质与流程

文档序号:14571870发布日期:2018-06-01 22:42阅读:247来源:国知局
基于人工智能的长文本纠错方法、装置及计算机可读介质与流程

本发明涉及计算机应用技术领域,尤其涉及一种基于人工智能的长文本纠错方法、装置及计算机可读介质。



背景技术:

人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

现有技术中,由于用户可以通过计算机实现长文本信息的输入,例如用户可以在计算机上编辑新闻稿件、广告策略文件或者中长篇小说等长文本信息。但是所有长文本信息均为用户手动输入,输入过程中难免会有错误。现有技术中的纠错多应用中搜索场景下的query搜索,例如用户在进行query搜索时,经常由于疏忽,而输入错误的query,比如“清华大学”输入成“情华大学”或者输入成为“亲华大学”(模糊音错误),或者输入成“清华学”(少了一个字)。还有一些可能性,比如“广播大厦”输入成为“广播大夏”(字形错误)。针对上述情况的query搜索,搜索服务器可以依赖用户对搜索结果的点击以及专用名词库中的专用名词等,对query进行纠错。

但是现有的query搜索的纠错中,需要依赖于用户的点击,同时该query的长度较短,而长文本中文本的长度较长,且没有用户对结果的点击反馈,因此,现有的query搜索的纠错不适用于长文本场景中,亟需提供一种长文本纠错的技术方案。



技术实现要素:

本发明提供了一种基于人工智能的长文本纠错方法、装置及计算机可读介质,用于提供一种长文本的纠错方案。

本发明提供一种基于人工智能的长文本纠错方法,所述方法包括:

当长文本中存在非专用名词的原始片段时,根据所述长文本的领域中预先设置的短语替换表,对需要纠错的所述原始片段进行PT片段召回,得到所述原始片段的候选片段集合,所述候选片段集合中包括多个候选片段;

利用预先训练的片段打分模型,分别为所述候选片段集合中的各所述候选片段进行打分;

根据各所述候选片段的打分,通过解码的方式,从所述长文本的需要纠错的各所述原始片段的所述候选片段集合中,获取各所述原始片段对应的目标片段,从而得到所述长文本的纠正文本。

进一步可选地,如上所述的方法中,根据所述长文本的领域中预先设置的短语替换表,对需要纠错的所述原始片段进行PT片段召回,得到所述原始片段的候选片段集合之后,利用预先训练的片段打分模型,分别为所述候选片段集合中的各所述候选片段进行打分之前,所述方法还包括:

当所述原始片段还需要进行ED片段召回时,根据所述原始片段的读音,利用所述长文本领域中的语料库和/或拼音输入法为所述原始片段提供的输入提示信息,对所述原始片段进行ED片段召回,并将召回的候选片段追加至所述候选片段集合中。

进一步可选地,如上所述的方法中,当所述原始片段还需要进行ED片段召回时之前,所述方法还包括:

获取所述原始片段在所述长文本的领域对应的语料库中出现的频次、所述原始片段和在所述长文本中的上下文片段的组合在所述语料库中出现的频次、所述原始片段在PT表中的改动频次、所述原始片段与所述上下文片段的组合在所述PT表中的改动频次以及所述原始片段与所述上下文片段的语义相似度;

根据所述原始片段在所述长文本的领域对应的语料库中出现的频次、所述原始片段和在所述长文本中的上下文片段的组合在所述语料库中出现的频次、所述原始片段在PT表中的改动频次、所述原始片段与所述上下文片段的组合在所述PT表中的改动频次、所述原始片段与所述上下文片段的语义相似度、以及预设的语言通顺度打分模型,获取所述原始片段的置信度;

判断所述原始片段的置信度是否大于预设的置信度阈值;

若是,确定所述原始片段需要进行ED片段召回;否则所述原始片段不需要进行ED片段召回。

进一步可选地,如上所述的方法中,根据所述原始片段在所述长文本的领域对应的语料库中出现的频次、所述原始片段和在所述长文本中的上下文片段的组合在所述语料库中出现的频次、所述原始片段在PT表中的改动频次、所述原始片段与所述上下文片段的组合在所述PT表中的改动频次、所述原始片段与所述上下文片段的语义相似度、以及预设的语言通顺度打分模型,获取所述原始片段的置信度,具体包括:

根据所述原始片段在所述长文本的领域对应的语料库中出现的频次、所述原始片段和在所述长文本中的上下文片段的组合在所述语料库中出现的频次、以及所述语言通顺度打分模型,预测所述原始片段的通顺度;

根据所述原始片段的通顺度、所述原始片段在PT表中的改动频次、所述原始片段与所述上下文片段的组合在所述PT表中的改动频次、以及所述原始片段与所述上下文片段的语义相似度,并结合预先训练的置信度打分模型,获取所述原始片段的置信度。

进一步可选地,如上所述的方法中,利用预先训练的片段打分模型,分别为所述候选片段集合中的各所述候选片段进行打分,具体包括:

获取各所述候选片段与所述原始片段的相对质量特征;

获取所述原始片段替换为各所述候选片段的相对历史行为特征;

获取各所述候选片段与所述原始片段的语义相似度特征;

根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的相对历史行为特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分。

进一步可选地,如上所述的方法中,获取各所述候选片段与所述原始片段的相对质量特征,具体包括:

根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、各所述候选片段在所述语料库中出现的频次以及各所述候选片段与所述上下文片段的组合在所述语料库中出现的频次,获取各所述候选片段与所述原始片段在所述语料库中出现的频次比以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或各所述候选片段与所述原始片段在所述语料库中出现的频次差以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。

进一步可选地,如上所述的方法中,进一步地,获取所述原始片段替换为各所述候选片段的相对历史行为特征,具体包括:

获取所述PT表中所述原始片段修改为各所述候选片段的第一修改频次;

获取所述PT表中所述原始片段与所述上下文片段的组合修改为各所述候选片段与所述上下文片段的组合的第二修改频次;

根据所述第一修改频次和所述第二修改频次,得到频次比和/或频次差,所述频次比等于所述第二修改频次除以所述第一修改频次,所述频次差等于所述第二修改频次减去所述第一修改频次。

进一步可选地,如上所述的方法中,通过解码的方式,从所述长文本的需要纠错的各所述原始片段对应的所述至少两个预选片段中获取各所述原始片段对应的目标片段,从而得到所述长文本的纠正文本之后,所述方法还包括:

对所述纠正文本中发生纠正的片段进行纠错干预。

进一步可选地,如上所述的方法中,对所述纠正文本中发生纠正的片段进行纠错干预,具体包括如下至少一种:

判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否命中预设的黑名单中的纠错对;若命中,则将所述目标片段还原为所述原始片段;和

判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否属于同义词;若属于,则将所述目标片段还原为所述原始片段。

本发明提供一种基于人工智能的长文本纠错装置,所述装置包括:

PT片段召回模块,用于当长文本中存在非专用名词的原始片段时,根据所述长文本的领域中预先设置的短语替换表,对需要纠错的所述原始片段进行PT片段召回,得到所述原始片段的候选片段集合,所述候选片段集合中包括多个候选片段;

打分模块,用于利用预先训练的片段打分模型,分别为所述候选片段集合中的各所述候选片段进行打分;

纠错模块,用于根据各所述候选片段的打分,通过解码的方式,从所述长文本的需要纠错的各所述原始片段的所述候选片段集合中,获取各所述原始片段对应的目标片段,从而得到所述长文本的纠正文本。进一步可选地,如上所述的装置中,还包括:

ED片段召回模块,用于当所述原始片段还需要进行ED片段召回时,根据所述原始片段的读音,利用所述长文本领域中的语料库和/或拼音输入法为所述原始片段提供的输入提示信息,对所述原始片段进行ED片段召回,并将召回的候选片段追加至所述候选片段集合中。

进一步可选地,如上所述的装置中,还包括:

特征获取模块,用于获取所述原始片段在所述长文本的领域对应的语料库中出现的频次、所述原始片段和在所述长文本中的上下文片段的组合在所述语料库中出现的频次、所述原始片段在PT表中的改动频次、所述原始片段与所述上下文片段的组合在所述PT表中的改动频次以及所述原始片段与所述上下文片段的语义相似度;

置信度获取模块,用于根据所述原始片段在所述长文本的领域对应的语料库中出现的频次、所述原始片段和在所述长文本中的上下文片段的组合在所述语料库中出现的频次、所述原始片段在PT表中的改动频次、所述原始片段与所述上下文片段的组合在所述PT表中的改动频次、所述原始片段与所述上下文片段的语义相似度、以及预设的语言通顺度打分模型,获取所述原始片段的置信度;

判断模块,用于判断所述原始片段的置信度是否大于预设的置信度阈值;若是,确定所述原始片段需要进行ED片段召回;否则所述原始片段不需要进行ED片段召回。

进一步可选地,如上所述的装置中,所述置信度获取模块,具体用于:

根据所述原始片段在所述长文本的领域对应的语料库中出现的频次、所述原始片段和在所述长文本中的上下文片段的组合在所述语料库中出现的频次、以及所述语言通顺度打分模型,预测所述原始片段的通顺度;

根据所述原始片段的通顺度、所述原始片段在PT表中的改动频次、所述原始片段与所述上下文片段的组合在所述PT表中的改动频次、以及所述原始片段与所述上下文片段的语义相似度,并结合预先训练的置信度打分模型,获取所述原始片段的置信度。

进一步可选地,如上所述的装置中,所述打分模块,具体包括:

质量特征获取单元,用于获取各所述候选片段与所述原始片段的相对质量特征;

历史行为特征获取单元,用于获取所述原始片段替换为各所述候选片段的相对历史行为特征;

语义相似度特征获取单元,用于获取各所述候选片段与所述原始片段的语义相似度特征;

打分单元,用于根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的相对历史行为特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分。

进一步可选地,如上所述的装置中,所述质量特征获取单元,具体用于:

根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、各所述候选片段在所述语料库中出现的频次以及各所述候选片段与所述上下文片段的组合在所述语料库中出现的频次,获取各所述候选片段与所述原始片段在所述语料库中出现的频次比以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或各所述候选片段与所述原始片段在所述语料库中出现的频次差以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。

进一步可选地,如上所述的装置中,所述历史行为特征获取单元,具体用于:

获取所述PT表中所述原始片段修改为各所述候选片段的第一修改频次;

获取所述PT表中所述原始片段与所述上下文片段的组合修改为各所述候选片段与所述上下文片段的组合的第二修改频次;

根据所述第一修改频次和所述第二修改频次,得到频次比和/或频次差,所述频次比等于所述第二修改频次除以所述第一修改频次,所述频次差等于所述第二修改频次减去所述第一修改频次。

进一步可选地,如上所述的装置中,还包括:

纠错干预模块,用于对所述纠正文本中发生纠正的片段进行纠错干预。

进一步可选地,如上所述的装置中,所述纠错干预模块,具体用于执行如下至少一种操作:

判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否命中预设的黑名单中的纠错对;若命中,则将所述目标片段还原为所述原始片段;和

判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否属于同义词;若属于,则将所述目标片段还原为所述原始片段。

本发明还提供一种计算机设备,所述设备包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的基于人工智能的长文本纠错方法。

本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于人工智能的长文本纠错方法。

本发明的基于人工智能的长文本纠错方法、装置及计算机可读介质,当长文本中存在非专用名词的原始片段时,根据长文本的领域中预先设置PT表,对需要纠错的原始片段进行PT片段召回,得到原始片段的候选片段集合,该候选片段集合中包括多个候选片段,利用预先训练的片段打分模型,分别为候选片段集合中的各候选片段进行打分;根据各候选片段的打分,通过解码的方式,从长文本的需要纠错的各原始片段的候选片段集合中,获取各原始片段对应的目标片段,从而得到长文本的纠正文本。本发明的技术方案,弥补了现有技术的不足,提供了一种长文本的纠错方案,能够对长文本中的错误片段进行纠正,有效地提高长文本的编辑质量。本实施例的技术方案基于长文本纠错场景提出,可以适用于正文场景下的纠错行为,且能够快速有效的产出纠错结果,纠错效率较高,可以便于辅助提升长文本的内容生产质量,提升用户体验。

【附图说明】

图1为本发明的基于人工智能的长文本纠错方法实施例一的流程图。

图2为本实施例的一种搜索界面示意图。

图3为本发明基于人工智能的长文本纠错方法实施例二的流程图。

图4为本实施例提供的混淆音的映射表的示例图。

图5为本实施例的基于人工智能的长文本纠错方法的一种纠错结果示意图。

图6为本发明的基于人工智能的长文本纠错装置实施例一的结构图。

图7为本发明的基于人工智能的长文本纠错装置实施例二的结构图。

图8为本发明的计算机设备实施例的结构图。

图9为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的基于人工智能的长文本纠错方法实施例一的流程图。如图1所示,本实施例的基于人工智能的长文本纠错方法,具体可以包括如下步骤:

100、当长文本中存在非专用名词的原始片段时,根据长文本的领域中预先设置的短语替换(Phase Table;PT)表,对需要纠错的原始片段进行PT片段召回,得到原始片段的候选片段集合,该候选片段集合中包括多个候选片段;

本实施例的基于人工智能的长文本纠错方法的执行主体为基于人工智能的长文本纠错装置,该装置可以为独立的一电子实体,用于对长文本进行纠错。本实施例的长文本可以为用户编辑的长度大于通常的query长度的各种长文本信息,例如可以为一篇文章的摘要,或者一篇文章中的一个句子等等。采用本实实例的技术方案,可以对一篇文章中的每一个句子进行长文本纠错,从而实现对整篇文章的纠错。

本实施例中,在对长文本进行纠错时,需要先对长文本进行分词处理,得到多个分词。其中的分词策略可以参考相关现有技术的分词策略,在此不做限制。然后可以设置一个预设大小的窗口,将该窗口应用在长文本中,从前往后滑动窗口,可以选取到各个原始片段。本实施例中的预设窗口的大小可以设置为1个分词的大小或者2个分词的大小或者3个分词的大小。因此,本实施例的原始片段可以由各个分词单独构成,或者由连续的分词组合构成。根据上述方式,得到长文本中的多个原始片段之后,判断各原始片段是否为专用名词。例如可以根据预设的专用名词库来判断长文本中的各原始片段是否均属于专用名词,若均属于,确定长文本中不存在需要纠错的原始片段;否则若存在不属于专用名词的原始片段,确定长文本中存在需要纠错的原始片段。本实施例的专用名词库可以为预先对该长文本的领域中的数据进行统计,抽取专用名词,并生成的包括该领域的所有专用名词的数据库。

经过上述判断,若长文本中存储非专用名词,则根据长文本的领域中预先设置的PT表,对需要纠错的原始片段进行PT片段召回,并将召回的多个候选片段集合在一候选片段集合中。

本实施例中,在该步骤100之前,还可以预先设置该长文本领域的PT表,例如具体可以包括如下至少一种方式:

一、根据长文本领域中用户主动修改搜索词行为的大数据统计,得到原始片段到替换片段的改动频次。将原始片段、替换片段以及原始片段到替换片段的改动频次,存入PT表中;

例如:用户连续输入“青华大学”,“清华大学”,可以采集到“青华->清华”的改动;“青华大学->清华大学”的改动;由于用户在输入过程中,若发现前一次输入错误,会主动修改搜索词为正确的,根据用户的该行为,可以知道后一次的修改的搜索词为正确的。例如,经过预设时间周期的统计,可以得知“青华->清华”的改动频次为100次,“青华大学->清华大学”的改动频次为70次。

二、根据长文本领域中用户输入的搜索词以及搜索服务器搜索的搜索结果的标题之间的片段对齐映射,获取原始片段到替换片段的改动频次。将原始片段、替换片段以及原始片段到替换片段的改动频次,存入PT表中;例如,图2为本实施例的一种搜索界面示意图。如图2所示,用户某次输入的搜索词是“青华大学”,但是,搜索服务器的搜索结果包括“清华大学”,又包括“青华大学”。这样,对于搜索结果的标题中包括清华大学的,可以记录青华大学->清华大学”的改动1次;对于搜索结果的标题中包括青华大学的,可以记录青华大学->青华大学”的改动1次。如果共搜索到30个结果,其中28个标题是清华大学的,2个标题是关于青华大学的,则认为“青华大学->清华大学”的改动频次为28次,“青华大学->青华大学”的改动频次为2次。

三、根据长文本领域中用户输入的搜索词与搜索服务器主动纠错之间的用户反馈数据对齐映射,获取原始片段到替换片段的改动频次。将原始片段、替换片段以及原始片段到替换片段的改动频次,存入PT表中;与上述第2种情况不同的是,该种情况中,需要根据用户的反馈,确定替换片段。例如,用户某次输入的搜索词是“青华大学”,但是,搜索服务器的搜索结果既包括“清华大学”,又包括“青华大学”;若用户每点击一个标题包括“清华大学”的搜索结果,则认为“青华大学->清华大学”的改动1次;用户点击一个标题包括“青华大学”的搜索结果,则认为“青华大学->青华大学”的改动1次。

按照上述实施例的方式,本实施例的PT表可以为预设时间周期采集并统计的。该PT表可以采用上述三种方式中任一种方式生成,也可以采用上述任意两种方式或者三种方式组合生成。根据上述实施例,可以知道本实施例的PT表中记录的是,多组原始片段、替换片段以及对应的改动频次,例如每组数据采用的存储形式可以为“原始片段->替换片段,改动频次”。对于同一个原始片段,可以对应多个替换片段,每个替换片段对应的改动频次可以不相同。根据PT表,对需要纠错的原始片段进行PT片段召回时,具体可以从该PT表中获取该原始片段对应的所有替换片段,同时获取每个替换片段对应的改动频率。然后从多个替换片段中获取改动频率最大的TOP n个替换片段作为该原始片段对应的候选片段。并由多个候选片段构成一个候选片段集合。

101、利用预先训练的片段打分模型,分别为候选片段集合中的各候选片段进行打分;

本实施例中,可以预先训练一个片段打分模型,用于对候选片段集合中的每个候选片段进行打分。本实施例中,对于同一原始片段,使用打分高的候选片段来纠错长文本中的原始片段的概率,高于使用打分低的候选片段来纠错长文本中的原始片段的概率。但是纠正长文本时,还需要考虑原始片段与上下文的通顺性等因素,所以最终得到的纠正文本中,未必采用打分最高的候选片段来替换原始片段。本实施例的片段打分模型可以采用GBRank网络模型。

例如,该步骤101具体可以包括如下步骤:

(a1)获取原始片段在长文本的领域中的质量特征和候选片段集合中的各候选片段在长文本的领域中的质量特征;

例如,其中获取原始片段在长文本的领域中的质量特征,具体可以包括:获取原始片段在长文本领域的语料库中出现的频次、原始片段与上下文片段的组合在长文本领域的语料库中一起出现的频次。

对应地,获取候选片段集合中的各候选片段在长文本的领域中的质量特征,具体包括:获取候选片段集合中的各候选片段在语料库中出现的频次、各候选片段与上下文片段的组合在语料库中出现的频次。

本实施例中原始片段的上下文片段为长文本中位于原始片段之前或者之后紧相邻的片段。例如当原始片段包括1个分词时,对应的上下文片段可以包括位于该分词前的1个分词或者2个分词、以及位于该分词后的1个分词或者2个分词。而若原始片段包括2个分词时,对应的上下文片段可以包括为长文本中位于该原始片段前的1个分词以及位于该原始片段后的1个分词。而若原始片段包括3个分词时,对应的上下文片段可以仅包括长文本中位于该原始片段前的1个分词以及位于该原始片段后的1个分词。或者考虑到包括较多分词的片段在长文本中出现的概率较小,本实施例中还可以限定:若原始片段已经包括3个或以上分词时,可以不取其上下文片段。也就是说,当需要取原始片段的上下文片段时,对应原始片段与上下文片段的组合会存在原始片段加上文片段、原始片段加下文片段以及上文片段加原始片段再加下文片段共三个组合。在获取原始片段的质量特征时,需要获取原始片段、原始片段加上文片段的组合、原始片段加下文片段的组合以及上文片段加原始片段再加下文片段的组合各自在语料库中出现的频率。对应地,各候选片段的质量特征获取方式同理,在此不再赘述。

(b1)根据原始片段在长文本的领域中的质量特征和各候选片段在长文本的领域中的质量特征,获取各候选片段与原始片段的相对质量特征;

例如,该步骤(b1),具体可以包括:根据原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次、各候选片段在语料库中出现的频次以及各候选片段与上下文片段的组合在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差。

具体地,通过获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差,可以体现候选片段与上下文片段的融合性,如果候选片段与原始片段在语料库中出现的频次比较大,而候选片段和上下文片段的组合,与原始片段和上下文片段的组合在语料库中出现的频次比非常小,则说明该候选片段与上下文片段兼容性较差,不适宜替换原始片段。反之亦然。

同理,如果候选片段与原始片段在语料库中出现的频次差较小,即使用概率差不多,但是候选片段和上下文片段的组合,与原始片段和上下文片段的组合在语料库中出现的频次差非常大,说明候选片段和上下文片段的组合,比始片段和上下文片段的组合在预料库中使用更频繁,则可以认为候选片段与上下文片段具有很强的兼容性,可以采用候选片段替换原始片段,反之亦然。

需要说明的是,若原始片段已经包括3个或以上分词时,可以不取其上下文片段,此时可以仅根据在语料库中出现的频次、各候选片段在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差,作为各候选片段与原始片段的相对质量特征。与上述需要取上下文片段相比,获取特征内容不够丰富,因此,本实施例中,优选地,需要获取上下文片段。

另外,需要说明的是,当需要取上下文片段。而原始片段为长文本的句首或者句尾,对应的空上下文片段可以设置预设的句首特征或者句尾特征来表示,以保证数据的对齐。

(c1)获取原始片段替换为各候选片段的相对历史行为特征;

由于PT表记录有历史的修改信息,因此本实施例的历史行为特征可以为PT表中的修改频次相关的特征。例如该步骤(c1)具体可以包括如下步骤:

(a2)获取PT表中原始片段修改为各候选片段的第一修改频次;

(b2)获取PT表中原始片段与上下文片段的组合修改为各候选片段与上下文片段的组合的第二修改频次;

(c2)根据第一修改频次和第二修改频次,得到频次比和/或频次差,频次比等于所述第二修改频次除以第一修改频次,频次差等于第二修改频次减去第一修改频次。

另外,需要说明的是,若原始片段包括3个分词,未取上下文片段时,此时可以设置相对历史行为特征为空或者一个预设的特征符号。

(d1)获取各候选片段与原始片段的语义相似度特征;

本实施例中,可以采用预设的词典,获取各候选片段的词向量以及原始片段的词向量,然后计算各候选片段的词向量和原始片段的词向量之间的余弦距离,作为该候选片段与原始片段的语义相似度。对应地,如果本实施例中原始片段包括的分词数量为3个或以上时,此时将取各候选片段与原始片段的语义相似度,作为各候选片段与原始片段的语义相似度特征。如果本实施例中原始片段包括的分词数量小于3个,还需要取原始片段的上下文片段,此时,还需要获取各候选片段与上下文片段的组合与原始片段和上下文片段的组合的语义相似度。同理,获取各候选片段和上下文片段的组合的词向量以及原始片段和上下文片段的组合的词向量,然后计算词向量之间的余弦距离,作为该候选片段和上下文片段的组合,与原始片段和上下文片段的组合的语义相似度特征。对应地,原始片段加上下文片段的组合包括原始片段加上文片段、原始片段加下文片段以及上文片段加原始片段再加下文片段共三个组合。此时对应地,候选片段与原始片段的语义相似度特征包括:各候选片段与原始片段的语义相似度、该候选片段和上文片段的组合与原始片段和上文片段的组合的语义相似度、该候选片段和下文片段的组合与原始片段和下文片段的组合的语义相似度、以及上文片段、该候选片段和下文片段的组合与上文片段、原始片段和下文片段的组合的语义相似度一起拼接构成的候选片段与原始片段的语义相似度特征。

(e1)根据各候选片段与原始片段的相对质量特征、各候选片段与原始片段的相对历史行为特征、各候选片段与原始片段的语义相似度特征、以及片段打分模型,分别获取各候选片段的打分。

然后将上述步骤得到的各候选片段与原始片段的相对质量特征、各候选片段与原始片段的相对历史行为特征、各候选片段与原始片段的语义相似度特征,输入至预先训练的片段打分模型中,该片段打分模型可以预测到该候选片段的打分。

例如片段打分模型训练时,可以采集作为正例和负例的训练原始片段和训练替换片段,如果为正确的替换,对应的打分为1,此时训练数据为正例;否则如果为错误的替换,对应的打分为0;此时训练数据为负例。训练数据中正负例的比例大于1,例如可以为5:1或者4:1。训练之前,预先为该片段打分模型的参数设置初始值,然后依次输入训练数据,若片段打分模型预测的打分与已知打分不一致,调整片段打分模型的参数,使得预测结果与已知结果趋于一致。采用上述方式,不断地采用数千万条的训练数据训练片段打分模型,直到片段打分模型预测的结果与已知结果一致,则确定片段训练打分模型的参数,从而确定片段打分模型,则片段打分模型训练完毕。训练时采用的训练数据的数量越多,训练的片段打分模型越准确,后续使用片段打分模型对候选片段所预测的打分越准确。根据上述方式,预测的打分可以为0-1之间。实际应用中,也可以设置片段打分模型位于其他数值范围内,如0-100之间,原理类似,在此不再赘述。

进一步可选地,在为各候选片打分之前,还可以包括如下步骤:根据预设的专用名词库和各候选片段,获取各候选片段的专用名词特征;和/或获取各候选片段与原始片段的拼音编辑距离特征。

具体地,各候选片段的专用名词特征用于标识该候选片段是否属于专用名词。例如根据专用名词库判断某候选片段是否属于专用名词,若属于,则对应的专用名词特征为1,否则对应的专用名词特征为0。对应地,如果候选片段为专用名词,则片段打分模型为该候选片段输出的打分较高;而若不是专用名词,则对应输出的打分较低。另外候选片段与原始片段的读音编辑距离,具体为将候选片段的读音编辑为原始片段的读音需要调整的拼音中字母的数量,对应地,候选片段与原始片段的读音编辑距离越大,说明采用候选片段替换该原始片段的概率越小,此时对应的片段打分模型为该候选片段输出的打分可以较小;而若候选片段与原始片段的读音编辑距离越小,说明采用候选片段替换该原始片段的概率越大,此时对应的片段打分模型为该候选片段输出的打分可以较大。

基于以上原理,对应地,步骤(e1)具体可以包括:根据各候选片段与原始片段的相对质量特征、各候选片段与原始片段的相对历史行为特征、各候选片段与原始片段的语义相似度特征、以及片段打分模型,并结合各候选片段的专用名词特征和各候选片段与原始片段的拼音编辑距离特征,分别获取各候选片段的打分。此时对应地,训练该片段打分模型的时候,也需要获取训练数据中训练替换片段的专用名词特征以及训练原始片段和训练替换片段的拼音编辑距离特征,结合之前的特征一起对片段打分模型进行训练。

102、根据各候选片段的打分,通过解码的方式,从长文本的需要纠错的各原始片段的候选片段集合中,获取各原始片段对应的目标片段,从而得到长文本的纠正文本。

最后,基于各候选片段的打分,从需要纠错的各原始片段的候选片段集合中获取各原始片段的目标片段,得到长文本的纠正文本。例如,可以直接获取打分最高的候选片段作为目标片段。或者若打分次高的候选片段与长文本中的上下文结合较好,也可以采用打分次高的候选片段作为纠正文本中的目标片段。或者还可以采用其他方式来获取纠正文本。

例如长文本中的不同原始片段都进行片段召回之后,每个原始片段可以得到多个候选片段结果,这样,不同的原始片段可以对应有多种候选片段组合的可能,形成片段候选网络。例如若某长文本中包括原始片段A、B和C,原始片段A对应的候选片段有1、2和3;原始片段B对应的候选片段有4、5和6;原始片段C对应的候选片段有7、8和9;此时每一个原始片段的候选片段都可以用于替换原始片段,即候选片段1可以分别与候选片段4、5或者6组合,候选片段2也可以分别与候选片段4、5或者6组合,候选片段3也可以分别与候选片段4、5或者6组合,形成片段候选网络。此时可以采用解码算法从片段候选网络中获取各原始片段对应的最佳的候选片段,得到最佳的纠正文本。例如解码算法可以包括不限于:维特比算法(viterbi),束搜索(beam search),或者贪心搜索(greedy search)等解码算法。

或者,例如该步骤102,具体可以包括如下步骤:对于各原始片段,根据候选片段集合中各候选片段的打分,从候选片段集合中获取该原始片段对应的至少两个预选片段;通过解码的方式,从长文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到长文本的纠正文本。

具体地,若每一个原始片段对应的候选片段数量较多时,可以按照打分高低的顺序取打分较高的至少一个候选片段作为预选片段,然后通过解码的方式,从长文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到长文本的纠正文本。

本实施例的基于人工智能的长文本纠错方法,当长文本中存在非专用名词的原始片段时,根据长文本的领域中预先设置PT表,对需要纠错的原始片段进行PT片段召回,得到原始片段的候选片段集合,该候选片段集合中包括多个候选片段,利用预先训练的片段打分模型,分别为候选片段集合中的各候选片段进行打分;根据各候选片段的打分,通过解码的方式,从长文本的需要纠错的各原始片段的候选片段集合中,获取各原始片段对应的目标片段,从而得到长文本的纠正文本。本实施例的技术方案,弥补了现有技术的不足,提供了一种长文本的纠错方案,能够对长文本中的错误片段进行纠正,有效地提高长文本的编辑质量。本实施例的技术方案基于长文本纠错场景提出,可以适用于正文场景下的纠错行为,且能够快速有效的产出纠错结果,纠错效率较高,可以便于辅助提升长文本的内容生产质量,提升用户体验。

图3为本发明基于人工智能的长文本纠错方法实施例二的流程图。如图3所示,本实施例的基于人工智能的长文本纠错方法,在上述图1所示实施例的技术方案的基础上,进一步增加了对需要纠错的原始片段进行编辑距离(Edit Distance;ED)片段召回,详细介绍本发明的技术方案。如图2所示,本实施例的基于人工智能的长文本纠错方法,具体可以包括如下步骤:

200、根据专用名词库判断长文本中的各原始片段是否均属于专用名词;若均属于,执行步骤201;否则,执行步骤202;

201、确定长文本中包括的原始片段均为专用名词,该长文本不需要纠错,结束;

202、确定该长文本中存在不属于专用名词的原始片段,确定需要对该长文本中非专用名词的原始片段进行纠错;执行步骤203;

203、根据长文本的领域中预先设置的PT表,对需要纠错的原始片段进行PT片段召回,得到原始片段的候选片段集合,该候选片段集合中包括多个候选片段;执行步骤204;

步骤200-203的实施详细可以参考上述图1所示实施例的记载,在此不再赘述。

204、获取原始片段在长文本的领域对应的语料库中出现的频次、原始片段和上下文片段的组合在语料库中出现的频次、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次以及原始片段与上下文片段的语义相似度;执行步骤205;

同理,本实施例的原始片段与上下文片段的组合可以参考上述图1所示实施例的相关记载,在此不再赘述。原始片段在长文本的领域对应的语料库中出现的频次可以通过统计语料库中该原始片段的出现次数得到。原始片段在PT表中的改动频次可以为PT表中该原始片段被被替换为自身之外的其他片段的总次数。如“青华”被替换为“清华”,以及“青华”被替换为“青花”等所有被替换的“青华”的总次数。原始片段与上下文片段的组合在PT表中的改动频次可以为PT表中该原始片段被替换为自身之外的其他片段的总次数。如“青华大学”被替换为“清华大学”、以及被替换成“青华大学”之外的所有替换片段的总次数。

本实施例中的原始片段与上下文片段的语义相似度具体可以通过获取原始片段的词向量和上下文片段的词向量,并计算原始片段的词向量和上下文片段的词向量之间的余弦相似性,得到原始片段与上下文片段的语义相似度。其中上下文片段的词向量为上文片段加下文片段的组合的词向量。或者本实施例中,还可以采用原始片段与长文本中原始片段之外的其他所有片段的语义相似度,替换本实施例中的原始片段与上下文片段的语义相似度,形成新的可选方案。

205、根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、原始片段与上下文片段的语义相似度、以及预设的语言通顺度打分模型,获取原始片段的置信度;执行步骤206;

例如,本实施例中该步骤205具体包括如下两种实现方式:

第一种实现方式中,采用置信度打分模型来判断置信度,具体可以包括如下步骤:

(a3)根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、以及语言通顺度打分模型,预测原始片段的通顺度;

本实施例的语言通顺度打分模型用于对长文本中该原始片段的通顺度进行打分。将原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次,该语言通顺度打分模型可以预测该原始片段的通顺度。例如该通顺度的分值可以为0-1之间,可以限定数值越大越通顺,数值越小越不通顺。或者也可以采用其他数值范围来表示通顺序,如0-100。

本实施例的语言通顺度打分模型也可以经过预先训练得到,例如预先采集数个训练数据,每个训练数据中对应一个训练长文本,包括训练长文本中的训练原始片段在语料库中出现的频次、训练原始片段和在训练长文本中的训练上下文片段的组合在语料库中出现的频次,以及该训练原始片段的已知通顺度。采集的各训练数据中可以包括有已知通顺度为1的正例训练数据,还可以包括有已知通顺度为0的负例训练数据。正负例的比例可以大于1,例如,优选为5:1或者4:1。训练之前,为语言通顺度打分模型的参数设置初始值,训练时,依次将各训练数据输入至该语言通顺度打分模型中,该语言通顺度打分模型为该训练数据预测通顺度,然后判断预测的通顺度与已知的通顺度是否一致,若不一致,调整该语言通顺度打分模型的参数,使得预测的通顺度与已知的通顺度趋于一致。采用上述方式,使用数千万条的训练数据对该语言通顺度打分模型继续训练,直至预测的通顺度与已知的通顺度一致,则确定该语言通顺度打分模型的参数,从而确定该语言通顺度打分模型,该语言通顺度打分模型训练完毕。

(b3)根据原始片段的通顺度、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、以及原始片段与上下文片段的语义相似度,并结合预先训练的置信度打分模型,获取原始片段的置信度;

同理,本实施例中,还预先训练有置信度打分模型,该置信度打分模型用于获取原始片段的置信度。本实施例中可以设置置信度位于0-1之间,置信度数值越大,表示置信度越高,置信度数值越小,表示置信度越低。实际应用中,也可以将置信度设置在其他数值范围之间,如0-100之间。使用时,将原始片段的通顺度、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、以及原始片段与上下文片段的语义相似度输入至训练的置信度打分模型,该置信度打分模型可以输出原始片段的置信度。

同理,本实施例的置信度打分模型也可以经过预先训练得到,例如预先采集数个训练数据,每个训练数据中包括训练原始片段的通顺度、训练原始片段在PT表中的改动频次、训练原始片段与训练上下文片段的组合在PT表中的改动频次、训练原始片段与训练上下文片段的语义相似度以及每个训练原始片段对应的置信度,每个参数获取方式同上述实施例的相关记载。采集的各训练数据中可以包括有已知置信度为1的正例训练数据,还可以包括有已知置信度为0的负例训练数据。正负例的比例可以大于1,例如,优选为5:1或者4:1。训练之前,为置信度打分模型的参数设置初始值,训练时,依次将各训练数据输入至该置信度打分模型中,该置信度打分模型为该训练数据预测置信度,然后判断预测的置信度与已知的置信度是否一致,若不一致,调整该置信度打分模型的参数,使得预测的置信度与已知的置信度趋于一致。采用上述方式,使用数千万条的训练数据对该置信度打分模型继续训练,直至预测的置信度与已知的置信度一致,则确定该置信度打分模型的参数,从而确定该置信度打分模型,该置信度打分模型训练完毕。

而且需要说明的时,本实施例中涉及到的所有模型的训练和预测,输入模型中的特征数据可以预先经过归一化处理,归一化处理的方式不做限定。

第二种实现方式中,采用阈值来判断置信度,具体可以包括如下步骤:

(a4)根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、以及语言通顺度打分模型,预测原始片段的通顺度;

步骤(a4)的实现方式与上述步骤(a3)相同,详细可以参考上述步骤(a3)的记载,在此不再赘述。

(b4)分别判断原始片段的通顺度是否大于预设的通顺度阈值、原始片段在PT表中的改动频次和原始片段与上下文片段的组合在PT表中的改动频次是否均大于预设的频次阈值、以及原始片段与上下文片段的语义相似度是否大于预设的相似度阈值;若是,将原始片段的置信度设置为大于预设的置信度阈值;否则将原始片段的置信度设置为小于或者等于预设的置信度阈值。

本实施例中,通过对原始片段的通顺度、原始片段在PT表中的改动频次和原始片段与上下文片段的组合在PT表中的改动频次、原始片段与上下文片段的语义相似度分别预先设置对应的阈值,如通顺度阈值、频次阈值以及置信度阈值。然后分别判断每个参数是都大于对应的阈值,若每个参数均大于对应的阈值,则可以认为此时置信度较大,可以设置置信度大于预设的置信度阈值,此时可以确定原始片段不需要进行ED召回。否则只有其中一个参数不大于对应的阈值,则可以认为此时置信度较小,可以设置置信度小于预设的置信度阈值,此时可以确定原始片段需要进行ED召回。本实施例的置信度阈值可以根据实际经验预先设置有一个恰当数值。

206、判断原始片段的置信度是否大于预设的置信度阈值;若是,执行步骤207;否则确定原始片段不需要进行ED片段召回;执行步骤208;

207、确定原始片段需要进行ED片段召回;并根据原始片段的读音,利用长文本领域中的语料库和/或拼音输入法为原始片段提供的输入提示信息,对原始片段进行ED片段召回,并将召回的候选片段追加至候选片段集合中;执行步骤208;

本实施例的ED召回为通过从原始片段的注音串即pinyin上,通过混合声母韵母双删除的方法召回候选片段。召回时的候选片段可以来自语料库中,通过根据原始片段的拼音,通过混合声母韵母双删除取高频部分,进行注音,通过拼音进行倒排索引。例如“中华”,注音为“zhonghua”,为了扩大召回,对声母韵母进行部分删除得到索引,对应生成key-value可以为{“zhonghua”,“zh hua”,“onghua”,”zhon gua”,“zhong h”}_-->{“中华”}。然后根据“zhonghua”,“zh hua”,“onghua”,”zhon gua”,“zhong h”从语料库中召回对应的候选片段。其中“zhonghua”由于拼音完整,非常容易召回对应的候选片段。而“zh hua”,“onghua”,”zhon gua”,“zhong h”可以通过补充声母或者韵母的方式召回对应拼音的候选片段。因此,ED召回的候选片段与原始片段的读音相同或者相似。

另外,本实施例的ED召回的候选片段还可以来自拼音输入法的召回结果,具体可以根据拼音输入法为原始片段提供的输入提示信息。根据用户的常用键入习惯,以当前词的声母韵母顺序方式进行召回,“zhonghua”“zhongh”,“zhhua”得到拼音输入法的候选词列表。实际应用中,也可以引入混淆音进行扩大召回结果。例如图4为本实施例提供的混淆音的映射表的示例图。如图4所示,提供部分混淆音。在根据拼音输入法的召回候选片段时,可以参考图4所示的混淆音,扩大找回结果。

208、利用预先训练的片段打分模型,分别为候选片段集合中的各候选片段进行打分;执行步骤209;

209、根据候选片段集合中各候选片段的打分,从候选片段集合中获取原始片段对应的至少两个预选片段;执行步骤210;

210、通过解码的方式,从长文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到长文本的纠正文本;执行步骤211;

步骤208-210的具体实现方式可以参考上述图1所示实施例的相关记载,在此不再赘述。

211、对纠正文本中发生纠正的片段进行纠错干预,确定最终的纠正文本,结束。

例如,本实施例中对纠正文本中发生纠正的片段进行纠错干预,具体包括如下至少一种:

判断纠正文本中发生纠正的目标片段和对应的原始片段是否命中预设的黑名单中的纠错对;若命中,则将目标片段还原为原始片段;和

判断纠正文本中发生纠正的目标片段和对应的原始片段是否属于同义词;若属于,则将目标片段还原为原始片段。

本实施例中的黑名单中可以根据之前纠正错误的纠错对进行采集。例如对原始片段纠正为某目标片段之后,用户根据纠正的结果,又将目标片段还原为原始片段,则可以确定纠错了。此时可以采集该目标片段和原始片段,形成纠错对。实际应用中,可以采用数个类似的纠错对,形成黑名单。并根据该黑名单地纠错文本中的发送纠正的片段进行干预,例如检测纠正的目标片段和原始片段是否为一对纠错对,若时,则将目标片段还原为原始片段;否则保留纠正文本。

另外,长文本纠错主要对错误的信息进行纠正,而不用纠正同义词。本实施例中,还可以预先存储有同义词表,存储每一个词语片段及其对应的同义词片段。然后根据同义词表检测发生纠正的目标片段和对应的原始片段是否属于同义词,若属于,则目标片段还原为原始片段;否则保留纠正文本。

图5为本实施例的基于人工智能的长文本纠错方法的一种纠错结果示意图。例如采用本实施例的基于人工智能的长文本纠错方法,对长文本“这师夫干的又快又好”,进行纠错之后,可以得到的纠错文本为“这师父干得又快又好”,可以得知,本实施例的技术方案可以高质量地对长文本进行纠错。

本实施例的基于人工智能的长文本纠错方法,通过采用上述技术方案,弥补了现有技术的不足,提供了一种长文本的纠错方案,能够对长文本中的错误片段进行纠正,有效地提高长文本的编辑质量。本实施例的技术方案基于长文本纠错场景提出,可以适用于正文场景下的纠错行为,且能够快速有效的产出纠错结果,纠错效率较高,可以便于辅助提升长文本的内容生产质量,提升用户体验。且本实施例的技术方案,还可以继续进行错误片段替换干预,进一步优化纠错结果。

图6为本发明的基于人工智能的长文本纠错装置实施例一的结构图。如图6所示,本实施例的基于人工智能的长文本纠错装置,具体可以包括:

PT片段召回模块10用于当长文本中存在非专用名词的原始片段时,根据长文本的领域中预先设置的短语替换表,对需要纠错的原始片段进行PT片段召回,得到原始片段的候选片段集合,候选片段集合中包括多个候选片段;

打分模块11用于利用预先训练的片段打分模型,分别为打分模块11得到的候选片段集合中的各候选片段进行打分;

纠错模块12用于根据打分模块11得到的各候选片段的打分,通过解码的方式,从长文本的需要纠错的各原始片段的候选片段集合中,获取各原始片段对应的目标片段,从而得到长文本的纠正文本。

本实施例的基于人工智能的长文本纠错装置,通过采用上述模块实现基于人工智能的长文本纠错的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

图7为本发明的基于人工智能的长文本纠错装置实施例二的结构图。如图7所示,本实施例的基于人工智能的长文本纠错装置在上述图6所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。如图7所示,本实施例的基于人工智能的长文本纠错装置,具体可以包括如下技术方案。

如图7所示,本实施例的基于人工智能的长文本纠错装置中,还包括:

ED片段召回模块13用于当原始片段还需要进行ED片段召回时,在PT片段召回模块10处理之后,打分模块11处理之前,根据原始片段的读音,利用长文本领域中的语料库和/或拼音输入法为原始片段提供的输入提示信息,对原始片段进行ED片段召回,并将召回的候选片段追加至PT片段召回模块10召回后生成的候选片段集合中。

进一步可选地,如图7所示,本实施例的基于人工智能的长文本纠错装置中,还包括:

特征获取模块14用于获取原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次以及原始片段与上下文片段的语义相似度;

置信度获取模块15用于根据特征获取模块14获取的原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、原始片段与上下文片段的语义相似度、以及预设的语言通顺度打分模型,获取原始片段的置信度;

判断模块16用于判断置信度获取模块15获取的原始片段的置信度是否大于预设的置信度阈值;若是,确定原始片段需要进行ED片段召回;否则原始片段不需要进行ED片段召回。然后触发ED片段召回模块13启动。

对应地,ED片段召回模块13用于当判断模块16确定原始片段还需要进行ED片段召回时,根据原始片段的读音,利用长文本领域中的语料库和/或拼音输入法为原始片段提供的输入提示信息,对原始片段进行ED片段召回。

进一步可选地,本实施例的基于人工智能的长文本纠错装置中,置信度获取模块15具体用于:

根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、以及语言通顺度打分模型,预测原始片段的通顺度;

根据原始片段的通顺度、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、以及原始片段与上下文片段的语义相似度,并结合预先训练的置信度打分模型,获取原始片段的置信度;

或者,置信度获取模块15具体用于:

根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、以及语言通顺度打分模型,预测原始片段的通顺度;

分别判断原始片段的通顺度是否大于预设的通顺度阈值、原始片段在PT表中的改动频次和原始片段与上下文片段的组合在PT表中的改动频次是否均大于预设的频次阈值、以及原始片段与上下文片段的语义相似度是否大于预设的相似度阈值;

若是,将原始片段的置信度设置为大于预设的置信度阈值;否则将原始片段的置信度设置为小于或者等于预设的置信度阈值。

进一步可选地,如图7所示,本实施例的基于人工智能的长文本纠错装置中,打分模块11具体包括:

质量特征获取单元111用于获取原始片段在长文本的领域中的质量特征和ED片段召回模块13召回处理后的候选片段集合中的各候选片段在长文本的领域中的质量特征;

质量特征获取单元111还用于根据原始片段在长文本的领域中的质量特征和各候选片段在长文本的领域中的质量特征,获取各候选片段与原始片段的相对质量特征;

历史行为特征获取单元112用于获取原始片段替换为ED片段召回模块13召回处理后的候选片段集合中的各候选片段的相对历史行为特征;

语义相似度特征获取单元113用于获取ED片段召回模块13召回处理后的候选片段集合中的各候选片段与原始片段的语义相似度特征;

打分单元114用于根据质量特征获取单元111获取的各候选片段与原始片段的相对质量特征、历史行为特征获取单元112获取的各候选片段与原始片段的相对历史行为特征、语义相似度特征获取单元113获取的各候选片段与原始片段的语义相似度特征、以及片段打分模型,分别获取各候选片段的打分。

进一步可选地,本实施例的基于人工智能的长文本纠错装置中,质量特征获取单元111具体用于:

获取原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次;

进一步地,质量特征获取单元111具体用于:

获取候选片段集合中的各候选片段在语料库中出现的频次、候选片段与上下文片段的组合在语料库中出现的频次;

进一步地,质量特征获取单元111具体用于:

根据原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次、各候选片段在语料库中出现的频次以及各候选片段与上下文片段的组合在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差;

进一步地,历史行为特征获取单元112具体用于:

获取PT表中原始片段修改为各候选片段的第一修改频次;

获取PT表中原始片段与上下文片段的组合修改为各候选片段与上下文片段的组合的第二修改频次;

根据第一修改频次和第二修改频次,得到频次比和/或频次差,频次比等于第二修改频次除以第一修改频次,频次差等于第二修改频次减去第一修改频次;

进一步地,语义相似度特征获取单元113具体用于:

获取各候选片段与原始片段的语义相似度;和/或

获取各候选片段和上下文片段的组合与原始片段和上下文片段的组合的语义相似度。

进一步可选地,如图7所示,本实施例的基于人工智能的长文本纠错装置中,打分模块11还包括:

专用名词特征获取单元115用于根据预设的专用名词库和ED片段召回模块13召回处理后的候选片段集合中各候选片段,获取各候选片段的专用名词特征;和/或

拼音编辑距离特征获取单元116用于获取ED片段召回模块13召回处理后的候选片段集合中各候选片段与原始片段的拼音编辑距离特征;

对应地,打分单元114具体用于根据质量特征获取单元111获取的各候选片段与原始片段的相对质量特征、历史行为特征获取单元112获取的各候选片段与原始片段的相对历史行为特征、语义相似度特征获取单元113获取的各候选片段与原始片段的语义相似度特征、以及片段打分模型,并结合专用名词特征获取单元115获取的各候选片段的专用名词特征和拼音编辑距离特征获取单元116获取的各候选片段与原始片段的拼音编辑距离特征,分别获取各候选片段的打分。

对应地,纠错模块12用于根据打分单元114得到的各候选片段的打分,通过解码的方式,从长文本的需要纠错的各原始片段的候选片段集合中,获取各原始片段对应的目标片段,从而得到长文本的纠正文本。

进一步可选地,如图7所示,本实施例的基于人工智能的长文本纠错装置中,纠错干预模块17用于对纠错模块12获取的纠正文本中发生纠正的片段进行纠错干预。

进一步可选地,本实施例的基于人工智能的长文本纠错装置中,纠错干预模块17具体用于执行如下至少一种操作:

判断纠正文本中发生纠正的目标片段和对应的原始片段是否命中预设的黑名单中的纠错对;若命中,则将目标片段还原为原始片段;和

判断纠正文本中发生纠正的目标片段和对应的原始片段是否属于同义词;若属于,则将目标片段还原为原始片段。

进一步可选地,本实施例的基于人工智能的长文本纠错装置中,纠错干预模块17具体用于:

对于各原始片段,根据候选片段集合中各候选片段的打分,从候选片段集合中获取原始片段对应的至少两个预选片段;

通过解码的方式,从长文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到长文本的纠正文本。

本实施例的基于人工智能的长文本纠错装置,通过采用上述模块实现基于人工智能的长文本纠错的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

图8为本发明的计算机设备实施例的结构图。如图8所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图5所示实施例的基于人工智能的长文本纠错方法。图8所示实施例中以包括多个处理器30为例。

例如,图9为本发明提供的一种计算机设备的示例图。图9示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图9显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图7各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图7各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的基于人工智能的长文本纠错方法。

本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的基于人工智能的长文本纠错方法。

本实施例的计算机可读介质可以包括上述图9所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1