文本分析方法、装置、电子设备以及存储介质与流程

文档序号:31479480发布日期:2022-09-10 01:25阅读:128来源:国知局
文本分析方法、装置、电子设备以及存储介质与流程

1.本公开涉及人工智能技术领域,尤其涉及深度学习技术领域和自然语言处理技术领域,具体涉及文本分析方法、装置、电子设备、存储介质以及程序产品。


背景技术:

2.随着人工智能的兴起,自然语言处理技术成为人工智能领域的一个重要分支。自然语言处理技术的基本任务可以包括:句法分析、语义分析和表达正误分析等。自然语言处理技术应用广泛,例如,可以应用于人机交互场景,也可以应用于文本翻译场景,还可以应用于搜索场景。


技术实现要素:

3.本公开提供了一种文本分析方法、装置、电子设备、存储介质以及程序产品。
4.根据本公开的一方面,提供了一种文本分析方法,包括:对待分析文本进行句法分析,得到上述待分析文本的句法树;基于上述句法树,确定上述待分析文本的语法分析结果;对上述待分析文本进行纠错分析,得到上述待分析文本的纠错结果;以及基于上述语法分析结果和上述纠错结果,确定目标分析结果。
5.根据本公开的另一方面,提供了一种文本分析装置,包括:第一分析模块,用于对待分析文本进行句法分析,得到上述待分析文本的句法树;第一确定模块,用于基于上述句法树,确定上述待分析文本的语法分析结果;第二分析模块,用于对上述待分析文本进行纠错分析,得到上述待分析文本的纠错结果;以及第二确定模块,用于基于上述语法分析结果和上述纠错结果,确定目标分析结果。
6.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。
7.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。
8.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。
9.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
10.附图用于更好地理解本方案,不构成对本公开的限定。其中:
11.图1示意性示出了根据本公开实施例的可以应用文本分析方法及装置的示例性系统架构;
12.图2示意性示出了根据本公开实施例的文本分析方法的流程图;
13.图3示意性示出了根据本公开实施例的句法分析模型的结构图;
14.图4示意性示出了根据本公开实施例的句法树的示意图;
15.图5示意性示出了根据本公开实施例的纠错分析的流程图;
16.图6示意性示出了根据本公开实施例的文本分析方法的应用示意图;
17.图7示意性示出了根据本公开实施例的文本分析装置的框图;以及
18.图8示意性示出了根据本公开实施例的适于实现文本分析方法的电子设备的框图。
具体实施方式
19.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
20.本公开提供一种文本分析方法、装置、电子设备、存储介质以及程序产品。
21.根据本公开的实施例,文本分析方法包括:对待分析文本进行句法分析,得到待分析文本的句法树;基于句法树,确定待分析文本的语法分析结果;对待分析文本进行纠错分析,得到待分析文本的纠错结果;以及基于语法分析结果和纠错结果,确定目标分析结果。
22.在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
23.在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
24.图1示意性示出了根据本公开实施例的可以应用文本分析方法及装置的示例性系统架构。
25.需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文本分析方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的文本分析方法及装置。
26.如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
27.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、翻译类应用、句子分析类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
28.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机、电子笔等等。
29.服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等文本进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备,在终端设备上高亮显示。
30.需要说明的是,本公开实施例所提供的文本分析方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的文本分析装置也可以设置于终端设备101、102、或103中。
31.或者,本公开实施例所提供的文本分析方法一般也可以由服务器105执行。相应地,本公开实施例所提供的文本分析装置一般可以设置于服务器105中。本公开实施例所提供的文本分析方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本分析装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
32.例如,用户通过终端设备101、102、103可以采集待分析文本的相关图像,然后识别图像中的待分析文本内容,发送给服务器105,由服务器105对待分析文本进行句法分析和纠错分析,分别得到待分析文本的句法树和待分析文本的纠错结果;基于句法树,确定待分析文本的语法分析结果;以及基于语法分析结果和纠错结果,确定目标分析结果。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待分析文本进行分析,并最终确定目标分析结果。
33.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
34.应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
35.图2示意性示出了根据本公开实施例的文本分析方法的流程图。
36.如图2所示,该方法包括操作s210~s240。
37.在操作s210,对待分析文本进行句法分析,得到待分析文本的句法树。
38.在操作s220,基于句法树,确定待分析文本的语法分析结果。
39.在操作s230,对待分析文本进行纠错分析,得到待分析文本的纠错结果。
40.在操作s240,基于语法分析结果和纠错结果,确定目标分析结果。
41.根据本公开的实施例,待分析文本可以是用户输入的语句内容,也可以是用户上传的图像,经ocr(optical character recognition,光学字符识别)技术转换得到待分析文本。待分析文本的语种不做限定,例如,可以是中文,也可以是英文,还可以是其他类型的语种。
42.根据本公开的实施例,句法分析,可以包括句法分析也可以包括词法分析,可以利用对待分析文本进行句法分析,得到待分析文本的句法树。句法树可以包括多个节点以及多个节点彼此之间的关联关系。多个节点可以表征待分析文本中的多个字节(token)。可以根据关联关系的类型,确定句法树的类型。例如可以基于句法树的关联关系的类型,确定句法树为依存句法树或者成分句法树。
43.根据本公开的实施例,对句法树进行处理,可以确定待分析文本的语法分析结果。语法分析结果可以包括词法分析结果、语法分析结果和句法分析结果中的一项或多项。
44.根据本公开的实施例,纠错分析,可以包括一级错误类型分析,例如词汇拼写错误、语法错误、格式错误等类型的纠错分析。纠错分析还可以包括二级错误类型分析,例如主谓一致性错误、介词错误、名词错误等类型的纠错分析。
45.根据本公开的实施例,可以对待分析文本进行纠错分析,得到待分析文本的纠错结果。纠错结果可以包括一级错误类型识别结果、二级错误类型识别结果中的一种或多种。但是并不局限于此。纠错结果还可以包括与错误字节相对应的正确字节的结果。
46.根据本公开的实施例,基于语法分析结果和纠错结果,确定目标分析结果,可以指:将语法分析结果和纠错结果共同作为目标分析结果。但是并不局限于此。基于语法分析结果和纠错结果,确定目标分析结果,还可以指:基于纠错结果,对语法分析结果进行更新,将更新后的语法分析结果和纠错结果共同作为目标分析结果。基于语法分析结果和纠错结果,确定目标分析结果,也可以指:将语法分析结果(或者更新后的语法分析结果)、对待分析文本的翻译结果和纠错结果共同作为目标分析结果。
47.利用本公开实施例提供的文本分析方法,将纠错与语法分析结合,使得目标分析结果在包括待分析文本表达正确与否的判断结果的同时,还包括对待分析文本的词法、句法、语法分析的语法分析结果,使得目标分析结果全面,进而使得处理效果高的同时,提升用户的使用体验。
48.根据本公开的另一实施例,针对操作s210中的对待分析文本进行句法分析,得到待分析文本的句法树,可以进一步包括:对待分析文本进行处理,得到关于待分析文本的第一矩阵和第二矩阵。对第一矩阵和第二矩阵进行句法解析,得到句法树。
49.根据本公开的实施例,第一矩阵可以用于表征多个节点彼此之间是否存在依存关系,第二矩阵用于表征多个节点彼此之间的依存关系类别。
50.根据本公开的实施例,可以利用句法分析模型来处理待分析文本,得到关于待分析文本的第一矩阵和第二矩阵。句法分析模型的网络结构不做限定,可以采用如图3所示的句法分析模型的网络结构。
51.图3示意性示出了根据本公开实施例的句法分析模型的结构图。
52.如图3所示,句法分析模型可以依序包括编码器320、多个并列的多层感知机330(mlp,multilayer perceptron)、和多个并列的双仿射函数340(bi-affine)。
53.如图3所示,可以将待分析文本310输入至编码器320中,得到编码向量。将编码向量分别输入至四个并列的多层感知机330中,分别得到关于每个字节(token)的四个特征向量。四个特征向量可以包括表征依存弧头的特征向量、表征依存弧尾的特征向量、表征与依存弧头的对应关系的特征向量以及表征与依存弧尾的对应关系的特征向量。可以理解,依存弧弧头可以指语法关系中的被修饰词也称支配词,依存弧尾可以指语法关系中的修饰词也称从属词。
54.根据本公开的实施例,可以使用多层bilstm(bi-directional long short-term memory,双向长短期记忆网络)作为编码器,例如编码器中的bilstm为3层。但是并不局限于此。还可以采用门控循环单元作为编码器。可根据实际情况确定。
55.如图3所示,将四个特征向量输入两个并列的双仿射函数340中,得到第一矩阵350
和第二矩阵360。
56.如图3所示,将第一矩阵350和第二矩阵360输入至句法解析器370中,用于对第一矩阵350和第二矩阵360进行句法解析,得到句法树380。
57.根据本公开的实施例,句法树,又称多叉树,可以包括依存句法树或者成分句法树。句法解析器可以根据句法树类型确定。例如,针对依存句法树,可以利用eisner法(一种词汇化概率模型)、泰尼埃式句法解析器、约束依存文法、决策式分析模型等中的一种或多种解析出依存句法结果,进而构建得到依存句法树。
58.图4示意性示出了根据本公开实施例的句法树的示意图。
59.针对待分析文本“i sent a present to her.”,根据句法分析得到如图4所示的句法树。句法树包括用于表征待分析文本中的字节的节点410,例如关于字节“i”、“sent”、“a”、“present”、“to”、“her”的节点,但是并不局限于此,句法树还包括关于标点“.”的节点,以及用于表征句首或者句尾的虚拟根节点例如“root”。此外,句法树中的节点还包括字节的字节信息430。字节信息可以包括字节的词性信息。如图4所示,prp、vbd、dt、jj、to、prp$等,均为词性标签,分别用于表征“i”、“sent”、“a”、“present”、“to”、“her”字节的词性信息。
60.如图4所示,句法树中还包括多个依存边420,也可以称为依存弧,用于表征两个节点之间的依存关系。例如“root”和“sent”之间的依存边、“i”和“sent”之间的依存边、“sent”和“present”之间的依存边、“sent”和“her”之间的依存边、“sent”和“.”之间的依存边、“to”和“her”之间的依存边、“a”和“present”之间的依存边。每个依存边上均设置单端的端点箭头,可以基于端点箭头确定两者字节之间的主从关系,例如未带箭头一端的节点为依存弧头节点,带箭头一端的节点为依存弧尾节点。此外,每个依存边上还标示有依存关系的标签440,例如表征“root”和“sent”之间的依存关系的标签root、表征“i”和“sent”之间的依存关系的标签nsubj、“a”和“present”之间的依存关系的标签del、表征“sent”和“present”之间的依存关系的标签obj、“to”和“her”之间的依存关系的标签case、“sent”和“her”之间的依存关系的标签obl、“sent”和“.”之间的依存关系的标签punct等。可以根据依存边上的标签440,确定两个节点之间的依存类型。
61.根据本公开的实施例,句法树是一种与句法相关的分析结果,在得到句法树的情况下,可以利用语法解析器,在句法树的基础上进一步分析,得到关于词法、句法、语法结构等更为具体的分析结果。例如,在待分析文本为英语的情况下,针对英语中的不同语法,可以设计相应的语法解析器。可以基于句法解析器的结果例如句法树,利用语法解析器处理句法树,完成从句识别、从句类别识别、特殊结构识别、谓语动词识别、非谓语动词识别、语句类型识别、语态识别以及时态识别等功能。
62.根据本公开的另一实施例,针对操作s210中的,基于句法树,确定待分析文本的语法分析结果,可以进一步包括:从多个依存边中确定符合目标依存关系的目标依存边;基于目标依存边,从多个节点中确定用于表征预定词性的第一目标节点;以及基于第一目标节点,确定待分析文本的语法分析结果。
63.根据本公开的实施例,语法分析结果可以包括字节成分,例如,字节的词性。语法分析结果包括动词、形容词和名词等字节的概括性词性,语法分析结果还可以包括更为具体的词性结果。例如,动词中的系动词、助动词、情态动词和实义动词等词性结果,实义动词
中的谓语动词和非谓语动词等更为具体的词性结果。
64.根据本公开的实施例,可以基于句法树中的多个节点各自标示的词性信息,确定多个节点各自的概括性词性结果,例如动词、形容词和名词等词性。还可以基于目标依存边的目标依存关系以及与目标依存边对应的词性信息,从多个节点中确定用于表征预定词性的第一目标节点。该第一目标节点为更为下位、具体的词性结果,例如谓语动词的词性结果。
65.根据本公开的实施例,以语法分析结果包括谓语动词的词性结果为例,针对用户输入的“i sent a present to her.”为例。通过句法树中标示的多个节点彼此之间的依存关系,可以从中确定目标依存边。例如“i”和“sent”之间的依存边和“sent”和“present”之间的依存边。“i”和“sent”之间的依存边对应的依存关系为“nsubj”,用于表征主谓关系。“sent”和“present”之间的依存关系为“obj”,用于表征动宾关系。可以基于目标依存边的依存关系,从多个节点中确定用于表征预定词性的例如动词词性的第一目标节点,例如“sent”。
66.根据本公开的另一实施例,预定词性可以指概括性词性,在基于目标依存边,确定用于表征预定词性的节点有多个的情况下,可以将用于表征预定词性的多个节点作为多个初始第一目标节点。进一步执行下述操作来从多个节点中确定第一目标节点。
67.例如,基于目标依存边,从多个节点中确定用于表征预定词性的多个初始第一目标节点。针对多个初始第一目标节点中的每个初始第一目标节点,确定初始第一目标节点与相邻节点之间的语法关系,得到多个语法关系。相邻节点为与初始第一目标节点相邻的节点。基于多个语法关系,从多个初始第一目标节点中确定第一目标节点。
68.根据本公开的实施例,语法关系可以指语法结构关系、固定搭配用语关系等关系。可以基于语法关系,将固定搭配用语的短语中的谓语动词作为伪谓语动词。可以将伪谓语动词词性的节点删除,将谓语动词词性的节点作为第一目标节点。
69.根据本公开的实施例,针对待分析文本“i’m going to leave at the end of this month.”。根据句法树,确定用于表征预定词性为动词词性的多个第一初始目标节点包括“going”和“leave”。在此情况下,可以结合待分析文本中的多个节点中的除多个第一初始目标节点外的节点共同确定。例如,确定第一初始目标节点“going”与相邻节点
“’
m”之间的语法关系,以及“going”和“to”之间的语法关系,确定“be going to”为固定搭配用语的语法结构。此外,基于“to”和“leave”之间的语法关系,可以确定“leave”词性为动词词性“vb”。则基于多个语法关系,确定“leave”为满足用于表征谓语动词词性的第一目标节点。
70.利用本公开实施例提供的语法分析结果确定方式,可以通过多重判断的后处理方式,对初始结果进行清洗,避免使得语法分析结果为非法或者错误的结果类型,进而提高语法分析结果的准确性。
71.根据本公开的其他实施例,可以通过对待分析文本中的多个节点的词性以及多个节点彼此之间的依存关系以及语法关系,确定多个节点彼此之间的固定结构,例如固定搭配用语“be going to”,将多个节点之间的固定结构作为语法分析结果中的一个子结果。
72.根据本公开的实施例,语法分析结果还可以包括以下至少一项:时态结果、语态结果、语句类型结果。时态结果可以指现在时、过去时、将来时等时态结果。语态结果可以指主动语态、被动语态等语态结果。语句类型结果可以指疑问句、感叹句等语句类型结果。
73.针对上述类型的语法分析结果,可以通过下述方式来确定。例如,在确定第一目标节点用于表征谓语节点的情况下,基于第一目标节点,确定第一目标节点的词尾形式。在确定第一目标节点的词尾形式与预定词尾形式相符的情况下,从多个第二节点中确定与第一目标节点相关的第二目标节点。多个第二节点包括多个节点中除第一目标节点外的节点。基于第二目标节点和第一目标节点,确定待分析文本的语法分析结果。
74.根据本公开的实施例,词尾形式可以包括过去时的词尾形式例如加ed的词尾形式、第三人数的词尾形式例如加es或者s的词尾形式、以及正在进行时的词尾形式例如加ing的词尾形式。
75.根据本公开的实施例,与第一目标节点相关的第二目标节点可以包括:辅助词尾形式表达待分析文本中语义或者语法结构的节点。
76.以语法分析结果为时态结果为例,可以在确定待分析文本“she is doing her homework.”中的第一目标节点用于表征谓语节点的情况下,确定第一目标节点的词尾形式。例如,“d0”的词尾形式为“ing”形式,可以确定该词尾形式与过去进行时或者现在进行时的预定词尾形式相符。在此情况下,从多个第二节点中确定与第一目标节点相关的第二目标节点,例如第二目标节点为“is”。可以基于第一目标节点和第二目标节点,确定待分析文本的关于时态结果的语法分析结果,例如语法分析结果为现在进行时的时态结果。
77.以语法分析结果为语态结果为例,可以在确定待分析文本“it is added to the bag.”中的第一目标节点用于表征谓语节点的情况下,确定第一目标节点的词尾形式。例如,“add”的词尾形式为“ed”形式的情况下,可以确定第一目标节点的词尾形式与被动语态的预定词尾形式相符。在此情况下,可以从多个第二节点中确定与第一目标节点相关的第二目标节点。例如第二目标节点为“is”。基于第二目标节点和第一目标节点,可以基于第一目标节点和第二目标节点,确定待分析文本的关于语态结果的语法分析结果,例如语法分析结果为被动语态的语态结果。
78.以语法分析结果为语句类型结果为例,可以在确定待分析文本“couldi drink it?”中的第一目标节点用于表征谓语节点的情况下,确定第一目标节点的词尾形式。例如,“drink”的词尾形式为无的形式的情况下,可以确定第一目标节点的词尾形式与预定词尾形式相符的情况下,从多个第二节点中确定与第一目标节点相关的第二目标节点。例如第二目标节点为“could”和“?”。可以基于第一目标节点和第二目标节点,确定待分析文本的关于语句类型结果的语法分析结果,例如语法分析结果为一般疑问句的语句类型结果。
79.根据本公开的实施例,可以基于用于表征谓语动词的第一目标节点、与第一目标节点相关的第二目标节点确定待分析文本的语法分析结果。第二目标节点与语法分析结果的类型相匹配。还可以基于第一目标节点、第二目标节点、节点的位置信息、词性信息、标点中的一种或多种,确定待分析文本的语法分析结果。采用的参考信息的种类以及数量越多,越有利于提高语法分析结果的准确性。
80.利用本公开实施例提供的语法分析结果的确定方式,可以确定多种不同类型的语法分析结果,结果种类多、且结果精准。
81.根据本公开的实施例,语法分析结果还可以包括句式分析结果。
82.根据本公开的实施例,针对操作s220中的,基于句法树,确定待分析文本的语法分析结果,可以进一步包括:基于句法树中的多个节点,从多个节点中确定用于表征引导词的
第三目标节点。基于第三目标节点,从待分析文本中确定与第三目标节点相关联的目标语句。基于第三目标节点和目标语句,确定语法分析结果。
83.根据本公开的实施例,引导词可以指用于表征从句关系的引导词。用于表征引导词的第三目标节点可以包括“that”、“what”、“which”、“when”或者“no more

than”等节点。
84.根据本公开的实施例,与第三目标节点相关联的目标语句可以指从句。以待分析文本为英语为例,可以一个语句中包括多个嵌套语句,例如一个主句和多个从句。目标语句指待分析文本中的从句。
85.例如,待分析文本为“the heart is no more intelligent than the stomach for they are both controlled by the train.”。可以遍历句法树中的多个节点,确定当前节点是否为表征引导词的第三目标节点。需要注意的是,第三目标节点并不一定是一个字节。因此,在确定存在表征引导词的节点的情况下,可以继续遍历其他节点,确定是否存在用于表征引导词的多个节点。确定第三目标节点为“no more

than和for”。可以基于第三目标节点,确定与第三那目标节点相关联的目标语句“they are both controlled by the train”。而针对上述待分析文本,“no more

than”引导的并非完整语句,并不能作为目标语句,则可以将“no more

than”的引导词节点作为非法结果,弃之不做考虑。
86.根据本公开的实施例,利用文本分析方法,不仅可以确定待分析文本中是否存在从句的语法分析结果,还可以在确定待分析文本中存在从句的情况下,确定关于目标语句的句式类别结果的语法分析结果。
87.例如,在确定待分析文本中存在目标语句的情况下,对待分析文本进行从句类别识别处理,得到关于目标语句的句式类别结果的语法分析结果。
88.根据本公开的实施例,可以在确定待分析文本中存在目标语句的情况下,将待分析文本输入至从句分类模型中,输出关于目标语句的句式类别结果。
89.根据本公开的实施例,句式类别结果可以包括主语从句、表语从句、宾语从句、条件状语从句等结果。
90.根据本公开的实施例,从句分类模型可以包括预先训练的深度学习模型。例如,卷积神经网络模型、图神经网络模型、循环神经网络模型等中的一种或多种。
91.根据本公开的实施例,针对操作s230中的,对待分析文本进行纠错分析,得到待分析文本的纠错结果,可以进一步包括:对待分析文本进行识别,得到纠错识别结果。在基于纠错识别结果,确定待分析文本中存在错误字节的情况下,基于纠错识别结果,将错误字节进行更正,得到与错误字节相对应的正确字节。基于正确字节和纠错识别结果,确定纠错结果。
92.根据本公开的实施例,可以基于预定语法规则或者预定字节的词尾形式,与待分析文本中的多个字节进行比对,确定待分析文本的纠错识别结果。例如,在待分析文本的语法符合预定语法规则的情况下,则确定待分析文本不存在与语法相关的错误,反之,则确定待分析文本存在错误。还例如,在待分析文本的多个字节的词尾形式与预定字节的词尾形式一致的情况下,确定待分析文本中不存在拼写或者词汇错误,反之,则确定待分析文本存在错误。
93.根据本公开的可选实施例,可以利用纠错分析模型来处理待分析文本,得到关于
待分析文本的纠错识别结果。纠错分析模型可以包括词性标注(part-of-speech tagging,pos tagging)模型,例如,可以包括隐马尔可夫模型(hidden markov model,hmm)或者条件随机场(conditional random fields,crfs)中的一种或多种。可以结合纠错分析模型来进行如图5所示的纠错分析操作,得到纠错识别结果。
94.图5示意性示出了根据本公开实施例的纠错分析的流程图。
95.如图5所示,可以将待分析文本510输入至特征提取模型520中,得到文本特征向量。将文本特征向量输入至纠错分析模型530中,得到纠错识别结果540。在基于纠错识别结果540,确定待分析文本中存在错误字节的情况下,基于纠错识别结果540,将错误字节进行更正,得到与错误字节相对应的正确字节550。基于正确字节550和纠错识别结果540,确定纠错结果560。
96.根据本公开的实施例,特征提取模型可以包括卷积神经网络模型,但是并不局限于此,还可以包括erni(enhanced language representation with informative entities)或者其他对待分析文本进行特征提取或者编码的特征提取模型。
97.根据本公开的实施例,纠错识别结果可以为错误类别标签。例如主谓一致错误类别标签、介词错误类别标签、名词所有格错误类别标签、格式错误类别标签,词汇错误类别标签等,还可以包括无错误类别标签。可以根据待分析文本中的多个字节的数量,匹配与多个字节一一对应的多个错误类别标签。由此,使得纠错识别结果更为精准。
98.根据本公开的实施例,在与多个字节一一对应的多个错误类别标签,均为无错误类别的标签的情况下,确定待分析文本中不存在错误字节。反之,可以在确定待分析文本中存在错误字节的情况下,基于纠错识别结果例如错误类别标签,将错误字节进行更正,得到与错误字节相对应的正确字节。
99.根据本公开的实施例,以待分析文本为“this cause probelm”为例,待分析文本中包含了3个字节。经过特征提取模型和纠错识别模型处理后,得到与每个字节相对应的错误类别标签。例如,关于“this”字节的纠错类别标签为“capital”,“capital”用于表征格式错误中的首字母未大写的纠错识别结果。关于“cause”字节的纠错类别标签为“verb_vb_vbz”,“verb_vb_vbz”用于表征语法错误中的第三人称单数动词错误的纠错识别结果。关于“problem”字节的纠错类别标签为“plural”,“plural”用于表征语法错误中的单复数错误的纠错识别结果。
100.根据本公开的实施例,可以根据待分析文本中的关于错误字节的纠错识别结果以及预定的变换策略,将错误字节进行更正,得到与错误字节相对应的正确字节。例如,针对“this”可以更正为首字母大写的正确字节“this”。针对“cause”可以更正为第三人称单数加s的正确字节“causes”。针对“problem”可以更正为复数形式的正确字节“problems”。进而得到正确文本“this causes problems”。
101.根据本公开的另一实施例,针对操作s240,基于语法分析结果和纠错识别结果,确定目标分析结果,可以进一步包括:在基于纠错识别结果,确定待分析文本中存在错误字节的情况下,基于纠错识别结果,将错误字节进行更正,得到与错误字节相对应的正确字节。利用正确字节,对语法分析结果进行更新,得到更新后的语法分析结果。基于更新后的语法分析结果、正确字节和纠错识别结果,确定目标分析结果。
102.根据本公开的实施例,针对利用正确字节,对语法分析结果进行更新,得到更新后
的语法分析结果操作,可以在执行该操作之前,接收来自用户的用于更新语法分析结果的请求。响应于该请求,执行利用正确字节,对语法分析结果进行更新,得到更新后的语法分析结果的操作。
103.根据本公开的实施例,基于更新后的语法分析结果、正确字节和纠错识别结果,确定目标分析结果,可以使得目标分析结果的全面性、准确性均得到提升。
104.根据本公开的实施例,在执行分析文本方法中的对待分析文本进行句法分析和纠错分析之前,可以执行接收待分析文本的操作。接收待分析文本,可以指接收用户以文字方式输入的待分析文本,但是并不局限于此,还可以接收用户输入的包含有待分析文本的图像。可以利用ocr技术对接收到的图像进行目标识别,得到待分析文本。使得用户通过输入图像的方式即可快速输入待分析文本,使得用户无需打字,进而显著解放用户双手。
105.根据本公开的实施例,终端设备或者服务器可以接收例如文字类型或者图像类型等不同类型的信息,从中确定待识别文本,提升用户的使用体验。
106.根据本公开的实施例,待分析文本的数据量不做限定,例如,待分析文本可以包括一个语句,也可以包括多个语句。在待分析文本包括多个语句的情况下,可以自动断句。
107.图6示意性示出了根据本公开实施例的文本分析方法的应用示意图。
108.如图6所示,可以在显示界面610显示待分析文本620。并在显示界面610展示用于表征分析待分析文本的控制件。例如用于用户请求句法分析的控制件631或者纠错分析的控制件632。在用户点击控制件以发出对待分析文本进行分析的请求的情况下,终端设备或者服务器可以响应于该请求,执行文本分析方法的操作,得到待分析文本的目标分析结果。可以在显示界面610显示目标分析结果。
109.根据本公开的实施例,显示方式可以包括高亮、变换颜色、加粗、标注、加括号、加下划线等中的一种或多种。
110.根据本公开的实施例,可以将显示界面划分为多个显示区域,用于显示不同类型的目标分析结果。
111.如图6所示,显示目标分析结果中的可视化核心成分641。可以在待分析文本上显示词性结果,例如主语、谓语、以及宾语等核心字节按照不同显示规则进行颜色变换并高亮、或者斜体变换、加下划线等。将句式分析结果例如将待分析文本中的从句用括号标注。将待分析文本中的固定搭配用语用加粗标注。
112.根据本公开的实施例,针对语法分析结果中的词性结果、句式类别结果以及语法结果等,可以通过可视化的方式,使得用户可以一目了然了解待分析文本中的成分。
113.如图6所示,显示目标分析结果中的机器翻译结果642。在待分析文本的下方,直接显示该待分析文本的机器翻译结果。通过机器翻译结果的例如中英文对照,用户能非常直观的了解待分析文本例如英文语句的中文意思,结合可视化核心成分标识,进一步了解待分析文本的语义。
114.根据本公开的实施例,还可以针对用户不认识的单词,在用户直接点击单词的情况下,响应于用户的用于翻译或者朗读的请求,实时给出单词的词典解释结果、英美音标和发音等。
115.如图6所示,显示目标分析结果中的语法分析结果643。详细显示待分析文本的语法分析结果。例如,显示待分析文本的一般疑问句的语句类型结果、一般现在时的时态结果
以及被动语态的语态结果。还例如,显示从句的从句类型和位置等的识别结果。还例如,显示待分析文本中每个单词的词性和/或在待分析文本中的成分。可以以列表的形式,按照出现的顺序,依次给出每个单词的词性和成分,方便用户查找。
116.根据本公开的实施例,显示目标分析结果中的智能纠错。在待分析文本中存在例如语法或者拼写等错误的情况下,可以进行语法纠错,并给出纠错识别结果。例如对错误地方进行飘色,以便用户可以查看详情,进入纠错详情页。也可响应于用户的用于智能纠错的请求,根据正确字节,对待分析文本的语法分析结果进行更新,并刷新页面,展示更新后的语法分析结果。以便提高语法分析结果的准确度。
117.如图6所示,显示目标分析结果中的相关核心词汇644。可以针对待分析文本,智能解析重点核心词汇,罗列词汇及其释义,以便用户可快捷查词和收藏,及时提升词汇量。
118.根据本公开的实施例,待分析文本可以为英语,可以利用文本分析方法,形成一站式英语语法学习工具,进而提供一种深度、全栈式的英语语法解析技术。支持对待分析文本中的词法和句法的分析,基本上支持英语语法的全部知识点。由此提高了文本分析方法的核心竞争力以及提高用户英语学习需求的满足程度。
119.根据本公开的其他实施例,可以将机器翻译、纠错和语法分析有机结合,充分发挥各自的价值。通过智能检测待分析文本的纠错结果,及时提示并支持一键修改,从而避免对含有语病的待分析文本进行语法分析而导致的语法分析结果具有错误的问题。此外,通过机器翻译和词典,有机的补充待分析文本中单词的中文释义,让用户能轻松了解掌握句子,避免知道语法但不知道单词意思而导致的对句意不明所以的问题。
120.图7示意性示出了根据本公开实施例的文本分析装置的框图。
121.如图7所示,文本分析装置700,包括:第一分析模块710、第一确定模块720、第二分析模块730、以及第二确定模块740。
122.第一分析模块710,用于对待分析文本进行句法分析,得到待分析文本的句法树。
123.第一确定模块720,用于基于句法树,确定待分析文本的语法分析结果。
124.第二分析模块730,用于对待分析文本进行纠错分析,得到待分析文本的纠错结果。
125.第二确定模块740,用于基于语法分析结果和纠错结果,确定目标分析结果。
126.根据本公开的实施例,句法树包括多个节点和多个依存边,节点用于表征待分析文本中的字节信息,依存边用于表征两个节点之间的依存关系。
127.根据本公开的实施例,第一确定模块包括:第一确定子模块、第二确定子模块、以及第三确定子模块。
128.第一确定子模块,用于从多个依存边中确定符合目标依存关系的目标依存边。
129.第二确定子模块,用于基于目标依存边,从多个节点中确定用于表征预定词性的第一目标节点。
130.第三确定子模块,用于基于第一目标节点,确定待分析文本的语法分析结果。
131.根据本公开的实施例,语法分析结果包括以下至少一项:时态结果、语态结果、语句类型结果。第一目标节点为用于表征谓语词性的节点。
132.根据本公开的实施例,第三确定子模块包括:第一确定单元、第二确定单元、以及第三确定单元。
133.第一确定单元,用于基于第一目标节点,确定第一目标节点的词尾形式。
134.第二确定单元,用于在确定第一目标节点的词尾形式与预定词尾形式相符的情况下,从多个第二节点中确定与第一目标节点相关的第二目标节点,其中,多个第二节点包括多个节点中除第一目标节点外的节点。
135.第三确定单元,用于基于第二目标节点和第一目标节点,确定待分析文本的语法分析结果。
136.根据本公开的实施例,语法分析结果包括句式分析结果。
137.根据本公开的实施例,第一分析模块包括:第四确定子模块、第五确定子模块、以及第六确定子模块。
138.第四确定子模块,用于基于句法树中的多个节点,从多个节点中确定用于表征引导词的第三目标节点。
139.第五确定子模块,用于基于第三目标节点,从待分析文本中确定与第三目标节点相关联的目标语句。
140.第六确定子模块,用于基于第三目标节点和目标语句,确定语法分析结果。
141.根据本公开的实施例,语法分析结果包括句式类别结果。
142.根据本公开的实施例,第一分析模块还包括:第七确定子模块。
143.第七确定子模块,用于在确定待分析文本中存在目标语句的情况下,对待分析文本进行从句类别识别处理,得到关于目标语句的从句类别的语法分析结果。
144.根据本公开的实施例,第二确定子模块包括:第四确定单元、第五确定单元、以及第六确定单元。
145.第四确定单元,用于基于目标依存边,从多个节点中确定用于表征预定词性的多个初始第一目标节点。
146.第五确定单元,用于针对多个初始第一目标节点中的每个初始第一目标节点,确定初始第一目标节点与相邻节点之间的语法关系,得到多个语法关系,其中,相邻节点为与初始第一目标节点相邻的节点。
147.第六确定单元,用于基于多个语法关系,从多个初始第一目标节点中确定第一目标节点。
148.根据本公开的实施例,第二分析模块包括:纠错识别子模块、更正子模块、纠错确定子模块。
149.纠错识别子模块,用于对待分析文本进行识别,得到纠错识别结果。
150.更正子模块,用于在基于纠错识别结果,确定待分析文本中存在错误字节的情况下,基于纠错识别结果,将错误字节进行更正,得到与错误字节相对应的正确字节。
151.纠错确定子模块,用于基于正确字节和纠错识别结果,确定纠错结果。
152.根据本公开的实施例,第二确定模块包括:更正子模块、更新子模块、以及第八确定子模块。
153.更正子模块,用于在基于纠错识别结果,确定待分析文本中存在错误字节的情况下,基于纠错识别结果,将错误字节进行更正,得到与错误字节相对应的正确字节。
154.更新子模块,用于利用正确字节,对语法分析结果进行更新,得到更新后的语法分析结果。
155.第八确定子模块,用于基于更新后的语法分析结果、正确字节和纠错结果,确定目标分析结果。
156.根据本公开的实施例,第一分析模块包括:处理子模块、以及解析子模块。
157.处理子模块,用于对待分析文本进行处理,得到关于待分析文本的第一矩阵和第二矩阵,其中,第一矩阵用于表征多个节点彼此之间是否存在依存关系,第二矩阵用于表征多个节点彼此之间的依存关系类别。
158.解析子模块,用于对第一矩阵和第二矩阵进行句法解析,得到句法树。
159.根据本公开的实施例,文本分析装置还包括:识别模块、第一显示模块、第二显示模块。
160.识别模块,用于对接收到的图像进行目标识别,得到待分析文本。
161.第一显示模块,用于在显示界面显示待分析文本。
162.第二显示模块,用于响应于用于对待分析文本进行分析的请求,在显示界面上显示目标分析结果。
163.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
164.根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。
165.根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。
166.根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。
167.图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
168.如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
169.设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
170.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工
智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如文本分析装置方法。例如,在一些实施例中,文本分析装置方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的文本分析装置方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本分析装置方法。
171.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
172.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
173.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
174.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
175.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
176.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
177.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
178.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1