一种数据处理的方法及相关装置与流程

文档序号:18642673发布日期:2019-09-11 23:43阅读:169来源:国知局
一种数据处理的方法及相关装置与流程

本发明涉及智能决策领域,尤其涉及一种数据处理的方法及相关装置。



背景技术:

目前,孩童或者学生阅读完书籍后,家长或者老师检验阅读效果的方法就是通过作业来确认,例如对于课本上的文章,孩童或者学生阅读完后往往需要做课后练习,家长或者老师通过课后练习来检验阅读效果。

但是,有时候孩童或者学生阅读的书籍后面没有对应的作业或者练习,如果要检验阅读效果,家长或者老师只有先看一遍书籍,了解书籍的内容,才能对孩童或者学生的阅读效果进行检验,这样,浪费了阅读书籍的时间,而且如果阅读的书籍很长,那么检验阅读效果的效率较低。



技术实现要素:

本发明实施例提供一种数据处理的方法及相关装置,以提高检验阅读效果的效率。

本发明第一方面提供一种数据处理的方法,包括:

获取终端发送的书籍的图像数据;

对所述图像数据进行字符识别处理以得到所述图像数据对应的文本数据;

对所述文本数据进行文本类型检测以判断所述文本数据的文本类型是否满足预设文本类型;

当所述文本类型满足所述预设文本类型时,将所述文本数据输入神经网络编码器以得到所述文本数据的摘要向量,其中,所述神经网络编码器用于对所述文本数据进行压缩编码;

将所述文本数据的摘要向量输入神经网络解码器以得到所述文本数据的摘要,其中,所述神经网络解码器用于通过神经网络对所述文本数据的摘要向量进行预测以得到多个预测的字,所述多个预测的字连接为所述文本数据的摘要;

对所述文本数据的摘要进行分词处理,按照词频由大到小的顺序提取所述文本数据的摘要中的n个关键词,其中,n为正整数;

对所述n个关键词进行词性分类,根据所述n个关键词的词性将所述n个关键词按照预设问句语序进行组合以得到所述文本数据的问题;

通过神经网络语义表示模型计算所述文本数据的问题和所述文本数据中的文本的语义相关程度,确定语义相关程度最高的文本为所述文本数据的问题对应的答案。

本发明第二方面提供了一种数据处理的装置,包括:

获取模块,用于获取终端发送的书籍的图像数据;

字符识别模块,用于对所述图像数据进行字符识别处理以得到所述图像数据对应的文本数据;

检测模块,用于对所述文本数据进行文本类型检测以判断所述文本数据的文本类型是否满足预设文本类型;

编码模块,用于当所述文本类型满足所述预设文本类型时,将所述文本数据输入神经网络编码器以得到所述文本数据的摘要向量,其中,所述神经网络编码器用于对所述文本数据进行压缩编码;

解码模块,用于将所述文本数据的摘要向量输入神经网络解码器以得到所述文本数据的摘要,其中,所述神经网络解码器用于通过神经网络对所述文本数据的摘要向量进行预测以得到多个预测的字,所述多个预测的字连接为所述文本数据的摘要;

提取模块,用于对所述文本数据的摘要进行分词处理,按照词频由大到小的顺序提取所述文本数据的摘要中的n个关键词,其中,n为正整数;

组合模块,用于对所述n个关键词进行词性分类,根据所述n个关键词的词性将所述n个关键词按照预设问句语序进行组合以得到所述文本数据的问题;

处理模块,用于通过神经网络语义表示模型计算所述文本数据的问题和所述文本数据中的文本的语义相关程度,确定语义相关程度最高的文本为所述文本数据的问题对应的答案。

可以看到,通过本发明提出的数据处理的方法及相关装置,当孩童或者学生阅读的书籍后面没有对应的作业或者练习,如果要检验阅读效果,家长或者老师可以通过扫描工具对书籍进行扫描,得到书籍的扫描图像,或者还可以对书籍进行拍照,得到书籍的照片,然后通过终端将书籍的图像数据发给服务器,服务器对图像数据进行处理,得到图像数据对应的文本数据,再对文本数据进行处理,得到文本数据的摘要、文本数据的问题和文本数据的问题对应的答案,并返回给终端,以便于家长或者老师根据摘要了解书籍的内容,通过问题和问题对应的答案对孩童或者学生的阅读效果进行检验,避免了家长或者老师花费大量时间阅读书籍,提高了检验阅读效果的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据处理的方法的流程图;

图2为本发明实施例提供的另一种数据处理的方法的流程图;

图3为本发明实施例提供的另一种数据处理的方法的流程图;

图4为本发明实施例提供的一种系统结构示意图;

图5为本发明实施例提供的一种对图像数据进行字符识别处理的示意图;

图6为本发明实施例提供的一种数据处理的装置的示意图;

图7为本发明实施例涉及的硬件运行环境的电子设备结构示意图。

具体实施方式

本发明实施例提供的数据处理的方法及相关装置,以提高检验阅读效果的效率。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

以下分别进行详细说明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的实施例中,人工智能服务器获取终端发送的图像数据,然后对图像数据进行处理以得到图像数据对应的文本数据,再对文本数据进行处理以得到文本数据的摘要、文本数据的问题和文本数据的问题对应的答案,并返回给终端。

首先参见图1,图1为本发明的一个实施例提供的一种数据处理的方法的流程图。其中,如图1所示,本发明的一个实施例提供的一种数据处理的方法可以包括:

101、获取终端发送的书籍的图像数据。

其中,终端可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备、或其他类型的终端。

如果孩童或者学生阅读的书籍是纸质书籍,那么先对纸质书籍进行扫描以得到纸质书籍的扫描图像,然后终端将扫描图像发给人工智能服务器。

102、对该图像数据进行字符识别处理以得到该图像数据对应的文本数据。

可选的,当该图像数据为扫描图像时,由于扫描图像是由扫描工具扫描生成的,所以可能出现部分未扫描到或者扫描不清晰的问题,也可能出现扫描歪斜的问题,所以在对图像数据进行字符识别处理之前,需要对图像数据进行标准化处理,其中,对图像数据进行标准化处理的方法可以是:

当该图像数据的倾斜度超过预设倾斜度阈值时,通过图像校正算法对该图像数据进行处理,其中,图像校正算法包括拉东算法、霍夫变换和线性回归算法的任意一种。

或者,当该图像数据的清晰度低于预设清晰度阈值时,通过图像增强算法对该图像数据进行处理,其中,图像增强算法包括直方图均衡、图像平滑、图像锐化的任意一种。

或者,当该图像数据的倾斜度超过预设倾斜度阈值以及该图像数据的清晰度低于预设清晰度阈值时,通过图像校正算法以及图像增强算法对该图像数据进行处理。

当该图像数据为扫描图像时,由于扫描图像不能直接被识别,所以需要人工智能服务器对该图像数据进行字符识别处理以得到该图像数据对应的文本数据,文本数据可以直接被识别。

其中,人工智能服务器对该图像数据进行字符识别处理以得到该图像数据对应的文本数据的方法可以是:

对该图像数据进行字符切割以得到m个字符,其中,m为正整数。

对m个字符进行特征提取以得到m个字符特征,其中,m个字符与m个字符特征一一对应。

将m个字符特征与字符特征数据库进行对比以识别m个字符特征对应的m个文本字符,其中,m个字符特征与m个文本字符一一对应,其中,比对方法包括欧式空间的比对方法、松弛比对法(relaxation)、动态程序比对法(dynamicprogramming,dp)、类神经网络的数据库建立及比对法、hmm(hiddenmarkovmodel)等方法。

将m个文本字符进行组合以得到该图像数据对应的文本数据。

103、对该文本数据进行文本类型检测以判断该文本数据的文本类型是否满足预设文本类型。

可选的,文本类型包括语言类型和文体类型,语言类型包括中文、英文、日文等等,文体类型包括现代文体(包括小说、散文、童话、记叙文、说明文、议论文等等)和古代文体(包括诗、词、歌、赋等等)。

人工智能服务器对该文本数据进行文本类型检测以判断该文本数据的文本类型是否满足预设文本类型的方法可以是:

对该文本数据进行语言类型检测以得到该文本数据的语言类型,对该文本数据进行文体类型检测以得到该文本数据的文体类型。

当该文本数据的语言类型满足预设语言类型以及该文本数据的文体类型满足预设文体类型时,确定该文本数据的文本类型满足该预设文本类型,其中,该预设语言类型包括中文,该预设文体类型包括现代文体。

当该文本数据的语言类型不满足该预设语言类型、或者该文本数据的文体类型不满足该预设文体类型、或者该文本数据的语言类型不满足该预设语言类型以及该文本数据的文体类型不满足该预设文体类型时,确定该文本数据的文本类型不满足该预设文本类型。

进一步可选的,人工智能服务器确定该文本数据的文本类型不满足该预设文本类型之后,包括:

当该文本数据的语言类型不满足预设语言类型时,人工智能服务器向终端发送语言类型错误消息,其中,语言类型错误消息用于指示终端生成提示该书籍的语言类型错误的弹窗或者界面,例如,人工智能服务器识别出终端发送的文本数据的语言类型为英文,那么人工智能服务器向终端发送语言类型错误消息,终端接收语言类型错误消息时,生成提示书籍的语言类型不能为英文的弹窗或者界面。

当该文本数据的文体类型不满足预设文体类型时,向终端发送文体类型错误消息,其中,文体类型错误消息用于指示终端生成提示该书籍的文体类型错误的弹窗或者界面,例如,人工智能服务器识别出终端发送的文本数据的文体类型为古代文体,那么人工智能服务器向终端发送文体类型错误消息,终端接收文体类型错误消息时,生成提示书籍的文体类型不能为古代文体的弹窗或者界面。

当该文本数据的语言类型不满足预设语言类型以及该文本数据的文体类型不满足预设文体类型时,向终端发送语言及文体类型错误消息,其中,语言及文体类型错误消息用于指示终端生成提示该书籍的语言及文体类型错误的弹窗或者界面,例如,人工智能服务器识别出终端发送的文本数据的语言类型为日文,图像数据的文体类型为古代文体,那么人工智能服务器向终端发送语言及文体类型错误消息,终端接收语言及文体类型错误消息时,生成提示书籍的语言类型不能为日文以及书籍的文体类型不能为古代文体的弹窗或者界面。

104、当文本类型满足该预设文本类型时,将该文本数据输入神经网络编码器以得到该文本数据的摘要向量。

其中,该神经网络编码器用于对该文本数据进行压缩编码,由递归神经网络(rnn)实现,神经网络编码器接收输入的文本数据,在开始时刻将原文本数据中的字输入到神经网络,将这个字压缩成一个向量,然后将压缩得到的向量传入下一时刻,下一时刻将上一时刻的压缩向量和原文本数据中的字输入到神经网络,再将压缩得到的新向量传入下一时刻,在压缩完所有的文本数据后得到的编码向量,即是文本数据的摘要向量。

105、将该文本数据的摘要向量输入神经网络解码器以得到该文本数据的摘要。

其中,该神经网络解码器用于对该文本数据的摘要向量进行解码,也由递归神经网络(rnn)实现,将该文本数据的摘要向量输入神经网络解码器后,神经网络解码器对该文本数据的摘要向量进行预测得到一个时刻的输出字,然后神经网络解码器再根据该时刻的输出字和摘要向量进行预测得到下一个时刻的输出字,以此类推,上一个时刻的输出字会影响下一个输出字,最后神经网络解码器得到的所有的输出字连接起来即为该文本数据的摘要。

106、对该文本数据的摘要进行分词处理,按照词频由大到小的顺序提取该文本数据的摘要中的n个关键词,其中,n为正整数。

可选的,对该文本数据的摘要进行分词处理,按照词频由大到小的顺序提取该文本数据的摘要中的n个关键词的方法可以是:

对该文本数据的摘要进行分词处理以得到该文本数据的摘要对应的k个分词,其中,k为大于n的正整数。

计算该k个分词对应的k个词频,其中,该k个分词与该k个词频一一对应。

按照词频由大到小的顺序确定该k个分词中的n个分词,提取该n个分词。

其中,对该文本数据的摘要进行分词处理的方法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

基于字符串匹配的分词方法是按照一定的策略将待分词的汉字串与一个词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即识别出一个词。基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。基于统计的分词方法要使用基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

107、对该n个关键词进行词性分类,根据所述n个关键词的词性将该n个关键词按照预设问句语序进行组合以得到该文本数据的问题。

108、通过神经网络语义表示模型计算该文本数据的问题和该文本数据中的文本的语义相关程度,确定语义相关程度最高的文本为该文本数据的问题对应的答案。

其中,通过神经网络语义表示模型计算该文本数据的问题和该文本数据中的文本的语义相关程度包括:

将该文本数据的问题和该文本数据中的文本输入到神经网络语义表示模型中,使用神经网络对该文本数据的问题和该文本数据中的文本进行编码,通过对语义的挖掘获得其向量表示,最终通过计算该文本数据的问题和该文本数据中的文本的语义向量的相似度得到其语义相关程度。其中,计算该文本数据的问题与该文本数据中的文本的语义相关程度的方法可以是词汇重叠法、字符串法、余弦相似度法或者最大共同子序列法。

具体过程为,在该文本数据中查找与该n个关键词匹配的q段文本,其中,q为正整数。

计算该文本数据的问题与该q段文本的q个语义相关程度,其中,该q段文本与该q个语义相关程度一一对应。

获取该q个语义相关程度中最高的第一语义相关程度,确定该第一语义相关程度对应的文本为该文本数据的问题对应的答案。

参见图2,图2为本发明的另一个实施例提供的另一种数据处理的方法的流程图。其中,如图2所示,本发明的另一个实施例提供的另一种数据处理的方法可以包括:

201、终端将书籍的图像数据发给人工智能服务器。

其中,终端可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备、或其他类型的终端。

如果孩童或者学生阅读的书籍是纸质书籍,那么先对纸质书籍进行扫描以得到纸质书籍的扫描图像,然后终端将扫描图像发给人工智能服务器。

202、人工智能服务器对该图像数据进行字符识别处理以得到该图像数据对应的文本数据。

可选的,当该图像数据为扫描图像时,由于扫描图像是由扫描工具扫描生成的,所以可能出现部分未扫描到或者扫描不清晰的问题,也可能出现扫描歪斜的问题,所以在对图像数据进行字符识别处理之前,需要对图像数据进行标准化处理,其中,对图像数据进行标准化处理的方法可以是:

当该图像数据的倾斜度超过预设倾斜度阈值时,通过图像校正算法对该图像数据进行处理,其中,图像校正算法包括拉东算法、霍夫变换和线性回归算法的任意一种。

或者,当该图像数据的清晰度低于预设清晰度阈值时,通过图像增强算法对该图像数据进行处理,其中,图像增强算法包括直方图均衡、图像平滑、图像锐化的任意一种。

或者,当该图像数据的倾斜度超过预设倾斜度阈值以及该图像数据的清晰度低于预设清晰度阈值时,通过图像校正算法以及图像增强算法对该图像数据进行处理。

当该图像数据为扫描图像时,由于扫描图像不能直接被识别,所以需要人工智能服务器对该图像数据进行字符识别处理以得到该图像数据对应的文本数据,文本数据可以直接被识别。

其中,人工智能服务器对该图像数据进行字符识别处理以得到该图像数据对应的文本数据的方法可以是:

对该图像数据进行字符切割以得到m个字符,其中,m为正整数。

对m个字符进行特征提取以得到m个字符特征,其中,m个字符与m个字符特征一一对应。

将m个字符特征与字符特征数据库进行对比以识别m个字符特征对应的m个文本字符,其中,m个字符特征与m个文本字符一一对应,其中,比对方法包括欧式空间的比对方法、松弛比对法(relaxation)、动态程序比对法(dynamicprogramming,dp)、类神经网络的数据库建立及比对法、hmm(hiddenmarkovmodel)等方法。

将m个文本字符进行组合以得到该图像数据对应的文本数据。

203、人工智能服务器识别该文本数据的语言类型是否满足预设语言类型。

其中,语言类型包括中文、英文、日文等等,预设语言类型包括中文。

204、当该文本数据的语言类型不满足该预设语言类型时,人工智能服务器识别该文本数据的文体类型是否满足预设文体类型。

其中,文体类型包括现代文体(包括小说、散文、童话、记叙文、说明文、议论文等等)和古代文体(包括诗、词、歌、赋等等),预设文体类型包括现代文体。

205、当该文本数据的文体类型不满足该预设文体类型时,人工智能服务器向终端发送语言及文体类型错误消息。

206、终端生成提示该书籍的语言及文体类型错误的弹窗或者界面。

例如,人工智能服务器识别出文本数据的语言类型为日文,文体类型为古代文体,那么人工智能服务器向终端发送语言及文体类型错误消息,终端接收语言及文体类型错误消息时,生成提示书籍的语言类型不能为日文以及文体类型不能为古代文体的弹窗或者界面。

参见图3,图3为本发明的另一个实施例提供的另一种数据处理的方法的流程图。其中,如图3所示,本发明的另一个实施例提供的另一种数据处理的方法可以包括:

301、终端将书籍的图像数据发给人工智能服务器。

其中,终端可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备、或其他类型的终端。

孩童或者学生阅读的书籍是纸质书籍,先通过终端对纸质书籍进行扫描以得到纸质书籍的扫描图像,然后终端将扫描图像发给人工智能服务器。

302、当该图像数据的倾斜度超过预设倾斜度阈值时,人工智能服务器通过图像校正算法对该图像数据进行处理。

当该图像数据为扫描图像时,由于扫描图像是由扫描工具扫描生成的,所以可能出现部分未扫描到或者扫描不清晰的问题,也可能出现扫描歪斜的问题,所以需要通过图像校正算法对该图像数据进行处理,其中,图像校正算法包括拉东算法、霍夫变换和线性回归算法的任意一种。

303、当该图像数据的清晰度低于预设清晰度阈值时,人工智能服务器通过图像增强算法对该图像数据进行处理。

其中,图像增强算法包括直方图均衡、图像平滑、图像锐化的任意一种。

304、人工智能服务器对该图像数据进行字符切割以得到m个字符,其中,m为正整数。

305、人工智能服务器对m个字符进行特征提取以得到m个字符特征。

其中,m个字符与m个字符特征一一对应,特征提取可分为两类:一类为统计的特征,获取该图像数据的字符区域内的黑点数比或白点数比,当字符区域分成好几个区域时,这一个个区域黑点数比或白点数比联合成空间的一个数值向量,而另一类为结构的特征,对该图像数据的字符进行细线化处理后,获取字符的笔划端点和交叉点的数量及位置。

306、人工智能服务器将m个字符特征与字符特征数据库进行对比以识别m个字符特征对应的m个文本字符。

其中,m个字符特征与m个文本字符一一对应,其中,比对方法包括欧式空间的比对方法、松弛比对法(relaxation)、动态程序比对法(dynamicprogramming,dp)、类神经网络的数据库建立及比对法、hmm(hiddenmarkovmodel)等方法。

307、人工智能服务器将m个文本字符进行组合以得到该图像数据对应的文本数据。

308、人工智能服务器对该文本数据进行文本类型检测以判断该文本数据的文本类型是否满足预设文本类型。

可选的,文本类型包括语言类型和文体类型,语言类型包括中文、英文、日文等等,文体类型包括现代文体(包括小说、散文、童话、记叙文、说明文、议论文等等)和古代文体(包括诗、词、歌、赋等等)。

人工智能服务器对该文本数据进行文本类型检测以判断该文本数据的文本类型是否满足预设文本类型的方法可以是:

对该文本数据进行语言类型检测以得到该文本数据的语言类型,对该文本数据进行文体类型检测以得到该文本数据的文体类型。

当该文本数据的语言类型满足预设语言类型以及该文本数据的文体类型满足预设文体类型时,确定该文本数据的文本类型满足该预设文本类型,其中,该预设语言类型包括中文,该预设文体类型包括现代文体。

当该文本数据的语言类型不满足该预设语言类型、或者该文本数据的文体类型不满足该预设文体类型、或者该文本数据的语言类型不满足该预设语言类型以及该文本数据的文体类型不满足该预设文体类型时,确定该文本数据的文本类型不满足该预设文本类型。

309、当文本类型满足该预设文本类型时,将该文本数据输入神经网络编码器以得到该文本数据的摘要向量。

其中,该神经网络编码器用于对该文本数据进行压缩编码,由递归神经网络(rnn)实现,神经网络编码器接收输入的文本数据,在开始时刻将原文本数据中的字输入到神经网络,将这个字压缩成一个向量,然后将压缩得到的向量传入下一时刻,下一时刻将上一时刻的压缩向量和原文本数据中的字输入到神经网络,再将压缩得到的新向量传入下一时刻,在压缩完所有的文本数据后得到的编码向量,即是文本数据的摘要向量。

310、将该文本数据的摘要向量输入神经网络解码器以得到该文本数据的摘要。

其中,该神经网络解码器用于对该文本数据的摘要向量进行解码,也由递归神经网络(rnn)实现,将该文本数据的摘要向量输入神经网络解码器后,神经网络解码器对该文本数据的摘要向量进行预测得到一个时刻的输出字,然后神经网络解码器再根据该时刻的输出字和摘要向量进行预测得到下一个时刻的输出字,以此类推,上一个时刻的输出字会影响下一个输出字,最后神经网络解码器得到的所有的输出字连接起来即为该文本数据的摘要。

311、提取该文本数据的摘要中的n个关键词,其中,n为正整数。

可选的,提取该文本数据的摘要中的n个关键词的方法可以是:

对该文本数据的摘要进行分词处理以得到该文本数据的摘要对应的k个分词,其中,k为大于n的正整数。

计算该k个分词对应的k个词频,其中,该k个分词与该k个词频一一对应。

按照词频由大到小的顺序确定该k个分词中的n个分词,提取该n个分词。

其中,对该文本数据的摘要进行分词处理的方法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

基于字符串匹配的分词方法是按照一定的策略将待分词的汉字串与一个词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即识别出一个词。基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。基于统计的分词方法要使用基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

312、将该n个关键词进行组合以得到该文本数据的问题。

313、通过神经网络语义表示模型对该文本数据的问题和该文本数据进行处理,以得到该文本数据的问题对应的答案。

其中,通过神经网络语义表示模型计算该文本数据的问题和该文本数据中的文本的语义相关程度包括:

将该文本数据的问题和该文本数据中的文本输入到神经网络语义表示模型中,使用神经网络对该文本数据的问题和该文本数据中的文本进行编码,通过对语义的挖掘获得其向量表示,最终通过计算该文本数据的问题和该文本数据中的文本的语义向量的相似度得到其语义相关程度。其中,计算该文本数据的问题与该文本数据中的文本的语义相关程度的方法可以是词汇重叠法、字符串法、余弦相似度法或者最大共同子序列法。

具体过程为,在该文本数据中查找与该n个关键词匹配的q段文本,其中,q为正整数。

计算该文本数据的问题与该q段文本的q个语义相关程度,其中,该q段文本与该q个语义相关程度一一对应。

获取该q个语义相关程度中最高的第一语义相关程度,确定该第一语义相关程度对应的文本为该文本数据的问题对应的答案。

参见图6,图6为本发明的另一个实施例提供的一种数据处理的装置的示意图。其中,如图6所示,本发明的另一个实施例提供的一种数据处理的装置可以包括:

获取模块601,用于获取终端发送的书籍的图像数据;

字符识别模块602,用于对所述图像数据进行字符识别处理以得到所述图像数据对应的文本数据;

检测模块603,用于对所述文本数据进行文本类型检测以判断所述文本数据的文本类型是否满足预设文本类型;

编码模块604,用于当所述文本类型满足所述预设文本类型时,将所述文本数据输入神经网络编码器以得到所述文本数据的摘要向量,其中,所述神经网络编码器用于对所述文本数据进行压缩编码;

解码模块605,用于将所述文本数据的摘要向量输入神经网络解码器以得到所述文本数据的摘要,其中,所述神经网络解码器用于通过神经网络对所述文本数据的摘要向量进行预测以得到多个预测的字,所述多个预测的字连接为所述文本数据的摘要;

提取模块606,用于对所述文本数据的摘要进行分词处理,按照词频由大到小的顺序提取所述文本数据的摘要中的n个关键词,其中,n为正整数;

组合模块607,用于对所述n个关键词进行词性分类,根据所述n个关键词的词性将所述n个关键词按照预设问句语序进行组合以得到所述文本数据的问题;

处理模块608,用于通过神经网络语义表示模型计算所述文本数据的问题和所述文本数据中的文本的语义相关程度,确定语义相关程度最高的文本为所述文本数据的问题对应的答案。

本发明数据处理的装置的具体实施可参见上述数据处理的方法的各实施例,在此不做赘述。

参见图7,图7为本发明的实施例涉及的硬件运行环境的电子设备结构示意图。其中,如图7所示,本发明的实施例涉及的硬件运行环境的电子设备可以包括:

处理器701,例如cpu。

存储器702,可选的,存储器可以为高速ram存储器,也可以是稳定的存储器,例如磁盘存储器。

通信接口703,用于实现处理器701和存储器702之间的连接通信。

本领域技术人员可以理解,图7中示出的数据处理的电子设备的结构并不构成对数据处理的电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图7所示,存储器702中可以包括操作系统、网络通信模块以及数据处理的程序。操作系统是管理和控制数据处理的电子设备硬件和软件资源的程序,支持数据处理的程序以及其他软件或程序的运行。网络通信模块用于实现存储器702内部各组件之间的通信,以及与数据处理的电子设备中其他硬件和软件之间通信。

在图7所示的数据处理的电子设备中,处理器701用于执行存储器702中存储的数据处理的程序,实现以下步骤:

获取终端发送的书籍的图像数据;

对所述图像数据进行字符识别处理以得到所述图像数据对应的文本数据;

对所述文本数据进行文本类型检测以判断所述文本数据的文本类型是否满足预设文本类型;

当所述文本类型满足所述预设文本类型时,将所述文本数据输入神经网络编码器以得到所述文本数据的摘要向量,其中,所述神经网络编码器用于对所述文本数据进行压缩编码;

将所述文本数据的摘要向量输入神经网络解码器以得到所述文本数据的摘要,其中,所述神经网络解码器用于通过神经网络对所述文本数据的摘要向量进行预测以得到多个预测的字,所述多个预测的字连接为所述文本数据的摘要;

对所述文本数据的摘要进行分词处理,按照词频由大到小的顺序提取所述文本数据的摘要中的n个关键词,其中,n为正整数;

对所述n个关键词进行词性分类,根据所述n个关键词的词性将所述n个关键词按照预设问句语序进行组合以得到所述文本数据的问题;

通过神经网络语义表示模型计算所述文本数据的问题和所述文本数据中的文本的语义相关程度,确定语义相关程度最高的文本为所述文本数据的问题对应的答案。

本发明数据处理的电子设备的具体实施可参见上述数据处理的方法的各实施例,在此不做赘述。

本发明的另一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行以实现以下步骤:

获取终端发送的书籍的图像数据;

对所述图像数据进行字符识别处理以得到所述图像数据对应的文本数据;

对所述文本数据进行文本类型检测以判断所述文本数据的文本类型是否满足预设文本类型;

当所述文本类型满足所述预设文本类型时,将所述文本数据输入神经网络编码器以得到所述文本数据的摘要向量,其中,所述神经网络编码器用于对所述文本数据进行压缩编码;

将所述文本数据的摘要向量输入神经网络解码器以得到所述文本数据的摘要,其中,所述神经网络解码器用于通过神经网络对所述文本数据的摘要向量进行预测以得到多个预测的字,所述多个预测的字连接为所述文本数据的摘要;

对所述文本数据的摘要进行分词处理,按照词频由大到小的顺序提取所述文本数据的摘要中的n个关键词,其中,n为正整数;

对所述n个关键词进行词性分类,根据所述n个关键词的词性将所述n个关键词按照预设问句语序进行组合以得到所述文本数据的问题;

通过神经网络语义表示模型计算所述文本数据的问题和所述文本数据中的文本的语义相关程度,确定语义相关程度最高的文本为所述文本数据的问题对应的答案。

本发明计算机可读存储介质的具体实施可参见上述数据处理的方法的各实施例,在此不做赘述。

还需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1