基于云计算的信息检索分类系统及方法与流程

文档序号:11407487阅读:440来源:国知局
基于云计算的信息检索分类系统及方法与流程

本发明涉及互联网技术领域,具体涉及一种基于云计算的信息检索分类系统及方法。



背景技术:

“云计算”概念是由google提出的,狭义云计算是指it基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源。广义的云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。云计算将应用“计算”从终端转移到服务终端,从而弱化了对移动终端设备的处理需求。这样移动终端主要承担与用户交互功能,复杂的运算交由云端服务器处理,终端不需要强大的运算能力既可响应用户操作,并将结果展现给用户,从而实现丰富的应用。

但是,在实际应用过程中,多是检索预存储的科技文献资料,并不能够检索比对纸质文献,多需要专业人员将科技档案转换为电子文档格式,再进行检索出来。同时,在文献检索过程中,并未确定待检索的类型,而检索数据量大。用户在获取检索结果之后,并不能够根据用户需求,进行显示。

如何加快信息入录速率,提高科技文献的检索效率,是本领域技术人员亟需解决的问题。



技术实现要素:

针对现有技术中的缺陷,本发明提供了一种基于云计算的信息检索分类系统及方法,能够加快信息入录速率,提高科技文献的检索效率。

第一方面,本发明提供一种基于云计算的信息检索分类系统,该系统包括:依次通信连接的终端、检索分析服务器和云端服务器,终端用于发送检索请求至检索分析服务器,检索分析服务器用于对检索请求进行分析,并发送至相应的云端服务器,云端服务器用于根据检索请求,基于云计算执行信息检索。

本发明提供另一种基于云计算的信息检索分类系统,该系统包括摄像头、扫描仪、服务终端、检索分析服务器和云端服务器,服务终端包括图像处理子系统、光学文字识别子系统、信息处理子系统、数据存储子系统、传输子系统和触摸显示屏,图像处理子系统、光学文字识别子系统、信息处理子系统和数据存储子系统依次连接,信息处理子系统还分别与传输子系统和触摸显示屏连接,摄像头和扫描仪均与图像处理子系统连接,传输子系统、检索分析服务器和云端服务器依次连接,摄像头用于采集科技档案的图像信息或视频信息,并传输至图像处理子系统,扫描仪用于扫描科技档案,获取扫描信息,并传输至图像处理子系统,图像处理子系统用于预处理图像信息、视频信息或扫描信息,获取目标格式的图像文件,光学文字识别子系统用于识别图像文件中的字符,获取科技档案的字符信息,并传输至信息处理子系统,信息处理子系统用于根据字符信息,生成检索请求,并将检索请求和字符信息通过传输子系统传输至检索分析服务器,还用于将传输子系统反馈的检索结果暂存至数据存储子系统,并根据触摸显示屏传输的显示指令,从数据存储子系统中调取检索结果,传输至触摸显示屏,检索分析服务器用于分析检索请求,获取检索请求的检索类型,确定与检索类型相应的目标云端服务器,并将检索请求和字符信息发送至目标云端服务器,目标云端服务器用于根据检索请求,按照字符信息,基于云计算执行信息检索,获取检索结果,并将检索结果依次通过检索分析服务器、传输子系统传输至信息处理子系统,数据存储子系统用于暂存检索结果,触摸显示屏用于接收用户输入的显示指令,并传输至信息处理子系统,还用于显示信息处理子系统传输的检索结果。

进一步地,图像处理子系统包括依次连接的数模转换器和dsp处理器,摄像头和扫描仪均与数模转换器连接,dsp处理器与光学文字识别子系统连接,数模转换器用于将摄像头采集的视频信息转换为数字信息,dsp处理器用于实时预处理数字信息、图像信息和扫描信息,获取目标格式的图像文件。

进一步地,光学文字识别子系统包括arm处理器,dsp处理器通过hpi接口与arm处理器连接,hpi接口用于dsp和arm处理器之间的信息交换,arm处理器用于识别目标格式的图像文件,获取文字信息。

基于上述任意基于云计算的信息检索分类系统实施例,进一步地,传输子系统包括依次连接的接入路由器和硬件防火墙,信息处理子系统通过无线网络连接到接入路由器,硬件防火墙的安全接入网关连接到检索分析服务器。

第二方面,本发明提供一种基于云计算的信息检索分类方法,该方法包括:

信息输入步骤:采集科技档案的图像信息或视频信息,或扫描科技档案,获取扫描信息;

图像处理步骤:预处理图像信息、视频信息或扫描信息,获取目标格式的图像文件;

光学文字识别步骤:识别图像文件中的字符,获取科技档案的字符信息;

检索请求生成步骤:根据字符信息,生成检索请求;

检索请求分析步骤:分析检索请求,获取检索请求的检索类型,确定与检索类型相应的目标云端服务器的地址;

记录检索请求的源地址;

按照目标云端服务器的地址,发送检索请求、字符信息和检索请求的源地址;

信息检索步骤:根据检索请求,按照字符信息,基于云计算执行信息检索,获取检索结果,并按照检索请求的源地址,反馈检索结果;

信息显示步骤:接收用户输入的显示指令,根据显示指令,显示反馈的检索结果。

进一步地,预处理图像信息、视频信息或扫描信息,获取目标格式的图像文件,具体包括:

根据每帧图像的采集时间,将视频信息分解为每帧图像;

对图像信息、视频信息分解的每帧图像或扫描信息进行平滑、降噪处理;

按照指定的存储格式,将平滑、降噪处理后的图像信息、视频信息分解的每帧图像或扫描信息进行格式转换,获取目标格式的图像文件。

进一步地,识别图像文件中的字符,获取科技档案的字符信息,具体包括:

按照图像文件的灰度值,识别图像文件中的字符,获取科技档案的字符信息,图像文件为二值图像。

基于上述任意基于云计算的信息检索分类方法实施例,进一步地,根据检索请求,按照字符信息,基于云计算执行信息检索,获取检索结果,并按照检索请求的源地址,反馈检索结果,具体包括:

根据检索请求,调取预存储的科技档案;

将字符信息与每篇科技档案的关键词或摘要信息进行比对,获取对比度;

将对比度最高的科技档案,作为检索结果,并传输至检索请求的源地址。

由上述技术方案可知,本实施例提供的基于云计算的信息检索分类系统及方法,能够通过摄像头采集待入录的科技档案,形成图像信息或视频信息,或通过扫描仪采集待入录科技档案的扫描信息,完成信息采集。同时,图像处理子系统对采集到的信息进行预处理,以便于光学文字识别子系统能够识别出文字信息,加快科技文献资料的入录进程。

同时,该系统通过检索分析服务器确定检索请求的类型,再进行检索,以便于提高科技文献的检索效率。并且,该系统还能够将接收用户点选的显示指令,以将反馈的检索结果进行显示,方便用户进行信息浏览。

因此,本实施例基于云计算的信息检索分类系统及方法,能够加快信息入录速率,提高科技文献的检索效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明所提供的一种基于云计算的信息检索分类系统的结构示意图;

图2示出了本发明所提供的另一种基于云计算的信息检索分类系统的方法流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

第一方面,本发明实施例所提供的一种基于云计算的信息检索分类系统,该系统包括依次通信连接的终端、检索分析服务器和云端服务器,终端用于发送检索请求至检索分析服务器,检索分析服务器用于对检索请求进行分析,并发送至相应的云端服务器,云端服务器用于根据检索请求,基于云计算执行信息检索。

本发明实施例所提供的另一种基于云计算的信息检索分类系统,结合图1,该系统包括摄像头1、扫描仪2、服务终端3、检索分析服务器4和云端服务器5,服务终端3包括图像处理子系统31、光学文字识别子系统32、信息处理子系统、数据存储子系统34、传输子系统35和触摸显示屏36,图像处理子系统31、光学文字识别子系统32、信息处理子系统和数据存储子系统34依次连接,信息处理子系统还分别与传输子系统35和触摸显示屏36连接,摄像头1和扫描仪2均与图像处理子系统31连接,传输子系统35、检索分析服务器4和云端服务器5依次连接,摄像头1用于采集科技档案的图像信息或视频信息,并传输至图像处理子系统31,扫描仪2用于扫描科技档案,获取扫描信息,并传输至图像处理子系统31,图像处理子系统31用于预处理图像信息、视频信息或扫描信息,获取目标格式的图像文件,光学文字识别子系统32用于识别图像文件中的字符,获取科技档案的字符信息,并传输至信息处理子系统,信息处理子系统用于根据字符信息,生成检索请求,并将检索请求和字符信息通过传输子系统35传输至检索分析服务器4,还用于将传输子系统35反馈的检索结果暂存至数据存储子系统34,并根据触摸显示屏36传输的显示指令,从数据存储子系统34中调取检索结果,传输至触摸显示屏36,检索分析服务器4用于分析检索请求,获取检索请求的检索类型,确定与检索类型相应的目标云端服务器5,并将检索请求和字符信息发送至目标云端服务器5,目标云端服务器5用于根据检索请求,按照字符信息,基于云计算执行信息检索,获取检索结果,并将检索结果依次通过检索分析服务器4、传输子系统35传输至信息处理子系统,数据存储子系统34用于暂存检索结果,触摸显示屏36用于接收用户输入的显示指令,并传输至信息处理子系统,还用于显示信息处理子系统传输的检索结果。其中,摄像头优选采用ccd摄像头,灵敏度高,信号转换不易失真。

由上述技术方案可知,本实施例提供的基于云计算的信息检索分类系统,能够通过摄像头1采集待入录的科技档案,形成图像信息或视频信息,或通过扫描仪2采集待入录科技档案的扫描信息,完成信息采集。同时,图像处理子系统31对采集到的信息进行预处理,以便于光学文字识别子系统32能够识别出文字信息,加快科技文献资料的入录进程。

同时,该系统通过检索分析服务器4确定检索请求的类型,再进行检索,以便于提高科技文献的检索效率。并且,该系统还能够将接收用户点选的显示指令,以将反馈的检索结果进行显示,方便用户进行信息浏览。

因此,本实施例基于云计算的信息检索分类系统,能够加快信息入录速率,提高科技文献的检索效率。

为了进一步提高本实施例基于云计算的信息检索分类系统的可靠性,具体地,对于图像处理子系统,图像处理子系统31包括依次连接的数模转换器和dsp处理器,摄像头1和扫描仪2均与数模转换器连接,dsp处理器与光学文字识别子系统32连接,数模转换器用于将摄像头1采集的视频信息转换为数字信息,dsp处理器用于实时预处理数字信息、图像信息和扫描信息,获取目标格式的图像文件。在此,数模转换器能够将视频信息进行转换,以加快dsp处理器的处理效率。同时,该系统采用dsp处理器能够进行大数据量的图像信息的处理,运算效率快,准确度高。在实际应用过程中,dsp处理器可以采用tms320dm642型芯片实现。

具体地,对于光学文字识别子系统,光学文字识别子系统32包括arm处理器,dsp处理器通过hpi接口与arm处理器连接,hpi接口用于dsp和arm处理器之间的信息交换,arm处理器用于识别目标格式的图像文件,获取文字信息。在此,该系统通过hpi接口传输dsp处理器处理后的图像文件,并由arm处理器进行处理,功耗低,兼容性强,指令执行效率高,有助于快速识别出科技档案的字符信息。在实际应用过程中,优选的芯片信号为s3c6410。

具体地,对于传输子系统,传输子系统35包括依次连接的接入路由器和硬件防火墙,信息处理子系统通过无线网络连接到接入路由器,硬件防火墙的安全接入网关连接到检索分析服务器4。在此,该系统通过接入路由器和硬件防火墙进行数据传输,有助于提高数据传输的安全性和可靠性,避免数据在传输过程中被泄露或窃取。

第二方面,本发明实施例所提供一种基于云计算的信息检索分类方法,结合图2,该方法包括:

信息输入步骤s1:采集科技档案的图像信息或视频信息,或扫描科技档案,获取扫描信息;

图像处理步骤s2:预处理图像信息、视频信息或扫描信息,获取目标格式的图像文件;

光学文字识别步骤s3:识别图像文件中的字符,获取科技档案的字符信息;

检索请求生成步骤s4:根据字符信息,生成检索请求;

检索请求分析步骤s5:分析检索请求,获取检索请求的检索类型,确定与检索类型相应的目标云端服务器的地址;

记录检索请求的源地址;

按照目标云端服务器的地址,发送检索请求、字符信息和检索请求的源地址;

信息检索步骤s6:根据检索请求,按照字符信息,基于云计算执行信息检索,获取检索结果,并按照检索请求的源地址,反馈检索结果;

信息显示步骤s7:接收用户输入的显示指令,根据显示指令,显示反馈的检索结果。

由上述技术方案可知,本实施例提供的基于云计算的信息检索分类方法,能够通过摄像头采集待入录的科技档案,形成图像信息或视频信息,或通过扫描仪采集待入录科技档案的扫描信息,完成信息采集。同时,图像处理子方法对采集到的信息进行预处理,以便于光学文字识别子方法能够识别出文字信息,加快科技文献资料的入录进程。

同时,该方法通过检索分析服务器确定检索请求的类型,再进行检索,以便于提高科技文献的检索效率。并且,该方法还能够将接收用户点选的显示指令,以将反馈的检索结果进行显示,方便用户进行信息浏览。

因此,本实施例基于云计算的信息检索分类方法,能够加快信息入录速率,提高科技文献的检索效率。

为了进一步提高本实施例基于云计算的信息检索分类方法的可靠性,具体地,预处理图像信息、视频信息或扫描信息,获取目标格式的图像文件,具体包括:根据每帧图像的采集时间,将视频信息分解为每帧图像,对图像信息、视频信息分解的每帧图像或扫描信息进行平滑、降噪处理,按照指定的存储格式,将平滑、降噪处理后的图像信息、视频信息分解的每帧图像或扫描信息进行格式转换,获取目标格式的图像文件。在此,该方法采用平滑、降噪处理方式,对图像中所存在的噪声进行处理,以便于提高图像识别过程的准确性和运算效率,降低图像中的噪声所带来的干扰。

在实际应用过程中,本实施例基于云计算的信息检索分类方法将视频信息分解为每帧图像之前,该方法还能够将视频信息进行转码,具体过程如下:

在接收到视频信息后,在资源池中选择转码倍数大于预定门限的转码处理单元作为工作处理单元,其中,预定门限与播放最大延迟及视频分段预定最小值相关联。

判断t个可选工作处理单元的转码倍数总和是否小于1:若t个可选工作处理单元的转码倍数总和不小于1,则将视频信息进行分割,为t个可选工作处理单元分配相应长度的视频段,以便进行并行转码处理,其中,视频段长度与播放最大延迟、工作处理单元自身的转码倍数和工作处理单元个数t相关联。将t个可选工作处理单元输出的转码信息进行汇总,以便完成视频转码,其中,预定门限=视频分段预定最小值/(播放最大延迟+视频分段预定最小值)。若t个可选工作处理单元的转码倍数总和小于1,则拒绝转码任务。

在此,该方法通过根据转码处理单元的运算能力以及转码任务的实时性约束,对视频信息进行智能分割,以便将分割为不同大小的视频段调度到对应的转码处理单元进行并行处理,从而能够在保证转码任务实时的同时,提高转码效率,再将转码之后的视频信息分解为每帧图像。

具体地,识别图像文件中的字符,获取科技档案的字符信息,具体包括:按照图像文件的灰度值,识别图像文件中的字符,获取科技档案的字符信息,图像文件为二值图像。在此,该方法通过图像文件中的灰度值,识别图像文件中的字符,以便于获取文字信息,根据图像文件中的灰度值,识别字符,准确性高,贴合原科技档案的文意,无需信息检验过程,节省人力成本。

在实际应用过程中,按照图像文件的灰度值,识别图像文件中的字符,获取科技档案的字符信息,具体实现过程如下:

采用最大值法将采集到的图像文件中的彩色图像转换为8位256色灰度图像,采用最大类间方差法选取i值,将灰度图像转换为二值图像,再定位图像内的字符区域,对字符区域进行滤波后,进行先膨胀后复势的闭运算,再分割获得单字符图像。计算单字符图像中包含的孔洞数。根据图像中包含的孔洞数对字符图像进行分类,对孔洞数相同的字符图像,通过添加辅助识别线或计算图像宽高比例对字符图像进行数字识别。当计算出的字符图像的孔洞数为2时,则该字符为数字“8”,识别结束;当计算出的字符图像的孔洞数不为2时,则进一步判断,当计算出的字符图像的孔洞数为1时,则该字符为数字“0”、“6”或“9”,需添加辅助识别线或计算图像宽高比例对字符图像进行数字识别,当计算出的字符图像的孔洞数不为1时,则进一步判断,当计算出的字符图像的孔洞数为0时,则该字符为数字“1、2、3、4、5”或“7",需添加辅助识别线或计算图像宽高比例对字符图像进行数字识别,当计算出的字符图像的孔洞数不为0,则非数字字符,识别结束,输出字符信息。

在此,该方法根据数字字符图像孔洞数对数字字符图像进行分类,对分类后孔洞数量相同的字符图像,采用增加辅助识别线后再计算孔洞数的方法,减少运算量,避免了现有方法中对字符图像尺寸归一化处理,识别准确率高,鲁棒性强。

具体地,根据检索请求,按照字符信息,基于云计算执行信息检索,获取检索结果,并按照检索请求的源地址,反馈检索结果,具体包括:根据检索请求,调取预存储的科技档案,将字符信息与每篇科技档案的关键词或摘要信息进行比对,获取对比度,将对比度最高的科技档案,作为检索结果,并传输至检索请求的源地址。在此,该方法通过字符信息进行检索,提高检索的准确度。并且,该方法根据检索请求,调取与该检索请求的类型相对应的科技档案,缩小待比对的科技档案的数量,降低运算数据量。

在实际应用过程中,根据检索请求,调取预存储的科技档案之前,该方法还包括建立科技文献本体库,具体实现过程为:对科技文献进行语义分析,以提取中文关键词和英文关键词。将相同的中文关键词或英文关键词进行合并,同义或近义的中文关键词和英文关键词归为一类。对每一类关键词,建立一个科技文献信息本体链接,同时,建立一个该科技文献信息本体链接指向源科技文献的索引。集合科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,形成科技文献本体库。其中,科技文献信息包括:科技文献的题目、作者、摘要、关键词、出版时间、科技文献的背景部分、问题部分和解决方案部分。

将字符信息与每篇科技档案的关键词或摘要信息进行比对,具体为:读取的字符信息,在科技文献本体库中查找与该检索词相匹配的同类关键词所对应的科技文献信息本体链接。通过同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。

在此,该方法通过建立有科技文献本体库,科技文献本体库中存储有同类关键词、同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,同类关键词为同义或近义的中文关键词和英文关键词集合,使得用户输入检索词后,只需在科技文献本体库中查找该检索词相匹配的同类关键词所对应的科技文献信息本体链接,通过同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户,即可实现检索,相比现有技术,省去了检索过程中的源语言到目标语言的翻译过程,能提高科技文献检索的精确度。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的服务器、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的服务器来实现,或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例所提供的配置装置可以是计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的服务器、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的服务器、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个服务器,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以发布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1