一种基于图像识别的试题搜索方法和系统的制作方法

文档序号:9667339阅读:1428来源:国知局
一种基于图像识别的试题搜索方法和系统的制作方法
【技术领域】
[0001]本发明涉及互联网技术领域,尤其涉及一种基于图像识别的试题搜索方法和系统。
【背景技术】
[0002]随着互联网时代浪潮的到来,教育行业也慢慢在开始被颠覆,在线教育产品也随着这个趋势井喷式地爆发出来,在这些产品之中最为突出的产品类型当属题库类和拍照答疑类,为了解决现在学生们作业多,作业中遇到难题等问题,题库类和拍照答疑类产品必须保证后台题库类大,满足学生们能够搜索到他们想要的题目和答案解析。然而题目中含有较多的图形、公式、字母符号,而且由于目前图像识别的技术受限等原因,在传统搜索方法中,学生们在利用拍照答疑类产品的时候,拍出来的照片经过图像识别后,产生了大量的乱码、错误字符等问题,导致搜索查找出来的题目与学生们拍照上传的题目不符,这样会导致大量使用该产品的用户流失。

【发明内容】

[0003]本发明提供了一种基于图像识别的试题搜索方法和系统,大大提高了搜索的准确度,解决了因图像识别技术缺陷产生的乱码、错误字符,而导致的搜索不到准确的题目推送给用户的问题。
[0004]为实现上述设计,本发明采用以下技术方案:
[0005]—方面,提供了一种基于图像识别的试题搜索方法,该方法,包括:
[0006]识别试题图像的原始信息;
[0007]使用所述原始信息对题库的试题进行搜索,匹配出预置数量的试题;删除所述原始信息中不属于汉字、数字、字母的信息和乱码信息,得到文本信息;
[0008]分别计算所述预置数量的试题与所述文本信息的最大公共子序列;
[0009]根据所述最大公共子序列的长度推送检索结果。
[0010]优选地,所述根据最大公共子序列的长度推送检索结果,包括:
[0011]推送最大公共子序列长度最长的试题;或
[0012]推送最大公共子序列长度最长的试题及试题对应的答案和解析。
[0013]优选地,所述根据最大公共子序列的长度推送检索结果,包括:对最大公共子序列按长度从长到短进行排序,推送长度排在前面的预置数目的试题。
[0014]优选地,所述根据根据最大公共子序列的长度推送检索结果,包括:
[0015]分别计算所述预置数量的试题与所述文本信息的相似度,相似度=最大公共子序列的长度/文本信息的长度;
[0016]根据所述相似度推送检索结果。
[0017]优选地,所述根据所述相似度推送检索结果,包括:
[0018]推送最大相似度的试题;或
[0019]推送最大相似度的试题及试题对应的答案和解析。
[0020]优选地,所述根据所述相似度推送检索结果,包括:对所述相似度进行从大到小排序,推送相似度排在前面的预置数目的试题。
[0021 ]另一方面,提供了一种基于图像识别的试题搜索系统,该系统,包括:
[0022]识别模块,识别试题图像的原始信息;
[0023]匹配模块,使用所述原始信息对题库的试题进行搜索,匹配出预置数量的试题;
[0024]删除模块,删除所述原始信息中不属于汉字、数字、字母的信息和乱码信息,得到文本信息;
[0025]计算模块,分别计算所述预置数量的试题与所述文本信息的最大公共子序列;
[0026]推送模块,根据所述最大公共子序列的长度推送检索结果。
[0027]优选地,所述推送模块,具体用于,
[0028]推送最大公共子序列长度最长的试题;或
[0029]推送最大公共子序列长度最长的试题及试题对应的答案和解析;或
[0030]对最大公共子序列按长度从长到短进行排序,推送长度排在前面的预置数目的试题;
[0031 ] 优选地,所述推送模块还包括:
[0032]计算单元,分别计算所述预置数量的试题与所述文本信息的相似度,相似度=最大公共子序列的长度/文本信息的长度;
[0033]推送单元,根据所述相似度推送检索结果。
[0034]优选地,所述推送单元具体用于:
[0035]推送最大相似度的试题;或
[0036]推送最大相似度的试题的试题及试题对应的答案和解析;或
[0037]对所述相似度进行从大到小排序,推送相似度排在前面的预置数目的试题。
[0038]与现有技术相比,本发明的有益效果为:一种基于图像识别的试题搜索方法,包括:识别试题图像的原始信息;使用所述原始信息对题库的试题进行搜索,匹配出预置数量的试题;删除所述原始信息中不属于汉字、数字、字母的信息和乱码信息,得到文本信息;分别计算所述预置数量的试题与所述文本信息的最大公共子序列;根据所述最大公共子序列的长度推送检索结果。本发明根据题库试题中的信息特点,对图像识别出来的原始信息进行加工处理,再利用最大公共子序列的容错性和鲁棒性,减少了搜索匹配时的干扰因素,大大提高了搜索的准确度,能够搜索到准确的题目,并推送给用户。
【附图说明】
[0039]为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
[0040]图1是本发明【具体实施方式】中提供的一种基于图像识别的试题搜索方法的第一实施例的方法流程图。
[0041]图2是本发明【具体实施方式】中提供的一种基于图像识别的试题搜索方法的第二实施例的方法流程图。
[0042]图3是本发明【具体实施方式】中提供的一种基于图像识别的试题搜索系统的第一实施例的结构方框图。
[0043]图4是本发明【具体实施方式】中提供的一种基于图像识别的试题搜索系统的第二实施例的结构方框图。
【具体实施方式】
[0044]为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0045]请参考图1,其是本发明【具体实施方式】中提供的一种基于图像识别的试题搜索方法的第一实施例的方法流程图。如图所示,该方法,包括:
[0046]步骤S101:识别试题图像的原始信息。
[0047]利用图像识别技术识别试题图像的原始信息。
[0048]步骤S102:使用所述原始信息对题库的试题进行搜索,匹配出预置数量的试题。
[0049]所述预置数量可以为30道、50道、100道或120道,优选地,本实施例的预置数量为100道。
[0050]优选地,搜索匹配的过程包括:
[0051]1.索引过程:
[0052]a)取数据库的试题以及其属性记录,每一条记录为一个文档,离线构建索引文件;
[0053]b)被索引文件经过语法分析和语言处理形成一系列词;
[0054]c)经过索引创建形成词典和反向索引表;
[0055]d)通过索引存储将索引写入硬盘。
[0056]2.搜索过程:
[0057]a)用户输入识别后的文本进行查询;
[0058]b)对查询语句经过语法分析和语言分析得到一系列词;
[0059]c)通过语法分析得到一个查询树;
[0060]d)通过索引存储将索引读入到内存;
[0061]e)利用查询树搜索索引,从而得到每个词的文档链表,对文档链表进行交差,并得到结果文档;
[0062]f)将搜索到的结果文档对查询的相关性进行排序;
[0063]g)返回查询结果中最相关的100道试题。
[0064]步骤S103:删除所述原始信息中不属于汉字、数字、字母的信息和乱码信息,得到文本信息。
[0065]采用图像识别技术对试题图像进行识别后,会产生大量的乱码、错误字符等。例如:
[0066]原题为:
[0067]2011 ?云南曲靖中考)珠江流域某江段江水流向经过B、C、D三点拐弯后与原来相同,如图 7 — 1 — 20 ①所示,若Z ABC = 120。,Z BCD = 80°,则ZCDE =_度.
[0068]图像识别后,得到的原始信息为:
[0069]0①珠江流域某江殷江水流向经过二点拐弯后与一妒_ABC = 1200ZB⑶=800则乙d站=②麵图已知ABn⑶八五=a-E⑶=戶则E =孑D慝a6的式一 E4㈧\
[0070]这时,删除原始信息中不属于汉字、数字、字母的信息和乱码信息,例如,①、㈧、慝、\等,能提高搜索的准确性。
[0071]优选地,步骤S102与步骤S103没有固定顺序,也可以先执行步骤S103,再执行步骤S102,或者步骤S102与步骤S103同时进行。
[0072]步骤S104:分别计算所述预置数量的试题与所述文本信息的最大公共子序列。
[0073]利用动态规划理想中的求最大公共子序列的方法对搜索结果进行优化,由于该方法具有很强的鲁棒性,对识别后的错误信息又具有很好的容错性,这样能够降低干扰因子的干扰,提高搜索的准确性。求最大公共子序列时,不要求所求的字符在字符串中是连续的,而最大公共子串是要求在字符串中是连续存在的。对于原始数据基本有序或者顺序不会改变的问题有一个较好的适用效果。
[0074]求最大公共子序列的基本原理为:
[0075]设X = (xl,x2,..., xm),Y = (yl, y2,..., yn),Z = (zl,z2,..., zk)为 X 和 Y
的任意最大公共子序列;
[0076]1、如果xm等于yn,则xm = yn = zk,且Zk_l是Xm_l与Yn_l的一个最大公共子序列;
[0077]2、如果xm不等于yn,那么zk不等于xm,意味着Z是Xm_l与Y的一个最大公共子序列;
[0078]3、如果xm不等于yn,那么zk不等于yn,意味着Z是Yn_l与X的一个最大公共子序列。
[0079]步骤S105:根据所述最大公共子序列的长度推送检索结果。
[0080]优选地,所述根据所述最大公共子序列的长度推送检索结果,包括:推送最大公共子序列长度最长的试题;或推送最大公共子序列长度最长的试题及试题对应的答案和解析。根据所述最大公共子序列的长度,可以只推送最大公共子序列长度最大的试题给用户,也可以把试题及其对应的答案和解析一起推送给用户。
[0081]优选地,所述根据所述最大公共子序列的长度
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1