一种科目识别实现方法、系统、存储介质和终端设备与流程

文档序号:20164675发布日期:2020-03-24 21:22阅读:112来源:国知局
一种科目识别实现方法、系统、存储介质和终端设备与流程

本发明涉及数据处理领域,尤指一种科目识别实现方法、系统、存储介质和终端设备。



背景技术:

随着计算机和互联网技术的发展,借助于计算机和网络辅助学习和教学已成为一种趋势。目前,利用计算机和网络辅助学习和教学的重要条件之一是科目识别。

但是,目前现有技术所实现的科目识别是基于ai标注数据进行科目特征提取、训练而实现的,科目识别模型会比较复杂,比较难以实现针对性优化。此外,通过ai标注数据进行科目特征提取、训练识别科目的现有技术需要对于无科目标注的题目进行人工阅读题目内容后,在手动性标注题目属性,导致大大提升了人工标注的成本。而且,现有技术基于ai标注数据进行科目特征提取使得在新增科目时,需要重新提取特征后训练,方案复杂不方便。

因此,如何简化科目识别方式,降低人工成本,提升科目识别扩展的便利性是亟需解决的问题。



技术实现要素:

为了使客户更智能化、个性化地使用科目识别实现方法,本发明的目的是提供一种科目识别实现方法、系统、存储介质和终端设备,实现简化科目识别方式,降低人工成本,提升科目识别扩展的便利性。

本发明提供的技术方案如下:

本发明提供一种科目识别实现方法,包括步骤:

根据样本题库中各样本题目建立对应的倒排索引表;

根据待识别题目的分词查询所述倒排索引表,得到所述待识别题目的科目识别结果和评分数值;

将所述评分数值对应的科目识别结果按照从大到小的顺序排列;

选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为所述待识别题目的科目类型。

进一步的,所述根据样本题库中各样本题目建立对应的倒排索引表之前包括步骤:

获取已明确科目类型的样本题目并更新所述样本题库;

所述根据样本题库中各样本题目建立对应的倒排索引表包括步骤:

对所述样本题目进行分词处理得到所述样本题目中所包括的分词,并记录每个分词在所述样本题目中的位置信息;

根据所述分词及其对应的位置信息生成所述样本题目对应的倒排索引,从而得到所述倒排索引表。

进一步的,所述根据待识别题目的分词查询所述倒排索引表,得到所述待识别题目的科目识别结果和评分数值包括步骤:

将符合纯文本格式的待识别题目进行分词处理得到所述待识别题目中所包括的待识别分词;

根据所述待识别题目的所有待识别分词,查询所述倒排索引表得到所述待识别题目的科目识别结果及其评分数值。

进一步的,所述根据所述待识别题目的所有待识别分词,查询所述倒排索引表得到所述待识别题目的科目识别结果及其评分数值包括步骤:

查询所述倒排索引表获得与所述待识别分词匹配的候选倒排索引;

根据各候选倒排索引获取对应样本题目的科目类型,获得所述待识别题目对应的科目识别结果及其评分数值。

本发明还提供一种科目识别实现系统,包括:

生成模块,用于根据样本题库中各样本题目建立对应的倒排索引表;

处理模块,用于根据待识别题目的分词查询所述倒排索引表,得到所述待识别题目的科目识别结果和评分数值;

排序模块,用于将所述评分数值对应的科目识别结果按照从大到小的顺序排列;

识别模块,用于选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为所述待识别题目的科目类型。

进一步的,所述科目识别实现系统还包括:

创建模块,用于获取已明确科目类型的样本题目并更新所述样本题库;

所述处理模块,还用于对所述样本题目进行分词处理得到所述样本题目中所包括的分词,并记录每个分词在所述样本题目中的位置信息;

所述生成模块包括:

生成单元,用于根据所述分词及其对应的位置信息生成所述样本题目对应的倒排索引,从而得到所述倒排索引表。

进一步的,所述处理模块包括:

分词单元,用于将符合纯文本格式的待识别题目进行分词处理得到所述待识别题目中所包括的待识别分词;

查询单元,用于根据所述待识别题目的所有待识别分词,查询所述倒排索引表得到所述待识别题目的科目识别结果及其评分数值。

进一步的,所述查询单元包括:

查询子单元,用于查询所述倒排索引表获得与所述待识别分词匹配的候选倒排索引;

所述处理模块,还用于根据各候选倒排索引获取对应样本题目的科目类型,获得所述待识别题目对应的科目识别结果及其评分数值。

本发明还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器,用于执行所述存储器上所存放的计算机程序,实现如所述的科目识别实现方法所执行的操作。

本发明还提供一种存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如所述的科目识别实现方法所执行的操作。

与现有技术相比,通过本发明提供的一种科目识别实现方法、系统、存储介质和终端设备,有益效果在于:

本发明简化科目识别方式,降低人工成本,提升科目识别扩展的便利性。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,对一种科目识别实现方法、系统、存储介质和终端设备的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种科目识别实现方法的一个实施例的流程图;

图2是本发明一种科目识别实现方法的另一个实施例的流程图;

图3是本发明一种科目识别实现方法的另一个实施例的流程图;

图4是本发明一种科目识别实现方法的另一个实施例的流程图;

图5是本发明一种科目识别实现方法的另一个实施例的流程图;

图6是本发明一种科目识别实现方法的另一个实施例的流程图;

图7是本发明一种科目识别实现系统的一个实施例的结构示意图;

图8是本发明一种终端设备的一个实施例的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

具体实现中,本申请实施例中描述的移动客户端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其他便携式设备。

移动客户端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

倒排索引以字或词为分词进行索引,倒排索引中记录了出现这个分词的所有文本信息列表和该分词在对应文本信息列表中出现的位置情况。

文本信息:一般搜索引擎的处理对象是互联网网页,而文本信息相比网页来说,涵盖更多种形式,比如word,pdf,html,xml等不同格式的文件都可以称之为文本信息。再比如一封邮件,一条短信,一条微博也可以称之为文本信息。

分词编号:与文本信息编号类似,搜索引擎内部以唯一的编号来表征某个分词,分词编号可以作为某个分词的唯一表征。

倒排文件:所有分词的倒排列表往往顺序地存储在磁盘的某个物理文件里,这个文件即被称之为倒排文件。

图1示出了本发明的一种科目识别实现方法的一种实现方式的流程图,包括以下步骤:

s100根据样本题库中各样本题目建立对应的倒排索引表;

s200根据待识别题目的分词查询倒排索引表,得到待识别题目的科目识别结果和评分数值;

s300将评分数值对应的科目识别结果按照从大到小的顺序排列;

s400选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

具体的,样本题目为符合上述文本信息格式的题目数据。对样本题库中的各样本题目同步建立各样本题目对应的倒排索引,从而生成所有样本题目对应的所有倒排索引表,将所有倒排索引表储存在预设地址的倒排文件中。创建好倒排索引表后,获取任意一个待识别题目,然后获取待识别题目的分词,根据待识别题目的分词查询倒排文件中的所有倒排索引表得到该待识别题目的科目识别结果和评分数值。

将评分数值对应的科目识别结果按照从大到小的顺序排列,从最高排名起选取预设数量个排名在前的科目识别结果,然后根据选取的预设数量个科目识别结果进行统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

本实施例中,通过样本题库、搜索引擎和倒排索引的结合,实现了科目识别的功能。通过评分统计确定频数最大所对应科目类型为待识别题目的科目类型,从而大大提升科目识别准确率。

图2示出了本发明的一种科目识别实现方法的另一种实现方式的流程图,包括以下步骤:

s010获取已明确科目类型的样本题目并更新样本题库;

具体的,样本题目的获取方式可以是:导入word,pdf,html,xml等不同文本格式的文件后,将对应文件根据其科目类型进行标记得到样本题目。也可以是通过摄像头拍摄获取题册或者课本上的题目获得包括题目内容的图像数据,然后对包括题目内容的图像数据通过ocr技术转换为包括对应题目内容符合上述文本格式的题目数据,将对应题目数据根据其科目类型进行标记得到样本题目。

s110对样本题目进行分词处理得到样本题目中所包括的分词,并记录每个分词在样本题目中的位置信息;

具体的,根据分词方法对样本题目进行分词,分析样本题目中句子的结构,识别样本题目中的每一句话中词语的词性,然后将样本题目中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成,从而获得样本题目中包含的分词以及对应的词性。分词方法可以是基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词。分词是一项专门的技术,在实际工程中可以至今借助工具来完成,比如jieba分词工具、ansj分词器、hanlp分词器、kcws分词器等等。

s120根据分词及其对应的位置信息生成样本题目对应的倒排索引,从而得到倒排索引表;

具体的,首先对倒排索引的各种信息进行说明:

倒排索引:倒排索引是实现“分词-样本题目矩阵”的一种具体存储形式,通过倒排索引,可以根据分词快速获取包含这个分词的样本题目列表。倒排索引主要由两个部分组成:“分词词典”和“倒排文件”。

分词词典:搜索引擎的索引单位通常是分词,分词词典是由样本题目集合(即本发明样本题库)中出现过的所有分词构成的字符串集合,分词词典内每条索引项记载分词本身的一些信息以及指向“倒排列表”的指针。

倒排列表:倒排列表记载了出现过某个分词的所有样本题目的样本题目列表,及分词在该样本题目中出现的位置信息,根据倒排列表,即可获知哪些样本题目包含某个分词。

生成样本题目对应的倒排索引的实现步骤为:

1.1、首先对样本题库中的样本题目进行编号(docid)形成对应的样本题目编号,在搜索引擎内部,会将样本题库内每个样本题目赋予一个唯一的内部编号,以此编号来作为这个样本题目的唯一标识,这样方便内部处理,每个样本题目的内部编号即称之为“样本题目编号”。

1.2、通过上述分词方法对样本题目中的数据进行分词处理得到样本题目中所包括的分词,对每个分词进行编号得到分词编号,根据分词对应的分词编号、样本题目编号以及该分词在对应样本题目中的位置信息生成倒排索引。

s200根据待识别题目的分词查询倒排索引表,得到待识别题目的科目识别结果和评分数值;

s300将评分数值对应的科目识别结果按照从大到小的顺序排列;

s400选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

具体的,本实施例中与上述实施例相同的部分在此不再一一赘述。

如果样本题库中没有科目类型a,则只需要在样本题库中新增科目类型a对应的样本题目,并生成科目类型a对应的样本题目对应的倒排索引表并储存至倒排文件中,即可增加新科目类型的识别功能,扩展容易。

如果样本题库中有科目类型a,而通过上述流程确定待识别题目的科目类型也是a,则将确定科目类型是a的待识别题目添加至样本题库中,对样本题库进行更新,并根据确定科目类型是a的待识别题目创建对应的倒排索引,更新倒排索引表后储存至倒排文件中,即可增加样本题库中的已明确科目类型的样本题目,由于样本题库、倒排文件中数据量增加,使得各项数值趋于稳定,从而提高科目识别结果的各种可能性,进而提升科目识别准确率。

本实施例中,通过样本题库、搜索引擎和倒排索引的结合,实现了科目识别的功能。通过评分统计确定频数最大所对应科目类型为待识别题目的科目类型,从而大大提升科目识别准确率。此外,通过获取已明确科目类型的样本题目并更新样本题库,能够实现识别新科目类型的待识别题目而且扩展容易,并且,向样本题库增加已有科目类型的样本题目,从而提高科目识别准确率。

图3示出了本发明的一种科目识别实现方法的另一种实现方式的流程图,包括以下步骤:

s100根据样本题库中各样本题目建立对应的倒排索引表;

s210将符合纯文本格式的待识别题目进行分词处理得到待识别题目中所包括的待识别分词;

具体的,待识别题目的获取方式可以是:导入word,pdf,html,xml等不同文本格式的文件,获取文件中的待识别题目。也可以是通过摄像头拍摄获取题册或者课本上的题目,从而获得包括题目内容的,且格式为图片格式的待识别题目,然后对包括图片格式的待识别题目通过ocr技术转换得到符合上述文本格式的待识别题目。

通过判断待识别题目的文件格式是否是纯文本格式,如果是则直接将符合纯文本格式的待识别题目进行分词处理,得到待识别题目中所包括的待识别分词。如果不是即待识别题目为非纯文本格式,则将待识别题目的文件格式转换为纯文本格式,然后再将符合纯文本格式的待识别题目进行分词处理,得到待识别题目中所包括的待识别分词。

根据分词方法对对符合纯文本格式的待识别题目进行分词,分析符合纯文本格式的待识别题目中句子的结构,识别符合纯文本格式的待识别题目中的每一句话中词语的词性,然后将符合纯文本格式的待识别题目中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成,从而获得符合纯文本格式的待识别题目中包含的分词以及对应的词性。分词方法可以是基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词。分词是一项专门的技术,在实际工程中可以至今借助工具来完成,比如jieba分词工具、ansj分词器、hanlp分词器、kcws分词器等等。

s220根据待识别题目的所有待识别分词,查询倒排索引表得到待识别题目的科目识别结果及其评分数值;

具体的,根据上述分词方法获取待识别题目的所有待识别分词后,由于事先建立好了倒排索引表,查询倒排索引表得到待识别题目的科目识别结果及其评分数值。

s300将评分数值对应的科目识别结果按照从大到小的顺序排列;

s400选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

本实施例中,通过样本题库、搜索引擎和倒排索引的结合,实现了科目识别的功能。通过评分统计确定频数最大所对应科目类型为待识别题目的科目类型,从而大大提升科目识别准确率。

图4示出了本发明的一种科目识别实现方法的另一种实现方式的流程图,包括以下步骤:

s010获取已明确科目类型的样本题目并更新样本题库;

s110对样本题目进行分词处理得到样本题目中所包括的分词,并记录每个分词在样本题目中的位置信息;

s120根据分词及其对应的位置信息生成样本题目对应的倒排索引,从而得到倒排索引表;

s210将符合纯文本格式的待识别题目进行分词处理得到待识别题目中所包括的待识别分词;

s220根据待识别题目的所有待识别分词,查询倒排索引表得到待识别题目的科目识别结果及其评分数值;

s300将评分数值对应的科目识别结果按照从大到小的顺序排列;

s400选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

具体的,本实施例中与上述实施例相同的部分在此不再一一赘述,具体内容和效果参见上述实施例。

图5示出了本发明的一种科目识别实现方法的另一种实现方式的流程图,包括以下步骤:

s100根据样本题库中各样本题目建立对应的倒排索引表;

s210将符合纯文本格式的待识别题目进行分词处理得到待识别题目中所包括的待识别分词;

s221查询倒排索引表获得与待识别分词匹配的候选倒排索引;

s222根据各候选倒排索引获取对应样本题目的科目类型,获得待识别题目对应的科目识别结果及其评分数值;

s300将评分数值对应的科目识别结果按照从大到小的顺序排列;

s400选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

具体的,在搜索引擎中每个样本题目都对应一个样本题目id,分词集合被表示为一系列分词的集合。例如“样本题目1”经过分词,提取了20个分词,每个分词都会记录它在样本题目中的出现次数和出现位置。

搜索的过程:

当获取到任意的符合纯文本格式的待识别题目时,首先对符合纯文本格式的待识别题目进行分词处理,得到待识别题目的所有待识别分词,然后将待识别分词与倒排索引列表进行匹配查找对应的候选倒排索引,找到这些候选倒排索引就能找到包含这些待识别分词的所有样本题目编号,根据所查找到的样本题目编号获取对应的候选样本题目的科目类型即为待识别题目对应的科目识别结果,并统计所查找的候选样本题目中匹配于待识别题目的所有待识别分词的数量,根据统计结果计算得到对应科目识别结果的评分数值。

本实施例中,通过倒排索引表在查询的时候由于可以一次得到查询待识别题目的待识别分词所对应的所有样本题目,由于倒排索引建立在后台进行,使得运行在前端的搜索引擎提升搜索待识别题目的待识别分词所对应的样本题目的效率,从而大大提升识别待识别题目的科目类型的效率。

图6示出了本发明的一种科目识别实现方法的另一种实现方式的流程图,包括以下步骤:

s010获取已明确科目类型的样本题目并更新样本题库;

s110对样本题目进行分词处理得到样本题目中所包括的分词,并记录每个分词在样本题目中的位置信息;

s120根据分词及其对应的位置信息生成样本题目对应的倒排索引,从而得到倒排索引表;

s210将符合纯文本格式的待识别题目进行分词处理得到待识别题目中所包括的待识别分词;

s221查询倒排索引表获得与待识别分词匹配的候选倒排索引;

s222根据各候选倒排索引获取对应样本题目的科目类型,获得待识别题目对应的科目识别结果及其评分数值;

s300将评分数值对应的科目识别结果按照从大到小的顺序排列;

s400选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

具体的,本实施例中与上述实施例相同的部分在此不再一一赘述,具体内容和效果参见上述实施例。

图7示出了本发明的一种科目识别实现系统的一种实现方式的结构示意图,包括:

生成模块10,用于根据样本题库中各样本题目建立对应的倒排索引表;

处理模块20,用于根据待识别题目的分词查询倒排索引表,得到待识别题目的科目识别结果和评分数值;

排序模块30,用于将评分数值对应的科目识别结果按照从大到小的顺序排列;

识别模块40,用于选取预设数量个排名在前的科目识别结果,统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

具体的,样本题目为符合上述文本信息格式的题目数据。对样本题库中的各样本题目同步建立各样本题目对应的倒排索引,从而生成所有样本题目对应的所有倒排索引表,将所有倒排索引表储存在预设地址的倒排文件中。创建好倒排索引表后,获取任意一个待识别题目,然后获取待识别题目的分词,根据待识别题目的分词查询倒排文件中的所有倒排索引表得到该待识别题目的科目识别结果和评分数值。

将评分数值对应的科目识别结果按照从大到小的顺序排列,从最高排名起选取预设数量个排名在前的科目识别结果,然后根据选取的预设数量个科目识别结果进行统计同一科目类型的频数,确定频数最大所对应科目类型为待识别题目的科目类型。

本实施例中,通过样本题库、搜索引擎和倒排索引的结合,实现了科目识别的功能。通过评分统计确定频数最大所对应科目类型为待识别题目的科目类型,从而大大提升科目识别准确率。

基于前述实施例,科目识别实现系统还包括:

创建模块,用于获取已明确科目类型的样本题目并更新样本题库;

处理模块20,还用于对样本题目进行分词处理得到样本题目中所包括的分词,并记录每个分词在样本题目中的位置信息;

生成模块10包括:

生成单元,用于根据分词及其对应的位置信息生成样本题目对应的倒排索引,从而得到倒排索引表。

具体的,样本题目的获取方式可以是:导入word,pdf,html,xml等不同文本格式的文件后,将对应文件根据其科目类型进行标记得到样本题目。也可以是通过摄像头拍摄获取题册或者课本上的题目获得包括题目内容的图像数据,然后对包括题目内容的图像数据通过ocr技术转换为包括对应题目内容符合上述文本格式的题目数据,将对应题目数据根据其科目类型进行标记得到样本题目。

根据分词方法对样本题目进行分词,分析样本题目中句子的结构,识别样本题目中的每一句话中词语的词性,然后将样本题目中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成,从而获得样本题目中包含的分词以及对应的词性。分词方法可以是基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词。分词是一项专门的技术,在实际工程中可以至今借助工具来完成,比如jieba分词工具、ansj分词器、hanlp分词器、kcws分词器等等。

生成样本题目对应的倒排索引的实现步骤为:

1.1、首先对样本题库中的样本题目进行编号(docid)形成对应的样本题目编号,在搜索引擎内部,会将样本题库内每个样本题目赋予一个唯一的内部编号,以此编号来作为这个样本题目的唯一标识,这样方便内部处理,每个样本题目的内部编号即称之为“样本题目编号”。

1.2、通过上述分词方法对样本题目中的数据进行分词处理得到样本题目中所包括的分词,对每个分词进行编号得到分词编号,根据分词对应的分词编号、样本题目编号以及该分词在对应样本题目中的位置信息生成倒排索引。

具体的,本实施例中与上述实施例相同的部分在此不再一一赘述。

如果样本题库中没有科目类型a,则只需要在样本题库中新增科目类型a对应的样本题目,并生成科目类型a对应的样本题目对应的倒排索引表并储存至倒排文件中,即可增加新科目类型的识别功能,扩展容易。

如果样本题库中有科目类型a,而通过上述流程确定待识别题目的科目类型也是a,则将确定科目类型是a的待识别题目添加至样本题库中,对样本题库进行更新,并根据确定科目类型是a的待识别题目创建对应的倒排索引,更新倒排索引表后储存至倒排文件中,即可增加样本题库中的已明确科目类型的样本题目,由于样本题库、倒排文件中数据量增加,使得各项数值趋于稳定,从而提高科目识别结果的各种可能性,进而提升科目识别准确率。

本实施例中,通过样本题库、搜索引擎和倒排索引的结合,实现了科目识别的功能。通过评分统计确定频数最大所对应科目类型为待识别题目的科目类型,从而大大提升科目识别准确率。此外,通过获取已明确科目类型的样本题目并更新样本题库,能够实现识别新科目类型的待识别题目而且扩展容易,并且,向样本题库增加已有科目类型的样本题目,从而提高科目识别准确率。

基于前述实施例,处理模块20包括:

分词单元,用于将符合纯文本格式的待识别题目进行分词处理得到待识别题目中所包括的待识别分词;

查询单元,用于根据待识别题目的所有待识别分词,查询倒排索引表得到待识别题目的科目识别结果及其评分数值。

具体的,待识别题目的获取方式可以是:导入word,pdf,html,xml等不同文本格式的文件,获取文件中的待识别题目。也可以是通过摄像头拍摄获取题册或者课本上的题目,从而获得包括题目内容的,且格式为图片格式的待识别题目,然后对包括图片格式的待识别题目通过ocr技术转换得到符合上述文本格式的待识别题目。

通过判断待识别题目的文件格式是否是纯文本格式,如果是则直接将符合纯文本格式的待识别题目进行分词处理,得到待识别题目中所包括的待识别分词。如果不是即待识别题目为非纯文本格式,则将待识别题目的文件格式转换为纯文本格式,然后再将符合纯文本格式的待识别题目进行分词处理,得到待识别题目中所包括的待识别分词。

根据分词方法对对符合纯文本格式的待识别题目进行分词,分析符合纯文本格式的待识别题目中句子的结构,识别符合纯文本格式的待识别题目中的每一句话中词语的词性,然后将符合纯文本格式的待识别题目中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成,从而获得符合纯文本格式的待识别题目中包含的分词以及对应的词性。分词方法可以是基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词。分词是一项专门的技术,在实际工程中可以至今借助工具来完成,比如jieba分词工具、ansj分词器、hanlp分词器、kcws分词器等等。

根据上述分词方法获取待识别题目的所有待识别分词后,由于事先建立好了倒排索引表,查询倒排索引表得到待识别题目的科目识别结果及其评分数值。

本实施例中,通过样本题库、搜索引擎和倒排索引的结合,实现了科目识别的功能。通过评分统计确定频数最大所对应科目类型为待识别题目的科目类型,从而大大提升科目识别准确率。

基于前述实施例,查询单元包括:

查询子单元,用于查询倒排索引表获得与待识别分词匹配的候选倒排索引;

处理模块20,还用于根据各候选倒排索引获取对应样本题目的科目类型,获得待识别题目对应的科目识别结果及其评分数值。

具体的,在搜索引擎中每个样本题目都对应一个样本题目id,分词集合被表示为一系列分词的集合。例如“样本题目1”经过分词,提取了20个分词,每个分词都会记录它在样本题目中的出现次数和出现位置。

搜索的过程:

当获取到任意的符合纯文本格式的待识别题目时,首先对符合纯文本格式的待识别题目进行分词处理,得到待识别题目的所有待识别分词,然后将待识别分词与倒排索引列表进行匹配查找对应的候选倒排索引,找到这些候选倒排索引就能找到包含这些待识别分词的所有样本题目编号,根据所查找到的样本题目编号获取对应的候选样本题目的科目类型即为待识别题目对应的科目识别结果,并统计所查找的候选样本题目中匹配于待识别题目的所有待识别分词的数量,根据统计结果计算得到对应科目识别结果的评分数值。

本实施例中,通过倒排索引表在查询的时候由于可以一次得到查询待识别题目的待识别分词所对应的所有样本题目,由于倒排索引建立在后台进行,使得运行在前端的搜索引擎提升搜索待识别题目的待识别分词所对应的样本题目的效率,从而大大提升识别待识别题目的科目类型的效率。

本发明通过创建样本题库以及生成倒排索引表,使得科目识别在语音(转换文字)、图像和文字上可以缩小检索范围,使内容查找更精确,像搜题学习这块,只检索数学科目对应的样本题库总会比检索包含所有科目类型的样本题库来得准确快速。从样本题库中检索出相关性最匹配的样本题目,那么对这些样本题目按照科目分类进行同一科目类型数量统计得到同一科目类型的频数,确定频数最大的科目类型就是此次待识别题目的科目类型。

因此,本发明通过对创建并更新样本题库,使其不仅能用来搜题给用户使用,还能够用来对未人工识别标记科目类型的待识别题目进行自动智能化的科目识别。采用样本题库、倒排索引和搜索引擎结合相关性评分排序算法识别科目类型,合理利用样本题库资源,大大提升科目识别准确率。简化了整个技术方案的复杂度,假设要增加一个识别科学的类型,只需要在索引上扩充一定的数据量就可以支持,扩展比较方便快捷。采用样本题库、倒排索引和搜索引擎结合相关性评分排序算法识别科目类型,不仅可以很好的支持待识别题目的科目识别,并且利用相关性评分算法提高了科目识别准确率。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将所述装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。

本发明的一个实施例,如图8所示,一种终端设备100,包括处理器110、存储器120,其中,存储器120,用于存放计算机程序;处理器110,用于执行存储器120上所存放的计算机程序,实现上述图1-6任一对应方法实施例中的科目识别实现方法。

所述终端设备100可以为桌上型计算机、笔记本、掌上电脑、平板型计算机、手机、人机交互屏等设备。所述终端设备100可包括,但不仅限于处理器110、存储器120。本领域技术人员可以理解,图8仅仅是终端设备100的示例,并不构成对终端设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备100还可以包括输入/输出接口、显示设备、网络接入设备、通信总线、通信接口等。通信接口和通信总线,还可以包括输入/输出接口,其中,处理器110、存储器120、输入/输出接口和通信接口通过通信总线完成相互间的通信。该存储器120存储有计算机程序,该处理器110用于执行存储器120上所存放的计算机程序,实现上述图1-6任一所对应方法实施例中的科目识别实现方法。

所述处理器110可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器120可以是所述终端设备100的内部存储单元,例如:终端设备的硬盘或内存。所述存储器也可以是所述终端设备的外部存储设备,例如:所述终端设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器120还可以既包括所述终端设备100的内部存储单元也包括外部存储设备。所述存储器120用于存储所述计算机程序以及所述终端设备100所需要的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

通信总线是连接所描述的元素的电路并且在这些元素之间实现传输。例如,处理器110通过通信总线从其它元素接收到命令,解密接收到的命令,根据解密的命令执行计算或数据处理。存储器120可以包括程序模块,例如内核(kernel),中间件(middleware),应用程序编程接口(applicationprogramminginterface,api)和应用。该程序模块可以是有软件、固件或硬件、或其中的至少两种组成。输入/输出接口转发用户通过输入/输出接口(例如感应器、键盘、触摸屏)输入的命令或数据。通信接口将该终端设备100与其它网络设备、用户设备、网络进行连接。例如,通信接口可以通过有线或无线连接到网络以连接到外部其它的网络设备或用户设备。无线通信可以包括以下至少一种:无线保真(wifi),蓝牙(bt),近距离无线通信技术(nfc),全球卫星定位系统(gps)和蜂窝通信等等。有线通信可以包括以下至少一种:通用串行总线(usb),高清晰度多媒体接口(hdmi),异步传输标准接口(rs-232)等等。网络可以是电信网络和通信网络。通信网络可以为计算机网络、因特网、物联网、电话网络。终端设备100可以通过通信接口连接网络,终端设备100和其它网络设备通信所用的协议可以被应用、应用程序编程接口(api)、中间件、内核和通信接口至少一个支持。

本发明的一个实施例,一种存储介质,存储介质中存储有至少一条指令,指令由处理器加载并执行以实现上述图1-6任一所对应方法实施例所执行的操作。例如,计算机可读存储介质可以是只读内存(rom)、随机存取存储器(ram)、只读光盘(cd-rom)、磁带、软盘和光数据存储设备等。

它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序发送指令给相关的硬件完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括:计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1