一种数据处理方法、装置及存储介质与流程

文档序号:17663117发布日期:2019-05-15 22:31阅读:120来源:国知局
一种数据处理方法、装置及存储介质与流程

本发明涉及数据处理领域,尤其涉及一种数据处理方法、装置及存储介质。



背景技术:

随着移动互联网的发展,答题式的应用日渐兴起,该类型的应用需要一套科学和客观的题目数据库作为基础。相关技术中,各系统和平台题目数据库中题目的生成方法主要依靠人员手工编制,而手工编制题目需要人工匹配题干和答案,一方面,题干和答案匹配容易出错且题目答案遗漏的概率偏高;另一方面,人工匹配的过程效率极低。

因此,亟需找到一种能够自动生成题目的技术方案。



技术实现要素:

有鉴于此,本发明实施例提供一种数据处理的方法、装置及存储介质,以实现自动生成题目。

本发明实施例提供了一种数据处理方法,包括:

从语料库中提取语料文本;

根据第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本;

基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词;

基于所述关键词,利用处理后的语料文本生成题目。

上述方案中,在所述从语料库中提取语料文本之前,所述方法还包括:

从特定网站获取原始语料文本;

基于预设规则,对所述原始语料文本进行过滤,得到有效语料文本;

利用得到的有效语料文本,建立语料库。

上述方案中,所述基于预设规则,对所述原始语料文本进行过滤,得到有效语料文本,包括:

根据预设的语料完整性规则对所述原始语料文本进行筛选,获得筛选后的语料文本;

对筛选后的语料文本进行字符识别处理,得到有效语料文本。

上述方案中,所述方法还包括:

通过分词算法,对所述语料库中的语料文本进行分词,得到分词结果;

利用得到的分词结果,并结合预设的分词词典,建立所述第一分词词典。

上述方案中,所述方法还包括:

确定题目数据库中未存储所述题目时,将所述题目保存至所述题目数据库。

本发明实施例还提供了一种数据处理装置,包括:

提取单元,用于从语料库中提取语料文本;

分词处理单元,用于根据第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本;

筛选单元,用于基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词;

第一生成单元,用于基于所述关键词,利用处理后的语料文本生成题目。

上述方案中,所述装置还包括第一创建单元,用于:

从特定网站获取原始语料文本;

为基于预设规则,对所述原始语料文本进行过滤,得到有效语料文本;

利用得到的有效语料文本,建立语料库。

上述方案中,所述装置还包括第二创建单元,用于:

通过分词算法,对所述语料库中的语料文本进行分词,得到分词结果;

利用得到的分词结果,并结合预设的分词词典,建立所述第一分词词典。

本发明实施例又提供了一种数据处理装置,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器;

其中,所述处理器配置为运行所述计算机程序时,执行时实现上述任一方法步骤。

本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例所提供的数据处理方法、装置及存储介质,从语料库中提取语料文本;根据第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本;基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词;基于所述关键词,利用处理后的语料文本生成题目。本发明实施例中,通过筛选的关键词,自动建立了题干与答案的映射关系,且该映射关系准确可靠,这样题干和答案匹配出错和题目答案遗漏的概率能够有效地降低;同时,该方法能够有效实现自动生成题目,在单位时间内,相对于手工编制的题目具有非常明显的效率优势,从而节约了时间成本和人力成本。

附图说明

图1为本发明实施例数据处理方法的实现流程示意图一;

图2为本发明实施例数据处理方法的实现流程示意图二;

图3为本发明应用实施例生成题目方法的实现流程示意图;

图4为本发明实施例数据处理装置的组成结构示意图;

图5为本发明实施例数据处理装置的硬件组成结构示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。

相关技术中,各系统和平台生成题目数据库的方法主要依靠人员手工编制题目。总结有以下主要几点弊端:

1、虽然很多平台和应用都具备随机生成题目的功能,但基本都是从现有题目数据库中随机选择,而现有的题目数据库主要还是依靠人员手工编制;

2、题目数据库的质量与编制人员专业水平息息相关,与编制人员获得的素材息息相关,题目数据库中题目的科学性和客观性无法得到保障;

3、手工编制受到主观因素影响,错误和遗漏概率高,标准不统一,为后期的审核带来繁重的负担,耗费了更多的人力、物力和财力;

4、题目数据库的建立要经历从数据收集,整理、编制、分类、审核、入库等多个环节,数据的层层流转都可能造成数据遗失,数据污染和人为篡改等问题;

5、定制化程度低,对于新的需求,相关人员需要有学习的过程,并针对新的需求重复多次从数据采集到入库的流程,效率不高;

6、题目数据库生成的过程无法持续进行,从而限制了题目数据库容量的扩充和质量的提高。

基于此,在本发明的各种实施例中,利用海量的数据自动生成题目并生成题目数据库。

本发明实施例提供的数据处理方法能够实现自动生成题目,进而自动生成题目数据库。

这里提到的题目均为客观性质的题型,可以包括选择题、判断题、填空题等,其中选择题支持多选题。

本发明实施例提供一种数据处理方法。图1为本发明实施例数据处理方法的实现流程示意图,如图1所示,所述方法包括以下步骤:

步骤s101,从语料库中提取语料文本。

这里,实际应用时,所述语料库中存放的数据是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;语料库中的语料文本需要经过分析和处理,才能成为有用的资源。

这里,提取的语料文本可以是从语料库中随机提取到的语料文本。

步骤s102,根据第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本。

这里,所述第一分词词典是不同于预设分词词典的分词词典。

下面结合实际示例对第一分词词典和预设分词词典进行详细说明。

假设从某官网攫取到一段语料文本“模仿李小鹏跳”。在预设分词词典中该语料文本常被分词为:模仿/李小鹏/跳;而在本发明实施例中,通过多种分词算法,对所述语料库中的语料文本进行分词,得到分词结果;利用得到的分词结果,并结合预设的分词词典,建立所述第一分词词典。因此,在本发明实施例中,根据第一分词词典对所述语料文本进行分词处理后,“模仿李小鹏跳”更大概率被分解为:“模仿/李小鹏跳”。

这里完成了对所述语料文本的分词处理,得到了已经经过分词的语料文本。

步骤s103,基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词。

这里,本步骤的目的是从所述语料文本中筛选出作为正确答案部分的分词。

在实现过程中,可根据预先定义的出题规则,对所述处理后的语料文本进行筛选,筛选出关键词;所述预先定义的出题规则可以是定义固定的搭配模式,如“把……作为”固定的搭配中的省略号代表的分词筛选出作为关键词、定义需包含的特定语料文本,如将语料文本中含数字的分词筛选出作为关键词,这里定义预设的出题规则可以根据实际应用情况灵活选择,此处不作具体限定。

步骤s104,基于所述关键词,利用处理后的语料文本生成题目。

这里,由于不同题型的结构形式不同,需要根据不同的攫取规则来实现将处理后的语料文本生成题目。

举个例子来说,如果生成的题目的题型为填空题,则用指定符号(如括号等)替换关键词生成题干,并将关键词作为答案与题干建立映射关系,这里生成的题干、答案、以及题干和答案的映射关系构成了题目。

如果生成的题目的题型为选择题,除了用指定符号(如括号等)替换关键词外,还需要额外生成备选的错误选项,其中错误选项的生成方法可以包括:在正确答案(关键词)的基础上进行一定量的偏移或类似词语替换,这里不作具体限定。这里生成的题干、多项答案、以及题干和多项答案的映射关系构成了题目。

如果生成的题目的题型为判断题,对于判断结果为正确的题目,不需要进行关键词替换处理,直接由处理后的语料文本得到题干;对于判断结果为错误的题目,需要额外生成错误答案来替换关键词得到题干,其中错误答案的生成方法可以包括在:正确答案(关键词)的基础上进行一定量的偏移或类似词语替换,这里不作具体限定。记录关键词进行替换的次数,并根据关键词替换次数建立判断题的答案,即当替换次数为0,判断题答案为正确;当替换次数不为0,判断题答案为错误。这里生成的题干、答案、以及题干和答案的映射关系构成了题目。

不同题型的题目,由不同的攫取规则实现了将语料文本生成题目的过程。

本发明实施例提供的数据处理方法,通过从语料库中提取语料文本;根据第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本;基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词;基于所述关键词,利用处理后的语料文本生成题目。本发明实施例中,通过筛选的关键词,自动建立了题干与答案的映射关系,且该映射关系准确可靠,这样题干和答案匹配出错和题目答案遗漏的概率能够有效地降低;同时,由于本方法能够有效实现自动生成题目,在单位时间内,相对于手工编制的题目具有非常明显的效率优势,从而节约了时间成本和人力成本。

本发明实施例提供另一种数据处理方法。图2为本发明实施例另一种数据处理方法的实现流程示意图,如图2所示,所述方法包括以下步骤:

步骤s201,建立语料库。

这里,语料库是建立第一分词词典和生成题目的基础。本发明实施例可以通过以下步骤建立语料库:

步骤a,从特定网站获取原始语料文本。

这里,由于本发明实施例面向的是海量数据,为了保证数据的可靠性和规范性,本发明实施例限定其数据接口来源必须是特定媒体,这里的特定媒体主要包括:线上各行业和专业领域官方和权威网站平台发布的新闻、博客和论文、报表、教程和文学作品等,国家官方和权威机构线上平台发布的法令、条例和案例等数据,线下多种格式的电子文档。

这里可以通过爬虫程序从特定网站获取原始语料文本。

步骤b,基于预设规则,对所述原始语料文本进行过滤,得到有效语料文本。

这里,预设的规则包括预设的语料完整性规则和字符识别处理。首先根据预设的语料完整性规则对所述原始语料文本进行筛选,然后对筛选后的语料文本进行字符识别处理,过滤筛选后的包含无法识别字符的语料文本,得到有效语料文本。

这里,所述预设的语料完整性规则是指预先对语料设置一些必须满足的完整性约束,比如关系中所有主属性不能取空值等,这里可以结合实际的需要进行调整。

步骤c,利用得到的有效语料文本,建立语料库。

将得到的有效语料文本保存至语料库。

这里,完成了语料库的建立。

实际应用时,会有新的有效的语料文本不断保存至语料库中,所以语料库处于持续更新、不断丰富的状态。

步骤s202,建立第一分词词典。

这里,第一分词词典是发明实施例实现分词的基础,第一分词词典的丰富程度直接影响分词的准确程度。本发明实施例可以通过以下步骤建立第一分词词典:

步骤a,通过分词算法,对所述语料库中的语料文本进行分词,得到分词结果。

这里的分词算法包括:基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法等,各种算法可以单独使用也可以组合使用。

举个例子来说,可以先采用逆向最大匹配法(rmm)和最大匹配法(mm)(rmm和mm具体均属于基于字符串匹配的分词方算法)对所述语料库中的语料文本进行初步分词,再可以根据词语、词语搭配模式在语料文本中出现的概率和搭配概率进行统计(这里的统计方法具体属于基于统计的分词算法),根据统计结果得到分词结果。

步骤b,利用得到的分词结果,并结合预设的分词词典,建立所述第一分词词典。

这里的预设的分词词典是指根据现有的分词算法已经得到的,供用户可随时调用的分词词典,如现在的一些主流的预设的分词词典包括:jieba(包含16.6万分词)、ik(包含27.5万分词)、mmseg(包含15万分词)、word(包含27.5万分词),这些预设的分词词典一般均以功能组件的形式集成到的不同的编程语言环境中。结合预设的分词词典既可以丰富词典,也可以降低创建第一分词词典时的计算负荷量。

这里完成了第一分词词典的建立。

实际应用时,第一分词词典建立后,会得到的新的分词,新的分词会加入至第一分词词典中,所以第一分词词典处于持续更新、不断丰富的状态。

其中,由于新的分词不断出现,并且在出现的一段时间内使用频率较高,由此可以对新的分词进行特殊标记处理,以增加新的分词的影响程度,进而提高后续根据第一分词词典对所述语料文本进行分词处理的效率。

步骤s203,从所述语料库中提取语料文本。

这里,实际应用时,所述语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;语料库中的语料文本需要经过分析和处理,才能成为有用的资源。

这里,从已建立好的语料库中提取语料文本,可以提高语料文本的质量,以便于后续题目的生成和题目数据库的建立。

举个例子来说,现从语料库攫取到的一条语料文本:“端午节与春节、清明节、中秋节并称为中国民间四大传统节日。端午文化在世界上影响广泛,世界上一些国家和地区也有庆贺端午的习俗。2006年,国务院将端午节列入首批国家级非物质文化遗产名录。端午节起源涵盖了古老星象文化、人文哲学等方面内容,蕴含着深邃丰厚的文化内涵。在民俗文化领域,中国民众把食粽子,赛龙舟作为端午节的两大传统礼俗主题。”

步骤s204,根据所述第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本。

这里,所述第一分词词典是不同于预设分词词典的分词词典。

下面结合实际示例对第一分词词典和预设分词词典进行详细说明。

假设从某官网攫取到一段语料文本“模仿李小鹏跳”。在预设分词词典中该语料文本常被分词为:模仿/李小鹏/跳;而在本发明实施例中,通过多种分词算法,对所述语料库中的语料文本进行分词,得到分词结果;利用得到的分词结果,并结合预设的分词词典,建立所述第一分词词典。因此,在本发明实施例中,根据第一分词词典对所述语料文本进行分词处理后,“模仿李小鹏跳”更大概率被分解为:“模仿/李小鹏跳”。

在具体实现过程中,可以通过python(一种计算机程序设计语言)的2-gram分词指令将文本分解成若干个文字片段的分词。

这里完成了对所述语料文本的分词处理,得到了已经经过分词的语料文本。

步骤s205,基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词。

这里,本步骤的目的是从所述语料文本中筛选出作为正确答案部分的分词。

在实现过程中,可根据预先定义预设的出题规则,对所述处理后的语料文本进行筛选,筛选出关键词;所述预先定义的出题规则可以是定义固定的搭配模式,如“把……作为”固定的搭配中的省略号代表的分词筛选出作为关键词、定义需包含的特定语料文本,如将语料文本中含数字的分词筛选出作为关键词,这里定义预设的出题规则可以根据实际应用情况灵活选择,此处不作具体限定。

这里通过举例对筛选关键词的过程进行进一步详细的描述。

对于上述例子,即提取的语料文本为“端午节与春节、清明节、中秋节并称为中国民间四大传统节日。端午文化在世界上影响广泛,世界上一些国家和地区也有庆贺端午的习俗。2006年,国务院将端午节列入首批国家级非物质文化遗产名录。端午节起源涵盖了古老星象文化、人文哲学等方面内容,蕴含着深邃丰厚的文化内涵。在民俗文化领域,中国民众把食粽子、赛龙舟作为端午节的两大传统礼俗主题”,对该语料文本进行如下操作:

1、定义需包含特定语料文本(数字、时间日期、地点等之一)作为出题规则,则可筛选出关键词:“2006年”。

2、定义固定的搭配模式(“把……作为”的搭配模式、“《……》”搭配模式、……;……;……的搭配模式等之一)作为出题规则,则可筛选出关键词:“食粽子、赛龙舟”。

步骤s206,基于所述关键词,利用处理后的语料文本生成题目。

这里由于不同题型的结构形式不同,需要根据不同的攫取规则来实现将处理后的语料文本生成题目。

举个例子来说,如果生成的题目的题型为填空题,则用指定符号(如括号等)替换关键词生成题干,并将关键词作为答案与题干建立映射关系,这里生成的题干、答案、以及题干和答案的映射关系构成了题目。

如果生成的题目的题型为选择题,除了用指定符号(如括号等)替换关键词外,还需要额外生成备选的错误选项,其中错误选项的生成方法可以包括:在正确答案(关键词)的基础上进行一定量的偏移或类似词语替换,这里不作具体限定。这里生成的题干、多项答案、以及题干和多项答案的映射关系构成了题目。

这里通过举例对生成备选错误选项的过程进行进一步详细的描述。对于上述例子,进行如下操作:

1、如果关键词是数字类型,根据正确答案的数字模式,做一定量的偏移,根据设定数量生成其他备选项,如示例中“2006”作为答案与题干建立映射外,并标记为正确答案,同时生成“2005”、“2007”和“2016”作为备选错误选项,并且正确答案与备选错误选项均与题干建立映射关系。

2、如果关键词是如“食粽子、赛龙舟”一类无明显模式的关键词,则可通过在语料库中检索关键词匹配模式的方法生成其他备选选项,如“食粽子、赛龙舟”可在语料库的其他语料文本中检索到“食汤圆、赛龙舟”、“食粽子、赏月亮”等类似词语,再经过校验后作为备选错误选项和正确答案一起与题干建立映射关系。

如果生成的题目的题型为判断题,对于判断结果为正确的题目,不需要进行关键词替换处理,直接由处理后的语料文本得到题干;对于判断结果为错误的题目,需要额外生成错误答案来替换关键词得到题干,其中错误答案的生成方法可以包括:在正确答案(关键词)的基础上进行一定量的偏移或类似词语替换,这里不作具体限定。记录关键词进行替换的次数,并根据关键词替换次数建立判断题的答案,即当替换次数为0,判断题答案为正确;当替换次数不为0,判断题答案为错误。这里生成的题干、答案、以及题干和多项答案的映射关系构成了题目。

不同题型的题目,由不同的攫取规则实现了将语料文本生成题目的过程。

步骤s207,基于生成的题目,生成题目数据库。

确定题目数据库中未存储所述题目时,将所述题目保存至所述题目数据库。

在一实施例中,生成的题目还要经过数据清洗等处理,进行处理后的题目才能保存至题目数据库,并且还可以根据第三方应用和平台的反馈进行修正和完善题目数据库。

这里,实际应用时,所述数据清洗可以包括:

对所述生成的题目进行语义审核,对语义审核通过的题目,进行完整性和正确性校验。

本发明实施例所提供的数据处理方法,首先建立语料库和第一分词词典,然后从语料库中提取语料文本;根据第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本;基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词;基于所述关键词,利用处理后的语料文本生成题目。最后基于生成的题目,生成题目数据库。本发明实施例中,通过筛选的关键词,自动建立了题干与答案的映射关系,且该映射关系准确可靠,这样题干和答案匹配出错和题目答案遗漏的概率能够有效地降低;同时,该方法能够有效实现自动生成题目,在单位时间内,相对于手工编制的题目具有非常明显的效率优势,从而节约了时间成本和人力成本。

另外,本发明实施例中,建立的语料库的数据来源于特定的网站,如专业领域官方平台发布,从而保证了数据来源的可靠性和规范性,由此生成的题目和题目数据库的科学性和权威性更高;建立的第一分词词典比预设的分词词典的分词的可参考性更佳,从而使分词处理的准确性更高,由此保证了生成的题目和题目数据库的准确性也更高。

除此以外,题目数据库能够根据第三方应用和平台的反馈进行修正,即题目数据库为持续运行状态,由此题目数据库可及时迭代更新,时效性更强。

下面结合应用实施例对本发明再作进一步详细的描述。

本发明应用实施例提供一种题目生成方法。图3为本发明应用实施例生成题目方法的实现流程示意图,如图3所示,所述方法包括以下步骤:

步骤s301,根据预设的规则采集数据。

这里,采集的数据源选择官方平台和权威机构发布,以确保数据的可靠性和规范性,并通过爬虫程序对目标数据源进行爬虫与数据采集。

这里,预设的规则是指预先编制的具有统一标准格式的规则,所述规则支持增加、删除、修改、查询等基本操作,并且所述规则可根据需求进行排列组合。通过设置规则,可以采集到有针对性的数据。

步骤s302,根据预设的规则对采集的数据进行过滤,得到过滤后的数据。

这里,根据通过国家相关法令法规和完整性规则对采集的数据进行初步过滤,过滤掉不适合正式发布的敏感语料文本和缺乏完整性的语料文本,进一步地,还可以对过滤后的语料文本进行字符识别处理,过滤筛选后的包含无法识别字符的语料文本,从而获得合法的、可用的数据。

这里,可以利用过滤后的数据形成语料库。

步骤s303,对过滤后的数据,进行分词处理,并对分词结果进行校验,得到分词处理后的数据。

这里,在具体实现过程中,可以通过以下步骤实现:

步骤a,通过python的2-gram指令对过滤后的数据进行分词处理;得到分词结果;

步骤b,对得到的分词结果,采用正则表达式来替换符合官方或权威机构发布的分词,以保证数据所使用的分词与官方或权威机构发布一致。

这里,得到了已经进行分词处理的数据。

步骤s304,基于得到的分词处理后的数据,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词。

步骤s305,基于所述关键词,利用处理后的语料文本,结合词法分析生成题目。

这里,生成的题型可以是选择题、判断题或填空题等。

具体地,如果生成的题目的题型为填空题,则用指定符号(如括号等)替换关键词生成题干,并将关键词作为答案与题干建立映射关系,这里生成的题干、答案、以及题干和答案的映射关系构成了题目。

如果生成的题目的题型为选择题或判断题,则用指定符号(如括号等)替换关键词生成题干,还需要额外生成备用的错误答案,所述备用的错误答案的生成方法为词法分析,可以包括:在正确答案(关键词)的基础上进行一定量的偏移或类似词语替换,这里不作具体限定。这里生成的题干、答案、以及题干和答案的映射关系构成了题目。

步骤s306,根据预设的规则对生成的题目进行过滤,得到过滤后的题目。

这里,预设的规则包括语义审核和完整性、正确性校验以及是否重复度的检测。这里首先对生成的题目进行语义审核;然后对语义审核通过的题目进行完整性和正确性校验,再对校验通过的题目与已生成的题目进行重复度确认,过滤掉重复的题目,得到过滤后的题目。

步骤s307,对得到的过滤后的题目进行分类,并根据分类的结果将所述题目保存至题目数据库。

这里,首先对得到的过滤后的题目进行分类,然后为所述题目建立分类索引,并根据分类的结果将所述题目保存至题目数据库中。为所述题目建立分类索引的目的是便于后续题目数据库的维护和升级。

步骤s308,对所述题目数据库建立统一的对外接口。

这里,对所述题目数据库建立了统一的对外接口,并且所述对外接口向下兼容。当对外发布题目数据库时,均采用所述统一的对外接口,以便于第三方应用和平台的接入和调用。并且对外接口的向下兼容性保证了,升级版的题目数据库仍能支持升级前已接入的第三方应用和平台的正常使用。

步骤s309,根据第三方应用和平台的反馈,对所述题目数据库进行修正和完善。

根据第三方应用和平台的反馈,在校验反馈有效性的前提下,对所述题目数据库进行修正和完善。

这里反馈会作用到步骤s306,对反馈的题目进行修正后,继续后续的步骤。

本发明实施例提供的数据处理方法,从数据采集、题目生成到分类入库保存的流程均采用了自动化流程,从而有效避免了数据在流转过程中由人为造成的数据丢失、污染和篡改等问题。另外,本发明实施例中,通过设置提取规则即可定制题目,从而得到题目数据库,并且通过规则的组合可以满足复杂的数据提取场景。题目数据库具有统一的对外接口,从而使题目数据库便于第三方应用和平台的接入和调用。

为了实现本发明实施例的方法,本发明实施例还提供一种数据处理装置,图4为本发明实施例装置的组成结构示意图,如图4所示,所述装置40包括:提取单元41、分词处理单元42、筛选单元43和第一生成单元44,其中:

所述提取单元41,配置为从语料库中提取语料文本;

所述分词处理单元42,配置为根据第一分词词典对所述语料文本进行分词处理,得到处理后的语料文本;

所述筛选单元43,配置为基于处理后的语料文本,筛选出关键词;其中,所述关键词为语料文本中作为正确答案与题干建立映射关系的分词;

所述第一生成单元44,配置为基于所述关键词,利用处理后的语料文本生成题目。

在一实施例中,所述装置40还包括第一创建单元,用于:

从特定网站获取原始语料文本;

基于预设规则,对所述原始语料文本进行过滤,得到有效语料文本;

利用得到的有效语料文本,建立语料库。

在一实施例中,所述第一创建单元,具体用于:

根据预设的语料完整性规则对所述原始语料文本进行筛选,获得筛选后的语料文本;

对筛选后的语料文本进行字符识别处理,过滤筛选后的语料文本,得到有效语料文本。

在一实施例中,所述装置40还包括第二创建单元,用于:

通过分词算法,对所述语料库中的语料文本进行分词,得到分词结果;

利用得到的分词结果,并结合预设的分词词典,建立所述第一分词词典。

在一实施例中,所述装置40还包括第二生成单元,用于,

确定题目数据库中未存储所述题目时,将所述题目保存至所述题目数据库。

在一实施例中,所述第二生成单元,具体用于:

对生成的题目进行数据清洗处理,将清洗处理后的题目保存至题目数据库。

实际应用时,所述提取单元41、分词处理单元42、筛选单元43、第一生成单元44、第一创建单元、第二创建单元和第二生成单元可由数据处理装置中的处理器实现。

需要说明的是:上述实施例提供的数据处理装置在进行数据处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例提供一种数据处理装置,如图5所示,所述装置50包括:处理器51和配置为存储能够在处理器上运行的计算机程序的存储器52,其中:

所述处理器51配置为运行所述计算机程序时执行上述一个或多个技术方案提供的方法。

实际应用时,如图5所示,所述装置50中的各个组件通过总线系统53耦合在一起。可理解,总线系统53用于实现这些组件之间的连接通信。总线系统53除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统53。

在示例性实施例中,本发明实施例还提供了一种存储介质,是计算机可读存储介质,例如包括计算机程序的存储器52,上述计算机程序可由数据处理装置50的处理器51执行,以完成前述方法所述步骤。计算机可读存储介质可以是磁性随机存取存储器(fram,ferromagneticrandomaccessmemory)、只读存储器(rom,readonlymemory)、可编程只读存储器(prom,programmableread-onlymemory)、可擦除可编程只读存储器(eprom,erasableprogrammableread-onlymemory)、电可擦除可编程只读存储器(eeprom,electricallyerasableprogrammableread-onlymemory)、快闪存储器(flashmemory)、磁表面存储器、光盘、或只读光盘(cd-rom,compactdiscread-onlymemory)等存储器。

需要说明的是:需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1