一种文本采集方法、装置、计算机设备及可读存储介质与流程

文档序号:31947856发布日期:2022-10-26 05:33阅读:39来源:国知局

1.本技术涉及数据处理技术领域,具体涉及一种文本采集方法、装置、计算机设备及可读存储介质。


背景技术:

2.随着各种智能设备的发展,给人们的生活带来了诸多便利。例如,越来越多的智能设备不仅可以支持遥控器控制方式,同时还支持语音控制方式,例如采用语音控制方式控制灯具、空调、电视和窗帘等家居设备。目前现有技术中主要基于固定的设备命令词表,首先采集用户读出设备命令词表中所包含的命令词,然后采用意图识别算法识别命令词对应的意图并执行该命令。但如果用户的命令表述超出设备命令词表范围时,意图识别算法就不能识别该命令词对应的意图,从而无法执行该命令。因此,为了避免让用户记忆大量的命令词,能够使用更灵活多样的命令表达形式来进行语音控制,算法需要学习大量的相同语义不同表达的命令表述数据。
3.在对现有技术的研究与实践的过程中,本技术的发明人发现,目前现有技术中,主要先通过人工采集命令表述数据,再对新采集的命令表述与数据库中已有句子进行匹配,通过判断命令表达是否存在差异,从而达到算法学习和命令表述录入的效果。但该方式存在如下问题,由于当检测到字词上稍有差别就判定存在表述差异,但有时差异的字词可能只是辅助性词语,并不一定导致命令表述产生差异,且没有考虑到句法的差异性,降低了检测的效率和准确性,容易影响命令表述采集的数据质量。
4.前面的叙述在于提供一般的背景信息,并不一定构成现有技术。


技术实现要素:

5.针对上述技术问题,本技术提供一种文本采集方法、装置、计算机设备及可读存储介质,可以实现新采集的命令表述与数据库已有命令表述之间差异度的自动分析,提高文本差异度质检和录入的准确性和效率。
6.本技术提供一种文本采集方法,包括如下步骤:获取命令表述文本;对所述命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;将所述分词结果与词表进行匹配,得到新词比例;将所述句法模式结果与句法模式库进行匹配,得到句法模式差异比例;基于所述新词比例和所述句法模式差异比例,获取所述命令表述文本对应的句子差异度;若所述句子差异度大于预设差异度阈值,将所述命令表述文本添加至命令表述库。
7.可选地,所述对所述命令表述文本进行词法分析,得到对应的分词结果和句法模式结果,包括:
通过预先构建的词法分析器对所述命令表述文本词法进行分析,得到对应的分词结果和词性标注结果;将所述词性标注结果中的多个词性标注依次相连,得到所述句法模式结果。
8.可选地,所述将所述分词结果与词表进行匹配,得到新词比例,包括:将所述分词结果中的每个分词依次与所述词表进行匹配,获取所述分词结果中新词的数量;将所述新词的数量与所述分词结果中所有分词的数量的比值作为所述新词比例。
9.可选地,所述将所述句法模式结果与句法模式库进行匹配,得到句法模式差异比例,包括:分别获取所述句法模式结果与所述句法模式库中每一句法模式的差异比例,得到差异比例集合;将所述差异比例集合中最小差异比例作为所述句法模式差异比例。
10.可选地,所述分别获取所述句法模式结果与所述句法模式库中每一句法模式的差异比例,得到差异比例集合,包括:分别获取所述句法模式结果中句法模式与所述句法模式库中每一句法模式的词错率,得到多个句法模式差异比例;根据多个所述句法模式差异比例,构建所述差异比例集合。
11.可选地,所述若所述句子差异度大于预设差异度阈值,将所述命令表述文本添加至命令表述库,包括:若所述句子差异度大于所述预设差异度阈值,则将所述命令表述文本添加至命令表述库,将所述分词结果中的新词添加至所述词表,将所述句法模式结果中的句法模式差异比例大于预设第一阈值的句法模式添加至所述句法模式库。
12.可选地,所述基于所述新词比例和所述句法模式差异比例,获取所述命令表述文本对应的句子差异度,包括:根据所述新词比例和所述句法模式差异比例的权重,获取所述命令表述文本对应的句子差异度。
13.相应地,本技术还提供了一种文本采集装置,包括:获取模块,用于获取命令表述文本;词法分析模块,用于对所述命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;新词比例模块,用于将所述分词结果与词表进行匹配,得到新词比例;句法模式差异模块,用于将所述句法模式结果与句法模式库进行匹配,得到句法模式差异比例;句子差异度模块,用于基于所述新词比例和所述句法模式差异比例,获取所述命令表述文本对应的句子差异度;录入模块,用于若所述句子差异度大于预设差异度阈值,将所述命令表述文本添加至命令表述库。
14.本技术实施例还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的文本采集方法的步骤。
15.本技术实施例还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本采集方法的步骤。
16.实施本技术实施例,具有如下有益效果:如上所述,本技术提供的一种文本采集方法、装置、计算机设备及可读存储介质,其中方法包括:首先,获取命令表述文本;然后,对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;接着,将分词结果与词表进行匹配,得到新词比例;将句法模式结果与句法模式库进行匹配,得到句法模式差异比例;再然后,基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度;最后,若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。本技术的文本采集方案,通过对命令表述文本的词语差异性和语法差异性进行判断,实现新采集的命令表述与数据库已有命令表述之间差异度的自动分析,从而将相同语义不同表达的命令表述收录至数据库,提高文本差异度质检和录入的准确性和效率。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。为了更清楚地说明本技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1是本技术实施例提供的文本采集方法的流程示意图;图2是本技术实施例提供的文本采集装置的结构示意图;图3是本技术实施例提供的文本采集系统的结构示意图;图4是本技术实施例提供的计算机设备的第一种实施方式的结构示意图;图5是本技术实施例提供的计算机设备的第二种实施方式的结构示意图。
19.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
20.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
21.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本技术不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以
其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
22.应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本技术使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任一个或任何组合。例如,“包括以下至少一个:a、b、c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a和b和c”,再如,“a、b或c”或者“a、b和/或c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a和b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
23.应该理解的是,虽然本技术实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
24.取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
25.需要说明的是,在本文中,采用了诸如s1、s2等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行s2后执行s1等,但这些均应在本技术的保护范围之内。
26.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
27.在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本技术的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。
28.目前已有智能设备不仅可以支持传统遥控器控制方式,同时还支持语音控制方式,例如采用语音控制方式控制灯具、空调、电视和窗帘等家居设备。然而,目前现有技术中主要先通过人工采集命令表述数据,再对新采集的命令表述与数据库中已有句子进行匹配,通过判断命令表达是否存在差异,当检测到字词上稍有差别就判定存在表述差异,但有时差异的字词可能只是辅助性词语,并不一定导致命令表述产生差异,且没有考虑到句法的差异性,降低了检测的效率和准确性,容易影响命令表述采集的数据质量。
29.为了解决上述问题,本技术提出了一种文本采集方法、装置、计算机设备及可读存储介质,可以实现新采集的命令表述与数据库已有命令表述之间差异度的自动分析,提高文本差异度质检和录入的准确性和效率。
30.可以理解的是,本技术实施例中的智能设备可以是诸如空调、冰箱、电视等具有语音模块的智能设备。
31.请参阅图1,图1是本技术实施例提供的文本采集方法的第一种实施方式的流程示意图。该文本采集方法具体可以包括:s1.获取命令表述文本。
32.具体的,对于步骤s1,首先是获取本次需要质检的命令表述文本,该命令表述文本包括但不限于可以表达某个设备命令的一个句子或短语。目前命令表述的获取采用人工采集的方式,新采集的命令表述文本的数据质量体现在两个方面,一方面是需要新的命令表述文本表述语义与原有的命令表述文本的表述语义相同,另一方面是需要命令表述文本在表达上与原有的命令表述文本存在差异。
33.s2.对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果。
34.具体的,对于步骤s2,主要是步骤s1获取的命令表述文本进行词法分析处理,从而得到该命令表述文本对应的分词结果和句法模式结果。其中,本实施例中的词法分析包括通过词法分析器对人工采集的命令表述文本进行自动词法分析,将命令表述文本的每个句子切分为若干个词,切分得到的若干个词就是命令表述文本对应的分词结果,同时对若干个词进行词性标注,对每个词的词性前后顺序形成的字符串作为句法模式结果。
35.可选地,在一些实施例中,步骤s2具体可以包括:s21.通过预先构建的词法分析器对命令表述文本词法进行分析,得到对应的分词结果和词性标注结果;s22.将词性标注结果中的多个词性标注依次相连,得到句法模式结果。
36.具体的,本实施例可采用基于ctb标注的语料库预先训练一个词法分析器,再通过该词法分析器对人工采集到的命令表述文本进行自动词法分析,从而得到命令表述文本对应的分词结果,采用ctb标注数据集对分词结果的若干个词进行词性标注,得到命令表述文本对应的词性标注结果,再将词性标注结果中每个词性标注依次相连,将每个词性标注形成的字符串作为句法模式,例如打开客厅空调
‑‑‑
打开/vv 客厅/nn 空调/nn,其分词结果为:打开、客厅、空调;句法模式为 (vv,nn,nn)。
37.s3.将分词结果与词表进行匹配,得到新词比例。
38.具体的,对于步骤s3,将步骤s2得到的分词结果与词表进行逐一匹配,得到分词结果对应的新词比例。
39.可选地,在一些实施例中,步骤s3具体可以包括:s31.将分词结果中的每个分词依次与词表进行匹配,获取分词结果中新词的数量;s32.将新词的数量与分词结果中所有分词的数量的比值作为新词比例。
40.具体的,将分词结果中的每个分词依次与词表中所有的分词进行匹配,确定每个分词是否为词表不存在的新词(即词表中不存在的词),从而获取到分词结果中的新词数量;根据分词结果中新词数量与分词结果中所有分词的数量,计算出分词结果对应的新词比例,例如可将新词的数量与分词结果中所有分词的数量的比值作为新词比例。本实施例通过对分词结果的新词比例进行计算,从而在词语差异性方面,对新采集的命令表述文本进行自动分析,得到新采集的命令表述文本与原有的命令表述文本之间的用词差异性。
41.s4.将句法模式结果与句法模式库进行匹配,得到句法模式差异比例。
42.具体的,对于步骤s4,将步骤s2中的句法模式结果依次与句法模式库的句法模式进行匹配,得到句法模式结果对应的句法模式差异比例。
43.可选地,在一些实施例中,步骤s4具体可以包括:s41.分别获取句法模式结果与句法模式库中每一句法模式的差异比例,得到差异比例集合;s42.将差异比例集合中最小差异比例作为句法模式差异比例。
44.具体的,首先分别获取句法模式结果与句法模式库中已有的每一句法模式之间的差异比例,得到差异比例集合;在该差异比例结合中选取最小差异比例,作为句法模式结果与句法模式库之间的句法模式差异比例。
45.可选地,在一些实施例中,步骤s41具体可以包括:s411.分别获取句法模式结果中句法模式与句法模式库中每一句法模式的词错率,得到多个句法模式差异比例;s412.根据多个句法模式差异比例,构建差异比例集合。
46.具体的,分别获取句法模式结果中的句法模式与句法模式库每一句法模式之间的词错率,将词错率作为句法模式结果中的每一句法模式对应的句法模式差异比例,从而根据多个句法模式差异比例,构建差异比例集合。
47.需要说明的是,本实施例的词错率的计算方式如下:为了句法模式(一个字符串序列)和句法模式库中的句法模式(标准的字符串序列)之间保持一致,需要进行替换、删除或者插入某些词,统计需要插入、替换或删除的词的总个数,将插入、替换或删除的词的总个数,除以标准的字符串序列中词的总个数的百分比,从而得到句法模式对应的词错率。
48.本实施例通过对句法模式结果的差异比例进行计算,从而在语法差异性方面,对新采集的命令表述文本进行自动分析,得到新采集的命令表述文本与原有的命令表述文本之间的语法差异性。
49.需要说明的是,本技术实施例中的步骤s3和步骤s4的执行顺序并不固定为先执行步骤s3再执行步骤s4,也可先执行步骤s4再执行步骤s3,还可同时执行步骤s3和步骤s4,在此不进行具体限定,可按照用户需求或实际使用场景进行设置。
50.s5.基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度。
51.具体的,对于步骤s5,基于步骤s3获得的分词结果对应的新词比例,以及步骤s4获得的句法模式差异比例进行计算,得到本次质检的命令表述文本对应的句子差异度。
52.可选地,在一些实施例中,步骤s5具体可以包括:根据新词比例和句法模式差异比例的权重,获取命令表述文本对应的句子差异度。
53.具体的,可预先设置新词比例和句法模式差异比例的权重值,采用权重法,根据新词比例和句法模式差异比例的权重值,计算命令表述文本对应的句子差异度。例如采用以下公式计算本次需要质检的表述文本对应的句子差异度,cdr=0.5*sdr+0.5*nwr,其中,cdr为句子差异度,sdr为句法模式差异比例,nwr为新词比例。本实施例通过结合词语差异性和语法差异性进行综合分析,自动分析出新采集的命令表述文本与命令表述库中的命令表述文本的句子差异度,提高命令表述文本质检效率和准确性,进一步提高命令表述文本的录
入质量和效率。
54.s6.若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。
55.可选地,在一些实施例中,步骤s6具体可以包括:若句子差异度大于预设差异度阈值,则将命令表述文本添加至命令表述库,将分词结果中的新词添加至词表,将句法模式结果中的句法模式差异比例大于预设第一阈值的句法模式添加至句法模式库。
56.具体的,对于步骤s6,当判断新采集的命令表述文本与命令表述库已有的命令表述文本之间的句子差异度大于预设差异度阈值时,则将该命令表述文本添加至命令表述库进行保存,将该命令表述文本对应的分词结果中的新词添置至词表,将该命令表述文本对应的句法模式结果中的句法模式差异比例大于预设第一阈值的句法模式添加至句法模式库保存。其中,预设差异度阈值可以根据需求在0~1之间取值,阈值越小,严格程度越低。
57.综上所述,本实施例提供的文本采集方法,首先,获取命令表述文本;然后,对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;接着,将分词结果与词表进行匹配,得到新词比例;将句法模式结果与句法模式库进行匹配,得到句法模式差异比例;再然后,基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度;最后,若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。可见,本技术实施例的文本采集方案,通过对命令表述文本的词语差异性和语法差异性进行判断,实现新采集的命令表述与数据库已有命令表述之间差异度的自动分析,将相同语义不同表达的命令表述收录至数据库,从而提高命令表述文本质检效率和准确性,并进一步提高命令表述文本录入的数据质量和效率。
58.相应的,本技术还提供一种文本采集装置,请参阅图2,图2是本技术提供的文本采集装置的结构示意图,具体可以包括获取模块100、词法分析模块200、新词比例模块300、句法模式差异模块400、句子差异度模块500和录入模块600。
59.其中,获取模块100,用于获取命令表述文本。
60.具体的,对于获取模块100,首先是获取本次需要质检的命令表述文本,该命令表述文本包括但不限于可以表达某个设备命令的一个句子或短语。目前命令表述的获取采用人工采集的方式,新采集的命令表述文本的数据质量体现在两个方面,一方面是需要新的命令表述文本表述语义与原有的命令表述文本的表述语义相同,另一方面是需要命令表述文本在表达上与原有的命令表述文本存在差异。
61.词法分析模块200,用于对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果。
62.具体的,对于词法分析模块200,主要是对获取的命令表述文本进行词法分析处理,从而得到该命令表述文本对应的分词结果和句法模式结果。其中,本实施例中的词法分析包括通过词法分析器对人工采集的命令表述文本进行自动词法分析,将命令表述文本的每个句子切分为若干个词,切分得到的若干个词就是命令表述文本对应的分词结果,同时对若干个词进行词性标注,对每个词的词性前后顺序形成的字符串作为句法模式结果。
63.可选地,在一些实施例中,词法分析模块200具体还可以包括:第一分析单元,用于通过预先构建的词法分析器对命令表述文本词法进行分析,得到对应的分词结果和词性标注结果;
第二分析单元,用于将词性标注结果中的多个词性标注依次相连,得到句法模式结果。
64.新词比例模块300,用于将分词结果与词表进行匹配,得到新词比例。
65.具体的,对于新词比例模块300,将分词结果中的每个分词依次与词表中所有的分词进行匹配,确定每个分词是否为词表不存在的新词,从而获取到分词结果中的新词数量;根据分词结果中新词数量与分词结果中所有分词的数量,计算出分词结果对应的新词比例。
66.可选地,在一些实施例中,新词比例模块300具体还可以包括:第一匹配单元,用于将分词结果中的每个分词依次与词表进行匹配,获取分词结果中新词的数量;第一计算单元,用于将新词的数量与分词结果中所有分词的数量的比值作为新词比例。
67.句法模式差异模块400,用于将句法模式结果与句法模式库进行匹配,得到句法模式差异比例。
68.具体的,对于句法模式差异模块400,将句法模式结果依次与句法模式库的句法模式进行匹配,得到句法模式结果对应的句法模式差异比例。
69.可选地,在一些实施例中,句法模式差异模块400具体可以包括:第二匹配单元,用于分别获取句法模式结果与句法模式库中每一句法模式的差异比例,得到差异比例集合;第二计算单元,用于将差异比例集合中最小差异比例作为句法模式差异比例。
70.句子差异度模块500,用于基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度。
71.具体的,对于句子差异度模块500,基于获得的分词结果对应的新词比例以及句法模式差异比例进行计算,得到本次质检的命令表述文本对应的句子差异度。
72.录入模块600,用于若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。
73.具体的,对于录入模块600,当判断新采集的命令表述文本与命令表述库已有的命令表述文本之间的句子差异度大于预设差异度阈值时,则将该命令表述文本添加至命令表述库进行保存,将该命令表述文本对应的分词结果中的新词添置至词表,将该命令表述文本对应的句法模式结果中的句法模式差异比例大于预设第一阈值的句法模式添加至句法模式库保存。
74.可选地,如图3所示,本实施例还提供了一种文本采集系统,包括系统服务端和系统客户端模块,系统服务端包括数据库模块、词法分析模块、新词比例计算模块、句法模式sdr计算模块、命令表述差异度计算模块、命令表述差异度计算模块和阈值比较与数据处理模块,其中,数据库模块采用sql数据库进行存储,分别存储句法模式、词表、命令表述;词法分析模块用于读取一个命令表述句子,并返回分词结果和句法模式;新词比例计算模块用于将分词结果再词表数据库中查询匹配,匹配不到的即为新词,统计新词数目和比例,返回新词以及新词的比例;句法模式sdr计算模块用于将句法模式与句法模式库中的每个句法模式计算sdr(sentence diversity rate,句法模式差异比例),并返回最小的sdr值;命令
表述差异度计算模块用于依据nwr(new word rate,新词比例)和最小的sdr计算命令差异度,返回差异度数值;阈值比较与数据处理模块用于将大于差异度阈值的命令表述、新词、句法模式分别入库;系统客户端模块包括用户登陆界面和阈值设置界面,用户登陆界面用于作为用户登陆系统的界面,阈值设置界面用于用户在0~1之间设置阈值。
75.综上所述,本技术实施例提供的文本采集装置,首先通过获取模块100获取命令表述文本;然后通过词法分析模块200对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;接着,通过新词比例模块300将分词结果与词表进行匹配,得到新词比例;通过句法模式差异模块400将句法模式结果与句法模式库进行匹配,得到句法模式差异比例;通过句子差异度模块500基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度;最后通过录入模块600,若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。可见,本技术实施例的文本采集装置,通过对命令表述文本的词语差异性和语法差异性进行判断,实现新采集的命令表述与数据库已有命令表述之间差异度的自动分析,将相同语义不同表达的命令表述收录至数据库,从而提高命令表述文本质检效率和准确性,并进一步提高命令表述文本录入的数据质量和效率。
76.本技术实施例中还提供一种计算机设备,请参阅图4,图4是本技术实施例提供的计算机设备的第一种实施方式的结构示意图。该计算机设备包括存储器10和处理器20,该存储器10存储有计算机程序,该处理器20执行计算机程序时实现一种文本采集方法,包括:获取命令表述文本;对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;将分词结果与词表进行匹配,得到新词比例;将句法模式结果与句法模式库进行匹配,得到句法模式差异比例;基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度;若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。
77.本技术实施例中还提供一种计算机设备,该计算机设备可以是服务器。请参阅图5,图5是本技术实施例提供的计算机设备的第二种实施方式的结构示意图。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存文本采集方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。
78.该计算机程序被处理器执行时以实现一种文本采集方法。该文本采集方法,包括:获取命令表述文本;对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;将分词结果与词表进行匹配,得到新词比例;将句法模式结果与句法模式库进行匹配,得到句法模式差异比例;基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度;若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。
79.本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种文本采集方法,包括步骤:获取命令表述文本;对命令表述文本进行词法分析,得到对应的分词结果和句法模式结果;将分词结果与词表进行匹配,得到新词比例;将句法模式结果与句法模式库进行匹配,得到句法模式差异比例;基于新词比例和句法模式差异比例,获取命令表述文本对应的句子差异度;若句子差异度大于预设差异度阈值,将命令表述文本添加至命令表述库。
80.上述执行的文本采集方法,本技术实施例中,通过对命令表述文本的词语差异性和语法差异性进行判断,实现新采集的命令表述与数据库已有命令表述之间差异度的自动分析,将相同语义不同表达的命令表述收录至数据库,从而提高命令表述文本质检效率和准确性,并进一步提高命令表述文本录入的数据质量和效率。
81.可以理解,上述场景仅是作为示例,并不构成对于本技术实施例提供的技术方案的应用场景的限定,本技术的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
82.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
83.本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
84.本技术实施例设备中的单元可以根据实际需要进行合并、划分和删减。
85.在本技术中,对于相同或相似的术语概念、技术方案和/或应用场景描述,一般只在第一次出现时进行详细描述,后面再重复出现时,为了简洁,一般未再重复阐述,在理解本技术技术方案等内容时,对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等,可以参考其之前的相关详细描述。
86.在本技术中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
87.本技术技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本技术记载的范围。
88.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本技术每个实施例的方法。
89.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,dvd),或者半导体介质(例如固态存储盘solid state disk (ssd))等。
90.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技
术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1