一种语料清洗的方法和装置与流程

文档序号:17762600发布日期:2019-05-24 21:50阅读:615来源:国知局
一种语料清洗的方法和装置与流程

本发明涉及语言数据处理技术领域,尤指一种语料清洗的方法和装置。



背景技术:

随着可穿戴设备、智能家居、物联网等领域的逐步发展,全面打造智能化的生活成为了当下的聚焦点,而人机交互方式逐渐成为实现这种生活的关键环节。传统的交互方式通过程序员输入计算机语言,实现终端对用户意图的理解,这种方式下,普通用户无法与终端进行更深入的交互。

现有的一些人工智能软件产品,通过对用户自然语言的理解,可以实现与普通用户的简单交互,识别用户输入的自然语言来理解语义,例如微软小娜、苹果siri、小米小爱同学等。进一步地,通过识别用户语音来理解自然语言的语义,使用户的输入过程更加便捷。

通常认为自然语言在进行逻辑理解时存在一定的缺陷,例如,其表达式的结构层次不够清晰,个体化认知模式体现不够明确,量词管辖的范围不太确切,句子成分的语序不固定,语形和语义不对应,这些缺陷导致计算机在理解自然语言时,面临很多解析规则之外的语料,这些语料往往被识别成乱码,而夹杂乱码的解析结果不仅影响计算机对真实指令的判断,还浪费计算资源。如何在收集用户语料时,将不符合识别规则的无效语料清洗掉,提高计算机理解自然语言的效率,成为了新的问题。



技术实现要素:

本发明提供一种语料清洗的方法和装置,通过获取用户原始语料中有效词语,剔除原始语料中有效词语之外的其他词语,达到将不符合识别规则的无效语料清洗掉,从而提高计算机理解自然语言的效率。

本发明提供的技术方案如下:

本发明提供一种语料清洗的方法,包括:

获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;

从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

从所述原始语料中,剔除所述有效词语之外的其他词语。

具体地,本发明中,原始语料是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本发明的实施。

句法分析是对用户输入的原始语料内容通过文字识别,分辨出其中的词语、词语的词性,这些词语的词性按照原始语料的顺序组合,形成原始构成关系。

分析原始构成关系,将其中的关键关系提取出来,关键关系是句子成分间的组合关系,将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。

把之前获取的词语根据词性,与框架中的句子成分进行匹配填充,当这个框架被完全填充时,就视为语句的有效部分已经被完全筛选出来,也即是有效词语已经被标记出来,其他都是无效语料,视为脏数据清洗掉。无效语料包括未成功填充到框架里的词语,也包括原始语料中一开始就没有识别出来的数据。用户输入原始语料时,书写、发音不清晰,语料载体受到破坏,都可能产生没有识别出来的数据,这些数据的产生方式不影响本发明的实施。

进一步地,本发明还提供一种语料清洗的方法,所述根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语后,还包括:

记录所述语句与所述有效词语的对应关系,建立清洗规则库,所述清洗规则库还包含所述语句和所述有效词语。

具体地,成功获得与语句对应的有效词语后,将这些语句与有效词语的对应关系记录下来,存储到一个数据库中,本发明中将其命名为清洗规则库,其具体名称不影响本发明实施。在清洗规则库中,还存储着这些成功获得有效词语的语句和与其对应的有效词语。

进一步优选地,清洗规则库根据语句的关键关系组合进行分类存储,每一个句子成分设置一个语义槽,语义槽中包含语句中的具体词语,这些词语根据对每一次成功匹配的语句中包含的词语进行更新。

进一步地,本发明还提供一种语料清洗的方法,所述建立清洗规则库包括:

统计所述语句出现的次数,当其大于预设值时,将所述语句加入到所述清洗规则库内。

具体地,成功获得与语句对应的有效词语后,查询该语句的历史成功分析次数,当这个次数大于一个预设值时,就判断该语句为高频语句,将高频语句加入到清洗规则库里面。

进一步优选地,这个预设值可以是总累计次数,也可以是在一段时间内的累计次数,其用于作为语句是否加入清洗规则库的判断标准,其呈现形式不影响本发明实施。

进一步地,本发明还提供一种语料清洗的方法,所述将所述语句加入到所述清洗规则库内包括:

分析并存储所述语句的语句特征到所述清洗规则库中,所述语句特征包括所述词语、所述词语词性和所述原始构成关系;

分析并存储与所述语句对应的所述有效词语到所述清洗规则库中。

具体地,将语句加入到清洗规则库的时候,除了直接存储该语句之外,还提取语句的词语、词语的词性和原始构成关系,作为该语句的特征一起存储,同时与该语句对应的有效词语也被存储。

进一步优选地,根据语句的特征,对清洗规则库里存储的语句进行分类,方便后续检索。

进一步地,本发明还提供一种语料清洗的方法,所述方法还包括:

获取所述原始语料中的语句,判断其与所述清洗规则库内存储的所述语句特征是否相符合;

当相符合时,直接从所述清洗规则库中获取所述有效词语。

获取原始语料的语句时,判断语句是否时清洗规则库内已经存储的语句,其判断方法是,将原始语料语句特征作为检索条件,在清洗规则库内进行检索,如果特征相符,则判断该语句已存储在清洗规则库中,这时,直接调取该语句对应的有效词语。

进一步优选地,如果不相符,则判断该语句未存储在清洗规则库中,这时再对该语句进行分析,尝试获取其有效词语。

进一步地,本发明还提供一种语料清洗的装置,包括:

提取模块,获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

匹配模块,根据所述提取模块获得的所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

剔除模块,从所述原始语料中,剔除所述匹配模块获得的有效词语之外的其他词语。

进一步地,本发明还提供一种语料清洗的装置,所述匹配模块包括:

建库子模块,记录所述语句与所述有效词语的对应关系,建立清洗规则库,所述清洗规则库还包含所述语句和所述有效词语。

进一步地,本发明还提供一种语料清洗的装置,所述建库子模块包括:

更新单元,统计所述语句出现的次数,大于预设值时,将所述语句加入到所述清洗规则库内。

进一步地,本发明还提供一种语料清洗的装置,所述匹配模块还包括:

特征处理单元,分析并存储所述语句的语句特征到所述清洗规则库中,所述语句特征包括所述词语、所述词语词性和所述原始构成关系;分析并存储与所述语句对应的所述有效词语到所述清洗规则库中。

进一步地,本发明还提供一种语料清洗的装置,所述装置还包括:

判断模块,获取所述原始语料中的语句,判断其与所述清洗规则库内存储的所述语句特征是否相符合;

库清洗模块,当所述判断模块判断相符合时,直接从所述清洗规则库中获取所述有效词语。

通过本发明提供的一种基于用户语料获取内容的方法和装置,能够带来以下至少一种有益效果:

1、通过分析原始语料中语句,获取有效词语,将有效词语之外的其他词语剔除,从而实现对原始语料中无效语料的清洗,使用清洗后的语料进行语义理解,使得计算机对自然语言的理解效率更高。

2、通过建立清洗规则库,将用户每次成功清洗的语料和语句进行记录,实现了当发现用户输入的语料中的语句已经被分析过以后,可以通过清洗规则库对新的语料直接进行清洗,避免多次重复分析用户语料,造成时间和计算资源的浪费。

3、通过统计用户同一语句成功分析出有效词语的次数,判断出用户习惯使用的高频语句,只将这些高频语句加入到清洗规则库中,防止存储用户的语句过多,造成存储空间不足。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,对一种语料清洗的方法和装置的上述特征、技术特征、优点及其实现方式予以进一步的说明。

图1是本发明一种语料清洗的方法的一个实施例的流程图;

图2是本发明一种语料清洗的方法的另一个实施例的流程图;

图3是本发明一种语料清洗的方法的又一个实施例的流程图;

图4是本发明一种语料清洗的方法的另一个实施例的流程图;

图5是本发明一种语料清洗的方法的又一个实施例的流程图;

图6是本发明一种语料清洗的方法的另一个实施例的流程图;

图7是本发明一种语料清洗的装置的一个实施例的结构示意图。

附图标号说明:

100判断模块200库清洗模块

300提取模块400匹配模块

410建库子模块411更新单元

412特征处理单元500剔除模块

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

本发明提供一种语料清洗的方法,通过分析原始语料中语句,获取有效词语,将有效词语之外的其他词语剔除,从而实现对原始语料中无效语料的清洗,进而实现计算机使用清洗后的语料,对自然语言的理解效率更高。

本发明第一实施例,如图1所示一种语料清洗的方法,包括:

s100获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;

s200从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

s300根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

s400从所述原始语料中,剔除所述有效词语之外的其他词语。

具体地,本发明中,原始语料是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本发明的实施。在本发明的一些实施例中,例如用户的原始语料包括:“请问你能告诉我鲸鱼为什么会喷水吗”。那么通过s100分析后可以得出原始语料中的语句是“请问你能告诉我鲸鱼为什么会喷水吗”。

句法分析是对用户输入的原始语料内容通过文字识别,分辨出其中的词语、词语的词性,这些词语的词性按照原始语料的顺序组合,形成原始构成关系。s100中还会对该语句进行句法分析,获取其中的词语为“请问”、“你”、“能”、“告诉”、“我”、“鲸鱼”、“为什么”、“会”、“喷水”、“吗”。s100还会对这些词语进行词性分析,例如:“请问”-动词、“你”-人称代词、“能”-能愿动词、“告诉”-动词、“我”-人称代词、“鲸鱼”-名词、“为什么”-疑问代词、“会”-动词、“喷水”-动词、“吗”-语气助词。

分析原始构成关系,将其中的关键关系提取出来,关键关系是句子成分间的组合关系,将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。s100会对语句的原始构成关系进行分析,上述例句的原始构成关系为:动词-人称代词-能愿动词-动词-人称代词-名词-疑问代词-动词-动词-语气助词。

随后,通过s200先获得原始构成关系中的关键关系组合,例句中的疑问代词作为原始构成关系中的关键,提取与之直接连接的其他部分为“名词-疑问代词-动词-动词”,这个符合一般疑问句的句式“主语-疑问词-谓语”,将其作为关键关系组合提取出来。s200还抽取关键关系中的主体成分及主体词性,即,将例句中的“主语-名词”、“疑问词-疑问代词”、“谓语-动词”抽取出来。

把之前获取的词语根据词性,与框架中的句子成分进行匹配填充,当这个框架被完全填充时,就视为语句的有效部分已经被完全筛选出来,也即是有效词语已经被标记出来。在s300中,将s100中提取的词语根据词性重新匹配到s200抽取出来的主体成分及主体词性中,即“鲸鱼”-名词匹配到“主语-名词”,“为什么”-疑问代词匹配到“疑问词-疑问代词”,“会喷水”-动词匹配到“谓语-动词”(“会”为能愿动词,与其连接的动词组合后才具备具体意义),如此,获得例句的有效词语为“鲸鱼”、“为什么”、“会喷水”。

有效词语之外的词语都是无效语料,视为脏数据清洗掉。在例句中,通过s400,将s300中提取的有效词语保留,其他部分剔除,完成原始语料中语句的清洗,也就是将例句“请问你能告诉我鲸鱼为什么会喷水吗”清洗后的结果为“鲸鱼为什么会喷水”。无效语料包括未成功填充到框架里的词语,也包括原始语料中一开始就没有识别出来的数据。用户输入原始语料时,书写、发音不清晰,语料载体受到破坏,都可能产生没有识别出来的数据,这些数据的产生方式不影响本发明的实施。

本发明的一些实施例中,通过采用第一实施例的方法,可以实现从原始语料中提取出有效词语,从而清洗掉无效语料,随后,计算机只需要对可以表达原始语料关键信息的、符合解析规则的部分进行分析,使解析结果更准确,对用户真实意图的理解效率更高,同时还节省了计算资源。

本发明第二实施例,如图2所示一种语料清洗的方法,包括:

s100获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;

s200从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

s300根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

s310记录所述语句与所述有效词语的对应关系,建立清洗规则库,所述清洗规则库还包含所述语句和所述有效词语;

s400从所述原始语料中,剔除所述有效词语之外的其他词语。

具体地,本发明中,原始语料是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本发明的实施。在本发明的一些实施例中,例如用户的原始语料包括:“请问你能告诉我鲸鱼为什么会喷水吗”。那么通过s100分析后可以得出原始语料中的语句是“请问你能告诉我鲸鱼为什么会喷水吗”。

句法分析是对用户输入的原始语料内容通过文字识别,分辨出其中的词语、词语的词性,这些词语的词性按照原始语料的顺序组合,形成原始构成关系。s100中还会对该语句进行句法分析,获取其中的词语为“请问”、“你”、“能”、“告诉”、“我”、“鲸鱼”、“为什么”、“会”、“喷水”、“吗”。s100还会对这些词语进行词性分析,例如:“请问”-动词、“你”-人称代词、“能”-能愿动词、“告诉”-动词、“我”-人称代词、“鲸鱼”-名词、“为什么”-疑问代词、“会”-动词、“喷水”-动词、“吗”-语气助词。

分析原始构成关系,将其中的关键关系提取出来,关键关系是句子成分间的组合关系,将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。s100会对语句的原始构成关系进行分析,上述例句的原始构成关系为:动词-人称代词-能愿动词-动词-人称代词-名词-疑问代词-动词-动词-语气助词。

随后,通过s200先获得原始构成关系中的关键关系组合,例句中的疑问代词作为原始构成关系中的关键,提取与之直接连接的其他部分为“名词-疑问代词-动词-动词”,这个符合一般疑问句的句式“主语-疑问词-谓语”,将其作为关键关系组合提取出来。s200还抽取关键关系中的主体成分及主体词性,即,将例句中的“主语-名词”、“疑问词-疑问代词”、“谓语-动词”抽取出来。

把之前获取的词语根据词性,与框架中的句子成分进行匹配填充,当这个框架被完全填充时,就视为语句的有效部分已经被完全筛选出来,也即是有效词语已经被标记出来。在s300中,将s100中提取的词语根据词性重新匹配到s200抽取出来的主体成分及主体词性中,即“鲸鱼”-名词匹配到“主语-名词”,“为什么”-疑问代词匹配到“疑问词-疑问代词”,“会喷水”-动词匹配到“谓语-动词”(“会”为能愿动词,与其连接的动词组合后才具备具体意义),如此,获得例句的有效词语为“鲸鱼”、“为什么”、“会喷水”。

成功获得与语句对应的有效词语后,将这些语句与有效词语的对应关系记录下来,存储到一个数据库中,本发明中将其命名为清洗规则库,其具体名称不影响本发明实施。在清洗规则库中,还存储着这些成功获得有效词语的语句和与其对应的有效词语。本发明的一些实施例中,s310可以对例句进行记录,将“请问你能告诉我鲸鱼为什么会喷水吗”对应s300的解析结果有效词语为“鲸鱼”、“为什么”、“会喷水”一起存储到清洗规则库中。

进一步优选地,s310中将语句存储到清洗规则库时,根据语句的关键关系组合进行分类存储,每一个句子成分设置一个语义槽,语义槽中包含语句中的具体词语,这些词语根据对每一次成功匹配的语句中包含的词语进行更新,例句中,将“主语-疑问词-谓语”这种句式的每一个句子成分设置一个语义槽,将“鲸鱼”填充到“主语”语义槽中存储,将“为什么”填充到“疑问词”语义槽中存储,将“会喷水”填充到“谓语”语义槽中存储,这样一来,清洗规则库中的关键关系组合和句子成分的语义槽可以成为后续检索的搜索条件。

有效词语之外的词语都是无效语料,视为脏数据清洗掉。在例句中,通过s400,将s300中提取的有效词语保留,其他部分剔除,完成原始语料中语句的清洗,也就是将例句“请问你能告诉我鲸鱼为什么会喷水吗”清洗后的结果为“鲸鱼为什么会喷水”。无效语料包括未成功填充到框架里的词语,也包括原始语料中一开始就没有识别出来的数据。用户输入原始语料时,书写、发音不清晰,语料载体受到破坏,都可能产生没有识别出来的数据,这些数据的产生方式不影响本发明的实施。

本发明的一些实施例中,使用第二实施例的方法建立清洗规则库,可以将用户每次成功清洗的语料进行记录,实现对用户的个性化输入习惯的记录,为进一步提供用户个性化的清洗规则提供基础数据。

本发明第三实施例,如图3所示一种语料清洗的方法,包括:

s100获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;

s200从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

s300根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

s301统计所述语句出现的次数,当其大于预设值时,将所述语句加入到所述清洗规则库内;

s400从所述原始语料中,剔除所述有效词语之外的其他词语。

具体地,本发明中,原始语料是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本发明的实施。在本发明的一些实施例中,例如用户的原始语料包括:“请问你能告诉我鲸鱼为什么会喷水吗”。那么通过s100分析后可以得出原始语料中的语句是“请问你能告诉我鲸鱼为什么会喷水吗”。

句法分析是对用户输入的原始语料内容通过文字识别,分辨出其中的词语、词语的词性,这些词语的词性按照原始语料的顺序组合,形成原始构成关系。s100中还会对该语句进行句法分析,获取其中的词语为“请问”、“你”、“能”、“告诉”、“我”、“鲸鱼”、“为什么”、“会”、“喷水”、“吗”。s100还会对这些词语进行词性分析,例如:“请问”-动词、“你”-人称代词、“能”-能愿动词、“告诉”-动词、“我”-人称代词、“鲸鱼”-名词、“为什么”-疑问代词、“会”-动词、“喷水”-动词、“吗”-语气助词。

分析原始构成关系,将其中的关键关系提取出来,关键关系是句子成分间的组合关系,将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。s100会对语句的原始构成关系进行分析,上述例句的原始构成关系为:动词-人称代词-能愿动词-动词-人称代词-名词-疑问代词-动词-动词-语气助词。

随后,通过s200先获得原始构成关系中的关键关系组合,例句中的疑问代词作为原始构成关系中的关键,提取与之直接连接的其他部分为“名词-疑问代词-动词-动词”,这个符合一般疑问句的句式“主语-疑问词-谓语”,将其作为关键关系组合提取出来。s200还抽取关键关系中的主体成分及主体词性,即,将例句中的“主语-名词”、“疑问词-疑问代词”、“谓语-动词”抽取出来。

把之前获取的词语根据词性,与框架中的句子成分进行匹配填充,当这个框架被完全填充时,就视为语句的有效部分已经被完全筛选出来,也即是有效词语已经被标记出来。在s300中,将s100中提取的词语根据词性重新匹配到s200抽取出来的主体成分及主体词性中,即“鲸鱼”-名词匹配到“主语-名词”,“为什么”-疑问代词匹配到“疑问词-疑问代词”,“会喷水”-动词匹配到“谓语-动词”(“会”为能愿动词,与其连接的动词组合后才具备具体意义),如此,获得例句的有效词语为“鲸鱼”、“为什么”、“会喷水”。

通过s200成功获得与语句对应的有效词语后,查询该语句的历史成功解析次数,当这个次数大于一个预设值时,就判断该语句为高频语句,将高频语句加入到清洗规则库里面。

进一步优选地,这个预设值可以是总累计次数,也可以是在一段时间内的累计次数,其用于作为语句是否加入清洗规则库的判断标准,其呈现形式不影响本发明实施。在s301对例句的处理中,语句“请问你能告诉我鲸鱼为什么会喷水吗”每出现一次,记录加一次,直到其次数累计到n次时,将其作为高频语句加入到清洗规则库里面。

有效词语之外的词语都是无效语料,视为脏数据清洗掉。在例句中,通过s400,将s300中提取的有效词语保留,其他部分剔除,完成原始语料中语句的清洗,也就是将例句“请问你能告诉我鲸鱼为什么会喷水吗”清洗后的结果为“鲸鱼为什么会喷水”。无效语料包括未成功填充到框架里的词语,也包括原始语料中一开始就没有识别出来的数据。用户输入原始语料时,书写、发音不清晰,语料载体受到破坏,都可能产生没有识别出来的数据,这些数据的产生方式不影响本发明的实施。

本发明的一些实施例使用第三实施例的方法,可以实现只对用户使用频率较高的语句进行存储,而不是将用户所有的语句都存储下来,避免过大的数据存储量造成存储资源的浪费。

本发明第四实施例,如图4所示一种语料清洗的方法,包括:

s100获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;

s200从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

s300根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

s310记录所述语句与所述有效词语的对应关系,建立清洗规则库,所述清洗规则库还包含所述语句和所述有效词语;

s311分析并存储所述语句的语句特征到所述清洗规则库中,所述语句特征包括所述词语、所述词语词性和所述原始构成关系;

s312分析并存储与所述语句对应的所述有效词语到所述清洗规则库中;

s400从所述原始语料中,剔除所述有效词语之外的其他词语。

具体地,本发明中,原始语料是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本发明的实施。在本发明的一些实施例中,例如用户的原始语料包括:“请问你能告诉我鲸鱼为什么会喷水吗”。那么通过s100分析后可以得出原始语料中的语句是“请问你能告诉我鲸鱼为什么会喷水吗”。

句法分析是对用户输入的原始语料内容通过文字识别,分辨出其中的词语、词语的词性,这些词语的词性按照原始语料的顺序组合,形成原始构成关系。s100中还会对该语句进行句法分析,获取其中的词语为“请问”、“你”、“能”、“告诉”、“我”、“鲸鱼”、“为什么”、“会”、“喷水”、“吗”。s100还会对这些词语进行词性分析,例如:“请问”-动词、“你”-人称代词、“能”-能愿动词、“告诉”-动词、“我”-人称代词、“鲸鱼”-名词、“为什么”-疑问代词、“会”-动词、“喷水”-动词、“吗”-语气助词。

分析原始构成关系,将其中的关键关系提取出来,关键关系是句子成分间的组合关系,将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。s100会对语句的原始构成关系进行分析,上述例句的原始构成关系为:动词-人称代词-能愿动词-动词-人称代词-名词-疑问代词-动词-动词-语气助词。

随后,通过s200先获得原始构成关系中的关键关系组合,例句中的疑问代词作为原始构成关系中的关键,提取与之直接连接的其他部分为“名词-疑问代词-动词-动词”,这个符合一般疑问句的句式“主语-疑问词-谓语”,将其作为关键关系组合提取出来。s200还抽取关键关系中的主体成分及主体词性,即,将例句中的“主语-名词”、“疑问词-疑问代词”、“谓语-动词”抽取出来。

把之前获取的词语根据词性,与框架中的句子成分进行匹配填充,当这个框架被完全填充时,就视为语句的有效部分已经被完全筛选出来,也即是有效词语已经被标记出来。在s300中,将s100中提取的词语根据词性重新匹配到s200抽取出来的主体成分及主体词性中,即“鲸鱼”-名词匹配到“主语-名词”,“为什么”-疑问代词匹配到“疑问词-疑问代词”,“会喷水”-动词匹配到“谓语-动词”(“会”为能愿动词,与其连接的动词组合后才具备具体意义),如此,获得例句的有效词语为“鲸鱼”、“为什么”、“会喷水”。

成功获得与语句对应的有效词语后,将这些语句与有效词语的对应关系记录下来,存储到一个数据库中,本发明中将其命名为清洗规则库,其具体名称不影响本发明实施。在清洗规则库中,还存储着这些成功获得有效词语的语句和与其对应的有效词语。本发明的一些实施例中,s310可以对例句进行记录,将“请问你能告诉我鲸鱼为什么会喷水吗”对应s300的解析结果有效词语为“鲸鱼”、“为什么”、“会喷水”一起存储到清洗规则库中。

进一步优选地,s310中将语句存储到清洗规则库时,根据语句的关键关系组合进行分类存储,每一个句子成分设置一个语义槽,语义槽中包含语句中的具体词语,这些词语根据对每一次成功匹配的语句中包含的词语进行更新,例句中,将“主语-疑问词-谓语”这种句式的每一个句子成分设置一个语义槽,将“鲸鱼”填充到“主语”语义槽中存储,将“为什么”填充到“疑问词”语义槽中存储,将“会喷水”填充到“谓语”语义槽中存储,这样一来,清洗规则库中的关键关系组合和句子成分的语义槽可以成为后续检索的搜索条件。

将语句加入到清洗规则库的时候,除了直接存储该语句之外,还通过s311提取语句的词语、词语的词性和原始构成关系,作为该语句的特征一起存储,同时,通过s312存储与该语句对应的有效词语。

有效词语之外的词语都是无效语料,视为脏数据清洗掉。在例句中,通过s400,将s300中提取的有效词语保留,其他部分剔除,完成原始语料中语句的清洗,也就是将例句“请问你能告诉我鲸鱼为什么会喷水吗”清洗后的结果为“鲸鱼为什么会喷水”。无效语料包括未成功填充到框架里的词语,也包括原始语料中一开始就没有识别出来的数据。用户输入原始语料时,书写、发音不清晰,语料载体受到破坏,都可能产生没有识别出来的数据,这些数据的产生方式不影响本发明的实施。

本发明的一些实施例中,提供了一种将原始语料中的语句进行存储的方法,为进一步提供个性化搜索提供数据基础。

本发明第五实施例,如图5所示一种语料清洗的方法,包括:

s510获取所述原始语料中的语句,判断其与所述清洗规则库内存储的所述语句特征是否相符合;

s520当相符合时,直接从所述清洗规则库中获取所述有效词语。

具体地,获取原始语料的语句时,通过s510判断语句是否时清洗规则库内已经存储的语句,其判断方法是,将原始语料语句特征作为检索条件,在清洗规则库内进行检索,如果特征相符,判断该语句已存储在清洗规则库中,则进入s520,直接调取该语句对应的有效词语。

本发明一些实施例中,通过第五实施例的方法,直接使用清洗规则库中的存储的数据,对原始语料中的语句进行清洗,避免用户重复输入相同的语料时,计算机重复进行解析,更快捷地实现了原始语料的清洗。

本发明第六实施例,如图6所示一种语料清洗的方法,包括:

s510获取所述原始语料中的语句,判断其与所述清洗规则库内存储的所述语句特征是否相符合;

s520当相符合时,直接从所述清洗规则库中获取所述有效词语;

s600当不相符合时,获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;

s700从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

s800根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

s801统计所述语句出现的次数,当其大于预设值时,将所述语句加入到所述清洗规则库内;

s811分析并存储所述语句的语句特征到所述清洗规则库中,所述语句特征包括所述词语、所述词语词性和所述原始构成关系;

s812分析并存储与所述语句对应的所述有效词语到所述清洗规则库中;

s900从所述原始语料中,剔除所述有效词语之外的其他词语。

具体地,获取原始语料的语句时,通过s510判断语句是否时清洗规则库内已经存储的语句,其判断方法是,将原始语料语句特征作为检索条件,在清洗规则库内进行检索,如果特征相符,判断该语句已存储在清洗规则库中,则进入s520,直接调取该语句对应的有效词语。

如果特征不相符,则进入s600,本发明中,原始语料是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本发明的实施。在本发明的一些实施例中,例如用户的原始语料包括:“请问你能告诉我鲸鱼为什么会喷水吗”。那么通过s600分析后可以得出原始语料中的语句是“请问你能告诉我鲸鱼为什么会喷水吗”。

句法分析是对用户输入的原始语料内容通过文字识别,分辨出其中的词语、词语的词性,这些词语的词性按照原始语料的顺序组合,形成原始构成关系。s600中还会对该语句进行句法分析,获取其中的词语为“请问”、“你”、“能”、“告诉”、“我”、“鲸鱼”、“为什么”、“会”、“喷水”、“吗”。s600还会对这些词语进行词性分析,例如:“请问”-动词、“你”-人称代词、“能”-能愿动词、“告诉”-动词、“我”-人称代词、“鲸鱼”-名词、“为什么”-疑问代词、“会”-动词、“喷水”-动词、“吗”-语气助词。

分析原始构成关系,将其中的关键关系提取出来,关键关系是句子成分间的组合关系,将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。s600会对语句的原始构成关系进行分析,上述例句的原始构成关系为:动词-人称代词-能愿动词-动词-人称代词-名词-疑问代词-动词-动词-语气助词。

随后,通过s700先获得原始构成关系中的关键关系组合,例句中的疑问代词作为原始构成关系中的关键,提取与之直接连接的其他部分为“名词-疑问代词-动词-动词”,这个符合一般疑问句的句式“主语-疑问词-谓语”,将其作为关键关系组合提取出来。s700还抽取关键关系中的主体成分及主体词性,即,将例句中的“主语-名词”、“疑问词-疑问代词”、“谓语-动词”抽取出来。

把之前获取的词语根据词性,与框架中的句子成分进行匹配填充,当这个框架被完全填充时,就视为语句的有效部分已经被完全筛选出来,也即是有效词语已经被标记出来。在s800中,将s600中提取的词语根据词性重新匹配到s700抽取出来的主体成分及主体词性中,即“鲸鱼”-名词匹配到“主语-名词”,“为什么”-疑问代词匹配到“疑问词-疑问代词”,“会喷水”-动词匹配到“谓语-动词”(“会”为能愿动词,与其连接的动词组合后才具备具体意义),如此,获得例句的有效词语为“鲸鱼”、“为什么”、“会喷水”。

通过s700成功获得与语句对应的有效词语后,查询该语句的历史成功解析次数,当这个次数大于一个预设值时,就判断该语句为高频语句,将高频语句加入到清洗规则库里面。

进一步优选地,这个预设值可以是总累计次数,也可以是在一段时间内的累计次数,其用于作为语句是否加入清洗规则库的判断标准,其呈现形式不影响本发明实施。在s801对例句的处理中,语句“请问你能告诉我鲸鱼为什么会喷水吗”每出现一次,记录加一次,直到其次数累计到n次时,将其作为高频语句加入到清洗规则库里面。

将语句加入到清洗规则库的时候,除了直接存储该语句之外,还通过s811提取语句的词语、词语的词性和原始构成关系,作为该语句的特征一起存储,同时,通过s812存储与该语句对应的有效词语。

有效词语之外的词语都是无效语料,视为脏数据清洗掉。在例句中,通过s900,将s800中提取的有效词语保留,其他部分剔除,完成原始语料中语句的清洗,也就是将例句“请问你能告诉我鲸鱼为什么会喷水吗”清洗后的结果为“鲸鱼为什么会喷水”。无效语料包括未成功填充到框架里的词语,也包括原始语料中一开始就没有识别出来的数据。用户输入原始语料时,书写、发音不清晰,语料载体受到破坏,都可能产生没有识别出来的数据,这些数据的产生方式不影响本发明的实施。

本发明的一些实施例中,通过第六实施例的方法,使用清洗规则库对原始语料进行处理,当清洗规则库无法处理时,再对其中语句进行解析,获取有效词语,进而对原始语料进行清洗。解析获得的有效词语,其语句的匹配次数达到预设值时,将其更新存储到清洗规则库中。本发明的一些实施例实现了使用更优的方式对原始语料进行清洗,在不影响清洗准确性的前提下,使得清洗效率进一步提高。

本发明第七实施例,如图7所示一种语料清洗的装置,包括:

判断模块100,获取所述原始语料中的语句,判断其与所述清洗规则库内存储的所述语句特征是否相符合;

库清洗模块200,当所述判断模块100判断相符合时,直接从所述清洗规则库中获取所述有效词语;

提取模块300,当所述判断模块100判断不相符合时,获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;

匹配模块400,根据所述提取模块300获得的所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;

建库子模块410,记录所述语句与所述有效词语的对应关系,建立清洗规则库,所述清洗规则库还包含所述语句和所述有效词语;

更新单元411,统计所述语句出现的次数,大于预设值时,将所述语句加入到所述清洗规则库内;

特征处理单元412,分析并存储所述语句的语句特征到所述清洗规则库中,所述语句特征包括所述词语、所述词语词性和所述原始构成关系;分析并存储与所述语句对应的所述有效词语到所述清洗规则库中;

剔除模块500,从所述原始语料中,剔除所述匹配模块400获得的有效词语之外的其他词语。

具体地,本发明第七实施例是第六实施例对应的装置实施例,其技术方案和技术效果与第六实施例相同,在此不一一赘述。

应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1