一种种子问句的分词方法和分词系统与流程

文档序号:12121014阅读:392来源:国知局
一种种子问句的分词方法和分词系统与流程

本发明涉及电数据处理领域,尤其涉及一种种子问句的分词方法和分词系统。



背景技术:

分词是计算机信息处理中经常会遇到的问题,现有技术通常仅使用通用分词器对问句进行分词,这样会造成分词的结果比较零碎,不具有语义。



技术实现要素:

有鉴于此,本发明提供一种种子问句的分词方法和分词系统,以解决现有技术分词结果不具有语义的问题。

具体地,本发明是通过如下技术方案实现的:

本发明提供一种种子问句的分词方法,所述分词方法包括:

对待分词种子问句进行通用分词;

对经过所述通用分词的种子问句进行向量化处理;

对经过所述向量化处理的种子问句进行意图分类;

根据所述意图分类的结果选择对应的领域分词器;

根据所述领域分词器对种子问句进行分词。

本发明还提供一种种子问句的分词系统,所述分词系统包括:

通用分词单元,用于对待分词种子问句进行通用分词;

向量化处理单元,用于对经过所述通用分词的种子问句进行向量化处理;

意图分类单元,用于对经过所述向量化处理的种子问句进行意图分类;

领域分词器选择单元,用于根据所述意图分类的结果选择对应的领域分词器;

分词单元,用于根据所述领域分词器对种子问句进行分词。

本发明实施例,对待分词种子问句进行通用分词,对经过通用分词的种子问句进行向量化处理,对经过向量化处理的种子问句进行意图分类,根据意图分类的结果选择对应的领域分词器,根据领域分词器对种子问句进行分词,不仅保证了分词的完整性,而且提高了领域问题的切分精度,减少了语义信息的丢失。

附图说明

图1是本发明一示例性实施例提供的一种种子问句的分词方法的流程图;

图2是本发明一示例性实施例提供的一种种子问句的分词系统的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示为本发明一示例性实施例提供的一种种子问句的分词方法的流程图,所述方法包括:

步骤S101,对待分词种子问句进行通用分词。

在本发明实施例中,种子问句是指含有明确语义且语法正确的问句,如:“北京今天天气怎么样?”,即为一还有明确的语义信息且语法正确的问句,可以作为种子问句。而“今天怎么样北京天气”虽然有部分语义信息表明在询问天气,但不合乎正常的语法表达,因此不能作为种子问句。而“样么怎天气京北今天”不仅语义信息缺失,而且语法信息错误,也不能作为种子问句。

具体的,待分词的种子问句通常通过通用分词器进行通用分词。

步骤S102,对经过所述通用分词的种子问句进行向量化处理。

在本方发明实施例中,经过通用分词的种子问句,分词系统对其进行向量化处理,使其便于后续的分词流程。具体的,种子问句通过one-hot方式进行向量化处理。

步骤S103,对经过所述向量化处理的种子问句进行意图分类。

在本发明实施例中,经过向量化处理的种子问句,分词系统对其进行意图分类,具体的,种子问句通过SVM(Support Vector Machine,支持向量机)进行意图分类。

步骤S104,根据所述意图分类的结果选择对应的领域分词器。

在本发明实施例中,种子问句进行意图分类之后,即可获得意图分类的结果,分词系统选择该结果对应的领域分词器。

步骤S105,根据所述领域分词器对种子问句进行分词。

在本发明实施例中,在确定了领域分词器之后,分词系统通过该领域分词器对种子问句进行分词,并输出分词结果。

本发明实施例,对待分词种子问句进行通用分词,对经过通用分词的种子问句进行向量化处理,对经过向量化处理的种子问句进行意图分类,根据意图分类的结果选择对应的领域分词器,根据领域分词器对种子问句进行分词,不仅保证了分词的完整性,而且提高了领域问题的切分精度,减少了语义信息的丢失。

举例说明:

假设待分词种子问句为:“红烧鱼有哪些做法”,进行意图判断后分为菜谱类意图,经过菜谱领域分词后的结果为“油焖大虾/n,有/v,哪些/r,做法/n,?/w”而采用通用分词器结果为“油/n,焖/v,大虾/n,有/v,哪些/r,做法/n,?/w”,所以该切分方法能有效的保留问句中的菜名信息,从而保证了语义信息的完整性。

如图2所示为本发明一示例性实施例提供的一种种子问句的分词系统的结构图,所述系统包括:

通用分词单元201,用于对待分词种子问句进行通用分词。

在本发明实施例中,种子问句是指含有明确语义且语法正确的问句,如:“北京今天天气怎么样?”,即为一还有明确的语义信息且语法正确的问句,可以作为种子问句。而“今天怎么样北京天气”虽然有部分语义信息表明在询问天气,但不合乎正常的语法表达,因此不能作为种子问句。而“样么怎天气京北今天”不仅语义信息缺失,而且语法信息错误,也不能作为种子问句。

具体的,待分词的种子问句通常通过通用分词器进行通用分词。

向量化处理单元202,用于对经过所述通用分词的种子问句进行向量化处理。

在本方发明实施例中,经过通用分词的种子问句,分词系统对其进行向量化处理,使其便于后续的分词流程。具体的,种子问句通过one-hot方式进行向量化处理。

意图分类单元203,用于对经过所述向量化处理的种子问句进行意图分类。

在本发明实施例中,经过向量化处理的种子问句,分词系统对其进行意图分类,具体的,种子问句通过SVM(Support Vector Machine,支持向量机)进行意图分类。

领域分词器选择单元204,用于根据所述意图分类的结果选择对应的领域分词器。

在本发明实施例中,种子问句进行意图分类之后,即可获得意图分类的结果,分词系统选择该结果对应的领域分词器。

分词单元205,用于根据所述领域分词器对种子问句进行分词。

在本发明实施例中,在确定了领域分词器之后,分词系统通过该领域分词器对种子问句进行分词,并输出分词结果。

本发明实施例,对待分词种子问句进行通用分词,对经过通用分词的种子问句进行向量化处理,对经过向量化处理的种子问句进行意图分类,根据意图分类的结果选择对应的领域分词器,根据领域分词器对种子问句进行分词,不仅保证了分词的完整性,而且提高了领域问题的切分精度,减少了语义信息的丢失。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1