一种用于非结构化文本的短语提取方法及装置与流程

文档序号：22967369发布日期：2020-11-19 21:41阅读：117来源：国知局

本发明属于语言处理技术领域，特别涉及一种用于非结构化文本的短语提取方法及装置。

背景技术：

在当前语文作文的教学过程中，作文素材的重要性被反复强调。所谓“巧妇难为无米之炊”，如果要想写好作文就必须具有丰富的作文素材，这样写作文时才会做到下笔如有神。

目前，作文素材的积累主要通过学生自己阅读课外书籍，然后将书籍中的一些短语记录下来，以便后续写作文时进行灵活应用。但是，由于学生阅读的书籍有限，使得学生自己积累的作文短语素材不足以支撑学生写好各种类型的作文。因此，需要为学生提供一个可供直接学习的作文短语素材库。而在现有技术中，并没有一种可快速搜集作文短语素材的方法，通过人工的方式来搜集作文短语素材，不仅会耗费大量的人力和物力，且效率较低。

技术实现要素：

本发明的目的是提供一种用于非结构化文本的短语提取方法及装置，通过建立短语提取规则，有效解决了从非结构化文本中提取所需类型的短语的问题，相对于人工搜集方式，搜集效率高。

本发明提供的技术方案如下：

一方面，提供一种用于非结构化文本的短语提取方法，包括：

生成每种短语类型的短语提取规则；

获取非结构化文本；

根据所述短语提取规则，从所述非结构化文本中提取出短语。

进一步优选地，所述生成每种短语类型的短语提取规则具体包括：

建立短语类型库，所述短语类型库包括多种短语类型；

获取每种短语类型的训练样本集，所述训练样本集包括训练文本及提取出的短语；

根据每种短语类型的训练样本集，生成每种短语类型对应的短语提取规则。

进一步优选地，所述根据每种短语类型的训练样本集，生成每种短语类型对应的短语提取规则具体包括：

对训练样本集中的每个训练文本进行分词，得到每个训练文本对应的各个词语、词语的词性，以及词语的位置序列；

根据每个训练文本提取出的短语，分析得到每种短语类型对应的短语提取特征，其中，所述短语提取特征包括词性组合特征以及词语位置特征；

利用机器学习方法，根据所得到的所述提取特征，生成每种短语类型对应的短语提取规则。

进一步优选地，还包括：

获取基础词语；

所述根据所述短语提取规则，从所述非结构化文本中提取出短语具体包括：

根据所述短语提取规则和所述基础词语，从所述非结构化文本中提取出包含所述基础词语的短语。

进一步优选地，所述根据所述短语提取规则和所述基础词语，从所述非结构化文本中提取出包含所述基础词语的短语具体包括：

在所述非结构化文本中找到所述基础词语；

以所述基础词语为基础，根据所述短语提取规则及所述基础词语的词性，从所述非结构化文本中找到符合提取特征的目标词语；

组合所述基础词语和所述目标词语，得到包含所述基础词语的短语。

另一方面，还提供一种用于非结构化文本的短语提取装置，包括：

规则生成模块，用于生成每种短语类型的短语提取规则；

文本获取模块，用于获取非结构化文本；

短语提取模块，用于根据所述短语提取规则，从所述非结构化文本中提取出短语。

进一步优选地，所述规则生成模块包括：

短语库建立单元，用于建立短语类型库，所述短语类型库包括多种短语类型；

样本集获取单元，用于获取每种短语类型的训练样本集，所述训练样本集包括训练文本及提取出的短语；

规则生成单元，用于根据每种短语类型的训练样本集，生成每种短语类型对应的短语提取规则。

进一步优选地，所述规则生成单元包括：

分词子单元，用于对训练样本集中的每个训练文本进行分词，得到每个训练文本对应的各个词语、词语的词性，以及词语的位置序列；

特征分析子单元，用于根据每个训练文本提取出的短语，分析得到每种短语类型对应的短语提取特征，其中，所述短语提取特征包括词性组合特征以及词语位置特征；

规则生成子单元，用于利用机器学习方法，根据所得到的所述提取特征，生成每种短语类型对应的短语提取规则。

进一步优选地，还包括：

词语获取模块，用于获取基础词语；

所述短语提取模块，还用于根据所述短语提取规则和所述基础词语，从所述非结构化文本中提取出包含所述基础词语的短语。

进一步优选地，所述短语提取模块包括：

基础词语查找单元，用于在所述非结构化文本中找到所述基础词语；

目标词语查找单元，用于以所述基础词语为基础，根据所述短语提取规则及所述基础词语的词性，从所述非结构化文本中找到符合提取特征的目标词语；

词语组合单元，用于组合所述基础词语和所述目标词语，得到包含所述基础词语的短语。

与现有技术相比，本发明提供的一种用于非结构化文本的短语提取方法及装置具有的有益效果为：本发明通过建立短语提取规则，有效解决了从非结构化文本中提取所需类型的短语的问题，不仅可获取大量短语，以用于丰富作文素材库，而且相对于人工搜集方式，搜集效率高。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种用于非结构化文本的短语提取方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种用于非结构化文本的短语提取方法的第一实施例的流程示意图；

图2是本发明一种用于非结构化文本的短语提取方法的第二实施例的流程示意图；

图3是本发明一种用于非结构化文本的短语提取方法的第三实施例的流程示意图；

图4是本发明一种用于非结构化文本的短语提取方法的第四实施例的流程示意图；

图5是本发明一种用于非结构化文本的短语提取方法的第五实施例的流程示意图；

图6是本发明一种用于非结构化文本的短语提取装置的一个实施例的结构示意框图。

附图标号说明

100、规则生成模块；110、短语库建立单元；

120、样本集获取单元；130、规则生成单元；

131、分词子单元；132、特征分析子单元；

133、规则生成子单元；200、文本获取模块；

300、短语提取模块；310、基础词语查找单元；

320、目标词语查找单元；330、词语组合单元；

400、词语获取模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

根据本发明提供的第一实施例，如图1所示，一种用于非结构化文本的短语提取方法，包括：

s100生成每种短语类型的短语提取规则；

具体地，短语类型包括偏正短语、补充短语、主谓短语、并列短语和动宾短语等各种短语。

偏正短语是由修饰语和中心语组成，且结构成分之间有修饰与被修饰关系的短语；动词、名词、形容词与它们前面起修饰作用的成份组成的短语。类型包括：定语+中心词(名词/形容词+代词)、状语+中心词(动词+形容词)。例如：壮丽的山河、重重叠叠的浓翠、勇往直前的决心、阴云密布的傍晚等。

补充短语是指由动词或形容词与它们的补充短语构成，补充短语起补充说明的作用。其类型包括动词+补语、形容词+补语。例如：漂亮极了、机灵得很等。

主谓短语由主语和谓语构成了主谓关系。其类型包括名词+动词、名词+形容词。例如：阳光明媚、露珠晶莹、成果辉煌、心情愉悦等。

并列短语一般是由两个或两个以上的名词、动词、形容词等组合而成，词与词之间是并列关系，中间常用和、及、又、与、并等连词，且并列短语的构成词的词性一般要求相同。其类型包括：名词+名词、动词+动词、形容词+形容词、代词+代词。例如：团结互助、齐心协力等。

动宾短语是由动词与后面受动词支配的成分组合而成，起支配作用的成分是动词，受动词支配的成分是宾语，表示动作行为所涉及到的人或事物，常用名词、代词等充当。其类型包括：动词+名词、动词+代词、动词+动词、动词+形容词。例如：喜欢游泳、恢复平静等。

根据上述的每种短语类型的特征，如词性组合特征、位置特征等，分别生成每种短语类型的短语提取规则。

s200获取非结构化文本；

具体地，非结构化文本是以文本(字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据。

获取的非结构化文本可以是网页上的文本数据、也可以是智能终端中存储的各种文章、也可以是图书馆数据库中的文档。

s300根据所述短语提取规则，从所述非结构化文本中提取出短语。

具体地，根据每种短语类型的特性，建立对应的短语提取规则后，即可根据每种短语类型对应的短语提取规则，从非结构化文本中提取出对应类型的短语。

本实施例，通过建立短语提取规则，有效解决了从非结构化文本中提取所需类型的短语的问题，不仅可获取大量短语，以用于丰富作文素材库，而且相对于人工搜集方式，搜集效率高。

根据本发明提供的第二实施例，如图2所示，一种用于非结构化文本的短语提取方法，包括：

s110建立短语类型库，所述短语类型库包括多种短语类型；

具体地，短语类型库中包括的多种短语类型就是上述第一实施例中描述的偏正短语、补充短语、主谓短语、并列短语和动宾短语等各种短语。

s120获取每种短语类型的训练样本集，所述训练样本集包括训练文本及提取出的短语；

具体地，训练文本为非结构化文本，如从书中摘取的某一个句子，从文章中截取的某一段话。

根据需要提取的短语类型，从训练文本中提取出对应类型的所有短语，然后将训练文本及从训练文本中提取出的短语作为一个训练样本，每个训练样本集中包括多个训练样本。

例如，训练文本为“翻越重重叠叠的山岭，沿途万物生机勃勃，树木浓翠，绿荫清凉，一路南下，被香气包围”。

若需要得到的是偏正短语的提取规则，则从训练文本中提取出的短语为“重重叠叠的山岭”。根据上述的训练文本以及提取出的偏正短语即可构成一个偏正短语的训练样本。

若需要得到的是主谓短语的提取规则，则从训练文本中提取出的短语为“万物生机勃勃”、“树木浓翠”、“绿荫清凉”。根据上述的训练文本以及提取出的主谓短语即可构成一个主谓短语的训练样本。

s130根据每种短语类型的训练样本集，生成每种短语类型对应的短语提取规则；

具体地，得到每种短语类型的训练样本集后，通过训练样本集训练预先建立的短语提取模型。预先建立的短语提取模型是一些开源的模型算法，其可以在网络上获取。通过输入大量的训练样本训练完成的短语提取模型即为生成的短语提取规则。

s200获取非结构化文本；

s300根据所述短语提取规则，从所述非结构化文本中提取出短语。

本实施例中，通过训练样本集训练短语提取模型来生成短语提取规则，使根据短语提取规则提取出的短语更符合用户要求，且提取精度更高。

根据本发明提供的第三实施例，如图3所示，一种用于非结构化文本的短语提取方法，包括：

s110建立短语类型库，所述短语类型库包括多种短语类型；

s120获取每种短语类型的训练样本集，所述训练样本集包括训练文本及提取出的短语；

s131对训练样本集中的每个训练文本进行分词，得到每个训练文本对应的各个词语、词语的词性，以及词语的位置序列；

具体地，利用现有的分词工具对训练样本集中的训练文本进行分词，得到训练文本中每句话对应的词向量，并在词向量中标注每个词语的词性。词向量＝[词语n1，词语n2，词语n3，......词语ni]，i∈n，词向量中的词语n1、词语n2、词语n3......词语ni是根据各个词语在训练文本中先后位置进行排列的，即词语的位置序列。

例如：训练文本为“翻越重重叠叠的山岭，沿途万物生机勃勃，树木浓翠，绿荫清凉，一路南下，被香气包围”。

“翻越重重叠叠的山岭”分词后得到的词向量＝[翻越/v，重重叠叠/a，的/u，山岭/n]。“沿途万物生机勃勃”分词后得到的词向量＝[沿途/n，万物/n，生机勃勃/v]。“树木浓翠”分词后得到的词向量＝[树木/n，浓翠/a]。“绿荫清凉”分词后得到的词向量＝[绿荫/n，清凉/a]。

s132根据每个训练文本提取出的短语，分析得到每种短语类型对应的短语提取特征，其中，所述短语提取特征包括词性组合特征以及词语位置特征；

具体地，对训练文本进行分词，得到训练文本中每句话对应的各个词语、词语的词性以及词语的位置序列后，再结合从训练文本中提取出的短语，即可分析得到每种短语类型对应的短语提取特征。每种短语类型的短语提取规则可不同或部分相同，短语提取特征可包括词性组合特征、词语位置特征、词语之间的连词特征等。

例如，训练文本“翻越重重叠叠的山岭”，经过分词得到的词向量＝[翻越/v，重重叠叠/a，的/u，山岭/n]，提取出的偏正短语为“重重叠叠的山岭”，根据分词结果，知道提取出的短语中重重叠叠为形容词，山岭为名词，则根据该训练文本及提取出的短语得到的提取特征是提取形容词+名词的短语组合，形容词在前，名词在后，且形容词与名词之间包含结构助词“的”。

再例如，训练文本“学生仔细检查作业”，提取出的偏正短语为“仔细检查”。训练文本经过分词得到的词向量＝[学生/n，仔细/a，检查/v，作业/n]，根据分词结果，知道提取出的短语中仔细为形容词，检查为动词，因此，根据该训练文本及提取出的短语得到的提取特征是提取形容词+动词的短语组合，且形容词在前，动词在后。

同理，其他类型的短语同样也是根据训练文本及提取出的短语来分析得到短语的提取特征。

在同一训练样本集中，根据不同的训练文本可能得到不同的提取特征，即提取特征包括多种特征。

s133利用机器学习方法，根据所得到的所述提取特征，生成每种短语类型对应的短语提取规则；

具体地，利用现有的机器学习方法，根据上述的训练样本集以及对应的提取特征对预先建立的短语提取模型进行训练，即可生成每种短语类型对应的短语提取规则。

s200获取非结构化文本；

s300根据所述短语提取规则，从所述非结构化文本中提取出短语。

具体地，根据每种短语类型对应的短语提取规则，如词性组合特征、词语位置特征、连词特征等，即可从非结构化文本中提取出对应类型的短语。

本实施例，根据不同的训练文本可得到多个提取特征，通过多个提取特征可提取同一短语类型中的多种短语，使得提取出的短语更丰富，更能满足用户的需求，进而提高用户的使用体验。

根据本发明提供的第四实施例，如图4所示，一种用于非结构化文本的短语提取方法，包括：

s100生成每种短语类型的短语提取规则；

s200获取非结构化文本；

s210获取基础词语；

s310根据所述短语提取规则和所述基础词语，从所述非结构化文本中提取出包含所述基础词语的短语。

具体地，当用户需要在非结构化文本中搜索包含某一词语的短语时，可先输入希望包含的词语(即基础词语)，然后根据生成的每种短语类型的短语提取规则和输入的基础词语，从非结构化文本中提取出包含基础词语的短语。

例如，用户需要提取包含“山岭”的偏正短语，则“山岭”为基础词语，然后根据偏正短语的短语提取规则，从非结构化文本中提取出包含“山岭”的短语，如提取出的短语为“壮丽的山岭”、“高耸的山岭”、“挺拔的山岭”、“隽秀的山岭”、“巍峨的山岭”等。

本实施例，通过基础词语和生成的短语提取规则，可帮助用户查找包含基础词语的短语，进而帮助用户完成对各种题型的解答，以辅助用户的学习，提高用户的使用体验。

根据本发明提供的第五实施例，如图5所示，一种用于非结构化文本的短语提取方法，包括：

s100生成每种短语类型的短语提取规则；

s200获取非结构化文本；

s210获取基础词语；

s311在所述非结构化文本中找到所述基础词语；

s312以所述基础词语为基础，根据所述短语提取规则及所述基础词语的词性，从所述非结构化文本中找到符合提取特征的目标词语；

s313组合所述基础词语和所述目标词语，得到包含所述基础词语的短语。

具体地，在非结构化文本中搜索包含基础词语的短语时，先在非结构化文本中查找到基础词语，然后在非结构化文本中以基础词语为基础，根据需要提取的短语类型对应的短语提取规则，在非结构化文本中找到符合提取特征的目标词语，然后组合基础词语和目标词语，得到包含基础词语的短语。

例如，用户需要提取包含“山岭”的偏正短语，“山岭”为名词，而偏正短语的提取特征包括：

第一种：形容词+动词的短语组合，且形容词在前，动词在后；

第二种：形容词+名词的短语组合，形容词在前，名词在后；

由于“山岭”为名词，因此，应该根据第二种提取特征，从非结构化文本中提取包含“山岭”的短语。而根据第二种提取特征，可知应以“山岭”为基础，查找位于“山岭”前的形容词，该形容词即为目标词语。最后根据词语位置特征，即形容词在前，名词在后，将形容词与“山岭”进行组合，即可得到包含“山岭”的短语。

根据本发明提供的第六实施例，如图6所示，一种用于非结构化文本的短语提取装置，包括：

规则生成模块100，用于生成每种短语类型的短语提取规则；

具体地，短语类型包括偏正短语、补充短语、主谓短语、并列短语和动宾短语等各种短语。

主谓短语由主语和谓语构成了主谓关系。其类型包括名词+动词、名词+形容词。例如：阳光明媚、露珠晶莹、成果辉煌、心情愉悦等。

根据上述的每种短语类型的特征，如词性组合特征、位置特征等，分别生成每种短语类型的短语提取规则。

文本获取模块200，用于获取非结构化文本；

具体地，非结构化文本是以文本(字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据。

获取的非结构化文本可以是网页上的文本数据、也可以是智能终端中存储的各种文章、也可以是图书馆数据库中的文档。

短语提取模块300，用于根据所述短语提取规则，从所述非结构化文本中提取出短语。

优选地，规则生成模块100包括：

短语库建立单元110，用于建立短语类型库，所述短语类型库包括多种短语类型；

具体地，短语类型库中包括的多种短语类型就是上述第一实施例中描述的偏正短语、补充短语、主谓短语、并列短语和动宾短语等各种短语。

样本集获取单元120，用于获取每种短语类型的训练样本集，所述训练样本集包括训练文本及提取出的短语；

具体地，训练文本为非结构化文本，如从书中摘取的某一个句子，从文章中截取的某一段话。

例如，训练文本为“翻越重重叠叠的山岭，沿途万物生机勃勃，树木浓翠，绿荫清凉，一路南下，被香气包围”。

规则生成单元130，用于根据每种短语类型的训练样本集，生成每种短语类型对应的短语提取规则。

通过训练样本集训练短语提取模型来生成短语提取规则，使根据短语提取规则提取出的短语更符合用户要求，且提取精度更高。

优选地，规则生成单元130包括：

分词子单元131，用于对训练样本集中的每个训练文本进行分词，得到每个训练文本对应的各个词语、词语的词性，以及词语的位置序列；

例如：训练文本为“翻越重重叠叠的山岭，沿途万物生机勃勃，树木浓翠，绿荫清凉，一路南下，被香气包围”。

特征分析子单元132，用于根据每个训练文本提取出的短语，分析得到每种短语类型对应的短语提取特征，其中，所述短语提取特征包括词性组合特征以及词语位置特征；

同理，其他类型的短语同样也是根据训练文本及提取出的短语来分析得到短语的提取特征。

在同一训练样本集中，根据不同的训练文本可能得到不同的提取特征，即提取特征包括多种特征。

规则生成子单元133，用于利用机器学习方法，根据所得到的所述提取特征，生成每种短语类型对应的短语提取规则。

根据每种短语类型对应的短语提取规则，如词性组合特征、词语位置特征、连词特征等，即可从非结构化文本中提取出对应类型的短语。

根据不同的训练文本可得到多个提取特征，通过多个提取特征可提取同一短语类型中的多种短语，使得提取出的短语更丰富，更能满足用户的需求，进而提高用户的使用体验。

优选地，还包括：

词语获取模块400，用于获取基础词语；

短语提取模块300，还用于根据所述短语提取规则和所述基础词语，从所述非结构化文本中提取出包含所述基础词语的短语。

通过基础词语和生成的短语提取规则，可帮助用户查找包含基础词语的短语，进而帮助用户完成对各种题型的解答，以辅助用户的学习，提高用户的使用体验。

优选地，短语提取模块300包括：

基础词语查找单元310，用于在所述非结构化文本中找到所述基础词语；

目标词语查找单元320，用于以所述基础词语为基础，根据所述短语提取规则及所述基础词语的词性，从所述非结构化文本中找到符合提取特征的目标词语；

词语组合单元330，用于组合所述基础词语和所述目标词语，得到包含所述基础词语的短语。

例如，用户需要提取包含“山岭”的偏正短语，“山岭”为名词，而偏正短语的提取特征包括：

第一种：形容词+动词的短语组合，且形容词在前，动词在后；

第二种：形容词+名词的短语组合，形容词在前，名词在后；

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周林
技术所有人：广东小天才科技有限公司
我是此专利的发明人

上一篇：文本相似度的生成方法、装置及电子设备与流程
上一篇：通信网络告警关联方法、装置及计算设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。