一种分词方法、装置、终端及计算机可读存储介质与流程

文档序号:17741053发布日期:2019-05-24 20:06阅读:151来源:国知局
一种分词方法、装置、终端及计算机可读存储介质与流程

本发明涉及数据处理技术领域,特别是涉及一种分词方法、装置、终端及计算机可读存储介质。



背景技术:

由于中文是以字作为书写单位的,并且在一句话的字与字之间通常没有明显的分词标记。因此,电子设备常常需要将汉字序列进行切分成一个个单独的词,以根据所得到的分词结果来理解该汉字序列所要表达的语义。

目前,常用的分词算法包括基于词典的分词算法。其中,该分词算法是按照一定的匹配算法将待匹配的汉字字符串和一个预设的包含大量词组的词典中的每个词进行匹配。若在词典中能找到某个词,则说明匹配成功,即识别出一个词。其中,该匹配算法常为正向最大匹配法和双向匹配分词法。

发明人在实现本发明的过程中发现,该种分词方法的分词速度仍然比较慢,无法满足快速分词的需求。



技术实现要素:

本发明实施例的目的在于提供一种分词方法、装置、终端及计算机可读存储介质,以提高词的查找速度,从而提高分词速度。具体技术方案如下:

第一方面,本发明实施例提供了一种分词方法,该方法可以包括:

确定待分词的文本信息;

根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词;其中,一元词库中的词是按照每个词所包含的字符数量进行排序的;词索引表用于:索引每种字符数量的词在一元词库中的位置;

得到文本信息的分词结果。

可选地,在本发明实施例中,确定待分词的文本信息的步骤,可以包括:

检测输入框中的信息是否发生更新;

当输入框中的信息发生更新时,获得输入框中的信息作为目标信息;

按照从右到左的选取方式,选取目标信息中预设数量的字符序列,得到待分词的文本信息。

可选地,在本发明实施例中,预设匹配算法可以包括:逆向最长匹配算法。

可选地,在本发明实施例中,在根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词的步骤之前,还可以包括:

获取原始语料和分词词库;

利用分词词库对原始语料进行分词,得到原始语料的分词结果;

根据原始语料的分词结果,对分词词库中各个词的词频进行统计;

根据原始语料的分词结果和所统计得到的词频,训练得到分词模型;其中,分词模型中包括一元词库,一元词库中记录有各个词;

按照词所包含的字符数量,对一元词库中的各个词进行排序。

可选地,在本发明实施例中,词索引表包括第一子索引表和第二子索引表;

相应地,在按照词所包含的字符数量,对一元词库中的各个词进行排序的步骤之后,还可以包括:

构建用于记录一元词库中每种字符数量的词的起始位置信息的第一子索引表;

构建用于记录每种字符数量的词所占的存储空间大小的第二子索引表。

可选地,在本发明实施例中,分词模型可以包括:n元组模型。

可选地,在本发明实施例中,在得到文本信息的分词结果的步骤之后,还可以包括:

根据文本信息的分词结果和词索引表,从n元组模型中查找n元关系,得到文本信息的分词结果所对应的多个预测词;

按照各个预测词出现的概率从大到小的顺序,展示预设个数个预测词。

可选地,在本发明实施例中,按照各个预测词出现的概率从大到小的顺序,展示预设个数个预测词的步骤,可以包括:

确定用户所输入的拼音字符串;

确定各个预测词中满足拼音字符串的拼写规则的预测词,作为目标预测词;

按照各个目标预测词出现的概率从大到小的顺序,在输入法的推荐词显示界面显示各个目标预测词。

第二方面,本发明实施例还提供了一种分词装置,该装置可以包括:

第一确定模块,用于确定待分词的文本信息;

第一分词模块,用于根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词;其中,一元词库中的词是按照每个词所包含的字符数量进行排序的;词索引表用于:索引每种字符数量的词在一元词库中的位置;

获得模块,用于得到文本信息的分词结果。

可选地,在本发明实施例中,第一确定模块可以包括:

检测单元,用于检测输入框中的信息是否发生更新;

获得单元,用于当输入框中的信息发生更新时,获得输入框中的信息作为目标信息;

选取单元,用于按照从右到左的选取方式,选取目标信息中预设数量的字符序列,得到待分词的文本信息。

可选地,在本发明实施例中,预设匹配算法可以包括:逆向最长匹配算法。

可选地,在本发明实施例中,还可以包括:

第一获取模块,用于在根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词之前,获取原始语料和分词词库;

第二分词模块,用于利用分词词库对原始语料进行分词,得到原始语料的分词结果;

统计模块,用于根据原始语料的分词结果,对分词词库中各个词的词频进行统计;

训练模块,用于根据原始语料的分词结果和所统计得到的词频,训练得到分词模型;其中,分词模型中包括一元词库,一元词库中记录有各个词;

排序模块,用于按照词所包含的字符数量,对一元词库中的各个词进行排序。

可选地,在本发明实施例中,词索引表包括第一子索引表和第二子索引表;该装置还可以包括:

第一构建模块,用于在按照词所包含的字符数量,对一元词库中的各个词进行排序之后,构建用于记录一元词库中每种字符数量的词的起始位置信息的第一子索引表;

第二构建模块,用于构建用于记录每种字符数量的词所占的存储空间大小的第二子索引表。

可选地,在本发明实施例中,分词模型可以包括:n元组模型。

可选地,在本发明实施例中,还可以包括:

查找模块,用于在得到文本信息的分词结果之后,根据文本信息的分词结果和词索引表,从n元组模型中查找n元关系,得到文本信息的分词结果所对应的多个预测词;

显示模块,用于按照各个预测词出现的概率从大到小的顺序,展示预设个数个预测词。

可选地,在本发明实施例中,显示模块可以包括:

第一确定单元,用于确定用户所输入的拼音字符串;

第二确定单元,用于确定各个预测词中满足拼音字符串的拼写规则的预测词,作为目标预测词;

显示单元,用于按照各个目标预测词出现的概率从大到小的顺序,在输入法的推荐词显示界面显示各个目标预测词。

第三方面,本发明实施例还提供了一种终端,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一项分词方法的方法步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一项分词方法的方法步骤。

第五方面,本发明实施例提供了一种计算机程序产品,当其在终端上运行时,使得终端执行:上述任一项分词方法的方法步骤。

在本发明实施例中,可以确定待分词的文本信息。然后,可以根据预设匹配算法、预先构建分词模型中的一元词库和该一元词库所对应的词索引表对文本信息进行分词。进而,得到该文本信息的分词结果。其中,由于一元词库中的词是按照每个词所包含的字符数量进行排序的,也就是说,一元词库中相同字符数量的词会被聚集在一起。而且,由于通过词索引表可以索引每种字符数量的词在一元词库中的位置。因而,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种分词方法的流程图;

图2为本发明实施例提供的一种分词装置的结构示意图;

图3为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了解决现有技术中所存在的分词速度慢的技术问题,本发明实施例提供了一种分词方法、装置、终端及计算机可读存储介质。

其中,分词是指将连续的字符序列按照一定的规范切分成词序列的过程。具体地,中文分词是指将一个汉字序列按照一定的规范切分成一个个单独的词的过程。

举例而言,可以通过中文分词,将汉字序列“我爱中国”切分为“我”、“爱”和“中国”。其中,汉字序列“我爱中国”也可称为文本信息。另外,分词得到的“我”、“爱”和“中国”分别为三个单独的词。

下面首先对本发明实施例提供的分词方法进行说明。

本发明实施例提供的分词方法应用于终端,该终端包括但并不局限于电脑、手机和智能手表。

参见图1,本发明实施例提供的分词方法可以包括如下步骤:

s101:确定待分词的文本信息;

可以理解的是,在许多文字处理场景中,终端常常需要对文本信息进行分词,以根据所得到的分词结果来理解文本信息所表达的语义。其中,文本信息可以为中文文本信息,也可以为英文文本信息,当然并不局限于此。

例如,在用户使用中文输入法进行文本输入的场景中,用户在输入框中输入文本信息之后,终端常常需要对输入框中的文本信息进行分词,以根据所得到的分词结果来理解文本信息的语义,进而可以预测用户想要输入的下一个词。

在本发明实施例中,终端确定待分词的文本信息的方式具体可以为:

检测输入框中的信息是否发生更新。当输入框中的信息发生更新时,终端可以获得输入框中的信息作为目标信息。然后,可以按照从右到左的选取方式,选取目标信息中预设数量的字符序列,从而得到待分词的文本信息。

这样,不需要将输入框中所有的文本信息均作为待分词的文本信息,即不必对输入框中的所有文本信息进行分词,从而提高分词速度。

另外,由于终端在预测用户想要输入的下一个词时,输入框中最右边的词对预测结果的影响最大,因而采用从右到左的选取方式,可以提高预测结果的准确性。

其中,本领域技术人员可以根据实际情况来设定预设数量的取值。例如,该预设数量的取值可以为20,即20个字符。

s102:根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词;其中,一元词库中的词是按照每个词所包含的字符数量进行排序的;词索引表用于:索引每种字符数量的词在一元词库中的位置;

s103:得到文本信息的分词结果。

对于输入法场景而言,分词模型中的一元词库存储有:加载到输入法引擎所对应的分词模型中的所有一元词。其中,该一元词库存储在终端的内存空间中。该一元词库中可以包括60万个词。

具体地,一元词库可以是:基于分词词库对大量原始语料进行分词并统计词频后所得到的结果所构建的。其中,分词词库对大量原始语料进行分词指的是自然语言处理领域的分词技术,例如利用hmm(hiddenmarkovmodel,隐马尔可夫模型)进行分词。

其中,一元词库中的一元词中不仅可以包括实体名词,也可以包括大部分高频短语,例如“去哪了”,能覆盖日常的聊天场景。这样,当基于一元词库进行分词时,可以使得分词比较精准,进而能更准确地识别出用户的意图。

一元词库中所记录的词是按照每个词所包含的字符数量进行排序的,也就是说,一元词库中相同字符数量的词会被聚集在一起。这样,可以对一元词库的存储结构进行优化。

而且,终端通过词索引表可以索引每种字符数量的词在一元词库中的位置。这样,在利用预设匹配算法对文本信息进行分词的过程中,终端可以利用词索引表确定所要查询的词的字符数量所对应的位置区间。然后,可以在该位置区间中查找是否存在该词。这样,避免了每次查找都需要对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

其中,一元词库中的词可以按照字符数量升序的方式排列,也可以按照字符数量降序的方式排序,这都是合理的。

举例而言,一元词库中记录有词“你”、“中国”、“我”、“喜欢”和“网页”。那么,当一元词库中的词按照字符数量升序的方式排列时,词的排序为:“你”、“我”、“中国”、“喜欢”和“网页”。

当然,对于相同字符数量的词,例如“中国”、“喜欢”和“网页”为相同字符数量的词,还可以按照字母表中字母出现的顺序进行排序,这也是合理的。

其中,在对一元词库中的词进行排序之后,还可以给每个词分配一个索引wordid。其中,一个wordid与一个词一一对应,且一个词的wordid可以是该词在一元词库中排列序号。这样,在确定一个词后,即可确定该词的wordid。也可以在确定一个wordid后,确定该wordid所对应的词。

另外,词索引表具体可以包括第一子索引表和第二子索引表。其中,一个子索引表可以用一个数组进行存储。

第一子索引表用于:记录一元词库中每种字符数量的词的起始位置信息。例如,假设5个字符数量的词有100个,那么,第一子索引表中记录有一元词库中的、记录第一个5个字符数量的词的起始位置信息。

第二子索引表用于:记录每种字符数量的词所占的存储空间大小。例如,100个5个字符数量的词占的存储空间大小为3个数据块。

此外,预设匹配算法可以包括:逆向最长匹配算法。其中,采用逆向最长匹配算法可以获得较为准确的分词结果,而且,采用逆向最长匹配算法比现有技术中采用的、基于统计的机器学习分词算法和基于神经网络的分词算法的分词速度要快。

分词模型可以包括:n元组模型,n元组模型即n-gram模型。其中,n-gram基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。而且,整个句子出现的概率就等于各个词出现的概率乘积。其中,各个词的概率可以通过语料统计计算得到。

在本发明实施例中,n的取值可以为2也可以为3,当然并不局限于此。为了清晰布局,后续对分词模型的训练方法进行说明。

另外,在得到文本信息的分词结果之后,终端还可以根据文本信息的分词结果和词索引表,从n元组模型中查找n元关系,得到文本信息的分词结果所对应的多个预测词。然后,可以按照各个预测词出现的概率从大到小的顺序,展示预设个数个所述预测词。这样,还可以结合n-gram模型对用户想要输入的下一个词进行预测。

下面结合具体示例对获得预测词的方式进行说明。

步骤一:当用户通过中文输入法输入拼音“wochaoji”时,终端可以根据拼音组词规则得到“wochaoji”对应的预测词为:我超级、我超、我吵、我朝、我抄和窝巢;

步骤二:当用户选择预测词“我超级”时,终端可以将“我超级”显示在输入框中,并对输入框中的文本信息“我超级”进行分词,得到分词结果“我/超级”;

步骤三:终端利用“我/超级”这两层关系进行后续n元关系的查找,得到并输出多个预测词为:喜欢、搞笑、郁闷、漂亮、郁闷和舒服;

步骤四:当用户选择预测词“喜欢”时,终端可以对当前输入框中的文本信息“我超级喜欢”进行分词,得到分词结果“我/超级/喜欢”,并利用“我/超级/喜欢”这三层关系和词索引表在n元组模型中进行后续n元关系的查找,得到并输出多个预测词为:这种、小孩、吃的、他们、这个人和这句话;

步骤五:当没有用户想要的预测词,用户继续输入拼音“maikeer”时,终端可以根据拼音组词规则得到“maikeer”对应的预测词为:迈克尔、迈克、麦克、买壳、买颗和买克;

步骤六:当用户选择预测词“迈克尔”时,终端可以对输入框中的文本信息“我超级喜欢迈克尔”进行分词,得到分词结果“我/超级/喜欢/迈克尔”;然后,终端可以利用分词结果和词索引表在n元组模型中进行后续n元关系的查找,得到并输出多个预测词为:杰克逊、欧文、波特和舒马赫;当用户选择预测词“杰克逊”时,完成输入。

可以理解的是,当终端在用户输入的过程中不断进行分词操作时,采用本发明实施例提供的分词方法,可以在分词过程中极大的提高词的查询速度,从而提高分词速度,进而提高输入效率。

另外,对于步骤五所示的没有用户想要的预测词,且用户继续输入拼音的这种情况。除了根据拼音组词规则得到用户所输入拼音对应的预测词之外,还可以通过以下方式获得用户所输入拼音对应的预测词:

根据输入框中的文本信息的分词结果,从n元组模型中查找n元关系,从而得到分词结果所对应的多个预测词;然后,确定各个预测词中满足该拼音字符串的拼写规则的预测词,作为目标预测词;之后,按照各个目标预测词出现的概率从大到小的顺序,在输入法的推荐词显示界面显示各个目标预测词。这都是合理的。

举例而言,当输入框中的文本信息为“散文”时,终端可以对“散文”进行分词,得到分词结果。然后,可以利用分词结果进行后续二元关系的查找,这时用户再输入拼音“xs”时,可以考虑根据二元关系查找到预测词以及拼音的拼写规则来得到预测词:小说、现实、显示、吓死、洗漱和先生。这样,使得输出的预测词更符合用户预期,提高了用户体验。

其中,根据拼音组词规则得到用户所输入拼音“xs”对应的预测词为:小时,现实,显示,吓死,洗漱,先生。

在本发明实施例中,可以确定待分词的文本信息。然后,可以根据预设匹配算法、预先构建分词模型中的一元词库和该一元词库所对应的词索引表对文本信息进行分词。进而,得到该文本信息的分词结果。其中,由于一元词库中的词是按照每个词所包含的字符数量进行排序的,也就是说,一元词库中相同字符数量的词会被聚集在一起。而且,由于通过词索引表可以索引每种字符数量的词在一元词库中的位置。因而,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

下面对本发明实施例提供的分词模型的构建方式进行说明。

步骤一:在根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词,得到文本信息的分词结果之前,获取原始语料和分词词库。

其中,可以从网络上获得大量的原始语料。然后,在获得原始语料之后,可以对原始语料中的非文本信息进行去除,得到处理后的原始原料。其中,非文本信息包括:符号字符和数字字符,当然并不局限于此。

分词词库中可以存储有输入法中常用的词以及技术人员预先收集的高频词,当然并不局限于此。

步骤二:利用分词词库对原始语料进行分词,得到原始语料的分词结果。根据原始语料的分词结果,对分词词库中各个词的词频进行统计。

步骤三:根据原始语料的分词结果和所统计得到的词频,训练得到分词模型;其中,分词模型中包括一元词库,一元词库中记录有该分词词库中的各个词。

其中,可以根据原始语料的分词结果和所统计得到的词频,训练得到n-gram模型。也就是,可以根据原始语料的分词结果、所统计得到的词频和n-gram算法,训练得到n-gram模型。

步骤四:按照词所包含的字符数量,对一元词库中的各个词进行排序。

其中,在按照词所包含的字符数量对一元词库中的各个词进行排序之后,可以将一元词库中相同字符数量的词聚集在一起,这样,实现对一元词库存储结构的优化。

另外,词索引表可以包括第一子索引表和第二子索引表。那么,在步骤四之后,还可以构建用于记录一元词库中每种字符数量的词的起始位置信息的第一子索引表。并构建用于记录每种字符数量的词所占的存储空间大小的第二子索引表。这样,在后续查询词的过程中,不需要对一元词库进行遍历,只需要找到一元词库中的、所要查询的词的字符数量所对应的位置区间,然后在该位置区间查找是否存在该词。这样,可以缩短词的查找时间,从而提高分词速度。

综上,应用本发明实施例提供的分词方法,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

相应于上述方法实施例,本发明实施例还提供了一种分词装置,参见图2,该装置可以包括:

第一确定模块201,用于确定待分词的文本信息;

第一分词模块202,用于根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词;其中,一元词库中的词是按照每个词所包含的字符数量进行排序的;词索引表用于:索引每种字符数量的词在一元词库中的位置;

获得模块203,用于得到文本信息的分词结果。

应用本发明实施例提供的装置,可以确定待分词的文本信息。然后,可以根据预设匹配算法、预先构建分词模型中的一元词库和该一元词库所对应的词索引表对文本信息进行分词。进而,得到该文本信息的分词结果。其中,由于一元词库中的词是按照每个词所包含的字符数量进行排序的,也就是说,一元词库中相同字符数量的词会被聚集在一起。而且,由于通过词索引表可以索引每种字符数量的词在一元词库中的位置。因而,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

可选地,在本发明实施例中,第一确定模块201可以包括:

检测单元,用于检测输入框中的信息是否发生更新;

获得单元,用于当输入框中的信息发生更新时,获得输入框中的信息作为目标信息;

选取单元,用于按照从右到左的选取方式,选取目标信息中预设数量的字符序列,得到待分词的文本信息。

可选地,在本发明实施例中,预设匹配算法可以包括:逆向最长匹配算法。

可选地,在本发明实施例中,还可以包括:

第一获取模块,用于在根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词之前,获取原始语料和分词词库;

第二分词模块,用于利用分词词库对原始语料进行分词,得到原始语料的分词结果;

统计模块,用于根据原始语料的分词结果,对分词词库中各个词的词频进行统计;

训练模块,用于根据原始语料的分词结果和所统计得到的词频,训练得到分词模型;其中,分词模型中包括一元词库,一元词库中记录有各个词;

排序模块,用于按照词所包含的字符数量,对一元词库中的各个词进行排序。

可选地,在本发明实施例中,词索引表包括第一子索引表和第二子索引表;相应地,该装置还可以包括:

第一构建模块,用于在按照词所包含的字符数量,对一元词库中的各个词进行排序之后,构建用于记录一元词库中每种字符数量的词的起始位置信息的第一子索引表;

第二构建模块,用于构建用于记录每种字符数量的词所占的存储空间大小的第二子索引表。

可选地,在本发明实施例中,分词模型可以包括:n元组模型。

可选地,在本发明实施例中,还可以包括:

查找模块,用于在得到文本信息的分词结果之后,根据文本信息的分词结果和词索引表,从n元组模型中查找n元关系,得到文本信息的分词结果所对应的多个预测词;

显示模块,用于按照各个预测词出现的概率从大到小的顺序,展示预设个数个所述预测词。

可选地,在本发明实施例中,显示模块可以包括:

第一确定单元,用于确定用户所输入的拼音字符串;

第二确定单元,用于确定各个预测词中满足拼音字符串的拼写规则的预测词,作为目标预测词;

显示单元,用于按照各个目标预测词出现的概率从大到小的顺序,在输入法的推荐词显示界面显示各个目标预测词。

相应于上述方法实施例,本发明实施例还提供了一种终端,参见图3,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;

存储器303,用于存放计算机程序;

处理器301,用于执行存储器303上所存放的程序时,实现上述任一项分词方法的方法步骤。

在本发明实施例中,终端可以确定待分词的文本信息。然后,终端可以根据预设匹配算法、预先构建分词模型中的一元词库和该一元词库所对应的词索引表对文本信息进行分词。进而,得到该文本信息的分词结果。其中,由于一元词库中的词是按照每个词所包含的字符数量进行排序的,也就是说,一元词库中相同字符数量的词会被聚集在一起。而且,由于通过词索引表可以索引每种字符数量的词在一元词库中的位置。因而,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

相应于上述方法实施例,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被终端的处理器执行时实现上述任一项分词方法的方法步骤。

本发明实施例提供的计算机可读存储介质中存储的计算机程序被终端的处理器执行后,终端可以确定待分词的文本信息。然后,可以根据预设匹配算法、预先构建分词模型中的一元词库和该一元词库所对应的词索引表对文本信息进行分词。进而,得到该文本信息的分词结果。其中,由于一元词库中的词是按照每个词所包含的字符数量进行排序的,也就是说,一元词库中相同字符数量的词会被聚集在一起。而且,由于通过词索引表可以索引每种字符数量的词在一元词库中的位置。因而,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

相应于上述方法实施例,本发明实施例还提供了一种计算机程序产品,当其在终端上运行时,使得终端执行:上述任一项分词方法的方法步骤。

本发明实施例提供的计算机程序被终端的处理器执行后,终端可以确定待分词的文本信息。然后,可以根据预设匹配算法、预先构建分词模型中的一元词库和该一元词库所对应的词索引表对文本信息进行分词。进而,得到该文本信息的分词结果。其中,由于一元词库中的词是按照每个词所包含的字符数量进行排序的,也就是说,一元词库中相同字符数量的词会被聚集在一起。而且,由于通过词索引表可以索引每种字符数量的词在一元词库中的位置。因而,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、终端和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1