一种语音控制指令生成方法、装置及电子设备与流程

文档序号:18669846发布日期:2019-09-13 20:50阅读:212来源:国知局
一种语音控制指令生成方法、装置及电子设备与流程
本发明涉及自然语言处理
技术领域
,尤其涉及一种语音控制指令生成方法、装置及电子设备。
背景技术
:语音识别技术可以实现从语音信息向文字信息的转化,即根据语音信的识别结果可以生成对应的语音控制指令,在转化时需要基于声学模型解码、语言模型解码等处理。语言模型是最终识别文本的一个重要参考标准,语言模型根据训练语料中中文文本的出现概率来决定识别文本的一种模型。而现有的语音识别的方法导致语音识别的准确性难以达到理想水平,语音识别的结果经常出现错误,这将会增加后续的语义理解的工作难度,并可能导致生成错误的语音控制指令。在进行语音识别时,数字识别是语音识别的一部分,数字一般包括中文数字和阿拉伯数字。因为在进行语音识别时是基于语言模型的,因此语言模型训练语料中中文数字和阿拉伯数字出现的比重大小将决定数字的识别形式。如果识别出的文本中数字形式识别错误,将导致包含数字的实体词整体无法有效提取和标注,进而影响语义的整体理解,并可能生成错误的语音控制指令。因此一种可靠的语音控制指令生成方法,将会有效的提高语音理解的准确性。技术实现要素:本发明实施例提供了一种语音控制指令生成方法、装置及电子设备,用以解决现有技术生成语音控制指令的过程中,在进行文本识别时数字形式识别错误,导致生成的语音控制指令的准确性较低的问题。本发明实施例提供了一种语音控制指令生成方法,所述方法包括:根据接收到的语音信息获取待输出的文本,识别所述待输出的文本中的数字及所述数字在所述文本中的位置;将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本;根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分,根据候选文本的得分确定文本识别结果;将所述文本识别结果及预先设定的标准文本进行匹配,根据匹配成功的标准文本生成语音控制指令。进一步地,所述识别待输出的文本中的数字及所述数字在所述文本中的位置包括:将所述待输出的文本中的第一个字符作为待检测的字符;采用当前长度的滑动窗口滑动到所述待检测的字符,判断该滑动窗口内的字符串是否为满足数字规则的字符串;如果是,对记录的所述待检测的字符对应的字符串在所述文本中的位置进行更新,并将所述滑动窗口增加设定长度,继续根据所述待检测的字符和改变长度后的滑动窗口,对对应的字符串进行判断;如果否,根据记录的所述待检测的字符对应的字符串在所述文本中的位置,将所述位置后的下一字符作为待检测字符进行判断。进一步地,所述满足数字规则的字符串包括:全部为阿拉伯数字的字符串;或由中文数字和位词构成的字符串。进一步地,所述将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字包括:将所述待输出的文本中归属于同一字符串的数字同时转换为中文数字,或阿拉伯数字。进一步地,所述根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分包括:根据确定候选文本的得分,其中scoretext表示候选文本的得分,lengthtext为候选文本的长度,为第i个分词的长度,为第i个分词的权重。本发明实施例提供了一种语音控制指令生成装置,所述装置包括:识别模块,用于根据接收到的语音信息获取待输出的文本,识别所述待输出的文本中的数字及所述数字在所述文本中的位置;生成模块,用于将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本;确定模块,用于根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分,根据候选文本的得分确定文本识别结果;匹配确定模块,用于将所述文本识别结果及预先设定的标准文本进行匹配,根据匹配成功的标准文本生成语音控制指令。进一步地,所述识别模块,具体用于将所述待输出的文本中的第一个字符作为待检测的字符;采用当前长度的滑动窗口滑动到所述待检测的字符,判断该滑动窗口内的字符串是否为满足数字规则的字符串;如果是,对记录的所述待检测的字符对应的字符串在所述文本中的位置进行更新,并将所述滑动窗口增加设定长度,继续根据所述待检测的字符和改变长度后的滑动窗口,对对应的字符串进行判断;如果否,根据记录的所述待检测的字符对应的字符串在所述文本中的位置,将所述位置后的下一字符作为待检测字符进行判断。进一步地,所述生成模块,具体用于将所述待输出的文本中归属于同一字符串的数字同时转换为中文数字,或阿拉伯数字。进一步地,所述确定模块,具体用于根据确定候选文本的得分,其中scoretext表示候选文本的得分,lengthtext为候选文本的长度,为第i个分词的长度,为第i个分词的权重。本发明实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一项所述方法的步骤。本发明实施例提供了一种语音控制指令生成方法、装置及电子设备,所述方法包括:根据接收到的语音信息获取待输出的文本,识别待输出的文本中的数字及所述数字在所述文本中的位置;将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本;根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分,根据候选文本的得分确定文本识别结果,并将所述文本识别结果及预先设定的标准文本进行匹配,根据匹配成功的标准文本生成语音控制指令。由于在本发明实施例中,通过将识别的数字在文本中的位置处的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本,并计算每个候选文本的得分,根据候选文本的得分确定到的文本识别结果更加准确,从而可以保证后续生成的语音控制指令的准确性。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例1提供的一种语音控制指令生成方法的流程示意图;图2为本发明实施例4提供的一种语音控制指令生成方法的结果示意图;图3为本发明实施例5提供的一种语音控制指令生成装置的结构示意图;图4为本发明实施例6提供的一种电子设备。具体实施方式下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。实施例1:图1为本发明实施例提供的一种语音控制指令生成方法的流程示意图,该方法包括以下步骤:s101:根据接收到的语音信息获取待输出的文本,识别所述待输出的文本中的数字及所述数字在所述文本中的位置。为了方便用户对智能设备的控制,用户可以通过语音的方式输入进行控制的语音信息。当对智能设备进行控制的设备接收到该语音信息后,根据该语音信息获取待输出的文本。具体的,可以通过对语音信息的语义识别进行待输出的文本的获取。而语音文本中数字形式的正确输出,将会直接影响语音文本整体的语义理解的准确性以及输出的语音控制指令的准确性。为了能够正确的输出语音文本中的每个数字,针对语音信息获取了其对应的待输出的文本后,语言模型首先需要确定待输出的文本中是否存在数字,如果存在数字时,识别具体的数字及数字在该文本中的位置,以便于后续对该位置处的数字进行处理。具体的,因为文本中包含的数字可能是两种形式,一种是中文数字,也就是一二三四五六七八九十零等,另一种是阿拉伯数字,包括0-9的数字,因此可以根据该规则,识别文本中的数字,并根据识别出的数字记录其位置。s102:将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本。由于最终输出的文本识别结果中的数字不确定该数字应该为中文数字还是阿拉伯数字,因此,为了保证后续确定的文本识别结果的准确性,当识别到待输出的文本中存在数字时,因为记录了数字的位置,而数字一般包括中文数字和阿拉伯数字,因此可以将该位置的数字转化为中文数字从而确定一个候选文本,并将该位置的数字转化为阿拉伯数字从而再确定一个候选文本。如果待输出的文本中有多个位置存在数字,而每个位置的数字都将存在两种形式,因此将该多个位置的数字转化后的每种数字形式分别结合,将得到多个候选文本。例如待输出的文本为三生三世,则可以得到的候选文本分别为:三生三世,三生3世,3生三世、3生3世。s103:根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分,根据候选文本的得分确定文本识别结果。得到不同的候选文本后,对每个候选文本进行分词处理,得到每个候选文本的分词结果。具体的分词处理过程可以是基于预先建立的分词基础词典。对候选文本进行分词处理得到每个分词后,因为每个分词的词性不同,含义不同,因此其在文本中的重要程度也是不同的,具体的在本发明实施例中,可以预先设置每个分词的权重,而对数字而言,该数字为中文数字还是阿拉伯数字其对应的分词的权重很可能是不同的。例如对应三生,该词具有明显的含义,可以将其权重设置的比较高,而如果分词为3生,该词可能不常用,其对应的权重就会稍微低些。具体可以根据每个分词是否被使用过,确定每个分词的权重,具体的预先设置权重的过程可以由有经验的人,或者通过预先设置的识别方法来确定。另外,分词的长度也就是分词包含的字符的数量直接影响到分词的重要性,因此在本发明实施例中根据每个分词的权重及分词的长度,可以确定每个候选文本的得分,也就是标识该候选文本的结果的合理度。具体的,针对文本中任一分词,该分词的长度和权重的乘积作为该分词的得分,该文本中每个分词的得分的和为该文本的得分,其中,可能的一种实施方式为,直接将该得分作为该文本的最终得分;另外一种实施方式为,将该得分进行归一化处理后作为该文本的最终得分。s104:将所述文本识别结果及预先设定的标准文本进行匹配,根据匹配成功的标准文本生成语音控制指令。得到文本识别结果后,为了准确的向智能设备发送语音控制指令,在本发明实施例的进行控制的设备中预先保存有标准文本库,其中该标准文本库中保存有能够对智能设备控制的标准文本,并针对每个标准文本保存有对应的语音控制指令。当确定了文本识别结果后,将该文本识别结果与标准文件库中的标准文本进行匹配,如果存在匹配成功的标准文本,则将该匹配成功的标准文本对应的语音控制指令作为生成的语音控制指令。由于在本发明实施例中,通过将识别的数字在文本中的位置处的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本,并计算每个候选文本的得分,根据候选文本的得分确定到的文本识别结果更加准确,从而可以保证后续生成的语音控制指令的准确性。实施例2:为了更加准确的确定待输出文本中的数字及数字的位置,在上述实施例的基础上,在本发明实施例中,所述识别待输出的文本中的数字及所述数字在所述文本中的位置包括:将所述待输出的文本中的第一个字符作为待检测的字符;采用当前长度的滑动窗口滑动到所述待检测的字符,判断该滑动窗口内的字符串是否为满足数字规则的字符串;如果是,对记录的所述待检测的字符对应的字符串在所述文本中的位置进行更新,并将所述滑动窗口增加设定长度,继续根据所述待检测的字符和改变长度后的滑动窗口,对对应的字符串进行判断;如果否,根据记录的所述待检测的字符对应的字符串在所述文本中的位置,将所述位置后的下一字符作为待检测字符进行判断。为了检测出待输出的文本中的每个数字及其位置,可以预先设置相应的数字规则,因为在待输出的文本中该数字可能是以中文数字的方式体现的,也可能是以阿拉伯数字的方式体现的。对于中文数字一般为一二三四五六七八九十零等,而对于阿拉伯数字一般包括0-9。当出现中文数字时,一般会在该中文数字的后面还要出现各种位词,例如亿万千百十等。因此可以根据上述规律,确定对应的数字规则的条件,具体的在本发明实施例中所述满足数字规则的字符串包括:全部为阿拉伯数字的字符串;或由中文数字和位词构成的字符串。具体的可以根据上述的数字规则,确定对应的正则表达式,采用该正则表达式检测待输出的文本中的数字及其位置。下述表1为上述的数字规则:数字类型自定义数字规则数字举例汉字数字([系数词][位词]){1,}十万,一千零一,一九四九阿拉伯数字[0-9]{1,}100000,3008,1949表1在本发明实施例中,采用滑动窗口的方法从待输出的文本中获取满足上述数字规则的数字字符串及位置信息,当识别出每个数字字符串后,为了方便后续处理可以以单元形式存储该数字字符串及其位置信息。具体地,在本发明实施例中采用一种变长的滑动窗口方法,从待输出的文本中获取满足上述数字规则的数字字符串及位置信息。以待输出的文本为“九天零一个清晨”为例进行说明,首先将滑动窗口的长度设置为1。从文本的第一个字符开始,开始滑动该滑动窗口,此时第一个字符位于滑动窗口内,此时该第一个字符为九,根据上述的数字规则,该字符串满足上述数字规则,为了判断与该字符相邻的位于该字符之后的下一个字符与该字符构成的字符串是否满足上述数字规则,此时将滑动窗口的长度增加一个字符,判断长度调整后的位于滑动窗口内的字符串是否满足上述数字规则,此时该字符串为九天,不满足上述数字规则,因此此时记录数字字符串为九,位置为待输出文本的第一个字符。之后进行后续字符的判断。因为第二个字符“天”非数字,为了判断天之后的下一个字符是否满足数字规则,将滑动窗口的长度重新设置为1,滑动该滑动窗口,此时第三个字符位于滑动窗口内,该第三个字符为零,根据上述的数字规则,该字符串满足上述数字规则。为了判断与该字符相邻的位于该字符之后的下一个字符与该字符构成的字符串是否满足上述数字规则,此时将滑动窗口的长度增加一个字符,判断长度调整后的位于滑动窗口内的字符串是否满足上述数字规则,此时该字符串为零一,根据上述的数字规则,该字符串满足上述数字规则;为了判断与该字符串相邻的位于该字符串之后的下一个字符与该字符串构成的字符串是否满足上述数字规则,此时将滑动窗口的长度再增加一个字符,判断长度调整后的位于滑动窗口内的字符串是否满足上述数字规则,此时该字符串为零一个,不满足上述数字规则,因此此时记录数字字符串为零一,位置为待输出文本的第三个字符和第四个字符。因为第五个字符“个”非数字,为了判断个之后的字符是否满足数字规则,将滑动窗口的长度重新设置为1,将该滑动窗口滑动第六个字符,此时第六个字符为清,不满足上述数字规则。并将该滑动窗口向后滑动,该第七个字符为晨,不满足上述数字规则,此时该字符为该文本的最后一个字符,结束滑动窗口的滑动。如表2-表6的滑动窗口滑动识别数字字符串的过程示意图。九天零一个清晨表2九天零一个清晨表3九天零一个清晨表4九天零一个清晨表5九天零一个清晨表6实施例3:为了进一步地提高语音理解的准确性,在上述各实施例的基础上,在本发明实施例中,所述将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字包括:将所述待输出的文本中归属于同一字符串的数字同时转换为中文数字,或阿拉伯数字。归属于同一字符串的数字是指相邻的数字,例如上述例子中的九天零一个清晨中的两个数字零和一,两个数字相邻,因此可以将该两个数字作为归属于同一字符串的数字。而我们在语音时,一般如果说出了一串数字,则该串数字同为阿拉伯数字或者同为中文数字的可能性比较大。因此在本发明实施例中将归属于同一字符串的数字同时转换为中文数字,或阿拉伯数字。还是以上面的例子进行说明,如表7所示最终确定的候选文本为:9天零一个清晨、九天零一个清晨、九天01个清晨、9天01个清晨。索引候选文本值09天零一个清晨1九天零一个清晨29天01个清晨3九天01个清晨表7实际上在确定候选文本时,还包括了候选文本:九天零1个清晨,九天0一个清晨,9天零1个清晨和9天0一个清晨,但因为在这些候选文本中归属于同一字符串的数字零和1并非都是同为中文数字或者阿拉伯数字,而这些候选文本作为最终输出的文本识别结果的可能性很小,因此在本发明实施例中将这些候选文本删除,只保留了归属于同一字符串的数字同时转换为中文数字,或阿拉伯数字的候选文本。实施例4:为了准确的确定语音文本对应的文本识别结果,在上述各实施例的基础上,在本发明实施例中,所述根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分包括:根据确定候选文本的得分,其中scoretext表示候选文本的得分,lengthtext为候选文本的长度,为第i个分词的长度,为第i个分词的权重。为了准确的确定语音文本对应的文本识别结果,在本发明实施例中,针对所有候选文本,分别计算每个候选文本对应的得分。因为一般实体词是有具体的含义的,这些实体词即为字典中出现过的分词,因此可以根据该特性设置实体词集合,该实体词集合中包含有各个实体词,该实体词集合中的各实体词对应第一权重,非该实体词集合中的分词对应第二权重,且该第一权重大于第二权重。例如该第一权重为0.7或0.6,第二权重为0.3或0.4等。具体的,针对候选文本中任一分词,将该分词的长度和权重的乘积作为该分词的得分,将该候选文本中每个分词的得分求和,最后计算求和后的值与该候选文本的长度的比值,该比值即为该候选文本的得分。该得分越大,则该候选文本为越有可能为最终的文本识别结果。还以“九天零一个清晨”这个文本为例进行说明,根据数字识别的结果,获得了四个候选文本,对该四个候选文本进行分词。第一个候选文本为“9天零一个清晨”,其对应的分词的结果为“9天零一个清晨”,9天零一个清晨为一个实体词,在本实施例中以实体词对应的权重为0.7,非实体词对应的权重为0.3进行说明。因此该第一个候选文本的得分为:第二个候选文本为“九天零一个清晨”,其对应的分词的结果为“九天,零,一个,清晨”,九天和清晨均为实体词,零和一个为非实体词,因此该第二个候选文本的得分为:第三个候选文本为“9天01个清晨”,其对应的分词的结果为“9,天,0,1,个,清晨”,其中,清晨为实体词,其余分词均为非实体词,该第三个候选文本的得分为:第四个候选文本为“九天01个清晨”,其对应的分词后的结果为“九天,0,1,个,清晨”,其中九天和清晨为实体词,其余分词为非实体词,该第四个候选文本的得分为:如表8中每个候选文本对应的得分,根据每个候选文本的得分可知,第一个候选文本为最佳的文本识别结果。索引候选文本值候选文本分词结果得分09天零一个清晨9天零一个清晨0.701九天零一个清晨九天,零,一个,清晨0.5229天01个清晨9,天,0,1,个,清晨0.413九天01个清晨九天,0,1,个,清晨0.52表8根据本发明实施例提供的文本识别方法,可以有效的解决数字形式识别错误的以下几类问题,第一类是将中文数字识别为阿拉伯数字的情形,如5月天(歌手名),3生3世十里桃花(电视剧名),10万个为什么(电视剧名);第二类是将阿拉伯数字识别为中文数字的情形,如京城八十一号(电影名),三十八度六(歌曲名);第三类是混合识别,如9天零一个清晨(电影名),高三3班的秘密(电视剧名)。下面结合图2介绍本发明实施例提供的一种文本识别方法的流程示意图,图2中待输出的文本为“3生3世十里桃花”。首先,采用变长的滑动窗口方法,从待输出的文本中获取满足数字规则的数字字符串及位置信息,即图2中的第一个字符3,第三个字符3和第五个字符十;然后,将该待输出的文本中该位置信息的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本,如图2的不同的候选文本:三生3世十里桃花、三生三世十里桃花、3生三世十里桃花、3生3世十里桃花。针对每个候选文本进行分词处理,得到每个候选文本对应的分词的结果,其中三生3世十里桃花的分词的结果为:三生,3世,十里桃花,其中三生、3世和十里桃花为实体词,该候选文本的得分为:三生三世十里桃花的分词的结果为:三生三世十里桃花;其中三生三世十里桃花为一个实体词,该候选文本的得分为:3生三世十里桃花的分词的结果为:3,生,三世,十里桃花;其中三世和十里桃花为实体词,该候选文本的得分为:3生3世十里桃花的分词的结果为:3,生,3,世,十里桃花;其中十里桃花为实体词,该候选文本的得分为:根据每个候选文本的得分可知,其中三生3世十里桃花和三生三世十里桃花的得分均为0.7,可以选取任一候选文本作为最佳的文本识别结果,也可以选取分词的数量最小的候选文本作为最佳的文本识别结果,如“三生三世十里桃花”为最佳的文本识别结果。其中需要说明的是每个候选文本输出的分词的结果不止一个,图2中仅展示了每个候选文本对应的其中一种分词结果,如候选文本3生3世十里桃花的分词的结果也可能为:3生,3世,十里,桃花,或3生,3,世,十里,桃花等。实施例5:图3为本发明实施例提供的一种语音控制指令生成装置的结构示意图,该装置包括:识别模块301,用于根据接收到的语音信息获取待输出的文本,识别所述待输出的文本中的数字及所述数字在所述文本中的位置;生成模块302,用于将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本;确定模块303,用于根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分,根据候选文本的得分确定文本识别结果;匹配确定模块304,用于将所述文本识别结果及预先设定的标准文本进行匹配,根据匹配成功的标准文本生成语音控制指令。进一步地,所述识别模块301,具体用于将所述待输出的文本中的第一个字符作为待检测的字符;采用当前长度的滑动窗口滑动到所述待检测的字符,判断该滑动窗口内的字符串是否为满足数字规则的字符串;如果是,对记录的所述待检测的字符对应的字符串在所述文本中的位置进行更新,并将所述滑动窗口增加设定长度,继续根据所述待检测的字符和改变长度后的滑动窗口,对对应的字符串进行判断;如果否,根据记录的所述待检测的字符对应的字符串在所述文本中的位置,将所述位置后的下一字符作为待检测字符进行判断。进一步地,所述生成模块302,具体用于将所述待输出的文本中归属于同一字符串的数字同时转换为中文数字,或阿拉伯数字。进一步地,所述确定模块303,具体用根据确定候选文本的得分,其中scoretext表示候选文本的得分,lengthtext为候选文本的长度,为第i个分词的长度,为第i个分词的权重。实施例6:在上述各实施例的基础上,本发明实施例还提供了一种电子设备400,如图4所示,包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信;所述存储器403中存储有计算机程序,当所述程序被所述处理器401执行时,使得所述处理器401执行如下步骤:根据接收到的语音信息获取待输出的文本,识别所述待输出的文本中的数字及所述数字在所述文本中的位置;将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字,确定不同的候选文本;根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分,根据候选文本的得分确定文本识别结果;将所述文本识别结果及预先设定的标准文本进行匹配,根据匹配成功的标准文本生成语音控制指令。进一步地,所述识别待输出的文本中的数字及所述数字在所述文本中的位置包括:将所述待输出的文本中的第一个字符作为待检测的字符;采用当前长度的滑动窗口滑动到所述待检测的字符,判断该滑动窗口内的字符串是否为满足数字规则的字符串;如果是,对记录的所述待检测的字符对应的字符串在所述文本中的位置进行更新,并将所述滑动窗口增加设定长度,继续根据所述待检测的字符和改变长度后的滑动窗口,对对应的字符串进行判断;如果否,根据记录的所述待检测的字符对应的字符串在所述文本中的位置,将所述位置后的下一字符作为待检测字符进行判断。进一步地,所述满足数字规则的字符串包括:全部为阿拉伯数字的字符串;或由中文数字和位词构成的字符串。进一步地,所述将所述待输出的文本中所述位置的数字分别转换为中文数字和阿拉伯数字包括:将所述待输出的文本中归属于同一字符串的数字同时转换为中文数字,或阿拉伯数字。进一步地,所述根据候选文本分词后每个分词的权重及分词的长度,确定候选文本的得分包括:根据确定候选文本的得分,其中scoretext表示候选文本的得分,lengthtext为候选文本的长度,为第i个分词的长度,为第i个分词的权重。上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口402用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器,包括中央处理器、网络处理器(networkprocessor,np)等;还可以是数字指令处理器(digitalsignalprocessing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1