确定目标文本所属业务类别的方法及装置与流程

文档序号:12124511阅读:260来源:国知局
本发明涉及计算机
技术领域
,特别涉及一种确定目标文本所属业务类别的方法及装置。
背景技术
:随着计算机技术的快速发展,越来越多的终端已经能够支持语音操作,如智能手机、智能电视等终端均可以使用户通过语音对其进行操作。用户通过语音对终端进行操作时,终端往往会先将接收到的语音转换为文本,再对该文本进行分类,以确定该文本所属的业务类别,进而根据该文本所属的业务类别来进行相应的业务处理。相关技术中,提供的确定目标文本所属业务类别的方法为:获取待处理的目标文本,对目标文本进行词法、句法和语义分析,根据分析结果来确定目标文本所属的业务类别。由于对目标文本进行词法、句法和语义分析的操作较为复杂,因此,该文本所属业务类别的确定过程较为繁琐,文本所属业务类别的确定耗时较长,文本所属业务类别的确定效率较低。技术实现要素:为了解决相关技术的问题,本发明实施例提供了一种确定目标文本所属业务类别的方法及装置。所述技术方案如下:一方面,提供了一种确定目标文本所属业务类别的方法,所述方法包括:接收待处理的目标文本;确定所述目标文本与指定文本之间的相似度,所述指定文本为存储在文本知识库中的已确定所属业务类别的文本;当所述目标文本与所述指定文本之间的相似度大于或等于相似度阈值时,将所述指定文本所属的业务类别确定为所述目标文本所属的业务类别。可选地,所述确定所述目标文本与指定文本之间的相似度,包括:判断所述目标文本包含的字符串与所述指定文本包含的字符串是否相同;当所述目标文本包含的字符串与所述指定文本包含的字符串相同时,确定所述目标文本与所述指定文本相同。可选地,所述确定所述目标文本与指定文本之间的相似度,包括:获取所述目标文本的第一切词结果和所述指定文本的第二切词结果,所述第一切词结果中包括多个第一词语,所述第二切词结果中包括多个第二词语;根据所述第一切词结果和所述第二切词结果,确定所述目标文本对应的第一文本向量和所述指定文本对应的第二文本向量,其中,所述第一文本向量用于表征所述第一切词结果和所述第二切词结果中的各个词语在所述第一切词结果中出现的次数,所述第二文本向量用于表征所述第一切词结果和所述第二切词结果中的各个词语在所述第二切词结果中出现的次数;计算所述第一文本向量与所述第二文本向量之间的相似度;根据所述第一文本向量与所述第二文本向量之间的相似度确定所述目标文本与所述指定文本之间的相似度。可选地,所述确定所述目标文本与指定文本之间的相似度,包括:获取所述目标文本的第一标注结果和所述指定文本的第二标注结果,所述第一标注结果中包括多个第一属性词,所述第二标注结果中包括多个第二属性词,所述第一属性词和所述第二属性词均用于指示词语类型;根据所述第一标注结果和所述第二标注结果,确定所述目标文本对应的第一属性向量和所述指定文本对应的第二属性向量,其中,所述第一属性向量用于表征所述第一标注结果和所述第二标注结果中的各个属性词在所述第一标注结果中出现的次数,所述第二属性向量用于表征所述第一标注结果和所述第二标注结果中的各个属性词在所述第二标注结果中出现的次数;计算所述第一属性向量与所述第二属性向量之间的相似度;根据所述第一属性向量与所述第二属性向量之间的相似度确定所述目标文本与所述指定文本之间的相似度。可选地,所述获取所述目标文本的第一标注结果,包括:获取所述目标文本的第一切词结果,所述第一切词结果中包括多个第一词语;分别对所述多个第一词语进行类型标注,得到多个标注词;去除所述多个标注词中的指定标注词,得到所述第一标注结果。可选地,所述计算所述第一属性向量与所述第二属性向量之间的相似度,包括:获取所述第一标注结果和第二标注结果中各个属性词的权重;基于所述第一属性向量和所述各个属性词的权重,生成第一向量,所述第一向量的第i个元素为所述第一属性向量的第i个元素与第一权重的乘积,所述第一权重为所述第一属性向量的第i个元素对应的属性词的权重,所述第一向量的第i个元素为所述第一向量的任一元素;基于所述第二属性向量和所述各个属性词的权重,生成第二向量,所述第二向量的第i个元素为所述第二属性向量的第i个元素与第二权重的乘积,所述第二权重为所述第二属性向量的第i个元素对应的属性词的权重,所述第二向量的第i个元素为所述第二向量的任一元素;计算所述第一向量与所述第二向量之间的相似度;根据所述第一向量与所述第二向量之间的相似度确定所述第一属性向量与所述第二属性向量之间的相似度。另一方面,提供了一种确定目标文本所属业务类别的装置,所述装置包括:接收模块,用于接收待处理的目标文本;第一确定模块,用于确定所述目标文本与指定文本之间的相似度,所述指定文本为存储在文本知识库中的已确定所属业务类别的文本;第二确定模块,用于当所述目标文本与所述指定文本之间的相似度大于或等于相似度阈值时,将所述指定文本所属的业务类别确定为所述目标文本所属的业务类别。可选地,所述第一确定模块包括:判断单元,用于判断所述目标文本包含的字符串与所述指定文本包含的字符串是否相同;第一确定单元,用于当所述目标文本包含的字符串与所述指定文本包含的字符串相同时,确定所述目标文本与所述指定文本相同。可选地,所述第一确定模块包括:第一获取单元,用于获取所述目标文本的第一切词结果和所述指定文本的第二切词结果,所述第一切词结果中包括多个第一词语,所述第二切词结果中包括多个第二词语;第二确定单元,用于根据所述第一切词结果和所述第二切词结果,确定所述目标文本对应的第一文本向量和所述指定文本对应的第二文本向量,所述第一文本向量用于表征所述第一切词结果和所述第二切词结果中的各个词语在所述第一切词结果中出现的次数,所述第二文本向量用于表征所述第一切词结果和所述第二切词结果中的各个词语在所述第二切词结果中出现的次数;第一计算单元,用于计算所述第一文本向量与所述第二文本向量之间的相似度;第三确定单元,用于根据所述第一文本向量与所述第二文本向量之间的相似度确定所述目标文本与所述指定文本之间的相似度。可选地,所述第一确定模块包括:第二获取单元,用于获取所述目标文本的第一标注结果和所述指定文本的第二标注结果,所述第一标注结果中包括多个第一属性词,所述第二标注结果中包括多个第二属性词,所述第一属性词和所述第二属性词均用于指示词语类型;第四确定单元,用于根据所述第一标注结果和所述第二标注结果,确定所述目标文本对应的第一属性向量和所述指定文本对应的第二属性向量,所述第一属性向量用于表征所述第一标注结果和所述第二标注结果中的各个属性词在所述第一标注结果中出现的次数,所述第二属性向量用于表征所述第一标注结果和所述第二标注结果中的各个属性词在所述第二标注结果中出现的次数;第二计算单元,用于计算所述第一属性向量与所述第二属性向量之间的相似度;第五确定单元,用于根据所述第一属性向量与所述第二属性向量之间的相似度确定所述目标文本与所述指定文本之间的相似度。可选地,所述第二获取单元包括:第一获取子单元,用于获取所述目标文本的第一切词结果,所述第一切词结果中包括多个第一词语;标注子单元,用于分别对所述多个第一词语进行类型标注,得到多个标注词;去除子单元,用于去除所述多个标注词中的指定标注词,得到所述第一标注结果。可选地,所述第二计算单元包括:第二获取子单元,用于获取所述第一标注结果和所述第二标注结果中各个属性词的权重;第一生成子单元,用于基于所述第一属性向量和所述各个属性词的权重,生成第一向量,所述第一向量的第i个元素为所述第一属性向量的第i个元素与第一权重的乘积,所述第一权重为所述第一属性向量的第i个元素对应的属性词的权重,所述第一向量的第i个元素为所述第一向量的任一元素;第二生成子单元,用于基于所述第二属性向量和所述各个属性词的权重,生成第二向量,所述第二向量的第i个元素为所述第二属性向量的第i个元素与第二权重的乘积,所述第二权重为所述第二属性向量的第i个元素对应的属性词的权重,所述第二向量的第i个元素为所述第二向量的任一元素;计算子单元,用于计算所述第一向量与所述第二向量之间的相似度;确定子单元,用于根据所述第一向量与所述第二向量之间的相似度确定所述第一属性向量与所述第二属性向量之间的相似度。本发明实施例提供的技术方案带来的有益效果是:在本发明实施例中,接收待处理的目标文本后,可以确定目标文本与指定文本之间的相似度,并当目标文本与指定文本之间的相似度大于或等于相似度阈值时,可以将指定文本所属的业务类别确定为目标文本所属的业务类别,也即是,本发明仅利用该文本知识库中已经分类好的指定文本,即可简单快速地完成对目标文本的分类,从而相比于相关技术中需要对目标文本进行词法、句法和语义分析的繁琐分类过程,本发明可以大大节省文本所属业务类别的确定时间,提高文本所属业务类别的确定效率。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种确定目标文本所属业务类别的方法的流程图;图2是本发明实施例提供的一种确定目标文本所属业务类别流程的示意图;图3A是本发明实施例提供的一种确定目标文本所属业务类别的装置的结构示意图;图3B是本发明实施例提供的一种第一确定模块的结构示意图;图3C是本发明实施例提供的另一种第一确定模块的结构示意图;图3D是本发明实施例提供的又一种第一确定模块的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用场景予以说明。本发明实施例提供的确定目标文本所属业务类别的方法应用于终端中,该终端可以为计算机、平板电脑、PDA(PersonalDigitalAssistant,个人数字助理)、智能手机、智能电视等,本发明实施例对此不做具体限定。进一步地,该终端至少具有语音操作功能,用于接收用户输入的语音,并基于该语音执行相应的操作。图1是本发明实施例提供的一种确定目标文本所属业务类别的方法流程图,该方法用于终端中。参见图1,该方法包括:步骤101:接收待处理的目标文本。在进行语音操作时,终端往往需要对用户输入的语音进行分析,以理解用户意图,进而执行相应的操作。而在对用户输入的语音进行分析时,终端通常会先将该语音转换为文本,再对该文本进行分类处理,以便后续基于分类结果来进行相应的业务处理,此时该待处理的文本即是目标文本。因此,终端在接收待处理的目标文本时,可以在检测到语音操作指令后,接收输入的语音,将该语音转换为文本,并将该文本确定为目标文本。需要说明的是,语音操作指令用于指示进行语音操作,且该语音操作指令可以由用户触发,该用户可以通过指定操作触发,指定操作可以为单击操作、双击操作、滑动操作等。另外,将该语音转换为文本时,可以通过语音文本转换程序或者安装的语音文本转换软件等来进行转换,本发明实施例对此不做具体限定。需要说明的是,实际应用中,终端不仅可以将由输入的语音转换为的文本确定为目标文本,当然,也可以将其它文本确定为目标文本,如可以将由通过物理键盘、虚拟键盘、触摸屏等直接输入的文本确定为目标文本,或者,可以将其它设备通过网络发送的待处理文本确定为目标文本等,本发明实施例对此不做具体限定。步骤102:确定目标文本与指定文本之间的相似度,指定文本为存储在文本知识库中的已确定所属业务类别的文本。需要说明的是,文本知识库中存储的均为已确定所属业务类别的指定文本,该业务类别可以包括看视频、听音乐、查节目单、查天气等。另外,在构建该文本知识库时,可以在使用词法、句法和语义分析的理解系统运行一段时间后,将该理解系统已经理解的文本,即已确定所属业务类别的文本直接添加到该文本知识库中。当然,也可以由终端自动或用户手动对这些已经理解的文本进行筛选,从中选取质量较好的文本添加到该文本知识库中,该质量较好的文本可以为不包含过多的语气词、停用词等的文本。用户在进行相似的业务操作时,其输入的文本的相似度通常会比较高,例如,用户第一次观看刘德华的电影赌神时,输入的文本是“帮我播放刘德华的电影赌神”,进而进入看视频的业务类别;当用户再一次想看刘德华的电影赌神时,根据其输入习惯,输入的文本很有可能是“帮我播放刘德华的电影赌神”,或者当用户想看刘德华的电影天下无贼时,根据其输入习惯,输入的文本很有可能是“帮我播放刘德华的电影天下无贼”,则此时可以不对该输入的文本进行句法、语法和语义分析,即可确定该文本所属的业务类别为看视频。也即是,本发明实施例在确定目标文本所属的业务类别时,可以不对目标文本进行句法、语法和语义分析,只需确定目标文本与指定文本之间的相似度,进而根据该相似度即可确定目标文本所属的业务类别。其中,确定目标文本与指定文本之间的相似度的操作可以通过如下三种方式来实现。第一种方式:判断目标文本包含的字符串与指定文本包含的字符串是否相同;当目标文本包含的字符串与指定文本包含的字符串相同时,确定目标文本与指定文本相同。需要说明的是,上述第一种方式可以由文本字符匹配模块来执行,本发明实施例对此不做具体限定。值得说明的是,上述第一种方式仅需比对字符串是否相同即可确定目标文本与指定文本之间的相似度,该确定过程简单方便,确定效率较高。另外,确定目标文本与指定文本相同,即是确定目标文本与指定文本之间的相似度达到最高值,如当相似度在0到1之间时,目标文本与指定文本相同即是指目标文本与指定文本之间的相似度为1;当相似度在0-2之间时,目标文本与指定文本相同即是指目标文本与指定文本之间的相似度为2。再者,判断目标文本包含的字符串与指定文本包含的字符串是否相同的操作与相关技术中判断某两个字符串是否相同的操作类似,本发明实施例对此不进行详细阐述。例如,目标文本为“切换到湖南卫视”,指定文本为“切换到湖南卫视”,则可以确定目标文本包含的字符串与指定文本包含的字符串相同,确定目标文本与指定文本相同。第二种方式:获取目标文本的第一切词结果和指定文本的第二切词结果,第一切词结果中包括多个第一词语,第二切词结果中包括多个第二词语;根据第一切词结果和第二切词结果,确定目标文本对应的第一文本向量和指定文本对应的第二文本向量,其中,第一文本向量用于表征第一切词结果和第二切词结果中的各个词语在第一切词结果中出现的次数,第二文本向量用于表征第一切词结果和第二切词结果中的各个词语在第二切词结果中出现的次数;计算第一文本向量与第二文本向量之间的相似度;根据第一文本向量与第二文本向量之间的相似度确定目标文本与指定文本之间的相似度。需要说明的是,上述第二种方式可以由文本相似度计算模块来执行,本发明实施例对此不做具体限定。值得说明的是,上述第二种方式根据第一文本向量与第二文本向量之间的相似度确定目标文本与指定文本之间的相似度,该确定过程简单易行,耗时较短,且可以较为准确地得到目标文本与指定文本之间的相似度。其中,获取目标文本的第一切词结果时,可以对目标文本进行切词,得到多个第一词语,该多个第一词语即为目标文本的第一切词结果。且对目标文本进行切词时,可以使用字典、词库匹配的切词方法,或者使用基于词频统计的切词方法,或者使用基于知识理解的切词方法等来对目标文本进行切词,本发明实施例对此不做具体限定。例如,目标文本为“我要听刘德华的忘情水”,则可以对目标文本进行切词,得到多个第一词语为我要、听、刘德华、的、忘情水,此时目标文本的第一切词结果即可表示为[我要,听,刘德华,的,忘情水]。其中,获取指定文本的第二切词结果时,可以从该文本知识库中直接获取指定文本的第二切词结果;或者,可以对指定文本进行切词,得到多个第二词语,该多个第二词语即为指定文本的第二切词结果,本发明实施例对此不做具体限定。需要说明的是,该文本知识库中存储的指定文本是基于使用词法、句法和语义分析的理解系统已经理解的文本确定得到的,由于在该理解系统理解文本的过程中会对文本进行切词,因此,在将该已经理解的文本添加到该文本知识库中时,可以直接将该文本的切词结果也对应添加到该文本知识库中,以便后续能够从该文本知识库中直接获取指定文本的第二切词结果。其中,根据第一切词结果和第二切词结果,确定目标文本对应的第一文本向量和指定文本对应的第二文本向量时,可以确定第一切词结果和第二切词结果中的各个词语在第一切词结果中出现的次数,并确定该各个词语在第二切词结果中出现的次数;基于该各个词语在第一切词结果中出现的次数,生成第一文本向量;基于该各个词语在第二切词结果中出现的次数,生成第二文本向量。例如,第一切词结果为[我要,听,刘德华,的,忘情水],第二切词结果为[我想,听,刘德华,的,忘情水],则可知第一切词结果和第二切词结果中的各个词语分别为我要、我想、听、刘德华、的、忘情水。之后,可以基于该各个词语在第一切词结果中出现的次数,生成第一文本向量为[1,0,1,1,1,1],基于该各个词语在第二切词结果中出现的次数,生成第二文本向量为[0,1,1,1,1,1]。其中,计算第一文本向量与第二文本向量之间的相似度时,可以基于第一文本向量和第二文本向量,通过如下指定公式得到第一文本向量与第二文本向量之间的相似度;指定公式:需要说明的是,cosθ为第一文本向量与第二文本向量之间的相似度,A为第一文本向量,Ak为第一文本向量A的第k个元素,B为第二文本向量,Bk为第二文本向量B的第k个元素,k不小于1且不大于n,n为第一文本向量A或第二文本向量B的维数,第一文本向量A的维数与第二文本向量B的维数相等。还需要说明的是,实际应用中也可以通过其它方式计算第一文本向量与第二文本向量之间的相似度,如可以将第一文本向量与第二文本向量之间的欧几里得距离、曼哈顿距离、马哈拉诺比斯距离等确定为第一文本向量与第二文本向量之间的相似度,本发明实施例对此不做具体限定。其中,根据第一文本向量与第二文本向量之间的相似度确定目标文本与指定文本之间的相似度时,可以将第一文本向量与第二文本向量之间的相似度直接确定为目标文本与指定文本之间的相似度;或者,可以将第一文本向量与第二文本向量之间的相似度与指定数值相乘,得到目标文本与指定文本之间的相似度,本发明实施例对此不做具体限定。需要说明的是,指定数值可以预先设置,且指定数值可以为大于0的数值,如指定数值可以为1.5、2等。第三种方式:获取目标文本的第一标注结果和获取指定文本的第二标注结果,第一标注结果中包括多个第一属性词,第二标注结果中包括多个第二属性词,第一属性词和第二属性词均用于指示词语类型;基于第一标注结果和第二标注结果,确定目标文本对应的第一属性向量和指定文本对应的第二属性向量,第一属性向量用于表征第一标注结果和第二标注结果中的各个属性词在第一标注结果中出现的次数,第二属性向量用于表征第一标注结果和第二标注结果中的各个属性词在第二标注结果中出现的次数;计算第一属性向量与第二属性向量之间的相似度;根据第一属性向量与第二属性向量之间的相似度确定目标文本与指定文本之间的相似度。需要说明的是,上述第三种方式可以由属性相似度计算模块来执行,本发明实施例对此不做具体限定。值得说明的是,上述第三种方式根据第一属性向量与第二属性向量之间的相似度确定目标文本与指定文本之间的相似度,从而强化了文本的属性信息,弱化了文本的原始信息,进而提高了确定目标文本与指定文本之间的相似度的效率。其中,获取目标文本的第一标注结果时,可以获取目标文本的第一切词结果,第一切词结果中包括多个第一词语;分别对该多个第一词语进行类型标注,得到多个标注词;去除该多个标注词中的指定标注词,得到第一标注结果。需要说明的是,指定标注词可以预先设置,且指定标注词可以为没有实际意义的词,如指定标注词可以为语气词、停用词等。另外,实际应用中,可以将某一文本的标注结果以第一指定形式组成一个新文本,该组成的新文本可以称为该文本的第一加工文本。如可以将第一标注结果以第一指定形式组成目标文本的第一加工文本,将第二标注结果以第一指定形式组成指定文本的第一加工文本。再者,第一指定形式可以预先设置,如第一指定形式可以为“属性词1,属性词2,……属性词m”、“属性词1;属性词2;……属性词m”等。其中,分别对该多个第一词语进行类型标注,得到多个标注词时,对于该多个第一词语中的每个第一词语,可以基于第一词语,从存储的词语与类型之间的对应关系中,获取对应的类型,将获取的类型确定为第一词语的标注词。当然,也可以通过其它方式分别对该多个第一词语进行类型标注,得到多个标注词,本发明实施例对此不做具体限定。例如,第一词语为刘德华,则可以基于第一词语刘德华,从如下表1所示的词语与类型之间的对应关系中,获取对应的类型为歌手,将歌手确定为刘德华的标注词。表1词语类型刘德华歌手忘情水歌名…………需要说明的是,本发明实施例中,仅以上述表1所示的词语与类型之间的对应关系为例进行说明,上述表1并不对本发明实施例构成限定。其中,获取指定文本的第二标注结果时,可以从该文本知识库中获取指定文本的第一加工文本,并从指定文本的第一加工文本中获取第二标注结果;或者可以获取指定文本的第二切词结果,第二切词结果中包括多个第二词语,分别对该多个第二词语进行类型标注,得到多个标注词,去除该多个标注词中的指定标注词,得到第二标注结果。需要说明的是,该文本知识库中存储的指定文本是基于使用词法、句法和语义分析的理解系统已经理解的文本确定得到的,由于在该理解系统理解文本的过程中会获得该文本的多个标注词,因此,在将该已经理解的文本添加到该文本知识库中时,可以先将该文本的多个标注词去除指定标注词后得到该文本的标注结果,再将该文本的标注结果组成该文本的第一加工文本,将该文本的第一加工文本对应添加到该文本知识库中,以便后续能够基于该文本知识库中存储的指定文本的第一加工文本,直接获取指定文本的第二标注结果。其中,根据第一标注结果和第二标注结果,确定目标文本对应的第一属性向量和指定文本对应的第二属性向量时,可以确定第一标注结果和第二标注结果中的各个属性词在第一标注结果中出现的次数,并确定该各个属性词在第二标注结果中出现的次数;基于该各个属性词在第一标注结果中出现的次数,生成第一属性向量;基于该各个属性词在第二标注结果中出现的次数,生成第二属性向量。例如,第一标注结果为[动词听,歌手,歌名],第二标注结果为[动词放,歌手,歌名],则可知第一标注结果和第二标注结果中的各个属性词分别为动词听、动词放、歌手、歌名。之后,可以基于该各个属性词在第一标注结果中出现的次数,生成第一属性向量为[1,0,1,1],基于该各个属性词在第二标注结果中出现的次数,生成第二属性向量为[0,1,1,1]。其中,计算第一属性向量与第二属性向量之间的相似度时,可以将第一属性向量与第二属性向量之间的余弦相似度、欧几里得距离、曼哈顿距离、马哈拉诺比斯距离等确定为第一属性向量与第二属性向量之间的相似度;或者可以获取第一标注结果和第二标注结果中的各个属性词的权重,基于第一属性向量、第二属性向量和该各个属性词的权重,确定第一属性向量与第二属性向量之间的相似度。需要说明的是,实际应用中,不仅可以将某一文本的标注结果以第一指定形式组成该文本的第一加工文本,还可以将该文本的标注结果和该标注结果中各个属性词的权重以第二指定形式组成该文本的第二加工文本。如可以将第一标注结果和第一标注结果中各个属性词的权重以第二指定形式组成目标文本的第二加工文本,将第二标注结果和第二标注结果中各个属性词的权重组成指定文本的第二加工文本。另外,第二指定形式可以预先设置,如第二指定形式可以为“属性词1_权重1,属性词2_权重2,……属性词m_权重m”、“属性词1_权重1;属性词2_权重2;……属性词m_权重m”等。其中,获取第一标注结果和第二标注结果中各个属性词的权重时,对于第一标注结果和第二标注结果中的每个属性词,可以基于该属性词,从存储的属性词与权重之间的对应关系中,获取对应的权重,该获取的权重即为该属性词的权重。当然,也可以通过其它方式获取第一标注结果和第二标注结果中各个属性词的权重,本发明实施例对此不做具体限定。例如,该属性词为歌手,则可以基于该属性词歌手,从如下表2所示的属性词与权重之间的对应关系中,获取对应的权重为1,该1即为歌手的权重。表2属性词权重歌手1歌名1…………需要说明的是,本发明实施例中,仅以上述表2所示的属性词与权重之间的对应关系为例进行说明,上述表2并不对本发明实施例构成限定。其中,获取第二标注结果中各个属性词的权重时,还可以从该文本知识库中获取指定文本的第二加工文本,并从指定文本的第二加工文本中获取第二标注结果中各个属性词的权重。需要说明的是,该文本知识库中存储的指定文本是基于使用词法、句法和语义分析的理解系统已经理解的文本确定得到的,由于在该理解系统理解文本的过程中会获得该文本的多个标注词,因此,在将该已经理解的文本添加到该文本知识库中时,可以先将该文本的多个标注词去除指定标注词后得到该文本的标注结果,再获取该文本的标注结果中各个属性词的权重,将该各个属性词和该各个属性词的权重组成该文本的第二加工文本,将该文本的第二加工文本对应添加到该文本知识库中,以便后续能够基于该文本知识库中存储的指定文本的第二加工文本,直接获取指定文本的第二标注结果中各个属性词的权重。其中,基于第一属性向量、第二属性向量和该各个属性词的权重,确定第一属性向量与第二属性向量之间的相似度时,可以基于第一属性向量和该各个属性词的权重,生成第一向量,第一向量的第i个元素为第一属性向量的第i个元素与第一权重的乘积,第一权重为第一属性向量的第i个元素对应的属性词的权重,第一向量的第i个元素为第一向量的任一元素;基于第二属性向量和该各个属性词的权重,生成第二向量,第二向量的第i个元素为第二属性向量的第i个元素与第二权重的乘积,第二权重为第二属性向量的第i个元素对应的属性词的权重,第二向量的第i个元素为第二向量的任一元素;计算第一向量与第二向量之间的相似度;根据第一向量与第二向量之间的相似度确定第一属性向量与第二属性向量之间的相似度。需要说明的是,当第一属性向量的第i个元素为某个属性词在第一标注结果中出现的次数时,该属性词即为第一属性向量的第i个元素对应的属性词。当第二属性向量的第i个元素为某个属性词在第二标注结果中出现的次数时,该属性词即为第二属性向量的第i个元素对应的属性词。另外,本发明实施例根据第一向量与第二向量之间的相似度确定第一属性向量与第二属性向量之间的相似度,即是将属性词和该属性词的权重结合起来作为依据来确定目标文本与指定文本之间的相似度,从而强化了文本的关键属性,弱化了文本的非关键属性,进而提高了确定目标文本与指定文本之间相似度的效率和准确率。其中,基于第一属性向量和该各个属性词的权重,生成第一向量时,可以将第一属性向量的第i个元素与第一权重的乘积确定为第一向量的第i个元素;判断i与第一属性向量的维数是否相等;当i与第一属性向量的维数不相等时,令i=i+1,返回将第一属性向量的第i个元素与第一权重的乘积确定为第一向量的第i个元素的步骤,直至i与第一属性向量的维数相等为止,即可得到第一向量的所有元素。需要说明的是,上述基于第一属性向量和该各个属性词的权重,生成第一向量的操作还可以基于权重向量实现,具体地,可以基于第一属性向量的各个元素对应的属性词的权重,生成第一权重向量,第一权重向量的第i个元素为第一属性向量的第i个元素对应的属性词的权重,第一权重向量的第i个元素为第一权重向量的任一元素;将第一属性向量的第i个元素与第一权重向量的第i个元素的乘积确定为第一向量的第i个元素;判断i与第一属性向量的维数是否相等;当i与第一属性向量的维数不相等时,令i=i+1,返回将第一属性向量的第i个元素与第一权重向量的第i个元素的乘积确定为第一向量的第i个元素的步骤,直至i与第一属性向量的维数相等为止,即可得到第一向量的所有元素。例如,第一属性向量为[1,0,1,1],第一属性向量的第1个元素对应的属性词的权重为0.8,第一属性向量的第2个元素对应的属性词的权重为0.7,第一属性向量的第3个元素对应的属性词的权重为1,第一属性向量的第4个元素对应的属性词的权重为1,则可以基于第一属性向量的各个元素对应的属性词的权重,生成第一权重向量为[0.8,0.7,1,1],之后,可以基于第一属性向量[1,0,1,1]和第一权重向量[0.8,0.7,1,1],生成第一向量为[0.8,0,1,1]。其中,基于第二属性向量和该各个属性词的权重,生成第二向量的操作与上述基于第一属性向量和该各个属性词的权重,生成第一向量的操作类似,本发明实施例对此不再赘述。其中,计算第一向量与第二向量之间的相似度时,可以将第一向量与第二向量之间的余弦相似度、欧几里得距离、曼哈顿距离、马哈拉诺比斯距离等确定为第一属性向量与第二属性向量之间的相似度,本发明实施例对此不做具体限定。其中,根据第一向量与第二向量之间的相似度确定第一属性向量与第二属性向量之间的相似度时,可以将第一向量与第二向量之间的相似度直接确定第一属性向量与第二属性向量之间的相似度;或者,可以将第一向量与第二向量之间的相似度与指定数值相乘,得到第一属性向量与第二属性向量之间的相似度,本发明实施例对此不做具体限定。其中,根据第一属性向量与第二属性向量之间的相似度确定目标文本与指定文本之间的相似度时,可以将第一属性向量与第二属性向量之间的相似度直接确定为目标文本与指定文本之间的相似度;或者,可以将第一属性向量与第二属性向量之间的相似度与指定数值相乘,得到目标文本与指定文本之间的相似度,本发明实施例对此不做具体限定。步骤103:当目标文本与指定文本之间的相似度大于或等于相似度阈值时,将指定文本所属的业务类别确定为目标文本所属的业务类别。由于当目标文本与指定文本之间的相似度大于或等于相似度阈值时,表明目标文本与指定文本的文本信息较为接近,因此,此时可以将指定文本所属的业务类别确定为目标文本所属的业务类别。需要说明的是,相似度阈值可以预先设置,如相似度阈值可以为0.8、0.9等。需要说明的是,实际应用中,还可以将步骤102中的三种方式结合起来实现本发明所提供的确定目标文本所属业务类别的方法,具体地,结合图2来对将步骤102中的三种方式结合后的确定目标文本所属业务类别流程进行说明,如图2所示,该确定目标文本所属业务类别流程包括如下步骤201-206:在步骤201中,接收待处理的目标文本;在步骤202中,将目标文本输入到文本字符匹配模块,以判断目标文本包含的字符串与指定文本包含的字符串是否相同;当判断为是时,确定目标文本与指定文本相同,继续执行步骤205;当判断为否时,继续执行步骤203;在步骤203中,将目标文本输入到文本相似度计算模块,以根据第一文本向量与第二文本向量之间的相似度确定目标文本与指定文本之间的相似度;判断目标文本与指定文本之间的相似度是否大于或等于相似度阈值;当判断为是时,继续执行步骤205;当判断为否时,继续执行步骤204;在步骤204中,将目标文本输入到属性相似度计算模块,以根据第一属性向量与第二属性向量之间的相似度确定目标文本与指定文本之间的相似度;判断目标文本与指定文本之间的相似度是否大于或等于相似度阈值;当判断为是时,继续执行步骤205;当判断为否时,继续执行步骤206;在步骤205中,将指定文本所属的业务类别确定为目标文本所属的业务类别;在步骤206中,将目标文本输入到使用词法、句法和语义分析的理解系统,以确定目标文本所属的业务类别。需要说明的是,上述步骤206中基于使用词法、句法和语义分析的理解系统,确定目标文本所属的业务类别后,还可以将目标文本直接添加到该文本知识库中,当然,也可以先确定目标文本是否为质量较好的文本,进而在确定目标文本为质量较好的文本后,再将目标文本添加到该文本知识库中,从而实现对该文本知识库的不断更新,使该文本知识库得以不断完善。在本发明实施例中,接收待处理的目标文本后,可以确定目标文本与指定文本之间的相似度,并当目标文本与指定文本之间的相似度大于或等于相似度阈值时,可以将指定文本所属的业务类别确定为目标文本所属的业务类别,也即是,本发明仅利用该文本知识库中已经分类好的指定文本,即可简单快速地完成对目标文本的分类,从而相比于相关技术中需要对目标文本进行词法、句法和语义分析的繁琐分类过程,本发明可以大大节省文本所属业务类别的确定时间,提高文本所属业务类别的确定效率。参见图3A,本发明实施例提供了一种确定目标文本所属业务类别的装置,该装置包括获取模块301,第一确定模块302和第二确定模块303。接收模块301,用于接收待处理的目标文本;第一确定模块302,用于确定目标文本与指定文本之间的相似度,指定文本为存储在文本知识库中的已确定所属业务类别的文本;第二确定模块303,用于当目标文本与指定文本之间的相似度大于或等于相似度阈值时,将指定文本所属的业务类别确定为目标文本所属的业务类别。可选地,参见图3B,该第一确定模块302包括:判断单元3021,用于判断目标文本包含的字符串与指定文本包含的字符串是否相同;第一确定单元3022,用于当目标文本包含的字符串与指定文本包含的字符串相同时,确定目标文本与指定文本相同。可选地,参见图3C,该第一确定模块302包括:第一获取单元3023,用于获取目标文本的第一切词结果和指定文本的第二切词结果,第一切词结果中包括多个第一词语,第二切词结果中包括多个第二词语;第二确定单元3024,用于根据第一切词结果和第二切词结果,确定目标文本对应的第一文本向量和指定文本对应的第二文本向量,第一文本向量用于表征第一切词结果和第二切词结果中的各个词语在第一切词结果中出现的次数,第二文本向量用于表征第一切词结果和第二切词结果中的各个词语在第二切词结果中出现的次数;第一计算单元3025,用于计算第一文本向量与第二文本向量之间的相似度;第三确定单元3026,用于根据第一文本向量与第二文本向量之间的相似度确定目标文本与指定文本之间的相似度。可选地,参见图3D,该第一确定模块302包括:第二获取单元3027,用于获取目标文本的第一标注结果和指定文本的第二标注结果,第一标注结果中包括多个第一属性词,第二标注结果中包括多个第二属性词,第一属性词和第二属性词均用于指示词语类型;第四确定单元3028,用于根据第一标注结果和第二标注结果,确定目标文本对应的第一属性向量和指定文本对应的第二属性向量,第一属性向量用于表征第一标注结果和第二标注结果中的各个属性词在第一标注结果中出现的次数,第二属性向量用于表征第一标注结果和第二标注结果中的各个属性词在第二标注结果中出现的次数;第二计算单元3029,用于计算第一属性向量与第二属性向量之间的相似度;第五确定单元3030,用于根据第一属性向量与第二属性向量之间的相似度确定目标文本与指定文本之间的相似度。可选地,该第二获取单元3027包括:第一获取子单元,用于获取目标文本的第一切词结果,第一切词结果中包括多个第一词语;标注子单元,用于分别对多个第一词语进行类型标注,得到多个标注词;去除子单元,用于去除多个标注词中的指定标注词,得到第一标注结果。可选地,该第二计算单元3029包括:第二获取子单元,用于获取第一标注结果和第二标注结果中各个属性词的权重;第一生成子单元,用于基于第一属性向量和各个属性词的权重,生成第一向量,第一向量的第i个元素为第一属性向量的第i个元素与第一权重的乘积,第一权重为第一属性向量的第i个元素对应的属性词的权重,第一向量的第i个元素为第一向量的任一元素;第二生成子单元,用于基于第二属性向量和各个属性词的权重,生成第二向量,第二向量的第i个元素为第二属性向量的第i个元素与第二权重的乘积,第二权重为第二属性向量的第i个元素对应的属性词的权重,第二向量的第i个元素为第二向量的任一元素;计算子单元,用于计算第一向量与第二向量之间的相似度;确定子单元,用于根据第一向量与第二向量之间的相似度确定第一属性向量与第二属性向量之间的相似度。在本发明实施例中,接收待处理的目标文本后,可以确定目标文本与指定文本之间的相似度,并当目标文本与指定文本之间的相似度大于或等于相似度阈值时,可以将指定文本所属的业务类别确定为目标文本所属的业务类别,也即是,本发明仅利用该文本知识库中已经分类好的指定文本,即可简单快速地完成对目标文本的分类,从而相比于相关技术中需要对目标文本进行词法、句法和语义分析的繁琐分类过程,本发明可以大大节省文本所属业务类别的确定时间,提高文本所属业务类别的确定效率。需要说明的是:上述实施例提供的确定目标文本所属业务类别的装置在确定目标文本所属业务类别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定目标文本所属业务类别的装置与确定目标文本所属业务类别的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1