用于对待处理的短文本信息进行扩展的方法、装置和设备的制作方法

文档序号:6341384阅读:156来源:国知局
专利名称:用于对待处理的短文本信息进行扩展的方法、装置和设备的制作方法
技术领域
本发明涉及计算机文本处理技木,尤其涉及ー种用于对待处理的短文本信息进行扩展的方法、装置和设备。
背景技术
对于短文本信息的扩展,传统的做法多是使用类别特征词表对短文本作匹配,但这种方法的效果、可扩展性都一般,并且不具有通用性,需要花费大量时间精力进行维护。

发明内容
本发明的目的是提供ー种对短文本信息进行扩展的方法和设备。根据本发明的ー个方面,提供一种计算机实现的用于对待处理的短文本信息进行扩展的方法,其中,该方法包括以下步骤a获取所述待处理的短文本信息;b基于该短文本信息来获取与其相关的ー个或多个相关扩展信息;c基于所述第一预定规则,并根据所述短文本信息,由所述ー个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。根据本发明的另ー个方面,还提供了ー种用于对待处理的短文本信息进行扩展的短文本处理装置,其中,该短文本处理装置包括第一获取装置,用于获取所述待处理的短文本信息;第二获取装置,用于通过所述短文本信息来获取与其相关的ー个或多个相关扩展
イロ· >E、;第一扩展装置,用于根据所述第一预定规则,并根据所述短文本信息,由所述ー个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。根据本发明的再ー个方面,还提供了一种计算机设备,其中,该计算机设备包括上述短文本处理装置。与现有技术相比,本发明具有以下优点1)本发明能够较好地对短文本信息进行扩展,通用性较强,并且便于维护;2)当相关扩展信息为通过对短文本信息进行搜索而获得吋,对于搜索频率较高的短文本信息,能够利用捜索特性,获得相关性较好的相关扩展信息,进ー步提高了所得扩展特征信息的针对性及可识别性;3)当难以获得具有较好相关性的相关扩展信息吋,能够通过多级短文本信息拟合,快速获得针对性及可识别性较强的扩展特征信息;4)本发明不受限于短文本形式,并且不必先预存短文本特征匹配表,具有更广泛的应用场景力)根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短文本信息类别,并进一步根据所得的短文本信息相关性或类别来进行其他操作,以使所提供的信息更符合用户所希望搜索的内容;或者,在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在 B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1为本发明一个方面的计算机实现的用于对待处理的短文本信息进行扩展的方法流程图;图2为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流程图;图3为本发明另一优选实施例的用于对待处理的短文本信息进行扩展的方法流程图;图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图。图5为本发明另一个方面的用于对待处理的短文本信息进行扩展的短文本处理装置的结构示意图。图6为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。图7为本发明另一个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。图8为本发明再一优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1示意出了本发明一个方面的计算机实现的用于对待处理的短文本信息进行扩展的方法流程图。其中,所述短文本信息包括但不限于1)来自用户的输入序列;幻计算机设备当前需要处理的信息等。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制芯片来完成,为简明起见,以下将所述操作系统或处理控制芯片统称为短文本处理装置。其中,该计算机设备包括但不限于1)用户设备;幻网络设备。所述用户设备包括但不限于计算机、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,短文本处理装置获取待处理的短文本信息。其中,该短文本处理装置获取该待处理短文本信息的方法包括但不限于1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行扩展处理的短文本信息。在步骤S2中,短文本处理装置基于该短文本信息来获取与其相关的ー个或多个相关扩展信息。其中,所述相关扩展信息包括但不限于1)文本标题信息;2)文本摘要信息;3)网页的全部文本内容信息等。所述获取一个或者多个相关扩展信息的方式包括但不限于1)获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息;例如,短文本处理装置获取用户输入的短文本“DNF游戏下载”(以下称为第一短文本信息),短文本处理装置基于该短文本在网络上或本机中进行搜索,来获得搜索结果项,并根据网页标识符等来对搜索结果项进行识別,以获得以下与第一短文本信息相关的相关扩展信息。第一相关扩展信息“游戏下载地下城与勇士 DNF官方网站腾讯游戏、DNF地下城与勇士 52 站提供最全最新DNF视频、DNF下载等内容,是国内最大的地下城与勇士 DNF官网合作网站之一。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。第二相关扩展信息“DNF外挂天迹社区游戏。”其中,短文本处理装置分析得到其为标题类别的相关扩展信息。第三相关扩展信息“《地下城与勇士 DNF》最新客户端下载进入专区文件大小 1. 44GB文件类别客户端游戏语言简体中文官方网站点击进入游戏专区点击进入游戏交流。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。2)获取预存储的与该短文本信息相关的相关扩展信息等;其中,该预存储的相关扩展信息可存储在所述计算机设备中,或存储在与该计算机设备物理分离但通信连接的设备中;例如,短文本处理装置中已经预存储了与第一短文本信息相关的第一相关扩展信息,则短文本处理装置可以在获取第一短文本信息之后,在其预存的相关扩展信息中获取与第一短文本信息相关的第一相关扩展信息。在步骤S3中,短文本处理装置基于第一预定规则,根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。所述扩展特征信息包括但不限于1)与短文本信息相关的特征信息;2)该特征信息所在的相关扩展信息的发布时间;3)该特征信息所在的相关扩展信息的用户点击数;4) 该特征信息所在的相关扩展信息与短文本的相关度等。其中,第一预定规则中包含參考以下至少ー项因素,来获得扩展特征词向量的规则1)所述相关扩展信息与所述短文本信息的相关度;2)所述相关扩展信息的类别;3)所述短文本信息在所述相关扩展信息中的分布状态;4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。以下对短文本处理装置根据上述每项信息及其組合来获得扩展特征词向量的方式予以详述
1)所述相关扩展信息与所述短文本信息的相关度;所述相关度的确定方式包括但不限于a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的信息单元数量确定相关度;其中,所述信息单元通过切分短文本信息而得到;具体地,相关扩展信息中信息单元重复出现的累计数量越多,则该相关扩展与该短文本的相关度越高;短文本处理装置按照由相关扩展信息切分得到的特征信息所在的相关扩展信息与该短文本信息的相关度,来对特征信息进行排序,并根据特征信息排序结果来选择特征信息。例如,对于短文本信息“DNF游戏下载”,短文本处理装置对其切分以获得三个信息单元“DNF”、“游戏”、“下载”,则短文本处理装置在与该短文本信息对应的相关扩展信息中分别统计每个相关扩展信息中该三个信息单元重复出现的累计数量。若与短文本信息“DNF 游戏下载”相关的所有相关扩展信息包括第一相关扩展信息、第二相关扩展信息及第三相关扩展信息,短文本处理装置统计得到第一相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为9,第二相关扩展信息中包含两个信息单元 “DNF”、“游戏”,其累计出现的总次数为2,第三相关扩展信息中包含三个信息单元“DNF”、 “游戏”、“下载”,三个信息单元累计出现的总次数为5,则短文本处理装置判断相关扩展信息与短文本信息的相关度从高到低依次为第一相关扩展信息、第三相关扩展信息和第二相关信息。随后,短文本处理装置对第一至第三相关扩展信息进行切分,以获得特征信息,例如,若第二相关扩展信息为“DNF外挂天迹社区游戏”,则由第二相关扩展信息切分所得的特征信息包括“DNF”、“外挂”、“天际”、“社区”、“游戏”等。短文本信息按照特征信息所在的相关扩展信息与短文本信息的相关度由高至低,来对特征信息进行排序。当相关扩展信息相关度相同时,对特征信息进行随机排序。短文本处理装置根据排序结果来选择特征信息以生成扩展特征词向量,例如,选择排序结果为前N位的特征信息以生成扩展特征词向量等。 其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。c)当所述相关扩展信息为搜索结果项时,根据搜索结果的排序来确定相关度等;具体地,搜索结果排序越靠前的相关扩展信息,其相关度越高。随后,短文本处理装置对短文本信息对应的相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。2)所述相关扩展信息的类别;所述相关扩展信息的类别包括但不限于a)标题;b)内容等。需要说明的是,该类别仅为更好地说明本发明的例举,本领域技术人员应该理解,相关扩展信息的分类不以“标题”和“内容”为限,例如,还可包括“广告”、“提示信息”等等。具体地,短文本处理装置根据预设的类别重要度来确定相关扩展信息与短文本信息的相关度,并根据相关扩展信息与短文本信息的相关度来选择特征信息以生成扩展特征词向量。。例如,预设的类别重要度中,“标题”的重要度高于“内容”的重要度,则短文本处理装置预设首先对标题类别的相关扩展信息进行分割,以获得特征信息。若由标题类别的相关扩展信息中获得的特征信息达到第一预定阈值,则根据由标题类别的相关扩展信息中获得的特征信息来生成扩展特征词向量;若由标题类别的相关扩展信息中获得的特征信息未达到第一预定阈值,则继续对内容类别的相关扩展信息进行分割,直至特征信息的数量达到第一预定阈值,随后,根据由标题及内容类别的相关扩展信息中获得的特征信息来生成扩展特征词向量。其中,本领域技术人员应可根据实际情况和需求来设定该第一预定阈值。3)所述短文本信息包含的信息単元在所述相关扩展信息中的分布状态;所述短文本信息在所述相关扩展信息中的分布状态包括但不限于a)短文本信息中的信息単元在相关扩展信息中出现的频次;具体地,信息単元出现的频次越高,相关扩展信息的重要性越高。例如,对于短文本信息“DNF游戏下载”,其包含三个信息単元“DNF”、“游戏”、“下載”,短文本处理装置统计得到上述三个信息単元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为7,6,3,则短文本信息判断上述三者与短文本信息相关度由高至低的順序依次为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息。则短文本处理装置对短文本信息对应的相关扩展信息进行切分以获得特征信息,井根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,井根据排序结果来选择特征信息以生成扩展特征词向量。b)短文本信息包含的信息単元在相关扩展信息中所处的位置;具体地,信息単元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息与短文本信息的相关度越高。例如,若短文本处理装置根据段落分隔符,例如“丨”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息単元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则短文本处理装置判断与短文本信息的相关度由高至低的顺序为第二个段落、第一个段落、第三个段落。随后,短文本处理装置对各个段落进行分割,以获得特征信息,井根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。具体地,短文本处理装置对相关扩展信息进行切分,以获得特征信息。短文本处理装置根据特征信息与短文本信息的相似度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。其中,确定特征信息与短文本信息的相似度的方式包括但不限于a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定等。 具体地,特征信息与短文本信息的编辑距离越短,两者的相似度越高;特征信息与短文本信息的语义近似度越高,两者的相似度越高。其中,语义近似度可以通过多种方法获得,例如,根据预设的同义词典来获得等。需要说明的是,短文本处理装置还可结合上述四种因素中的任意若干种,来获得所述短文本信息的扩展特征词向量。例如,短文本处理装置根据相关扩展信息的类别及相关扩展信息与短文本信息的相关度来获得扩展特征词向量。具体地,预设相关扩展信息的类别重要性高于相关扩展信息与短文本信息的相关度。则短文本处理装置先根据相关扩展信息的类别来对相关扩展信息进行排序,获得“标题”类别靠前,“内容”类别靠后的相关扩展信息排序结果,随后,短文本处理装置再在“标题”及“内容”类别的相关扩展信息中,分别根据相关扩展信息与短文本信息的相关度由高至低进行排序。例如,若短文本信息对应第一至第四相关扩展信息,其中,第一及第二相关扩展信息类别为“标题”,第三及第四相关扩展信息类别为“正文”,则短文本处理装置获得的根据类别排序的排序结果为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息、第四相关扩展信息。随后,短文本处理装置获得第一相关扩展信息与短文本信息的相似度高于第二相关扩展信息,第四相关扩展信息与短文本信息的相似度高于第三相关扩展信息,则短文本处理装置根据相关扩展信息与短文本信息的相似度进行再次排序,获得排序结果为第一相关扩展信息、第二相关扩展信息、 第四相关扩展信息、第三相关扩展信息。则短文本处理装置对第一至第四相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。优选的,在上述过程中,第一预定规则还可以参考以下因素,来获得短文本信息的扩展特征词向量;或者在已经生成了扩展特征词向量以后,短文本处理装置根据以下因素, 并基于第一预定规则来对已有的扩展特征词向量进行调整。1)由所述相关扩展信息切分得到的特征信息的分布状态;所述特征信息的分布状态包括但不限于a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;在计算机设备或其他设备中存储有与所有待处理短文本信息及其对应的相关扩展信息,为简洁起见,简称该与所有待处理短文本信息及其对应的相关扩展信息为全局信息,短文本处理装置根据特征信息在全局信息中出现的频次,来对特征信息进行排序,或调整已排序的特征信息的位置。具体地,特征信息在全局数据中出现的频次越高,其排序位置越靠后。例如,对于特征信息“dnf”及“游戏”,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则短文本处理装置将“dnf ”排在“游戏”之前的位置。又例如,特征信息“dnf”及“游戏”均包含在标题类别的相关扩展信息中,短文本处理装置在根据标题类别进行排序的过程中,随机将“游戏”排在“dnf”之前的位置,并根据该排序结果生成了扩展特征词向量,则在扩展特征词向量中,“游戏”相对“dnf”的位置更靠前。随后,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则短文本处理装置将“dnf”调整至“游戏”之前。b)特征信息在所有待处理短文本信息中出现的频次等;例如,短文本处理装置统计第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”在所有待处理短文本信息中的出现频次,其频次由低到高为“下載”、“游戏”、“DNF”,则短文本处理装置根据频次由低到高来对特征信息进行排序,以选择特征信息来生成扩展特征词向量。2)所述相关扩展信息切分得到的特征信息的语义特征。所述特征信息的语义特征通过以下至少ー种因素来进行评价a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。具体的,词性的重要性越高,语义特征越强;表意能力等级越高,语义特征越强; 有效的特征信息语义特征较强,无效的特征信息语义特征较弱。其中,词性的重要性、表意能力等级高低及无效特征信息,均由预设得到。若预设词性的重要性为名词大于动词,表意能力等级由高到低分别为第一级、第 ニ级和第三级。例如,对于由第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、 “游戏”、“下載”,短文本处理装置根据语义分析判断“DNF”及“游戏”为名词,“下载”为动词, 短文本处理装置查询表意能力词表得到“DNF”的表意能力为第一级,“游戏”的表意能力为第二级,“下载”的表意能力为第三级,并且,短文本处理装置未在无效信息词表中查询到上述三者中的任一者,则短文本处理装置先根据词性、再根据表意能力,对特征信息进行排序的结果为“DNF”、“游戏”、“下载”。需要说明的是,短文本处理装置还可结合上述两种因素,来获得或调整所述短文本信息的扩展特征词向量,例如,先对特征信息根据分布状态进行排序,对处于相同排名的特征信息的语义特征进行分析,井根据语义特征强弱进行排序,最后获得总排序結果,短文本处理装置根据总排序結果,选择特征信息,生成扩展特征词向量。根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短文本信息类别,并进ー步根据所得的短文本信息相关性或类别来进行其他操作,以使所提供的信息更符合用户所希望捜索的内容;或者,在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。本领域技术人员应该理解,本发明方案的应用环境不以上述举例为限。作为本发明的优选方案之一,所述扩展特征词向量还包括分別与所述多个扩展特征信息相对应的多个权重值,其中,所述步骤S3还包括步骤S35(图未示),在步骤S35中, 短文本处理装置基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。具体的,权重值的获取參考以下至少ー项因素1)所述相关扩展信息与所述短文本信息的相关度;具体的,相关扩展信息与所述短文本信息的相关度越高,该相关扩展信息中包含的扩展特征信息权重值越大。其中,相关度的确定方式包括但不限干a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的由切分短文本信息所得的信息単元数量确定相关度;c)当所述相关扩展信息为搜索结果项吋,根据搜索结果的排序来确定相关度等。例如,第一预定规则中预设相关扩展信息的初始权重值为0,若一个相关扩展信息出现其中一项信息単元,则其权重值增加1。则对于短文本信息“DNF游戏下载”,其对应的相关扩展信息为第一至第三相关扩展信息。短文本处理装置设置第一至第三相关扩展信息的初始权重值为0,并切分短文本信息以获得信息単元“DNF”、“游戏”、“下載”,短文本处理装置基于第一预定规则,并检测各个相关扩展信息中信息単元的出现次数来调整权重值, 获得第一至第三相关扩展信息中包含的特征信息的权重值依次为9、2、5。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。2)所述相关扩展信息的类别;所述相关扩展信息的类别包括但不限于a)标题;b)内容等。具体地,预设各种类别的相关扩展信息所包含的特征信息的权重值不同。例如,预设标题类别的相关扩展信息包含的特征信息权重值为10,内容类别的相关扩展信息包含的特征信息权重值为5。对于短文本信息“DNF游戏下載”,其对应的相关扩展信息为第一至第三相关扩展信息。其中,第一相关扩展信息的类别为“内容”、第二相关扩展信息的类别为“标题”、第三相关扩展信息的类别为“内容”。则短文本处理装置判断第一至第三相关扩展信息包含的特征信息的权重值依次为5、10、5。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。3)所述短文本信息在所述相关扩展信息中的分布状态;其中,所述分布状态包括但不限于a)短文本信息中的信息単元在相关扩展信息中出现的频次;具体的,信息単元在相关扩展信息中出现的频次越高,该相关扩展信息所包含的特征信息的权重值越大。例如,若第一预定规则中预设将信息単元在相关扩展信息中出现的频次作为该相关扩展信息的权重值。则对于短文本信息“DNF游戏下載”,其包括信息単元“DNF”、“游戏”、 “下載”,短文本处理装置统计得到上述三个信息単元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为7,6,3,则短文本处理装置获得第一、第二及第三相关扩展信息所包含的特征信息的权重值分别为7,6,3。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。b)短文本信息包含的信息単元在相关扩展信息中所处的位置等;具体地,信息単元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息所包含的特征信息的权重值越高。例如,若短文本处理装置根据段落分隔符,例如“丨”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息単元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则短文本处理装置获得第一个段落、第二个段落及第三个段落所包含的特征信息的权重值依次为4,5,1。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度等;具体的,特征信息与所述短文本信息的相似度越高,该特征信息的权重值越大。
例如,短文本处理装置将ー个特征信息与短文本信息的相似度直接作为该特征信息的权重值;又例如,根据ー个特征信息与短文本信息的相似度所处的等级,来确定该特征信息的权重值等。其中,确定特征信息与短文本信息的相似度的方式包括但不限于a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定寸。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。5)由所述相关扩展信息切分得到的特征信息的分布状态;所述特征信息的分布状态包括但不限于a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;b)特征信息在所有待处理短文本信息中出现的频次等;具体的,上述两个频次越低,特征信息的权重值越大。例如,第一预定规则中预设特征信息的初始权重值为1000,特征信息每检测到一次,其权重减少0. 1。对于特征信息“DNF”,短文本处理装置检测到其出现频次为2560,则获得其权重值为1000-2560*0. 1 = 744。又例如,短文本处理装置将特征信息在所有待处理短文本信息中出现的频次的倒数直接作为该扩展特征信息的权重值;随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。6)由所述相关扩展信息切分得到的特征信息的语义特征等;具体的,特征信息的语义特征越強,其权重值越大。所述特征信息的语义特征通过以下至少ー种因素来进行评价a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。例如,若第一预定规则中预设名词的权重为3,动词的权重值为2,表意能力为第一级的特征信息权重为3,表意能力为第二级的特征信息权重为2,表意能力为第三级的特征信息权重为1,无效信息的权重值为零,有效信息的权重值为1,并根据(词性权重值+表意能力权重值)*无效信息权重值的方式,来获得特征信息的语义特征权重值。例如,对于特征信息“DNF”,短文本处理装置判断其为名词,查询表意能力词表得到其表意能力为第一级,并且,短文本处理装置未在无效信息词表中查询到“DNF”,即“DNF”为有效信息,则短文本处理装置获得“DNF”的语义特征权重值=(3+3)*1 = 6。需要说明的是,上述权重值的预定及计算方式仅为例举,而并非对本发明的限制。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。需要说明的是,短文本处理装置还可以结合上述六种因素中的任意若干种来获取权重值,以生成所述短文本信息的扩展特征词向量。例如,短文本处理装置首先获取ー个特征信息根据上述六种因素而分别获得的六个权重值,然后,获取该六个权重值的平均值以作为该特征信息的平均值,或者,对该六个权重值,分别赋予权值,将六个权值分別与六个权重值相乘,并获取六个相乘结果的平均值以作为该特征信息的权重值等。需要说明的是,短文本处理装置确定特征信息或者信息単元的权重值后,还可以通过设定权重值的阈值的方式,选择用于生成扩展特征词向量的特征信息或者信息単元。需要进ー步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述ー个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。作为本发明的优选方案之一,在在所述步骤S2之前还包括步骤Sll (图未示)及步骤S12(图未示)在步骤Sll中,短文本处理装置对所述短文本信息进行切词,获得信息単元;在步骤S12中,短文本处理装置根据语义分析及/或预设的所述信息単元的重要度,选择信息单元来生成检索信息;则在步骤S2中,短文本处理装置获取基于检索信息进行搜索而得到的相关扩展
1 η息ο其中,所述语义分析包括对信息単元的词性分析,例如,判断信息単元为实词或虚词等。信息単元的重要度通过查询预设的単元重要度信息来获取。例如,短文本处理装置短文本信息“关于DNF的游戏下载”进行切词,获得信息単元“关干”、“ DNF,,、“的,,、“游戏”、“下载,,、“网姑”。短文本处理装置判断得到“ DNF,,、“游戏”、“下載”、“网站”为实词,“关干”、“的”为虚词,则短文本处理装置选择实词信息単元,即 “DNF”、“游戏”、“下載”、“网站”来生成检索信息。又例如,単元重要度信息中包括“关干”、“的”为省略単元的信息,则短文本处理装置查询单元重要度信息后,去除信息単元“关干”、“的”,保留信息単元“DNF”、“游戏”、“下載”、“网站”来生成检索信息。需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则,获取待处理短文本的扩展特征词向量的方案,均应包含在本发明的范围内,并以引用的方式包含于此。根据本实施例的方法,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。特别是当相关扩展信息为通过对短文本信息进行搜索而获得的情况下,对于搜索频率较高的短文本信息,能够利用捜索特性,获得相关性较好的相关扩展信息,进ー步提高了所得扩展特征信息的针对性及可识别性。图2为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流程图。根据本实施例的方法包括步骤Si、步骤S2及步骤S3。其中,步骤S3进ー步包括步骤S31和步骤S32。步骤Sl及步骤S2已在參照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。在步骤S31中,短文本处理装置对所述相关扩展信息进行切分,获得多个特征信
眉、ο例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,对第一至第三相关扩展信息进行切分,并去除相关扩展信息中的无效信息后,获得的特征信息包括“DNF”、“游戏”、“地下城与勇士”、“下載”、“网姑”、“进入”、“官方”、“最新”、“客户端”、“专区”、“文件”、“点击”、“腾讯”。其中,可通过查询预设的无效信息词典来去除无效信息;或者,通过去除虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值时,去除该信息単元。在步骤S32中,短文本处理装置基于所述第一预定规则,并根据所述短文本信息, 由所述多个特征信息中选择所述多个扩展特征信息。例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,对第一至第三相关扩展信息进行切分,并合并相同的特征信息,获得特征信息以及其合并次数具体如下特征信息合并次数
DNF7
游戏6
地下城与勇士4
下载3
网站3
进入3
官方2
東新2
客户端2
专区2
文件2
点击2
腾讯1
短文本处理装置可根据合并次数,对上述特征信息进行由高到低的排序,并根据
排序结果选择特征信息来生成扩展特征词向量。优选的,选择前N位的特征信息来生成扩展特征词向量,其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。又例如,对于上述特征信息,短文本处理装置基于第一预定规则来进行排序,井根据排序结果来选择特征信息,以生成扩展特征词向量。其中,基于第一预定规则来对特征信息进行排序的方式,已在參照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。又例如,短文本处理装置切分相关扩展信息获得特征信息后,就第一预定规则,计算与特征信息相应的权重值,井根据权重值来选择特征信息,以生成第一短文本信息的扩展特征词向量。其中,基于第一预定规则计算权重值的方法已在參照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。图3为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流程图。根据本实施例的方法包括步骤Si、步骤S2及步骤S3。其中,步骤S3进ー步包括步骤S33和步骤S34。步骤Sl及步骤S2已在參照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。在步骤S33中,短文本处理装置基于所述第一预定规则,并根据所述短文本信息, 由多个所述相关扩展信息中选择ー个或多个相关扩展信息。其中,基于第一预定规则来由多个所述相关扩展信息中选择ー个或多个相关扩展信息的方式已经在參照图1的实施例中予以说明,并以引用的方式于此,不再赘述。在步骤S34中,短文本处理装置对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。例如,短文本处理装置选择第一相关扩展信息,对其进行切分并去除无效信息,获得的多个特征信息包括“游戏”、“下載”、“地下城与勇士”、“ DNF”、“官方”。随后,短文本处理装置根据获得的特征信息,生成第一短文本信息的扩展特征词向量。又例如,短文本处理装置获得多个特征信息“游戏”、“下載”、“地下城与勇士”、 “DNF”、“官方”之后,根据特征信息所在相关扩展特征信息的权重,乘以特征信息在该扩展特征信息中出现的次数,以此作为特征信息的权重值,则得到各个特征信息及其权重值由大到小为特征信息权重值
DNF10.212
游戏7. 254
地下城与勇士3. 798
下载3. 656
官方1. 820随后,短文本处理装置根据权重值由大到小的顺序选择特征信息,以生成第一短文本信息的扩展特征词向量。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图。根据本实施例的方法包括步骤Si、步骤S2、步骤S3及步骤S4。其中,步骤S4进ー步包括步骤 S5及步骤S6。步骤Sl至步骤S3已在參照图1、图2或图3所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。本实施例中,步骤S4在步骤Sl之前执行。在步骤S4中,短文本处理装置建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量。其中,所述建立包括构建包括多个短文本信息及其对应的扩展特征词向量的数据库;所述更新包括但不限于1)在扩展特征向量库中添加新的短文本信息及其对应的扩展特征词向量;幻在扩展特征向量库中更新已有短文本信息的扩展特征词向量等。其中,所述的已扩展短文本信息及其相应的扩展特征词向量可以通过以下任ー种方式得到1)获取预存在计算机设备或其他设备中的已扩展短文本信息及其相应的扩展特征词向量;2) 通过短文本处理装置对待处理短文本信息进行处理后获得的短文本信息及其对应的扩展特征词向量等。根据本实施例的方法进ー步包括步骤S5和步骤S6。在步骤S5中,短文本处理装置基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,以获得一个或多个相关短文本信息及其对应的扩展特征词向量。在步骤S6中,短文本处理装置根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待扩展短文本信息的扩展特征词向量。例如,第二预定规则中规定在执行步骤S2之前,对于在步骤Sl中获取的待处理的短文本信息,将其在扩展特征向量库中进行匹配查询,以获得成功匹配的相关扩展信息对应的扩展特征向量。则短文本处理装置将待处理短文本信息“DNF游戏下载”在扩展特征向量库中进行匹配查询,若扩展特征向量库中包括“DNF游戏下載”,判断匹配成功,并将获取的扩展特征向量库中的相关短文本信息“ DNF游戏下载”对应的扩展特征词向量作为待处理短文本信息“DNF游戏下载”的扩展特征词向量。如此,可减少重复对同一短文本信息执行信息扩展的操作。优选地,所述第二预定规则包括根据多层级匹配规则,短文本处理装置根据多层级匹配规则逐级地对所述待处理短文本信息进行预定处理,其中步骤S5进ー步包括步骤 S51(图未示),步骤S52(图未示)和步骤S53(图未示)。步骤S6中进ー步包括步骤S61。在步骤S51中,短文本处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理。其中,所述当前层级匹配规则规定了在当前匹配层级下,短文本处理装置应对待处理短文本信息执行的相应处理,所述相应处理包括但不限于以下任ー种1)保留所述待处理短文本信息的全部内容的处理;具体的,短文本处理装置对待处理短文本信息不做任何改变。2)去除无效信息的处理;具体地,短文本处理装置通过查询预设的无效信息词典,或者,通过去除短文本信息中的虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值吋,去除该信息単元。3)根据预设的词汇权重值来提取信息単元的处理;具体的,短文本处理装置通过将信息単元与预设权重值的词汇进行匹配,来获得信息単元的权重值,并根据该权重值提取信息単元。其中,该提取方式包括且不限于a) 根据权重值的排序选择信息単元;b)设置阈值,选择词汇权重值满足阈值条件的信息単元寸。4)将所述待处理短文本信息与其他短文本信息进行聚合的处理。其中,所述其他短文本信息均为已扩展短文本信息,所述实现聚合的方式包括但不限于a)根据信息単元相似度进行聚合;具体的,短文本处理装置查询其他短文本信息所包含的信息单元是否与所述待处理短文本信息所包含的信息単元相同或相似,其中,所述相似可通过查询同义词典来进行判断,当查询得到其他短文本信息所包含的信息単元与所述待处理短文本信息所包含的信息単元相同或相似吋,将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。b)根据相关扩展信息进行聚合等。具体的,当相关扩展信息通过根据短文本信息进行搜索而获得吋,短文本处理装置查询所获取的待处理短文本的相关扩展信息是否同时为其他短文本信息的相关扩展信息,即当根据其他短文本信息进行搜索时,是否能够同样获得该相关扩展信息,若同样能够获得该相关扩展信息,则进ー步查询当该相关扩展信息属于待处理短文本信息的捜索结果及当该相关扩展信息属于其他短文本信息的搜索结果时,均有被用户点击的记录,若均有被用户点击的记录,则将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何短文本处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理的实现方式,均应包含在本发明的范围内。在步骤S52中,短文本处理装置判断处理后的待处理短文本信息是否能够与ー个或多个已扩展短文本信息成功匹配。其中,匹配方式包括且不限于1)精确匹配;2模糊匹配;幻判断待处理短文本信息与已扩展短文本信息的相似度是否达到第二预定阈值等。其中,本领域技术人员应可根据实际情况和需求来确定该第二预定阈值。在步骤S53中,当短文本处理装置判断成功匹配吋,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词冋量。其中,步骤S5还进ー步包括步骤S54(图未示)和步骤S55(图未示)。在步骤S54中,当短文本处理装置判断未能成功匹配吋,选择下一层级匹配规则作为当前层级匹配规则。例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则及第三层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为去除无效信息的处理方式;第二层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息単元的处理方式;第三层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。若待处理短文本信息为“关于DNF游戏的下载网姑”,则短文本处理装置首先以第一层级匹配规则为当前层级匹配规则,根据此匹配规则,去除待处理短文本信息中的无效信息后,获得短文本信息“DNF游戏下载网姑”,并将该短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第二层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第二层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息単元,其中,提取信息単元的方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下載”,则短文本处理装置将该等信息単元与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第三层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第三层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。又例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则、第三层级匹配规则及第四层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为保留所述待处理短文本信息的全部内容的处理方式;第二层及匹配规则中规定的相应处理方式为去除无效信息的处理方式;第三层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息単元的处理方式;第四层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。若待处理短文本信息为“关于DNF游戏的下载网姑”,则短文本处理装置首先以第一层级匹配规则为当前层级匹配规则,根据此匹配规则,直接将待处理短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,如果匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;如果匹配不成功,则选择第二层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第二层级匹配规则,去除待处理短文本信息中的无效信息,获得短文本信息“DNF游戏下载网姑”,并将该短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第三层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第三层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息単元,其中,提取信息単元的方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下載”,则短文本处理装置将该等信息単元与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第四层级匹配规则作为当前层级匹配规则。 接着,短文本处理装置根据第四层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当短文本处理装置判断未能成功匹配吋,选择下ー层级匹配规则作为当前层级匹配规则的实现方式,均应包含在本发明的范围内。如此,通过逐级匹配,短文本处理装置获取到相关短文本信息及其对应的扩展特征词向量。在步骤S55中,短文本处理装置根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。具体的,短文本处理装置根据当前层级匹配规则来对待处理短文本信息的进行相应处理的方式。已经在步骤S51中予以详述,并以引用的方式包含于此,不再赘述。根据本实施例的方法,步骤S6进ー步包括步骤S61。在步骤S61中,短文本处理装置根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量。其中所述获得所述待处理短文本信息扩展特征词向量的方法包括但不限于以下至少ー种1)直接将所述成功匹配的已扩展短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;例如,若预设当当前匹配层级为第二层级吋,直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量,则当短文本处理装置判断当前的匹配层级为第二匹配层级吋,直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量。2)将多个所述成功匹配的已扩展短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。其中所述合并的方式包括但不限于a)直接合并相同的扩展特征信息;b)根据扩展特征信息对应的权重值进行合并等。例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为“官网、免费外挂、外挂、地下城与勇士”和“外挂、地下城与勇士、地下城”,则将该两项扩展特征词向量进行合并,获得待处理短文本信息的扩展特征词向量为“官网、免费外挂、外挂、地下城与勇士、地下城”。又例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为第一扩展特征词向量官网2.300327;免费外挂2. 300327 ;外挂2. 165737 ;地下城与勇士2. 03(^43。第二扩展特征词向量外挂2. 165737 ;地下城与勇士2. 030543 ;地下城2.0。则将第一扩展特征词向量与第二扩展特征词向量合井,并对权重值进行相加后平均的处理,则获得待处理短文本信息的扩展特征词向量为外挂2. 165737 ;地下城与勇士2. 030543 ;官网1.150164;免费外挂1. 150164 ;地下城1.0。又例如,待处理短文本信息的扩展特征词向量可以在计算得到各个扩展特征信息的权重值的基础上,根据权重值排序后选取,或者对权重值设置阈值后选取对应的权重值超过该阈值的扩展特征信息。随后,短文本处理装置根据获得的扩展特征信息生成待处理短文本信息的扩展特征词向量,并将该待处理短文本信息及其相应的扩展特征词向量存储于扩展特征向量库中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。根据本实施例的方法,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。特別是对于ー些难以获得具有较好相关性的相关扩展信息的短文本信息,通过本实施例提供的方法,能够快速获得针对性及可识别性较强的扩展特征信息。图5示意出了本发明另ー个方面的用于对待处理的短文本信息进行扩展的短文本处理装置的结构示意图。根据本实施例的短文本处理装置包括第一获取装置1、第二获取装置2和第一扩展装置3。第一获取装置1获取待处理的短文本信息。其中,第一获取装置1获取该待处理短文本信息的方法包括但不限于1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行扩展处理的短文本信息。第二获取装置2基于该短文本信息来获取与其相关的ー个或多个相关扩展信息。 其中,所述相关扩展信息包括但不限于1)文本标题信息;2)文本摘要信息;3)网页的全部文本内容信息等。所述获取一个或者多个相关扩展信息的方式包括但不限于1)获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息;例如,第一获取装置1获取用户输入的短文本“DNF游戏下载”(以下称为第一短文本信息),第二获取装置2基于该短文本在网络上或本机中进行搜索,来获得搜索结果项, 井根据网页标识符等来对搜索结果项进行识別,以获得以下与第一短文本信息相关的相关
i 展イロ‘ /S、。第一相关扩展信息“游戏下载地下城与勇士 DNF官方网站腾讯游戏、DNF地下城与勇士 52 站提供最全最新DNF视频、DNF下载等内容,是国内最大的地下城与勇士 DNF官网合作网站之一。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。第二相关扩展信息“DNF外挂天迹社区游戏。”其中,短文本处理装置分析得到其为标题类别的相关扩展信息。第三相关扩展信息“《地下城与勇士 DNF》最新客户端下载进入专区文件大小 1. 44GB文件类别客户端游戏语言简体中文官方网站点击进入游戏专区点击进入游戏交流。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。2)获取预存储的与该短文本信息相关的相关扩展信息等;其中,该预存储的相关扩展信息可存储在所述计算机设备中,或存储在与该计算机设备物理分离但通信连接的设备中;例如,短文本处理装置中已经预存储了与第一短文本信息相关的第一相关扩展信息,则在第一获取装置1获取第一短文本信息之后,第二获取装置2在预存的相关扩展信息中获取与第一短文本信息相关的第一相关扩展信息。第一扩展装置3基于第一预定规则,根据所述短文本信息,由所述ー个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。所述扩展特征信息包括但不限于1)与短文本信息相关的特征信息;2)该特征信息所在的相关扩展信息的发布时间;3)该特征信息所在的相关扩展信息的用户点击数;4) 该特征信息所在的相关扩展信息与短文本的相关度等。其中,第一预定规则中包含參考以下至少ー项因素,来获得扩展特征词向量的规则1)所述相关扩展信息与所述短文本信息的相关度;2)所述相关扩展信息的类别;3)所述短文本信息在所述相关扩展信息中的分布状态;4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。以下对第一扩展装置3根据上述每项信息及其組合来获得扩展特征词向量的方式予以详述1)所述相关扩展信息与所述短文本信息的相关度;所述相关度的确定方式包括但不限于a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的信息単元数量确定相关度;其中,所述信息単元通过切分短文本信息而得到;具体地,相关扩展信息中信息単元重复出现的累计数量越多,则该相关扩展与该短文本的相关度越高;第一扩展装置3按照由相关扩展信息切分得到的特征信息所在的相关扩展信息与该短文本信息的相关度,来对特征信息进行排序,井根据特征信息排序结果来选择特征信息;例如,对于短文本信息“DNF游戏下載”,第一扩展装置3对其切分以获得三个信息単元“DNF”、“游戏”、“下載”,则第一扩展装置3在与该短文本信息对应的相关扩展信息中分别统计每个相关扩展信息中该三个信息単元重复出现的累计数量。若与短文本信息“DNF 游戏下载”相关的所有相关扩展信息包括第一相关扩展信息、第二相关扩展信息及第三相关扩展信息,短文本处理装置统计得到第一相关扩展信息中包含三个信息単元“DNF”、“游戏”、“下載”,三个信息単元累计出现的总次数为9,第二相关扩展信息中包含两个信息単元 “DNF”、“游戏”,其累计出现的总次数为2,第三相关扩展信息中包含三个信息単元“DNF”、 “游戏”、“下載”,三个信息単元累计出现的总次数为5,则第一扩展装置3判断相关扩展信息与短文本信息的相关度从高到低依次为第一相关扩展信息、第三相关扩展信息和第二相关信息。随后,短文本处理装置对第一至第三相关扩展信息进行切分,以获得特征信息,例如, 若第二相关扩展信息为“DNF外挂天迹社区游戏”,则由第二相关扩展信息切分所得的特征信息包括“DNF”、“外桂”、“天际”、“社区”、“游戏”等。短文本信息按照特征信息所在的相关扩展信息与短文本信息的相关度由高至低,来对特征信息进行排序。当相关扩展信息相关度相同吋,对特征信息进行随机排序。第一扩展装置3根据排序结果来选择特征信息以生成扩展特征词向量,例如,选择排序结果为前N位的特征信息以生成扩展特征词向量等。其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。c)当所述相关扩展信息为搜索结果项吋,根据搜索结果的排序来确定相关度等;具体地,捜索结果排序越靠前的相关扩展信息,其相关度越高。
随后,第一扩展装置3对短文本信息对应的相关扩展信息进行切分以获得特征信息,井根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。2)所述相关扩展信息的类别;所述相关扩展信息的类别包括但不限于a)标题;b)内容等。需要说明的是,该类别仅为更好地说明本发明的例举,本领域技术人员应该理解,相关扩展信息的分类不以“标题”和“内容”为限,例如,还可包括“广告”、“提示信息”等等。具体地,第一扩展装置3根据预设的类别重要度来确定相关扩展信息与短文本信息的相关度,并根据相关扩展信息与短文本信息的相关度来选择特征信息以生成扩展特征词冋量。例如,预设的类别重要度中,“标题”的重要度高干“内容”的重要度,则第一扩展装置3预设首先对标题类别的相关扩展信息进行分割,以获得特征信息。若由标题类别的相关扩展信息中获得的特征信息达到第一预定阈值,则根据由标题类别的相关扩展信息中获得的特征信息来生成扩展特征词向量;若由标题类别的相关扩展信息中获得的特征信息未达到第一预定阈值,则继续对内容类别的相关扩展信息进行分割,直至特征信息的数量达到第一预定阈值,随后,根据由标题及内容类别的相关扩展信息中获得的特征信息来生成扩展特征词向量。其中,本领域技术人员应可根据实际情况和需求来设定该第一预定阈值。3)所述短文本信息包含的信息単元在所述相关扩展信息中的分布状态;所述短文本信息在所述相关扩展信息中的分布状态包括但不限于a)短文本信息中的信息単元在相关扩展信息中出现的频次;具体地,信息単元出现的频次越高,相关扩展信息的重要性越高。例如,对于短文本信息“DNF游戏下载”,其包含三个信息単元“DNF”、“游戏”、“下載”,第一扩展装置3统计得到上述三个信息単元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为7,6,3,则短文本信息判断上述三者与短文本信息相关度由高至低的順序依次为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息。则第 ー扩展装置3对短文本信息对应的相关扩展信息进行切分以获得特征信息,井根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,井根据排序结果来选择特征信息以生成扩展特征词向量。b)短文本信息包含的信息単元在相关扩展信息中所处的位置;具体地,信息単元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息与短文本信息的相关度越高。例如,若短文本处理装置根据段落分隔符,例如“丨”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息単元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则第一扩展装置3判断与短文本信息的相关度由高至低的顺序为第二个段落、第一个段落、第三个段落。随后,短文本处理装置对各个段落进行分割,以获得特征信息,井根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
具体地,短文本处理装置对相关扩展信息进行切分,以获得特征信息。第一扩展装置3根据特征信息与短文本信息的相似度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。其中,确定特征信息与短文本信息的相似度的方式包括但不限于a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定寸。具体地,特征信息与短文本信息的编辑距离越短,两者的相似度越高;特征信息与短文本信息的语义近似度越高,两者的相似度越高。其中,语义近似度可以通过多种方法获得,例如,根据预设的同义词典来获得等。需要说明的是,短文本处理装置还可结合上述四种因素中的任意若干种,来获得所述短文本信息的扩展特征词向量。例如,第一扩展装置3根据相关扩展信息的类别及相关扩展信息与短文本信息的相关度来获得扩展特征词向量。具体地,预设相关扩展信息的类别重要性高于相关扩展信息与短文本信息的相关度。则第一扩展装置3先根据相关扩展信息的类别来对相关扩展信息进行排序,获得“标题”类别靠前,“内容”类别靠后的相关扩展信息排序結果,随后,第一扩展装置3再在“标题”及“内容”类别的相关扩展信息中,分别根据相关扩展信息与短文本信息的相关度由高至低进行排序。例如,若短文本信息对应第一至第四相关扩展信息,其中,第一及第二相关扩展信息类别为“标題”,第三及第四相关扩展信息类别为“正文”,则短文本处理装置获得的根据类别排序的排序结果为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息、第四相关扩展信息。随后,第一扩展装置3 获得第一相关扩展信息与短文本信息的相似度高于第二相关扩展信息,第四相关扩展信息与短文本信息的相似度高于第三相关扩展信息,则短文本处理装置根据相关扩展信息与短文本信息的相似度进行再次排序,获得排序结果为第一相关扩展信息、第二相关扩展信息、 第四相关扩展信息、第三相关扩展信息。则短文本处理装置对第一至第四相关扩展信息进行切分以获得特征信息,井根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。需要进ー步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述ー个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。优选的,在上述过程中,第一预定规则还可以參考以下因素,来获得短文本信息的扩展特征词向量;或者在已经生成了扩展特征词向量以后,短文本处理装置根据以下因素, 并基于第一预定规则来对已有的扩展特征词向量进行调整。1)由所述相关扩展信息切分得到的特征信息的分布状态;所述特征信息的分布状态包括但不限于a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;在计算机设备或其他设备中存储有与所有待处理短文本信息及其对应的相关扩展信息,为简洁起见,简称该与所有待处理短文本信息及其对应的相关扩展信息为全局信息,短文本处理装置根据特征信息在全局信息中出现的频次,来对特征信息进行排序,或调整已排序的特征信息的位置。
具体地,特征信息在全局数据中出现的频次越高,其排序位置越靠后。例如,对于特征信息“ dnf”及“游戏”,第一扩展装置3检测到“ dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则第一扩展装置3将“dnf”排在“游戏”之前的位置。又例如,特征信息“dnf”及“游戏”均包含在标题类别的相关扩展信息中,第一扩展装置3在根据标题类别进行排序的过程中,随机将“游戏”排在“dnf”之前的位置,井根据该排序结果生成了扩展特征词向量,则在扩展特征词向量中,“游戏”相对“dnf”的位置更靠前。随后,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则第一扩展装置3将“dnf”调整至“游戏”之前。b)特征信息在所有待处理短文本信息中出现的频次等;例如,第一扩展装置3统计第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”在所有待处理短文本信息中的出现频次,其频次由低到高为“下載”、“游戏”、“DNF”,则第一扩展装置3根据频次由低到高来对特征信息进行排序,以选择特征信息来生成扩展特征词向量。2)所述相关扩展信息切分得到的特征信息的语义特征。所述特征信息的语义特征通过以下至少ー种因素来进行评价a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。具体的,词性的重要性越高,语义特征越强;表意能力等级越高,语义特征越强; 有效的特征信息语义特征较强,无效的特征信息语义特征较弱。其中,词性的重要性、表意能力等级高低及无效特征信息,均由预设得到。若预设词性的重要性为名词大于动词,表意能力等级由高到低分别为第一级、第 ニ级和第三级。例如,对于由第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、 “游戏”、“下載”,第一扩展装置3根据语义分析判断“DNF”及“游戏”为名词,“下载”为动词, 短文本处理装置查询表意能力词表得到“DNF”的表意能力为第一级,“游戏”的表意能力为第二级,“下载”的表意能力为第三级,并且,短文本处理装置未在无效信息词表中查询到上述三者中的任一者,则第一扩展装置3先根据词性、再根据表意能力,对特征信息进行排序的结果为“DNF”、“游戏”、“下载”。需要说明的是,短文本处理装置还可结合上述两种因素,来获得或调整所述短文本信息的扩展特征词向量,例如,先对特征信息根据分布状态进行排序,对处于相同排名的特征信息的语义特征进行分析,井根据语义特征强弱进行排序,最后获得总排序結果,第一扩展装置3根据总排序結果,选择特征信息,生成扩展特征词向量。根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短文本信息类别,并进ー步根据所得的短文本信息相关性或类别来进行其他操作,以使所提供的信息更符合用户所希望捜索的内容;或者,在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。本领域技术人员应该理解,本发明方案的应用环境不以上述举例为限。作为本发明的优选方案之一,所述扩展特征词向量还包括分別与所述多个扩展特征信息相对应的多个权重值,其中,所述第一扩展装置3还包括权重获取装置(图未示),权重获取装置基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。具体的,权重值的获取參考以下至少ー项因素1)所述相关扩展信息与所述短文本信息的相关度;具体的,相关扩展信息与所述短文本信息的相关度越高,该相关扩展信息中包含的扩展特征信息权重值越大。其中,相关度的确定方式包括但不限干a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的由切分短文本信息所得的信息単元数量确定相关度;c)当所述相关扩展信息为搜索结果项吋,根据搜索结果的排序来确定相关度等。例如,第一预定规则中预设相关扩展信息的初始权重值为0,若一个相关扩展信息出现其中一项信息単元,则其权重值增加1。则对于短文本信息“DNF游戏下载”,其对应的相关扩展信息为第一至第三相关扩展信息。权重获取装置设置第一至第三相关扩展信息的初始权重值为0,并切分短文本信息以获得信息単元“DNF”、“游戏”、“下載”,权重获取装置基于第一预定规则,并检测各个相关扩展信息中信息単元的出现次数来调整权重值,获得第一至第三相关扩展信息中包含的特征信息的权重值依次为9、2、5。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。2)所述相关扩展信息的类别;所述相关扩展信息的类别包括但不限于a)标题;b)内容等。具体地,预设各种类别的相关扩展信息所包含的特征信息的权重值不同。例如,预设标题类别的相关扩展信息包含的特征信息权重值为10,内容类别的相关扩展信息包含的特征信息权重值为5。对于短文本信息“DNF游戏下載”,其对应的相关扩展信息为第一至第三相关扩展信息。其中,第一相关扩展信息的类别为“内容”、第二相关扩展信息的类别为“标题”、第三相关扩展信息的类别为“内容”。则权重获取装置判断第一至第三相关扩展信息包含的特征信息的权重值依次为5、10、5。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。3)所述短文本信息在所述相关扩展信息中的分布状态;其中,所述分布状态包括但不限于a)短文本信息中的信息単元在相关扩展信息中出现的频次;具体的,信息単元在相关扩展信息中出现的频次越高,该相关扩展信息所包含的特征信息的权重值越大。例如,若第一预定规则中预设将信息単元在相关扩展信息中出现的频次作为该相关扩展信息的权重值。则对于短文本信息“DNF游戏下載”,其包括信息単元“DNF”、“游戏”、 “下載”,短文本处理装置统计得到上述三个信息単元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为7,6,3,则权重获取装置获得第一、第二及第三相关扩展信息所包含的特征信息的权重值分别为7,6,3。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。b)短文本信息包含的信息単元在相关扩展信息中所处的位置等;具体地,信息単元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息所包含的特征信息的权重值越高。例如,若短文本处理装置根据段落分隔符,例如“丨”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息単元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则权重获取装置获得第一个段落、第二个段落及第三个段落所包含的特征信息的权重值依次为4,5,1。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度等;具体的,特征信息与所述短文本信息的相似度越高,该特征信息的权重值越大。例如,权重获取装置将ー个特征信息与短文本信息的相似度直接作为该特征信息的权重值;又例如,根据ー个特征信息与短文本信息的相似度所处的等级,来确定该特征信息的权重值等。其中,确定特征信息与短文本信息的相似度的方式包括但不限于a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定寸。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。5)由所述相关扩展信息切分得到的特征信息的分布状态;所述特征信息的分布状态包括但不限于a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;b)特征信息在所有待处理短文本信息中出现的频次等;具体的,上述两个频次越低,特征信息的权重值越大。例如,第一预定规则中预设特征信息的初始权重值为1000,特征信息每检测到一次,其权重减少0. 1。对于特征信息“DNF”,短文本处理装置检测到其出现频次为2560,则获得其权重值为1000-2560*0. 1 = 744。又例如,权重获取装置将特征信息在所有待处理短文本信息中出现的频次的倒数直接作为该扩展特征信息的权重值;随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。6)由所述相关扩展信息切分得到的特征信息的语义特征等;具体的,特征信息的语义特征越強,其权重值越大。所述特征信息的语义特征通过以下至少ー种因素来进行评价a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。例如,若第一预定规则中预设名词的权重为3,动词的权重值为2,表意能力为第一级的特征信息权重为3,表意能力为第二级的特征信息权重为2,表意能力为第三级的特征信息权重为1,无效信息的权重值为零,有效信息的权重值为1,并根据(词性权重值+表意能力权重值)*无效信息权重值的方式,来获得特征信息的语义特征权重值。例如,对于特征信息“DNF”,短文本处理装置判断其为名词,查询表意能力词表得到其表意能力为第一级,并且,短文本处理装置未在无效信息词表中查询到“DNF”,即“DNF”为有效信息,则权重获取装置获得“DNF”的语义特征权重值=(3+3)*1 = 6。需要说明的是,上述权重值的预定及计算方式仅为例举,而并非对本发明的限制。随后,短文本处理装置根据权重值由大到小的順序,选择特征信息以作为扩展特征信息,井根据扩展特征信息及其对应的权重值生成扩展特征词向量。需要说明的是,短文本处理装置还可以结合上述六种因素中的任意若干种来获取权重值,以生成所述短文本信息的扩展特征词向量。例如,权重获取装置首先获取ー个特征信息根据上述六种因素而分别获得的六个权重值,然后,获取该六个权重值的平均值以作为该特征信息的平均值,或者,对该六个权重值,分别赋予权值,将六个权值分別与六个权重值相乗,并获取六个相乘结果的平均值以作为该特征信息的权重值等。需要说明的是,权重获取装置确定特征信息或者信息単元的权重值后,还可以通过设定权重值的阈值的方式,选择用于生成扩展特征词向量的特征信息或者信息単元。需要进ー步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述ー个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。作为本发明的优选方案之一,在所述第二获取装置2中还包括搜索获取装置21。作为本发明的优选方案之一,分词装置11和检索信息生成装置12在所述第二获取装置2进行操作之前执行操作。其中,分词装置11对所述短文本信息进行切词,获得信息単元;检索信息生成装置12根据语义分析及/或预设的所述信息単元的重要度,选择信息单元来生成检索信息。其中,所述搜索获取装置21还获取基于检索信息进行搜索而得到的相关扩展信肩、ο其中,所述语义分析包括对信息単元的词性分析,例如,判断信息単元为实词或虚词等。信息単元的重要度通过查询预设的単元重要度信息来获取。例如,分词装置对短文本信息“关于DNF的游戏下载”进行切词,获得信息単元“关干”、“DNF”、“的”、“游戏”、“下载”、“网姑”。短文本处理装置判断得到“DNF”、“游戏”、“下载”、 “网站”为实词,“关干”、“的”为虚词,则检索信息生成装置选择实词信息単元,即“DNF”、“游戏”、“下載”、“网站”来生成检索信息。又例如,単元重要度信息中包括“关干”、“的”为省略単元的信息,则检索信息生成装置查询单元重要度信息后,去除信息単元“关干”、“的”,保留信息単元“DNF”、“游戏”、“下載”、“网站”来生成检索信息。需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则,获取待处理短文本的扩展特征词向量的方案,均应包含在本发明的范围内,并以引用的方式包含于此。
根据本实施例,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。 特别是当相关扩展信息为通过对短文本信息进行搜索而获得的情况下,对于搜索频率较高的短文本信息,能够利用捜索特性,获得相关性较好的相关扩展信息,进ー步提高了所得扩展特征信息的针对性及可识别性。图6为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装置2、第一扩展装置3。其中第一扩展装置3中,还包括第一分析装置31和第一子扩展装置 32。第一获取装置1及第ニ获取装置2已在參照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。第一分析装置31对所述相关扩展信息进行切分,获得多个特征信息。例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,对第一至第三相关扩展信息进行切分,并去除相关扩展信息中的无效信息后,获得的特征信息包括“DNF”、“游戏”、“地下城与勇士”、“下載”、“网姑”、“进入”、“官方”、“最新”、“客户端”、“专区”、“文件”、“点击”、“腾讯”。其中,可通过查询预设的无效信息词典来,或者,通过去除虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值时,去除该信息単元。第一子扩展装置32基于所述第一预定规则,井根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。例如,第二获取装置2根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,第一子扩展装置32对第一至第三相关扩展信息进行切分,并合并相同的特征信息,获得特征信息以及其合并次数具体如下特征信息合并次数
DNF7
游戏6
地下城与勇士4
下载3
网站3
进入3
官方2
東新2
客户端2
专区2
文件2
点击2
腾讯1
第一子扩展装置32可根据合并次数,对上述特征信息进行由高到低的排序,井根
据排序结果选择特征信息来生成扩展特征词向量。优选的,选择前N位的特征信息来生成扩展特征词向量,其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。又例如,对于上述特征信息,第一子扩展装置32基于第一预定规则来进行排序, 并根据排序结果来选择特征信息,以生成扩展特征词向量。其中,基于第一预定规则来对特征信息进行排序的方式,已在參照图5所示实施例中予以详述,并以引用的方式包含于此, 不再赘述。又例如,第一子扩展装置32切分相关扩展信息获得特征信息后,就第一预定规则,计算与特征信息相应的权重值,井根据权重值来选择特征信息,以生成第一短文本信息的扩展特征词向量。其中,基于第一预定规则计算权重值的方法已在參照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。图7为本发明另ー个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装置2、第一扩展装置3。其中第一扩展装置3还包括第二分析装置33和第二子扩展装置 34。第一获取装置1及第ニ获取装置2已在參照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。第二分析装置33基于所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择ー个或多个相关扩展信息。其中,基于第一预定规则来由多个所述相关扩展信息中选择ー个或多个相关扩展信息的方式已经在參照图1的实施例中予以说明,并以引用的方式于此,不再赘述。第二子扩展装置34对所选择的相关扩展信息进行切分,获得所述多个扩展特征
1 η息ο例如,第二分析装置33选择第一相关扩展信息,第二子扩展装置34对其进行切分并去除无效信息,获得的多个特征信息包括“游戏”、“下載”、“地下城与勇士”、“ DNF”、“官方”。随后,短文本处理装置根据获得的特征信息,生成第一短文本信息的扩展特征词向量。又例如,短文本处理装置获得多个特征信息“游戏”、“下載”、“地下城与勇士”、 “DNF”、“官方”之后,根据特征信息所在相关扩展特征信息的权重,乘以特征信息在该扩展特征信息中出现的次数,以此作为特征信息的权重值,则得到各个特征信息及其权重值由大到小为特征信息权重值DNF10. 212游戏7. 254地下城与勇士 3.798下载3. 656官方1. 820随后,第二子扩展装置34根据权重值由大到小的顺序选择特征信息,以生成第一短文本信息的扩展特征词向量。
要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制, 本领域技术人员应该理解,任何对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。图8为本发明再一优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装置2、第一扩展装置3和扩展特征向量库9。其中第一获取装置1还包括更新装置4。第一获取装置1、第二获取装置2、第一扩展装置3已在參照图5、图6或图7所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。更新装置4建立和更新扩展特征向量库9,其中,该扩展特征向量库9包括多个短文本信息及其对应的扩展特征词向量。其中,所述建立包括构建包括多个短文本信息及其对应的扩展特征词向量的数据库;所述更新包括但不限于1)在扩展特征向量库9中添加新的短文本信息及其对应的扩展特征词向量;幻在扩展特征向量库9中更新已有短文本信息的扩展特征词向量等。其中,所述的已扩展短文本信息及其相应的扩展特征词向量可以通过以下任ー种方式得到
1)获取预存在计算机设备或其他设备中的已扩展短文本信息及其相应的扩展特征词向量;
2)通过短文本处理装置对待处理短文本信息进行处理后获得的短文本信息及其对应的扩展特征词向量等。其中,短文本处理装置进ー步包括查询装置5和第二扩展装置6。查询装置5根据所述待处理的短文本信息,在所述扩展特征向量库9中进行查询, 以获得一个或多个相关短文本信息及其对应的扩展特征词向量。第二扩展装置6根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待扩展短文本信息的扩展特征词向量。例如,第二预定规则中规定在第二扩展装置6执行操作之前,对于在第一获取装置1获取的待处理的短文本信息,查询装置5将其在扩展特征向量库9中进行匹配查询,以获得成功匹配的相关扩展信息对应的扩展特征向量。查询装置5将待处理短文本信息“DNF 游戏下载”在扩展特征向量库9中进行匹配查询,若扩展特征向量库9中包括“DNF游戏下載”,判断匹配成功,则第二扩展装置6将获取的扩展特征向量库中的相关短文本信息“DNF 游戏下载”对应的扩展特征词向量作为待处理短文本信息“DNF游戏下载”的扩展特征词向量。如此,可减少重复对同一短文本信息执行信息扩展的操作。优选地,所述第二预定规则包括根据多层级匹配规则,短文本处理装置根据多层级匹配规则逐级地对所述待处理短文本信息进行预定处理,其中查询装置5进ー步包括处理装置(图未示),判断装置(图未示)和第三获取装置(图未示)。第二扩展装置6中进一歩包括第三子扩展装置(图未示)。处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理。其中,所述当前层级匹配规则规定了在当前匹配层级下,短文本处理装置应对待处理短文本信息执行的相应处理,所述相应处理包括但不限于以下任ー种1)保留所述待处理短文本信息的全部内容的处理;具体的,处理装置对待处理短文本信息不做任何改变。2)去除无效信息的处理;
具体地,处理装置通过查询预设的无效信息词典,或者,通过去除短文本信息中的虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值吋,去除该信息単元。3)根据预设的词汇权重值来提取信息単元的处理;具体的,处理装置通过将信息単元与预设权重值的词汇进行匹配,来获得信息单元的权重值,并根据该权重值提取信息単元。其中,该提取方式包括且不限于a)根据权重值的排序选择信息単元;b)设置阈值,选择词汇权重值满足阈值条件的信息単元等。4)将所述待处理短文本信息与其他短文本信息进行聚合的处理。其中,所述其他短文本信息均为已扩展短文本信息,所述实现聚合的方式包括但不限于a)根据信息単元相似度进行聚合;具体的,处理装置查询其他短文本信息所包含的信息单元是否与所述待处理短文本信息所包含的信息単元相同或相似,其中,所述相似可通过查询同义词典来进行判断,当查询得到其他短文本信息所包含的信息単元与所述待处理短文本信息所包含的信息単元相同或相似吋,将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。b)根据相关扩展信息进行聚合等。具体的,当相关扩展信息通过根据短文本信息进行搜索而获得吋,处理装置查询所获取的待处理短文本的相关扩展信息是否同时为其他短文本信息的相关扩展信息,即当根据其他短文本信息进行搜索时,是否能够同样获得该相关扩展信息,若同样能够获得该相关扩展信息,则进ー步查询当该相关扩展信息属于待处理短文本信息的捜索结果及当该相关扩展信息属于其他短文本信息的搜索结果时,均有被用户点击的记录,若均有被用户点击的记录,则将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何短文本处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理的实现方式,均应包含在本发明的范围内。判断装置判断处理后的待处理短文本信息是否能够与ー个或多个已扩展短文本信息成功匹配。其中,匹配方式包括且不限于1)精确匹配;2模糊匹配;幻判断待处理短文本信息与已扩展短文本信息的相似度是否达到第二预定阈值等。其中,本领域技术人员应可根据实际情况和需求来确定该第二预定阈值。第三扩展装置当短文本处理装置判断成功匹配吋,将所述成功匹配的ー个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量。其中,查询装置5还进一歩包括层级选择装置(图未示)和子处理装置(图未示)。层级选择装置当判断未能成功匹配吋,选择下一层级匹配规则作为当前层级匹配规则。例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则及第三层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为去除无效信息的处理方式;第二层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息単元的处理方式;第三层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。若待处理短文本信息为“关于DNF游戏的下载网姑”,则层级选择装置首先以第一层级匹配规则为当前层级匹配规则,子处理装置根据此匹配规则,去除待处理本信息中的无效信息后,获得短文本信息“DNF游戏下载网姑”,并将该短文本信息与扩展特征向量库9 中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择第二层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第二层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息単元,其中,提取信息単元的方式已在处理装置中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下载”,则判断装置将该等信息単元与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择第三层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第三层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述处理装置中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。又例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则、第三层级匹配规则及第四层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为保留所述待处理短文本信息的全部内容的处理方式;第二层及匹配规则中规定的相应处理方式为去除无效信息的处理方式;第三层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息単元的处理方式;第四层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。若待处理短文本信息为“关于DNF游戏的下载网姑”,则层级选择装置首先以第一层级匹配规则为当前层级匹配规则,子处理装置根据此匹配规则,直接将待处理短文本信息与扩展特征向量库9中的已扩展短文本信息进行匹配,如果匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;如果匹配不成功,则层级选择装置选择第二层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第二层级匹配规则,去除待处理短文本信息中的无效信息,获得短文本信息“DNF游戏下载网姑”,并将该短文本信息与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择待处理层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第三层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息単元,其中,提取信息単元的方式已在前述处理装置中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为 “DNF”、“游戏”、“下載”,则短文本处理装置将该等信息単元与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择第四层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第四层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述处理装置中予以详述,并以引用的方式包含于此, 不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当短文本处理装置判断未能成功匹配吋,选择下ー层级匹配规则作为当前层级匹配规则的实现方式,均应包含在本发明的范围内。如此,通过逐级匹配,短文本处理装置获取到相关短文本信息及其对应的扩展特征词向量。子处理装置根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。具体的,子处理装置根据当前层级匹配规则来对待处理短文本信息的进行相应处理的方式。已经在处理装置中予以详述,并以引用的方式包含于此,不再赘述。根据本实施例的方法,第二扩展装置6进ー步包括第三扩展装置。第三扩展装置根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量。其中所述获得所述待处理短文本信息扩展特征词向量的方法包括但不限于以下至少ー种1)直接将所述成功匹配的已扩展短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;例如,若预设当当前匹配层级为第二层级吋,直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量,则当短文本处理装置判断当前的匹配层级为第二匹配层级吋,第三扩展装置直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量。2)将多个所述成功匹配的已扩展短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。其中所述合并的方式包括但不限于a)直接合并相同的扩展特征信息;b)根据扩展特征信息对应的权重值进行合并等。例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为“官网、免费外挂、外挂、地下城与勇士”和“外挂、地下城与勇士、地下城”,则第三扩展装置将该两项扩展特征词向量进行合并,获得待处理短文本信息的扩展特征词向量为“官网、免费外挂、外挂、地下城与勇士、地下城”。又例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为第一扩展特征词向量官网2.300327;免费外挂2. 300327 ;外挂2. 165737 ;地下城与勇士2. 03(^43。第二扩展特征词向量外挂2. 165737 ;地下城与勇士2. 030543 ;
地下城2.0。则第三扩展装置将第一扩展特征词向量与第二扩展特征词向量合井,并对权重值进行相加后平均的处理,则获得待处理短文本信息的扩展特征词向量为外挂2. 165737 ;地下城与勇士2. 030543 ;官网Ll5OlM ;免费外挂1. 150164 ;地下城1.0。又例如,待处理短文本信息的扩展特征词向量可以在计算得到各个扩展特征信息的权重值的基础上,根据权重值排序后选取,或者对权重值设置阈值后选取对应的权重值超过该阈值的扩展特征信息。随后,第三扩展装置根据获得的扩展特征信息生成待处理短文本信息的扩展特征词向量,并将该待处理短文本信息及其相应的扩展特征词向量存储于扩展特征向量库9 中。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。根据本实施例,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。 特別是对于ー些难以获得具有较好相关性的相关扩展信息的短文本信息,通过本实施例提供的方法,能够快速获得针对性及可识别性较强的扩展特征信息。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括” ー词不排除其他単元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由ー个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的順序。
权利要求
1.一种计算机实现的用于对待处理的短文本信息进行扩展的方法,其中,该方法包括以下步骤a获取所述待处理的短文本信息;b基于该短文本信息来获取与其相关的一个或多个相关扩展信息; c基于第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。
2.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤 -对所述相关扩展信息进行切分,获得多个特征信息;-基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
3.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤-基于所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;-对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述第一预定规则参考以下至少一项因素-所述相关扩展信息与所述短文本信息的相关度; -所述相关扩展信息的类别;-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态; -由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
5.根据权利要求1至4中任一项所述的方法,其中,所述第一预定规则还参考以下至少一项因素-由所述相关扩展信息切分得到的特征信息的分布状态; -由所述相关扩展信息切分得到的特征信息的语义特征。
6.根据权利要求1至5中任一项所述的方法,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,其中,所述步骤c还包括以下步骤-基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤-建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量;其中,该方法还包括以下步骤A基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征词向量;B根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。
8.根据权利要求7所述的方法,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理,所述步骤A包括以下步骤Al根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理;A2判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;A3当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量; 其中,所述步骤B包括以下步骤Bl根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量;其中,所述步骤Al还包括以下步骤-当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则; -根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
9.根据权利要求8所述的方法,其中,所述步骤Al中所述相应处理包括以下任一种 -保留所述待处理短文本信息的全部内容的处理;-去除无效信息的处理;-根据预设的词汇权重值来提取信息单元的处理; -将所述待处理短文本信息与其他短文本信息进行聚合的处理。
10.根据权利要求8或9所述的方法,其中,所述步骤Bl中所述获得所述待处理短文本信息扩展特征词向量的方法包括以下至少一种-直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;-将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
11.根据权利要求1至10中任一项所述的方法,其中,所述步骤b还包括以下步骤 bl获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息。
12.根据权利要求11所述的方法,其中,在所述步骤bl之前还包括以下步骤 -对所述短文本信息进行切词,获得信息单元;-根据语义分析及/或预设的所述信息单元的重要度,选择信息单元来生成检索信息;其中,所述步骤b 1还包括以下步骤-获取基于检索信息进行搜索而得到的相关扩展信息。
13.一种用于对待处理的短文本信息进行扩展的短文本处理装置,其中,该短文本处理装置包括a第一获取装置,用于获取所述待处理的短文本信息;b第二获取装置,用于通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;c第一扩展装置,用于根据第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。
14.根据权利要求13所述的短文本处理装置,其中,所述第一扩展装置还包括 -第一分析装置,用于对所述相关扩展信息进行切分,获得多个特征信息;-第一子扩展装置,用于根据所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
15.根据权利要求13所述的短文本处理装置,其中,所述第一扩展装置还包括-第二分析装置,用于根据所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;-第二子扩展装置,用于对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息ο
16.根据权利要求13至15中任一项所述的短文本处理装置,其中,所述第一预定规则参考以下至少一项因素-所述相关扩展信息与所述短文本信息的相关度; -所述相关扩展信息的类别;-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态; -由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
17.根据权利要求13至16中任一项所述的短文本处理装置,其中,所述第一预定规则还参考以下至少一项因素-由所述相关扩展信息切分得到的特征信息的分布状态; -由所述相关扩展信息切分得到的特征信息的语义特征。
18.根据权利要求13至17中任一项所述的短文本处理装置,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,其中,所述第一扩展装置还包括权重获取装置,用于基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
19.根据权利要求13至18中任一项所述的短文本处理装置,其中,该短文本处理装置还包括更新装置,用于建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量; 其中,该短文本处理装置还包括查询装置,用于基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征词向量;第二扩展装置,用于根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。
20.根据权利要求19所述的短文本处理装置,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理,所述查询装置包括处理装置,用于根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理; 判断装置,用于判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;第三获取装置,用于当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量; 其中,所述第二扩展装置包括第三子扩展装置,用于根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量; 其中,所述处理装置还包括层级选择装置,用于当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则;子处理装置,用于根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
21.根据权利要求20所述的短文本处理装置,其中,所述处理装置所执行的所述相应处理包括以下任一种-保留所述带扩展短文本信息的全部内容的处理; -去除无效信息的处理;-根据预设的词汇权重值来提取信息单元的处理; -将所述待处理短文本信息与其他短文本信息进行聚合的处理。
22.根据权利要求20或21所述的短文本处理装置,其中,所述第三子扩展装置包括以下至少一个装置直接匹配装置,用于直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;合并匹配装置,用于将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
23.根据权利要求13至22中任一项所述的短文本处理装置,其中,所述第二获取装置还包括搜索获取装置,用于获取基于短文本信息进行搜索而得到的一个或多个相关扩展信肩、ο
24.根据权利要求23所述的短文本处理装置,其中,该短文本处理装置还包括 分词装置,用于对所述短文本信息进行切词,获得信息单元;检索信息生成装置,用于根据语义分析及预设的所述信息单元的重要度,选择信息单元来生成检索信息;其中,所述搜索获取装置还用于获取基于检索信息进行搜索而得到的相关扩展信息。
25.一种计算机设备,其中,该计算机设备包括如权利要求13至M中任一项所述的短文本处理装置。
全文摘要
本发明提供一种用于对待处理的短文本信息进行扩展的方法、装置及计算机设备,其中,本发明获取所述待处理的短文本信息;通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;并根据所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量。与现有技术相比,本发明具有以下优点1)本发明能够较好地对短文本信息进行扩展,通用性较强,并且便于维护,并获得针对性及可识别性较强的扩展特征信息;2)本发明不受限于短文本形式,并且不必先预存短文本特征匹配表,具有更广泛的应用场景。
文档编号G06F17/21GK102567290SQ20101062367
公开日2012年7月11日 申请日期2010年12月30日 优先权日2010年12月30日
发明者冼健, 田 浩, 陈宁昱 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1