文本的标识方法及装置的制造方法_2

文档序号:9865652阅读:来源:国知局
0076]S123,根据所述权重,获得所述第一文本的特征指纹。
[0077]具体地,根据所述权重,在所述第一特征向量的基础上,建立所述第一文本的第二特征向量;根据所述第二特征向量,生成所述第一文本的特征指纹。
[0078]也就是说,在新生成的第二特征向量中各个元素的数量体现了该元素在标识该第一文本时的权重。比如一个字词对标识文本的作用越大,其相应的权重也越大。
[0079]可选地,所述第二特征向量中的各元素的数量满足各元素的权重之间的倍数关系O
[0080]例如,第一文本的第一特征向量为(小升初片区小学考试分班),标杆文本则涉及(幼升小片区小学考试分班),由此可见,第一文本中“小升初”的权重就应相应增大。将“小升初”的权重定为0.4,片区的权重为0.2,其他为0.1,则生成的第二特征向量为(小升初小升初小升初小升初片区片区小学考试分班)。
[0081]此外,还可以根据所述第二特征向量,基于所述第一文本与所述标杆文本之间的距离,生成所述第一文本的特征指纹。例如,通过最小hash运算,确定所述第一文本与所述标杆文本之间的距离。实际上,除了最小hash运算外,还有其他算法获得该距离。
[0082]13,根据所述多个特征指纹,标识所述第一文本。
[0083]通过上述步骤,可以分别获得第一文本相对于多个不同标杆文本的多个特征指纹,以该多个特征指纹来标识第一文本,增加了该文本的可识别性,大大压缩了文本的空间大小。
[0084]图3示出了根据本发明实施例的文本的标识装置的结构示意图。
[0085]在图3中,文本的标识装置30包括选取模块31、确定模块32和标识模块33。其中,选取模块31用于选取待标识的第一文本;确定模块32根据多个标杆文本,分别确定第一文本的多个特征指纹;标识模块33根据所述多个特征指纹,标识所述第一文本。
[0086]确定模块32具体用于:
[0087]获取所述第一文本的第一特征向量;根据所述标杆文本,确定所述第一文本的第一特征向量中各元素的权重;根据所述权重,获得所述第一文本的特征指纹。
[0088]例如,根据所述权重,在所述第一特征向量的基础上,建立所述第一文本的第二特征向量;根据所述第二特征向量,生成所述第一文本的特征指纹。
[0089]具体地,根据所述第二特征向量,基于所述第一文本与所述标杆文本之间的距离,生成所述第一文本的特征指纹。
[0090]例如,可以通过最小哈希运算,确定所述第一文本与所述标杆文本之间的距离。
[0091]进一步地,所述第二特征向量中的各元素的数量满足各元素的权重之间的倍数关系O
[0092]所述获取模块31具体用于:
[0093]根据字词序列中字词出现频率由高到低的顺序排列字词,并由前至后取出预设数量的字词作为所述第一文本的第一特征向量。进一步地,将所述第一文本进行分词处理,再进行去无用信息处理后形成排序前的字词序列。
[0094]这里所述的特征向量可以从以下的一个或多个中提取:文本标题,文本摘要,文本正文。
[0095]以上,在本发明的实施例中,权重的可以采用以下方法确定:
[0096]字词频率TF表示某一字词Ti在某一文档Dj中出现的频率,Ti出现的频率越高,TFi越高,说明这个字词对于整个文档越重要,例如,对于一篇谈论小升初的文档Dj,文档里“小升初”出现的频率TFi比较高。
[0097]也就是说,根据特征向量中的每个字词的字词频率,确定特征向量中每一个元素的权重。
[0098]在本发明的又一实施例中,权重的可以采用以下方法确定:
[0099]文档频率DF表示包含了某一字词Ti的文档的个数,对于某一字词Ti,包含该字词Ti的文档越多,S卩DFi越大,Ti用于区分不同的文档的作用越小,属于非焦点词。
[0100]逆文档频率IDF,与文档频率DF呈反比关系。例如但不限于,对某一字词而言,可以设定IDFi = log(N/DFi),其中N为文档总数。若某一字词仅仅出现在一篇文献中,S卩DFi为1,则IDFi为1gN,此时该字词对于文档之间的区分作用最大。
[0101 ]也就是说,根据特征向量中的每个字词的逆文档频率,确定特征向量中每一个元素的权重。
[0102]在本发明的另一实施例中,权重的可以采用以下方法确定:
[0103]根据特征向量中的每个字词的字词频率以及逆文档频率,确定特征向量中每一个元素的权重值。例如但不限于,可以将IF与IDF的乘积作为参数,确定特征向量中每一个元素的权重。
[0104]在本发明的一【具体实施方式】中,权重的可以采用以下方法确定:
[0105]字词出现在标题,文本摘要,文本正文等不同的位置,其重要程度不同,对文本的代表作用也是不同的。因此,可以根据特征向量中每一个元素在文本中所处的位置确定元素的权重,所述位置可以包括但不限于文本标题,文本摘要,文本正文。
[0106]在本发明的实施例中,权重的可以采用以下方法确定:
[0107]根据字词在文本中的位置,以及字词频率和/或逆文档频率确定特征向量中每一个元素的权重。
[0108]综上所述,根据本发明实施例的文本的标识装置通过依据多个标杆文本为待标识的文本生产多个特征指纹来标识,从而增加了该文本的可识别性,大大压缩了文本的空间大小。
[0109]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于评论确定新闻推荐权重的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0110]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0111]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0112]此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
【主权项】
1.一种文本的标识方法,包括: 选取待标识的第一文本; 根据多个标杆文本,分别确定第一文本的多个特征指纹; 根据所述多个特征指纹,标识所述第一文本。2.根据权利要求1所述的文本的标识方法,其中通过以下方式获得特征指纹: 获取所述第一文本的第一特征向量; 根据所述标杆文本,确定所述第一文本的第一特征向量中各元素的权重; 根据所述权重,获得所述第一文本的特征指纹。3.根据权利要求1或2所述的文本的标识方法,其中所述根据权重获得第一文本的特征指纹,包括: 根据所述权重,在所述第一特征向量的基础上,建立所述第一文本的第二特征向量; 根据所述第二特征向量,生成所述第一文本的特征指纹。4.根据权利要求1至3中任一项所述的文本的标识方法,其中所述根据第二特征向量生成第一文本的特征指纹,包括: 根据所述第二特征向量,基于所述第一文本与所述标杆文本之间的距离,生成所述第一文本的特征指纹。5.根据权利要求1至4中任一项所述的文本的标识方法,其中通过最小哈希运算,确定所述第一文本与所述标杆文本之间的距离。6.根据权利要求1至5中任一项所述的文本的标识方法,其中所述第二特征向量中的各元素的数量满足各元素的权重之间的倍数关系。7.根据权利要求1至6中任一项所述的文本的标识方法,其中所述获取第一文本的第一特征向量,包括: 根据字词序列中字词出现频率由高到低的顺序排列字词,并由前至后取出预设数量的字词作为所述第一文本的第一特征向量。8.根据权利要求1至7中任一项所述的文本的标识方法,其中将所述第一文本进行分词处理,再进行去无用信息处理后形成排序前的字词序列。9.根据权利要求1至8中任一项所述的文本的标识方法,其中所述特征向量从以下的一个或多个中提取:文本标题,文本摘要,文本正文。10.一种文本的标识装置,包括: 选取模块,用于选取待标识的第一文本; 确定模块,用于根据多个标杆文本,分别确定第一文本的多个特征指纹; 标识模块,用于根据所述多个特征指纹,标识所述第一文本。
【专利摘要】本申请提供了一种文本的标识方法和标识装置。该方法包括:选取待标识的第一文本;根据多个标杆文本,分别确定第一文本的多个特征指纹;根据所述多个特征指纹,标识所述第一文本。综上所述,根据本发明实施例的文本的标识方法及标识装置通过依据多个标杆文本为待标识的文本生产多个特征指纹来标识,从而增加了该文本的可识别性,大大压缩了文本的空间大小。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105630928
【申请号】CN201510974385
【发明人】张伸正, 魏少俊, 陈培军
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2016年6月1日
【申请日】2015年12月22日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1