文档中无效词的识别方法及装置与流程

文档序号:12802170阅读:362来源:国知局
文档中无效词的识别方法及装置与流程

本申请涉及计算机技术领域,尤其涉及一种文档中无效词的识别方法及装置。



背景技术:

传统技术中,一般通过如下两种方法来识别文档中的无效词,此处,无效词是指与当前文档内容不相关的词语,相应地,与当前文档的内容相关的词语可以称为关键词。

第一种方法是,基于预设的规则,来识别文档中的无效词,如将“_”、“-”或者其它预设字符之前或者之后的词语识别为无效词,而事实上,文档内容的表现形式变化多端,在部分文档中,很有可能“_”、“-”或者其它特殊字符之前或者之后均包括了关键词,而根据上述方法,直接将“_”、“-”或者其它特殊字符之前或者之后的词语识别为无效词时,会导致关键词被识别为无效词的问题,也即根据第一种方法识别的无效词往往是不准确的。

第二种方法是,根据tf-idf的方法,来识别文档中的无效词。具体地,首先计算文档中各个词语的词频(termfrequency,tf)和逆文档频率(inversedocumentfrequency,idf),其中,词频是指某一词语在某一文档中出现的次数,而idf可以根据公式1计算:

其中,idf(w)为词语w的逆文档频率,n为预设的语料库中包含词语w的文档的个数,df(w)为词语w的词频。idf描述的是词语在文档中出现的广度,idf越大,说明词语出现的越少,只在几篇文档中出现,idf越小,说明词语出现的越频繁,极端情况下,一个词语在所有文档中都出现了,那么这个词语的idf为0,说明词语没有区分价值,如“的”、“是”这类停用词在大部分文档中都会出现,因此这类词语的idf值很小。

在计算得到文档中各个词语的tf和idf之后,根据计算得到的tf和idf,来对各个词语进行打分(如,tf*idf);最后根据各个词语的打分结果,来从文档中识别无效词。然而当部分文档只包括了较少的词语时,大部分的词语在文档中只出现了一次,则上述tf*idf也相当于idf;而根据上述内容可知,根据idf只能从文档中识别停用词,而并不能识别无效词。



技术实现要素:

本申请描述了一种文档中无效词的识别方法及装置,可以有效地识别文档中的无效词。

第一方面,提供了一种文档中无效词的识别方法,该方法包括:

对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;

根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;

对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;

根据所述各个词语的目标权重值,识别所述第一文档中的无效词。

第二方面,提供了一种文档中无效词的识别装置,该装置包括:

预处理单元,用于对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;

确定单元,用于根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;

所述确定单元,还用于对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;

识别单元,用于根据所述确定单元确定的所述各个词语的目标权重值,识别所述第一文档中的无效词。

本申请提供的文档中无效词的识别方法及装置,首先对识别无效词的文档进行预处理,得到与该文档对应的词语集合;然后根据预设的语料库,确定词语集合中各个词语的平均位置以及逆文档频率;之后根各个词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定各个词语的目标权重值;最后根据各个词语的目标权重值,识别第一文档中的无效词。也即本申请是根据词语的平均位置以及逆文档频率,来从第一文档中识别无效词,由此,可以提高无效词识别的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请一种实施例提供的文档中无效词的识别方法流程图;

图2为本申请另一种实施例提供的文档中无效词的识别装置示意图。

具体实施方式

下面结合附图,对本发明的实施例进行描述。

本申请实施例提供的文档中无效词的识别方法及装置,适用于从文档中识别与当前文档内容不相关的词语的场景,在本说明书中,将与当前文档内容不相关的词语称为无效词。举例来说,在淘宝网的某网页页面中包含了如下内容:“淘宝买买买好开心-提供健康|养生|留学|移民|创业|汽车等信息-手机淘网”,在该网页页面中,因为“手机淘网”与当前网页页面的内容不相关,所以可以将“手机”以及“淘网”识别为无效词。

需要说明的是,上述文档可以是指由服务器或者人工预先收集的网页页面,也可以是指由人工预先整理的文本;此外,本说明书中的文档可以是指中文文档,也可以是指英文文档,具体地,当上述文档为中文文档时,识别的无效词为中文词语;当上述文档为英文文档时,识别的无效词为英文词语。

图1为本申请一种实施例提供的文档中无效词的识别方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如图1所示,所述方法具体包括:

步骤110,对第一文档进行预处理,得到与第一文档对应的词语集合。

其中,第一文档可以为预设的语料库中的任一文档,预设的语料库中的文档可以是由服务器或者人工预先收集的网页页面,也可以是指由人工预先整理的文本。可以理解的是,该预设的语料库中可以包括多个文档。

需要说明的是,当第一文档为中文文档时,上述对第一文档进行预处理可以包括:对第一文档进行分词处理和/或去除停用词和/或词语去重处理等;而当第一文档为英文文档时,上述对第一文档进行预处理可以包括:对第一文档进行词语去重处理等。在此说明书中,以第一文档为中文文档为例来说。

在对中文文档进行分词时,常用的分词方法主要包括:基于词典的分词方法、基于统计的分词方法以及两者结合的方法。基于词典的分词方法如下:人工预先整理一个词典,分词时,以长度从长到短的扫描文档中的每个句子,查看每个分段是否在词典中,如以文档的内容为“传说天雷山离天只有三尺三”为例来说,可以先扫描“传说天雷山离天只有三尺三”发现不在词典中,然后扫描“传说天雷山离天只有三尺”发现仍然不在词典中,不断尝试,直到最后扫描“传说”发现在词典中,这样就分成“传说”和“天雷山离天只有三尺三”这两个分段,后面再用这样的方法继续扫描词典,直至每个分段都包含在字典中。基于统计的分词方法与基于词典的分词方法类似,与之不同的是,不是去查词典,而是看每个分段在预设的语料库中出现的次数。如“传说”这个分段作为词语出现的次数会远远大于“传说天”,则将“传说”这个分段作为一个词语,基于统计的分词方法能够发现一些网络新词,比如“逗比”。在实际应用中,可以结合基于统计的分词方法和基于词典的分词方法来对文档进行分词。

举例来说,在对文档:“传说天雷山离天只有三尺三”进行分词处理之后,得到的分词可以为:“传说”、“天雷山”、“离”、“天”、“只有”、“三尺”以及“三”。

去除停用词的过程可以为:根据预先定义的停用词,来去除第一文档中的停用词,此处的停用词是指文档中没有实际意义的词语,如,“我”、“的”、“是”、“等”、“了”以及“么”等。

在本申请中,进行词语去重处理的原因在于:对于包括较少词语的文档,词频不能起到很好的作用,且少量出现多次的词语还会造成干扰,所以可以统一将文档中重复的词语去掉。需要说明的是,在词语去重要处理的过程中,要保持原有词语在文档中的相对顺序,并从前往后或者从后往前扫描去重。例如,对于内容为:“数码相机销量减少–数码资讯”的文档进行词语从前往后去重之后,得到的结果是:“数码相机销量减少–资讯”,也即将前面的“数码”这个词语保留。

在一个例子中,对第一文档进行预处理的过程可以为:对第一文档进行分词处理,得到第一文档中包含的各个词语;之后查看各个词语是否为预先定义的停用词,若任一词语为停用词,则从上述各个词语中过滤该任一词语,从而得到过滤后的各个词语;最后查看过滤后的各个词语是否相互重复,若存在相互重复的词语,则去除在后的词语,而保留在先的词语,由此,就得到了去重处理后的各个词语,去重处理后的各个词语构成了第一文档对应的词语集合。如,假设第一文档的内容为:“编写一个程序求解猴子吃桃问题猴子-提供健康养生留学移民创业汽车等信息-提供健康养生留学移民创业汽车等信息_手机淘网”,则对第一文档进行预处理之后,得到的与第一文档对应的词语集合可以为:w={“编写”、“一个”、“程序”、“求解”、“猴子”、“吃”、“桃”、“问题”、“提供”、“健康”、“养生”、“留学”、“移民”、“创业”、“汽车”、“信息”、“手机”以及“淘网”}。

需要说明的是,上述只是示例性地说明了第一文档的预处理过程,当然,在实际应用中,也可以不对第一文档进行分词处理和去除停用词,而只进行词语去重处理;或者,也可以在对第一文档进行分词处理之后,不去除停用词,而直接进行词语去重处理;或者,也可以不进行词语去重处理等,本申请对此不作限定。

步骤120,根据预设的语料库,确定词语集合中各个词语的平均位置以及逆文档频率。

其中,根据预设的语料库,确定词语集合中各个词语的平均位置可以包括:

步骤a:对词语集合中的每个词语,从预设的语料库中筛选出包含该词语的至少一个目标文档。

举例来说,假设预设的语料库中包括了x个文档,其中,y(y≤x)个文档包含了该词语,则可以从x个文档中筛选出y个目标文档。

步骤b:对至少一个目标文档进行词语去重处理,得到词语去重处理后的各个目标文档。

此处可以是对至少一个目标文档中的每个目标文档进行词语去重处理,其中对目标文档的词语去重处理的方法与对第一文档进行词语去重处理的方法类似,在此不复赘述。可选地,在对目标文档进行词语去重处理之前,可以先对该目标文档进行分词处理以及去除停用词等,本申请对此不作限定。

步骤c:确定该词语在各个目标文档中出现的序号,并统计各个目标文档所包含词语的个数。

如前述例子,对筛选出的y个目标文档,假设其中一个目标文档在经过预处理后为“杭州西湖很美”,且假设该词语为“西湖”,则该词语在上述一个目标文档中出现的序号为“2”,而该一个目标文档所包含词语的个数为“3”。依据该词语在上述一个目标文档中出现的序号以及该一个目标文档所包含词语的个数,确定出该词语分别在剩余y-1个目标文档中出现的序号以及剩余y-1个目标文档所包含词语的个数。

步骤d:根据目标文档的个数、上述序号以及各个目标文档所包含词语的个数,确定词语的平均位置。

在一个例子中,可以根据公式2确定该词语的平均位置:

其中,w为词语集合中的任一词语,p(w)为该任一词语的平均位置,df(w)为目标文档的个数(相当于前述例子中的y),d(i)为第i个目标文档,kd(i)为该任一词语在第i个目标文档中出现的序号,md(i)为第i个目标文档所包含词语的个数。

根据上述公式2可以确定出词语集合中每个词语的平均位置;在确定出词语集合中各个词语的平均位置之后,还可以进一步确定各个词语的逆文档频率。此处,每个词语的逆文档频率的确定方法可参考背景技术中的公式1,也即词语的逆文档频率的确定方法属于传统常规技术,本申请在此不复赘述。

需要说明的是,虽然上述以先确定词语集合中各个词语的平均位置,之后再确定各个词语的逆文档频率为例进行了说明,但是在实际应用中,也可以先确定词语集合中各个词语的逆文档频率,之后再确定各个词语的平均位置,本申请对此不作限定。

步骤130,对词语集合中的每个词语,根据词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定词语的目标权重值。

在实际应用中,无效词在文档中通常是连续出现的,在本申请中,将在文档的开始部分连续出现的多个无效词称为无效前缀,而将在文档的结尾部分连续出现的多个无效词称为无效后缀。

若本申请用于识别第一文档中结尾部分的无效词,则上述相关词语是指在第一文档中出现在上述词语之后的后续词语;且步骤130具体可以包括:

根据公式3确定词语集合中每个词语的目标权重值:

其中,d为第一文档,w为词语集合中的任一词语,pidf(w,d)为w的目标权重值,k(w,d)为w在d中出现的序号,m为d所包含词语的个数,wj为d中的第j个词语,idf(wj)为第j个词语的逆文档频率,为w以及在d中出现在该d之后的后续词语的最小逆文档频率,p(w)为w的平均位置。

需要说明的是,用于将当前计算目标权重值的词语的逆文档频率与该词语的后续词语的逆文档频率进行比较,然后取最小的逆文档频率。举例来说,假设第一文档的内容为:“杭州西湖很美”,且假设当前计算目标权重值的词语为“西湖”,即第一文档所包含的词语的个数为“3”,该词语在第一文档中出现的序号为“2”,且该词语的后续词语为“很美”;公式3的分子可以变为:也即将“西湖”的逆文档频率与“很美”的逆文档频率进行比较,若“西湖”的逆文档频率小于“很美”的逆文档频率,则公式3的分子取值为“西湖”的逆文档频率,也即取该词语以及该词语的后续词语的最小逆文档频率。

需要说明的是,上述公式3的设计原理如下:

1)一个词语越靠后越可能是无效后缀中的无效词;

2)一个词语是无效后缀中的无效词,那么它会在多个文档中出现,因此其逆文档频率比较小;

3)一个词语是无效后缀中的无效词,那么它后面的词都应该是无效后缀中的无效词,反过来说,一个词语不是无效后缀中的无效词,它前面的词语也应该不是无效后缀中的无效词;

公式3中分母部分、分子中的idf、分子中的min分别体现了1)、2)和3),本申请巧妙的利用了后续词语的最小逆文档频率,体现了无效后缀中的无效词的连续性。

上述内容是在说明本申请用于识别第一文档中结尾部分的无效词时,词语的目标权重值的确定方法,而当本申请用于识别第一文档中开始部分的无效词时,则上述相关词语是指在第一文档中出现在上述词语之前的前续词语;且步骤130具体可以包括:

根据公式4确定所述词语的目标权重值:

其中,d为第一文档,w为词语集合中的任一词语,pidf(w,d)为w的目标权重值,k(w,d)为w在d中出现的序号,wj为d中的第j个词语,idf(wj)为第j个词语的逆文档频率,为w以及在d中出现在w之前的前序词语的最小逆文档频率,p(w)为w的平均位置。

需要说明的是,用于将当前计算目标权重值的词语的逆文档频率与该词语的前序词语的逆文档频率进行比较,然后取最小的逆文档频率。举例来说,假设第一文档的内容为:“杭州西湖很美”,且假设当前计算目标权重值的词语为“西湖”,即第一文档所包含的词语的个数为“3”,该词语在第一文档中出现的序号为“2”,且该词语的前续词语为“杭州”;公式4的分子可以变为:也即将“杭州”的逆文档频率与“西湖”的逆文档频率进行比较,若“杭州”的逆文档频率小于“西湖”的逆文档频率,则公式4的分子取值为“杭州”的逆文档频率,也即取该词语以及该词语的前续词语的最小逆文档频率。

步骤140,根据各个词语的目标权重值,识别第一文档中的无效词。

其中,步骤140具体可以包括:

将各个词语的目标权重值与预设阈值进行比较,将目标权重值不超过预设阈值的词语识别为第一文档中的无效词。

此处的无效词可以为无效前缀中的无效词,也可以为无效后缀中的无效词。以识别无效后缀中的无效词为例来说,预设阈值可以根据预设的语料库来确定,在一个例子中,预设阈值可以取值为11.5,取这个值的原因是,若某个词语出现在文档的后面60%的词语中,且包含该词语的文档数占总的文档数的比例大于1%时,则该词语极有可能是无效后缀中的无效词,计算公式如公式5:

对前述例子中的词语集合w={“编写”、“一个”、“程序”、“求解”、“猴子”、“吃”、“桃”、“问题”、“提供”、“健康”、“养生”、“留学”、“移民”、“创业”、“汽车”、“信息”、“手机”以及“淘网”},假设各个词语的目标权重值如表1所示。

表1

续表1

根据上述表1以及续表1可知,词语“提供”、“健康”、“养生”、“留学”、“移民”、“创业”、“汽车”、“信息”、“手机”以及“淘网”的目标权重值均未超过11.5,因此,可以将上述各个词语识别为第一文档中的无效词,且该多个无效词构成了第一文档的无效后缀。

同上述无效后缀的识别方法类似地,本申请还可以从第一文档中识别出无效前缀,本申请在此不复赘述。

与上述文档中无效词的识别方法对应地,本申请实施例还提供的一种文档中无效词的识别装置,如图2所示,该装置包括:

预处理单元201,用于对第一文档进行预处理,得到与第一文档对应的词语集合,其中,第一文档为预设的语料库中的任一文档。

确定单元202,用于根据预设的语料库,确定词语集合中各个词语的平均位置以及逆文档频率。

确定单元202具体用于:

对词语集合中的每个词语,从预设的语料库中筛选出包含词语的至少一个目标文档;

对至少一个目标文档进行词语去重处理,得到词语去重处理后的各个目标文档;

确定词语在各个目标文档中出现的序号,并统计各个目标文档所包含词语的个数;

根据目标文档的个数、序号以及各个目标文档所包含词语的个数,确定词语的平均位置。

确定单元202,还用于对词语集合中的每个词语,根据词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定词语的目标权重值。

识别单元203,用于根据确定单元202确定的各个词语的目标权重值,识别第一文档中的无效词。

识别单元203具体用于:

将各个词语的目标权重值与预设阈值进行比较,将目标权重值不超过预设阈值的词语识别为第一文档中的无效词。

可选地,确定单元202还具体用于:

根据如下公式确定词语的平均位置:

其中,w为所述词语,p(w)为所述词语的平均位置,df(w)为所述目标文档的个数,d(i)为第i个目标文档,kd(i)为所述词语在所述第i个目标文档中出现的序号,md(i)为所述第i个目标文档所包含词语的个数。

可选地,确定单元202还具体用于:

根据如下公式确定所述词语的目标权重值:

其中,d为所述第一文档,w为所述词语,pidf(w,d)为所述词语的目标权重值,k(w,d)为所述词语在所述第一文档中出现的序号,m为所述第一文档所包含词语的个数,wj为所述第一文档中的第j个词语,idf(wj)为所述第j个词语的逆文档频率,为所述词语以及在所述第一文档中出现在所述词语之后的后续词语的最小逆文档频率,p(w)为所述词语的平均位置。

可选地,确定单元202还具体用于:

根据如下公式确定所述词语的目标权重值:

其中,d为所述第一文档,w为所述词语,pidf(w,d)为所述词语的目标权重值,k(w,d)为所述词语在所述第一文档中出现的序号,wj为所述第一文档中的第j个词语,idf(wj)为所述第j个词语的逆文档频率,为所述词语以及在所述第一文档中出现在所述词语之前的前续词语的最小逆文档频率,p(w)为所述词语的平均位置。

本申请实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本申请提供的装置的具体工作过程,在此不复赘述。

本申请实施例提供的文档中无效词的识别装置,预处理单元201对第一文档进行预处理,得到与第一文档对应的词语集合;确定单元202根据预设的语料库,确定词语集合中各个词语的平均位置以及逆文档频率;确定单元202对词语集合中的每个词语,根据词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定词语的目标权重值;识别单元203根据各个词语的目标权重值,识别第一文档中的无效词。由此,可以提高无效词识别的效率。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1