噪声文档的筛除方法及计算机可读存储介质与流程

文档序号:20919634发布日期:2020-05-29 13:58阅读:147来源:国知局
噪声文档的筛除方法及计算机可读存储介质与流程

本发明涉及数据处理技术领域,尤其涉及一种噪声文档的筛除方法及计算机可读存储介质。



背景技术:

随着网络数据的快速膨胀增长,数据搜索是人们从海量数据中提取所需信息的关键途径。通过有效的设置搜索条件、关键字段可以获取到所关注事物事件的新闻、评论等相关知识。同时各个闭环大数据中心的建立也普遍需要脱离互联网环境的数据搜索服务。基于语义信息的精确数据搜索可以帮助人们在本地环境下获取到所需的信息,在保证数据闭环需求的同时提供高质量的搜索结果,为数据治理提供便利。

现有技术对数据库检索内容优化主要分为两个方向,一是线上优化,主要基于网页链接的拓扑结构,如pagerank等;二是脱机数据搜索结果优化,其往往依靠机器学习方法进行标记训练,将数据分为相关与噪声两类样本,利用支持向量机或贝叶斯等方法进行训练分类。但线上算法依赖于内容之间的链接及互联网用户的浏览轨迹,这在脱机数据库中均是不存在或无法获取的特征信息;机器学习方法训练分类主要存在耗费人力大、泛化性能差的特点。组织人员或要求搜索者自身在搜索数据前进行标注都会降低数据库搜索频率,使得人机效率下降。



技术实现要素:

本发明所要解决的技术问题是:提供一种噪声文档的筛除方法及计算机可读存储介质,可有效剔除搜索结果中与目标无关的噪声语料,保留与搜索目标相关的语料。

为了解决上述技术问题,本发明采用的技术方案为:一种噪声文档的筛除方法,包括:

根据预设的种子词集合,检索得到原始语料;

根据所述原始语料的格式,从所述原始语料中提取有效文本;

对所述有效文本进行分句,并对所述有效文本进行数据清洗;

对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;

从所述有效文本的各分句中获取包含至少一个种子词的共现句;

根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;

根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;

分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;

根据预设的无关类高频词集合,得到无关类关键词表;

分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;

根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;

若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。

本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的步骤。

本发明的有益效果在于:通过进行数据清洗,去除字符级的噪声信息和语义较少或残缺的语段;通过对有效文本进行分句、分词,便于后续对各分句的分析以及各词语的匹配;通过在共现句中获取重点词语,保证重点词语的相关性;通过合并种子词集合、关键词集合和预设的相关类高频词集合,得到的相关类关键词表可以形成一组基本覆盖事件的相关词语;通过计算相关词语和无关词语在有效文本中作为重点句法成分的出现比例,得到相关词语和无关词语的关键词权重,使得权重的评估是对不同位置的打分,部分位置较高,其他位置较低或为零;通过根据有效文本命中的相关词语和无关词语的数量及其关键词权重,计算有效文本的得分,最后根据得分来判定是否为噪声文本。

本发明可用于解决数据库按种子词搜索中搜索结果差,噪声语料多的问题;通过语义扩充关键词表,从而得以对粗搜索数据进行筛选,剔除无关文本,提高搜索结果语料质量,为数据中心管理数据提供便捷。

附图说明

图1为本发明的一种噪声文档的筛除方法流程图;

图2为本发明实施例一的方法流程图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。

本发明最关键的构思在于:基于种子词,并结合词性信息及句法信息两维语义特征及特征权重提取出更多的关键词;根据相关样本和无关样本,提取相关类高频词和无关类高频词;将相关词语和无关词语作为重点句法成分的出现比例作为其对应的关键词权重;根据文本命中的相关词语和无关词语及其关键词权重,计算文本得分,并根据得分判定文本类型。

请参阅图1,一种噪声文档的筛除方法,包括:

根据预设的种子词集合,检索得到原始语料;

根据所述原始语料的格式,从所述原始语料中提取有效文本;

对所述有效文本进行分句,并对所述有效文本进行数据清洗;

对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;

从所述有效文本的各分句中获取包含至少一个种子词的共现句;

根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;

根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;

分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;

根据预设的无关类高频词集合,得到无关类关键词表;

分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;

根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;

若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。

从上述描述可知,本发明的有益效果在于:可用于解决数据库按种子词搜索中搜索结果差,噪声语料多的问题。

进一步地,所述若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本之后,进一步包括:

删除噪声文本。

从上述描述可知,通过删除搜索结果中的噪声文本,提高搜索结果的准确性。

进一步地,所述对所述有效文本进行分句,并对所述有效文本进行数据清洗具体为:

根据预设的断句符,对所述有效文本进行分句;

根据预设的字符黑名单,对所述有效文本中的字符进行过滤,所述字符黑名单包括英文符号、英文字母和断句符以外的中文符号;

根据预设的语段长度,对所述有效文本中的分句进行过滤。

由上述描述可知,可过滤有效文本中字符级的噪声信息,同时可过滤语义较少或缺失的语段。

进一步地,所述根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合具体为:

若所述共现句中的一词语的词性属于预设的重点词性且所述一词语的句法成分属于预设的重点句法成分,则将所述一词语作为重点词语;

获取各共现句中的重点词语,得到关键词集合。

进一步地,所述根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表之前,进一步包括:

获取预设的第一样本和第二样本,所述第一样本为与期望搜索内容相关的样本,所述第二样本为与期望搜索内容不相关的样本;

分别对所述第一样本和第二样本进行分词,得到第二词语集合和第三词语集合;

分别获取所述第二词语集合和第三词语集合中词频最高的预设个数的词语,得到相关类高频词集合和无关类高频词集合。

由上述描述可知,通过从相关样本和无关样本中提取出相关类高频词和无关类高频词,可保证筛除质量及人工可控。

进一步地,所述分别对所述第一样本和第二样本进行分词,得到第二词语集合和第三词语集合之后,进一步包括:

根据预设的停用词表,删除所述第二词语集合和第三词语集合中的停用词,或删除所述相关类高频词集合和无关类高频词集合中的停用词。

进一步地,所述根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表之后,进一步包括:

根据预设的停用词表,删除所述相关类关键词表中的停用词。

由上述描述可知,通过删除停用词,可避免停用词对后续文本的识别结果造成影响,保证识别的准确性。

进一步地,所述根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分具体为:

根据所述相关类关键词表和无关类关键词表,分别获取一有效文本的各分句中的相关词语和无关词语;

分别根据所述各分句中的相关词语的关键词权重和无关词语的关键词权重,计算所述各分句的得分;

根据各分句在所述一有效文本中的比重以及各分句的得分,计算所述一有效文本的得分。

由上述描述可知,有效文本中包含的相关词语越多,则得分越高,包含的无关词语越多,则得分越低。

进一步地,所述根据各分句在所述一有效文本中的比重以及各分句的得分,计算所述一有效文本的得分之前,进一步包括:

分别统计各分句的字的数量,得到各分句的长度;

统计所述一有效文本的字的总数量,得到所述一有效文本的长度;

分别计算各分句的长度占所述一有效文本的长度的比例,得到各分句在所述一有效文本中的比重。

由上述描述可知,比重即为单个分句的长度占文本总长度的比例。

本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的步骤。

实施例一

请参照图2,本发明的实施例一为:一种噪声文档的筛除方法,可应用于筛除互联网信息中的噪声文档,适用于计算机数据库系统中提供搜索优化。所述方法包括如下步骤:

s1:根据预设的种子词集合,从数据库中检索得到原始语料;具体地,将种子词作为搜索词汇,从本地数据库中获取匹配成功的语料信息。

从数据库中获取原始语料的途径是种子词逻辑匹配搜索,一组种子词通过“与”“或”逻辑进行连接,从而对文本进行判别,例如“中国或北京”表示文本中出现“中国”或出现“北京”的文本。

本实施例以互联网信息为例,所获得的语料主要为新闻、网文报道及相关的评论信息。由于是本地数据库搜索,因此不同的文本均根据种子词匹配获取,与原始数据出处的页面、url等无关。

s2:根据所述原始语料的格式,从所述原始语料中提取有效文本。即对原始语料进行整理,针对不同种类文本将不同的格式内容进行提取、存储。

由于新闻报道、社评、网民发帖等都有不同的文本格式,因此要根据不同的格式提取出细粒度的有效信息字段,如新闻标题部分、正文部分、网民发布的言论部分、转发部分等。本实施例主要针对新闻、网文这类长文本以及微博短文本数据整理格式。其中,新闻的标题由爬虫根据不同新闻网页的设置来爬取,不同页面有所不同。微博短文本重点在格式整理,微博平台与其他社交平台类似,其帖文具有较强的格式信息,不同的符号代表着不同的含义,本实施例按照多种格式进行匹配,以提取出文本的主干句子信息。

具体地,本实施例中提取的有效文本包括正文标题、正文内容、转发标题和转发内容。先按照预设的正则表达式,从所述原始语料中提取除正文内容外的有效文本。例如,根据“#.*?#”,提取话题内容;根据“【.*?】”,提取转发文章标题内容;根据“//@.*?:”,提取转发账号内容。然后通过在原始语料中删除这些除正文内容外的内容,即可得到正文内容。

s3:对所述有效文本进行分句,并对所述有效文本进行数据清洗。本实施例中,数据清洗主要是去除标点、去除语义较少的语段。

本步骤首先根据预设的断句符,对所述有效文本进行句子边界界定,所述断句符包括逗号、分号、句号、叹号、问号以及长空格,得到有效文本的各分句。

由于有效文本中可能存在着字符级的噪声信息,如非中文字符、无法辨识字符、冗余标点符号等,因此,需要对有效文本中的字符进行过滤。具体地,去除所述有效文本中属于预设的字符黑名单的字符,所述字符黑名单包括英文符号(acsii中0x21之后的符号)、英文字母(ascii中的大写字母和小写字母)和断句符以外的中文符号,还可以包括一些无法辨识的字符。通过去除预设的字符,可过滤有效文本中字符级的噪声信息。

同时,有效文本中也会存在语义信息过少,无法成句的部分语段,如网民转发他人的残缺信息,为单纯表达情绪而由一两个词构成的语段,这部分语段也需滤除。具体地,分别统计有效文本的各分句的字的数量,作为各分句的长度,然后删除长度小于预设的语段长度(如4)的分句。进一步地,删除所述有效文本中预设格式的语段,如邮件的抬头落款、微博文本的转发账号名等。

s4:对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;进一步地,将词性识别和句法分析和结果作为特征与有效文本中对应的词语统一存储。即对已整理的语料数据进行分词、词性识别和句法分析,并将各语义信息及有效文本规范化存储,其中语义信息指分词、词性识别和句法分析的结果。

s5:从所述有效文本的各分句中获取包含至少一个种子词的共现句,即若所述有效文本中的一分句包含至少一个的种子词,则所述一分句为共现句。

例如,假设种子词包含“中国”和“北京”,则若有效文本的一个句子中出现出现“中国”或“北京”,或同时出现这两个词,则认为该句子为共现句。

s6:根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合,即分别获取各共现句中词性属于预设的重点词性且句法成分属于预设的重点句法成分的词语,并将这些词语加入关键词集合。

其中,句法成分内容包括主语、谓语、宾语、定语、状语、补语及核心动词七种,本实施例中的重点句法成分包括主语、谓语、宾语和核心动词。词性为国标863词性标注标准,本实施例的重点词性包括形容词、词素、成语、缩写、后缀、数字、一般名词、方向名词、人名、组织名、地名、时间名词、其他名词、拟声词和动词。

s7:获取相关类高频词集合和无关类高频词集合。

具体地,获取预设的第一样本和第二样本,所述第一样本为与期望搜索内容相关的样本,所述第二样本为与期望搜索内容不相关的样本;然后分别对所述第一样本和第二样本进行分词,得到第二词语集合和第三词语集合;分别获取所述第二词语集合和第三词语集合中词频最高的预设个数(如10)的词语,得到相关类高频词集合和无关类高频词集合。

其中,第一样本和第二样本可以从原始语料中随机获取,然后由人工进行标注,标注内容为是否与期望搜索内容相关;也可另外获取已经标注好的样本。

进一步地,在得到第二词语集合和第三词语集合之后,或在得到相关类高频词集合和无关类高频词集合之后,根据预设的停用词表,删除其中的停用词。

通过从相关样本和无关样本中获取相关类高频词集合和无关类高频词集合,可保证后续的筛除质量。通过删除停用词,如助词、介词等,可避免停用词对后续文本的识别结果造成影响。

s8:根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;即将三个集合中的词语进行汇总,得到相关类关键词表。

进一步地,根据预设的停用词表,删除所述相关类关键词表中的停用词。

s9:分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,其中,相关词语的关键词权重为正值。

例如,在一有效文本中,相关词语“中国”总共出现了4次,其中1次作为主语,另外3次作为定语,那么“中国”的关键词权重为1/4=0.25。

s10:根据预设的无关类高频词集合,得到无关类关键词表;即将无关类高频词集合作为无关类关键词表。

s11:分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,其中,无关词语的关键词权重为负值。

例如,在一有效文本中,无关词语“美国”总共出现了4次,其中1次作为主语,另外3次作为定语,那么“美国”的关键词权重为-1/4=-0.25。

s12:根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分。

具体地,根据所述相关类关键词表和无关类关键词表,分别获取一有效文本的各分句中的相关词语和无关词语;分别根据所述各分句中的相关词语的关键词权重和无关词语的关键词权重,计算所述各分句的得分;根据各分句在所述一有效文本中的比重以及各分句的得分,计算所述一有效文本的得分。其中,通过计算各分句的长度(字的数量)占所述一有效文本的总长度的比例,得到各分句在所述一有效文本中的比重。

本步骤可根据下述公式计算得到:

其中,s为所述一有效文本,|s|为所述一有效文本的长度,si为s的第i个分句,|si|为第i个分句的长度,j为si中存在的相关词语和无关词语的总数量,可以称si命中了j个关键词,pj即为第j个相关词语或无关词语的关键词权重。

从上述描述可知,一个分句中,命中的相关词语越多,则得分越高,命中的无关词语越多,则得分越低。将所有分句的得分求和即可得到整个样本的得分。当样本s的各个分句中命中越多相关词语,并越少命中无关词语,则样本s的得分越高,越有可能不是噪声文本。

s13:判断一有效文本的得分是否小于预设的阈值,若是,则执行步骤s14,若否,则认为所述一有效文本为相关样本。其中,阈值可根据实际情况做调整。

当所有分句至多只命中1个关键词时,score的上限是1,下限为-1;优选的阈值为0.5,即通常情况下平均超过一半分句命中相关词语时,即认为当前样本不属于噪声文本。

s14:判定所述一有效文本为噪声文本,删除所述一有效文本。删除噪声文本中,剩下的有效文本即为相关文本,从而可改善搜索结果中噪声语料多的问题。

本实施例通过进行数据清洗,去除字符级的噪声信息和语义较少或残缺的语段;通过对有效文本进行分句、分词,便于后续对各分句的分析以及各词语的匹配;通过在共现句中获取重点词语,保证重点词语的相关性;通过从相关样本和无关样本中提取出相关类高频词和无关类高频词,可保证筛除质量及人工可控;通过合并种子词集合、关键词集合和预设的相关类高频词集合,得到的相关类关键词表可以形成一组基本覆盖事件的相关词语;通过删除停用词,可避免停用词对后续文本的识别结果造成影响,保证识别的准确性;通过将相关词语和无关词语在有效文本中作为重点句法成分的出现比例,作为相关词语和无关词语的关键词权重,使得权重的评估是对不同位置的打分,部分位置较高,其他位置较低或为零;通过根据有效文本命中的相关词语和无关词语的数量及其关键词权重,计算有效文本的得分,最后根据得分来判定是否为噪声文本。

本实施例能够将搜索结果中与目标无关的噪声语料剔除,保留下与搜索目标相关的语料,可用于解决数据库按种子词搜索中搜索结果差,噪声语料多的问题;通过语义扩充关键词表,从而得以对粗搜索数据进行筛选,剔除无关文本,提高搜索结果语料质量,为数据中心管理数据提供便捷。

实施例二

本实施例是对应上述实施例的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现下步骤:

根据预设的种子词集合,检索得到原始语料;

根据所述原始语料的格式,从所述原始语料中提取有效文本;

对所述有效文本进行分句,并对所述有效文本进行数据清洗;

对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;

从所述有效文本的各分句中获取包含至少一个种子词的共现句;

根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;

根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;

分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;

根据预设的无关类高频词集合,得到无关类关键词表;

分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;

根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;

若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。

进一步地,所述若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本之后,进一步包括:

删除噪声文本。

进一步地,所述对所述有效文本进行分句,并对所述有效文本进行数据清洗具体为:

根据预设的断句符,对所述有效文本进行分句;

根据预设的字符黑名单,对所述有效文本中的字符进行过滤,所述字符黑名单包括英文符号、英文字母和断句符以外的中文符号;

根据预设的语段长度,对所述有效文本中的分句进行过滤。

进一步地,所述根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合具体为:

若所述共现句中的一词语的词性属于预设的重点词性且所述一词语的句法成分属于预设的重点句法成分,则将所述一词语作为重点词语;

获取各共现句中的重点词语,得到关键词集合。

进一步地,所述根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表之前,进一步包括:

获取预设的第一样本和第二样本,所述第一样本为与期望搜索内容相关的样本,所述第二样本为与期望搜索内容不相关的样本;

分别对所述第一样本和第二样本进行分词,得到第二词语集合和第三词语集合;

分别获取所述第二词语集合和第三词语集合中词频最高的预设个数的词语,得到相关类高频词集合和无关类高频词集合。

进一步地,所述分别对所述第一样本和第二样本进行分词,得到第二词语集合和第三词语集合之后,进一步包括:

根据预设的停用词表,删除所述第二词语集合和第三词语集合中的停用词,或删除所述相关类高频词集合和无关类高频词集合中的停用词。

进一步地,所述根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表之后,进一步包括:

根据预设的停用词表,删除所述相关类关键词表中的停用词。

进一步地,所述根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分具体为:

根据所述相关类关键词表和无关类关键词表,分别获取一有效文本的各分句中的相关词语和无关词语;

分别根据所述各分句中的相关词语的关键词权重和无关词语的关键词权重,计算所述各分句的得分;

根据各分句在所述一有效文本中的比重以及各分句的得分,计算所述一有效文本的得分。

进一步地,所述根据各分句在所述一有效文本中的比重以及各分句的得分,计算所述一有效文本的得分之前,进一步包括:

分别统计各分句的字的数量,得到各分句的长度;

统计所述一有效文本的字的总数量,得到所述一有效文本的长度;

分别计算各分句的长度占所述一有效文本的长度的比例,得到各分句在所述一有效文本中的比重。

综上所述,本发明提供的一种噪声文档的筛除方法及计算机可读存储介质,能够将搜索结果中与目标无关的噪声语料剔除,保留下与搜索目标相关的语料,可用于解决数据库按种子词搜索中搜索结果差,噪声语料多的问题;通过语义扩充关键词表,从而得以对粗搜索数据进行筛选,剔除无关文本,提高搜索结果语料质量,为数据中心管理数据提供便捷。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1