文本信息的处理方法和装置的制造方法

文档序号:8430696阅读:222来源:国知局
文本信息的处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术,特别是涉及一种文本信息的处理方法和装置。
【背景技术】
[0002]各种文本信息中的网络传播中,非法信息传播者为了逃避信息安全中的各种信息过滤应用而在文本信息中添加噪音,以绕过信息过滤应用所进行的安全检测,使得作为垃圾信息甚至于非法信息的文本信息得以广泛地传播。
[0003]传统的文本信息过滤应用是提取文本信息的关键字实现其中的噪音清除的,但是,由于经过传统的文本信息过滤应用提得到的文本信息仅仅是由原文本信息中提取得到的关键字组合在一起形成的,并不会对非关键字进行提取,因此常常遗漏了非关键字,进而造成文本信息的缺失。

【发明内容】

[0004]基于此,有必要针对文本信息过滤中遗漏非关键字的技术问题,提供一种能避免非关键字遗漏的文本信息的处理方法。
[0005]此外,还有必要提供一种能避免非关键字遗漏的文本信息的处理装置。
[0006]一种文本信息的处理方法,包括如下步骤:
[0007]对文本信息进行分词处理以得到切分的文本;
[0008]提取所述切分的文本匹配的词以及所述切分的文本在所述文本信息中的偏移量;
[0009]判断是否存在未匹配的切分的文本,若为是,则组合所述相互连续的切分的文本,并更新所述组合的文本的出现频度;
[0010]根据所述出现频度获取所述组合的文本在所述文本信息中的偏移量;
[0011]根据所述偏移量将所述切合的文本匹配的词和组合的文本进行组合排列得到有效文本信息。
[0012]一种文本信息的处理装置,其特征在于,包括:
[0013]分词处理模块,用于对文本信息进行分词处理以得到切分的文本;
[0014]偏移量提取模块,用于提取所述切分的文本匹配的词以及所述切分的文本在所述文本信息中的偏移量;
[0015]未匹配处理模块,用于判断是否存在未匹配的切分的文本,若为是,则组合所述相互连续的切分的文本,并更新所述组合的文本的出现频度;
[0016]组合文本处理模块,用于根据所述出现频度获取所述组合的文本在所述文本信息的偏移量;
[0017]组合排列模块,用于根据所述偏移量将所述切合的文本匹配的词和组合的文本进行组合排列得到有效文本信息。
[0018]上述文本信息的处理方法和装置中,对文本信息进行分词处理以得以切分的文本,提取切分的文本匹配的词以及切分的文本在文本信息中的偏移量,此时,所提取到的切分的文本匹配的词必然为文本信息中的关键词,而对于不存在与其匹配的词的切分的文本,由于无法提取得到与之相匹配的词被视为非关键词,此时,需要将相互之间连续的切分的文本组合在一起,并更新这一组合在一起的文本的出现频度,进而根据出现频度来进行组合的文本在文本信息中的偏移量的获取,根据偏移量将切分的文本和组合的文本进行组合排列得到有效文本信息,无论是文本信息中的关键字还是非关键字均存在于有效文本信息中,避免了非关键字的遗漏,屏蔽了噪音在文本信息中对文本完整性和语义上的干扰,有效提闻了识别文本/[目息的准确性。
【附图说明】
[0019]图1为一个实施例中文本信息的处理方法的流程图;
[0020]图2为图1中根据出现频度获取组合的文本在文本信息中的偏移量的方法流程图;
[0021]图3为一个实施例中文本信息的处理装置的结构示意图;
[0022]图4为一个实施例中组合文本处理模块的结构示意图;
[0023]图5为一个实施例中实现本发明实施例的计算机系统的模块图。
【具体实施方式】
[0024]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0025]除非上下文另有特定清楚的描述,本发明中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组口 ο
[0026]如图1所示,在一个实施例中,一种文本信息的处理方法,包括如下步骤:
[0027]步骤S110,对文本信息进行分词处理以得到切分的文本。
[0028]本实施例中,文本信息中的文本可以是繁体中文、简体中文、数字、图形符号、标点符号等。例如,该文本信息可以是短信以及各种网络消息等。
[0029]通过对文本信息进行分词处理,切分文本信息中的文本,以得到若干个切分的文本。
[0030]具体的,可采用正向最大匹配算法对文本信息进行分词处理,其中,在正向最大匹配算法所进行的词典搜索中,所应用的搜索树为双trie树。
[0031]进一步的,对于文本信息中的数字或者字母,将相连的数字或者字母切分在一起,作为一个切分的文本,进而完成文本信息中文本的分词处理。
[0032]步骤S120,提取切分的文本匹配的词以及切分的文本在文本信息中的偏移量。
[0033]本实施例中,预先设置词库,将大量的词存储于预先设置的词库中,将信息中的若干个切分的文本与词库中的词进行逐一比对,以得到与切分的文本相匹配的词,进而提取该词,并从文本信息中获取这一切分的文本在文本信息中的偏移量。
[0034]切分的文本在文本信息中的偏移量用于标识其在文本信息中的位置,例如,在“24小时服务热线”这样一个文本信息中,在进行分词处理后将得到包括了 4个切分的文本即“24/小时/服务/热线”,而切分的文本“小时”在文本信息中的偏移量为2。
[0035]从词库中所提取得到的与切分的文本相匹配的词即为关键词,是该切分的文本所对应的正确词,这一匹配过程能够清除文本中存在的噪音,以消除噪音对文本信息的干扰,其中,文本信息中的噪音指的是对文本信息中的语句完整性或者语义起到破坏作用的字或
ο
[0036]例如,若某一切分的文本为“哈尔宾”,则“宾”这一个字即被视为噪音,则所提取得到的词为“哈尔滨”,清除了噪音。
[0037]步骤S130,判断是否存在未匹配的切分的文本,若为是,则进入步骤S140,若为否,则进入步骤S150。
[0038]本实施例中,若词库中不存在与某一切分的文本相匹配的词,则说明该切分的文本为非关键词,因此,需要进一步区分该切分的文本是有效词还是噪音,以避免作为有效词的非关键词被误当成噪音而清除。
[0039]步骤S140,组合相互连续的切分的文本,并更新组合的文本的出现频度。
[0040]本实施例中,若判断到当前存在着未匹配的切分的文本,则对相互连续的切分的文本进行组合,以得到组合的文本,并
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1