基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分...的制作方法

文档序号:9829922阅读:168来源:国知局
基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分 ...的制作方法
【技术领域】
[0001] 本发明涉及一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料 库的破坏性表达语素分析装置及其语素分析方法。
【背景技术】
[0002] 最近,博客、特别是以Facebook和推特(1¥;[1^61')为首的社交平台、1^1^1(^311^等移 动短信不仅在电脑,在智能手机上也已习以为常,并且其使用呈现出日益增加的趋势。
[0003] 但在这种短信的使用过程中,泛滥着包含不符合拼写规定的错误的破坏性表达。 在此,破坏性表达是指拼写错误或者没有规范化和标准化的表达,包含这种破坏性表达的 句子称为破坏性句子。这种破坏性句子为因互联网的活性化和智能手机的普及而产生的新 的语言使用范式。
[0004] 破坏性句子虽然包含着作为非规范表达的破坏性表达,但不影响传递句子的含 义。
[0005] 另外,在机器翻译等的自然语言信息处理、检索、数据挖掘等中使用的语素分析 中,其操作对象为不包含破坏性表达的正常句子。即,以往的语素分析中使用语素词典,该 语素词典中储存有在语素分析中将要使用的语素知识或者语素信息。然而,如上所述的破 坏性句子中所包含的已破坏的语素在其特性上不可能被收录于规范的语素词典中,并且将 单纯破坏的语素加入语素词典的方式上也有局限性,因此具有对包含破坏性表达的破坏性 句子难以进行语素分析的问题。

【发明内容】

[0006] 本发明所要解决的技术问题是提供一种基于自学排列的排列语料库的生成装置 及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法,该生成装置及 方法、该分析装置及分析方法能够对包含破坏性表达的破坏性句子进行准确的语素分析。
[0007] 根据本发明的一个特征的排列语料库的生成方法,包括步骤:构建双语语料库,所 述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句 子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及对 所述双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正 常表达排列而成的排列语料库。
[0008] 在此,所述双语语料库的构建步骤包括:通过网络收集多个破坏性句子;利用查询 对包含在被收集的破坏性句子中的破坏性表达进行网络检索,以判断该破坏性句子的普遍 性;当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及 将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料 库。
[0009] 此外,本发明的特征在于,在所述普遍性的判断步骤中,以利用所述查询的检索结 果的量为基准,当超过基准量时,判断为该破坏性表达具有普遍性,所述普遍性的判断通过 利用多个门户网站的网络检索自动运行。
[0010] 此外,生成所述排列语料库的步骤包括:以随机或者初始化方法学,在所述双语语 料库给出的字符串中设定子字符串对(sub-string pair),并初始化关联概率;根据字符串 的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常 句子之间能够最匹配;重新计算新排列的各子字符串对之间的概率;及满足自学停止条件 为止反复执行所述匹配步骤及所述计算步骤,当满足所述自学停止条件时,将最终输出的 破坏性表达、正常表达及关联概率储存在所述排列语料库中,其中所述关联概率为所述破 坏性表达和正常表达的排列概率值。
[0011] 此外,本发明的特征在于,为了生成所述排列语料库,使用期望最大化(EM, Expectation-Maximization)算法,以便在自学基础上求出排列并且设定排列的概率值,其 中所述自学是为了生成所述排列语料库而进行的。
[0012] 根据本发明的另一特征的排列语料库的生成装置,包括:双语语料库构建部,用于 构建双语语料库,所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子 对应的正常句子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化 的表达;及自学部,对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列, 从而生成由破坏性表达及与该破坏性表达的正常表达排列而成的排列语料库。
[0013] 在此,所述自学部包括:双语语料库,由所述双语语料库构建部构建;及自学排列 部,对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单 词之间的最佳排列概率值,从而生成所述排列语料库。
[0014] 此外,所述双语语料库构建部包括:破坏性句子收集器,通过网络收集多个破坏性 句子;普遍性判断器,利用查询对通过所述破坏性句子收集器收集的破坏性句子中所包含 的破坏性表达进行网络检索,并判断该破坏性句子的普遍性;正常句子生成器,当判断为被 收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及构建器,将通过 所述正常句子生成器生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构 建所述双语语料库。
[0015] 此外,所述自学排列部包括:初始化器,以随机或者初始化方法学,在所述双语语 料库给出的字符串中设定子字符串对(sub-string pair),并初始化关联概率;E-步骤处理 器,根据字符串的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏 性句子和正常句子之间能够最匹配;M-步骤处理器,重新计算新排列的各子字符串对之间 的概率;及控制器,将所述双语语料库中构建的破坏性句子和正常句子的字符串向所述初 始化器输入,在所述M-步骤处理器的概率计算后,满足自学的停止条件为止控制所述E-步 骤处理器及M-步骤处理器进行反复操作,当满足所述自学停止条件时生成用于储存最终输 出的破坏性表达、正常表达及关联概率的所述排列语料库。
[0016] 根据本发明的另一特征的语素分析装置,包括:知识数据库,储存有在按语言的语 素分析中使用的多个知识信息,并且包括语素词典和排列语料库,所述语素词典储存与正 常表达对应的语素信息,所述排列语料库储存与破坏性表达对应的正常表达信息,其中所 述破坏性表达是拼写错误或者没有规范化和标准化的表达;及分析器,使用所述知识数据 库,对所输入的语节进行语素分析并输出分析结果,当所述语素词典中不存在与输入语节 对应的语素时,对所述输入语节中包含的破坏性表达,使用所述排列语料库查找与所述破 坏性表达对应的正常表达并进行语素分析。
[0017] 在此,所述知识数据库进一步包括储存按语素的连接信息的已分析词典,所述分 析器包括:语素分割部,使用所述语素词典分割构成所述输入语节的语素,当所述语素词典 中不存在构成所述输入语节的语素时,使用所述排列语料库并且利用对应的正常表达来进 行语素分割;连接信息核实部,使用所述已分析词典,对通过所述语素分割部分割的语素提 取可组合的语素;及原型恢复部,对通过所述连接信息核实部提取的语素进行原型恢复,并 将原型恢复后的语素作为语素分析结果来输出。
[0018] 此外,所述语素分割部包括:候补群生成器,将所述输入语节分割为语素,以生成 语素候补;正常表达核实器,对所述候补群生成器所生成的语素候补,使用所述语素词典核 实是否存在该语素候补;破坏性表达核实器,当通过所述正常表达核实器判断为在所述语 素词典中不存在语素候补时,对该语素候补,使用所述排列语料库核实是否存在所述输入 语节的破坏性表达;分割处理器,当通过所述正常表达核实器判断为在所述语素词典中存 在语素候补时,从输入语节中分割出该语素候补,以进行语素分割处理;及控制器,通过控 制所述候补群生成器、所述正常表达核实器、所述破坏性表达核实器及所述分割处理器来 进行对所述输入语节的语素分割,当通过所述正常表达核实器判断为在所述语素词典中不 存在所述候补群生成器所生成的语素候补时,控制所述破坏性表达核实器查找对应的正常 表达后向所述候补群生成器重新输入该正常表达。
[0019] 此外,本发明的特征在于,所述排列语料库为通过对双语语料库进行基于自学的 排列,从而由破坏性表达及与该破坏性表达对应的正常表达排列而成的语料库,其中所述 双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子 构成的句子对。
[0020] 此外,本发明的特征在于,所述排列语料库中包括关联概率,所述关联概率为破坏 性表达和与该破坏性表达对应的正常表达之间的排列概率值。
[0021] 此外,本发明的特征在于,在语素分析中,在通过所述语素词典判断是否存在语素 时,使用所述关联概率,以
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1