基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分...的制作方法

文档序号：9829922阅读：168来源：国知局

基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分 ...的制作方法
【技术领域】
[0001] 本发明涉及一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法。
【背景技术】
[0002] 最近，博客、特别是以Facebook和推特(1￥；[1^61')为首的社交平台、1^1^1(^311^等移动短信不仅在电脑，在智能手机上也已习以为常，并且其使用呈现出日益增加的趋势。
[0003] 但在这种短信的使用过程中，泛滥着包含不符合拼写规定的错误的破坏性表达。在此，破坏性表达是指拼写错误或者没有规范化和标准化的表达，包含这种破坏性表达的句子称为破坏性句子。这种破坏性句子为因互联网的活性化和智能手机的普及而产生的新的语言使用范式。
[0004] 破坏性句子虽然包含着作为非规范表达的破坏性表达，但不影响传递句子的含义。
[0005] 另外，在机器翻译等的自然语言信息处理、检索、数据挖掘等中使用的语素分析中，其操作对象为不包含破坏性表达的正常句子。即，以往的语素分析中使用语素词典，该语素词典中储存有在语素分析中将要使用的语素知识或者语素信息。然而，如上所述的破坏性句子中所包含的已破坏的语素在其特性上不可能被收录于规范的语素词典中，并且将单纯破坏的语素加入语素词典的方式上也有局限性，因此具有对包含破坏性表达的破坏性句子难以进行语素分析的问题。

【发明内容】

[0006] 本发明所要解决的技术问题是提供一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法，该生成装置及方法、该分析装置及分析方法能够对包含破坏性表达的破坏性句子进行准确的语素分析。
[0007] 根据本发明的一个特征的排列语料库的生成方法，包括步骤:构建双语语料库，所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及对所述双语语料库进行基于自学的排列，从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。
[0008] 在此，所述双语语料库的构建步骤包括:通过网络收集多个破坏性句子;利用查询对包含在被收集的破坏性句子中的破坏性表达进行网络检索，以判断该破坏性句子的普遍性；当判断为被收集的破坏性句子具有普遍性时，生成与该破坏性句子对应的正常句子;及将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对，以构建所述双语语料库。
[0009] 此外，本发明的特征在于，在所述普遍性的判断步骤中，以利用所述查询的检索结果的量为基准，当超过基准量时，判断为该破坏性表达具有普遍性，所述普遍性的判断通过利用多个门户网站的网络检索自动运行。
[0010] 此外，生成所述排列语料库的步骤包括：以随机或者初始化方法学，在所述双语语料库给出的字符串中设定子字符串对(sub-string pair)，并初始化关联概率;根据字符串的匹配及该匹配概率值，进行破坏性表达和正常表达之间的匹配，以使破坏性句子和正常句子之间能够最匹配;重新计算新排列的各子字符串对之间的概率;及满足自学停止条件为止反复执行所述匹配步骤及所述计算步骤，当满足所述自学停止条件时，将最终输出的破坏性表达、正常表达及关联概率储存在所述排列语料库中，其中所述关联概率为所述破坏性表达和正常表达的排列概率值。
[0011] 此外，本发明的特征在于，为了生成所述排列语料库，使用期望最大化（EM， Expectation-Maximization)算法，以便在自学基础上求出排列并且设定排列的概率值，其中所述自学是为了生成所述排列语料库而进行的。
[0012] 根据本发明的另一特征的排列语料库的生成装置，包括:双语语料库构建部，用于构建双语语料库，所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及自学部，对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列，从而生成由破坏性表达及与该破坏性表达的正常表达排列而成的排列语料库。
[0013] 在此，所述自学部包括:双语语料库，由所述双语语料库构建部构建;及自学排列部，对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单词之间的最佳排列概率值，从而生成所述排列语料库。
[0014] 此外，所述双语语料库构建部包括:破坏性句子收集器，通过网络收集多个破坏性句子;普遍性判断器，利用查询对通过所述破坏性句子收集器收集的破坏性句子中所包含的破坏性表达进行网络检索，并判断该破坏性句子的普遍性;正常句子生成器，当判断为被收集的破坏性句子具有普遍性时，生成与该破坏性句子对应的正常句子;及构建器，将通过所述正常句子生成器生成的正常句子和与该正常句子对应的破坏性句子组成为一对，以构建所述双语语料库。
[0015] 此外，所述自学排列部包括:初始化器，以随机或者初始化方法学，在所述双语语料库给出的字符串中设定子字符串对(sub-string pair)，并初始化关联概率;E-步骤处理器，根据字符串的匹配及该匹配概率值，进行破坏性表达和正常表达之间的匹配，以使破坏性句子和正常句子之间能够最匹配;M-步骤处理器，重新计算新排列的各子字符串对之间的概率;及控制器，将所述双语语料库中构建的破坏性句子和正常句子的字符串向所述初始化器输入，在所述M-步骤处理器的概率计算后，满足自学的停止条件为止控制所述E-步骤处理器及M-步骤处理器进行反复操作，当满足所述自学停止条件时生成用于储存最终输出的破坏性表达、正常表达及关联概率的所述排列语料库。
[0016] 根据本发明的另一特征的语素分析装置，包括:知识数据库，储存有在按语言的语素分析中使用的多个知识信息，并且包括语素词典和排列语料库，所述语素词典储存与正常表达对应的语素信息，所述排列语料库储存与破坏性表达对应的正常表达信息，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及分析器，使用所述知识数据库，对所输入的语节进行语素分析并输出分析结果，当所述语素词典中不存在与输入语节对应的语素时，对所述输入语节中包含的破坏性表达，使用所述排列语料库查找与所述破坏性表达对应的正常表达并进行语素分析。
[0017] 在此，所述知识数据库进一步包括储存按语素的连接信息的已分析词典，所述分析器包括:语素分割部，使用所述语素词典分割构成所述输入语节的语素，当所述语素词典中不存在构成所述输入语节的语素时，使用所述排列语料库并且利用对应的正常表达来进行语素分割;连接信息核实部，使用所述已分析词典，对通过所述语素分割部分割的语素提取可组合的语素;及原型恢复部，对通过所述连接信息核实部提取的语素进行原型恢复，并将原型恢复后的语素作为语素分析结果来输出。
[0018] 此外，所述语素分割部包括:候补群生成器，将所述输入语节分割为语素，以生成语素候补;正常表达核实器，对所述候补群生成器所生成的语素候补，使用所述语素词典核实是否存在该语素候补;破坏性表达核实器，当通过所述正常表达核实器判断为在所述语素词典中不存在语素候补时，对该语素候补，使用所述排列语料库核实是否存在所述输入语节的破坏性表达;分割处理器，当通过所述正常表达核实器判断为在所述语素词典中存在语素候补时，从输入语节中分割出该语素候补，以进行语素分割处理;及控制器，通过控制所述候补群生成器、所述正常表达核实器、所述破坏性表达核实器及所述分割处理器来进行对所述输入语节的语素分割，当通过所述正常表达核实器判断为在所述语素词典中不存在所述候补群生成器所生成的语素候补时，控制所述破坏性表达核实器查找对应的正常表达后向所述候补群生成器重新输入该正常表达。
[0019] 此外，本发明的特征在于，所述排列语料库为通过对双语语料库进行基于自学的排列，从而由破坏性表达及与该破坏性表达对应的正常表达排列而成的语料库，其中所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子构成的句子对。
[0020] 此外，本发明的特征在于，所述排列语料库中包括关联概率，所述关联概率为破坏性表达和与该破坏性表达对应的正常表达之间的排列概率值。
[0021] 此外，本发明的特征在于，在语素分析中，在通过所述语素词典判断是否存在语素时，使用所述关联概率，以

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：池昌真;
技术所有人：系统翻译国际有限公司;
我是此专利的发明人

上一篇：用于审计跟踪的无回滚阈值的制作方法
上一篇：运行时定制基础设施的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。