一种识别语料语言的方法和装置制造方法

文档序号:6499230阅读:125来源:国知局
一种识别语料语言的方法和装置制造方法
【专利摘要】本发明实施方式提出一种识别语料语言的方法和装置。方法包括:建立第一候选语言词表和第二候选语言词表,并将第一候选语言词表和第二候选语言词表组合为整体词表;基于该整体词表对输入语料进行分词,以确定出输入语料中的第一候选语言专用词;判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言。本发明实施方式可以准确识别语料所采用的编写语言,而且降低了词表构造的困难,进一步提高了语言种类识别的准确率。
【专利说明】一种识别语料语言的方法和装置
【技术领域】
[0001]本发明实施方式涉及自然语言处理【技术领域】,更具体地,涉及一种识别语料语言的方法和装置。
【背景技术】
[0002]随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。互联网上的各种应用层出不穷。步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速,网络信息急剧膨胀,国际交流日益频繁,通过网络来检索信息以协助人们快速获取信息,已经成为必然的趋势。
[0003]自然语言处理(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的自然语言处理就是自然语言处理过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或 Information Seek)。
[0004]目前常用的自然语言处理方法通常包括:普通法、追溯法和分段法等。普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。普通法又可分为顺检法和倒检法。顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性强,效果较好。追溯法是利用已有文献所附的参考文献不断追踪查找的方法,在没有检索工具或检索工具不全时,此法可获得针对性很强。
[0005]在自然语言处理中,经常会有识别语料所采用语言的需求。然而,目前存在有一些相似语言(比如粤语和普通话,闽南话和普通话,等等),这些相似语言普遍具有相当程度的共同词汇,机器难以准确区分语料具体采用何种相似语言编写而成。比如,由于粤语和普通话之间存在大量的重复词语,很难构造一个纯粹的粤语词表,而且随着港台文化对大陆地区的影响,很多粤语词汇已经被借用为普通话词汇,会给粤语句子的判别带来很多错误。

【发明内容】

[0006]本发明实施方式提出一种识别语料语言的方法,以准确识别语料所采用的编写语言。
[0007]本发明实施方式提出一种识别语料语言的装置,以准确识别语料所采用的编写语言。
[0008]本发明实施方式的技术方案如下:
[0009]一种识别语料语言的方法,该方法包括:
[0010]建立第一候选语言词表和第二候选语言词表,并将第一候选语言词表和第二候选语言词表组合为整体词表;
[0011]基于该整体词表对输入语料进行分词,以确定出输入语料中的第一候选语言专用词;
[0012]判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言。
[0013]一种识别语料语言的装置,该装置包括整体词表建立单元、分词单元和语言识别单元,其中:
[0014]整体词表建立单元,用于建立第一候选语言词表和第二候选语言词表,并将第一候选语言词表和第二候选语言词表组合为整体词表;
[0015]分词单元,用于基于该整体词表对输入语料进行分词,以确定出输入语料中的第一候选语言专用词;
[0016]语言识别单元,用于判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言。
[0017]从上述技术方案可以看出,在本发明实施方式中,建立第一候选语言词表和第二候选语言词表,并将第一候选语言词表和第二候选语言词表组合为整体词表;基于该整体词表对输入语料进行分词,以确定出输入语料中的第一候选语言专用词;判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言。由此可见,应用本发明实施方式之后,分别针对相似语言构造词表,并将这些相似语言词表组合为整体词表,利用整体词表对语料进行分词,再通过分析分词结果对语料所采用的语言类型进行判断,从而可以针对语料准确识别所采用的编写语言。
[0018]而且,由于各个相似语言词表的构造过程相互独立,并允许词汇重复出现在各个相似词表,因此降低了词表构造的困难,进一步提高了语言识别的准确率。
【专利附图】

【附图说明】
[0019]图1为根据本发明实施方式识别语料语言的方法流程图;
[0020]图2为根据本发明实施方式的候选语言列表建立方法流程图;
[0021]图3为根据本发明实施方式的识别粤语方法流程图;
[0022]图4为根据本发明实施方式识别语料语言的装置结构图。
【具体实施方式】
[0023]为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
[0024]在本发明实施方式中,分别针对相似语言构造词表,并将这些相似语言词表组合为整体词表,利用整体词表对语料进行分词,再通过分析分词结果对语料所采用的语言类型进行判断。由于各个相似语言词表的构造过程相互独立,并允许词汇重复出现在各个相似词表,因此降低了词表构造的困难,提高了语言识别的准确率。
[0025]图1为根据本发明实施方式识别语料语言的方法流程图。
[0026]如图1所示,该方法包括:
[0027]步骤101:建立第一候选语言词表和第二候选语言词表,并将第一候选语言词表和第二候选语言词表组合为整体词表。[0028]在这里,首先分别建立第一候选语言词表和第二候选语言词表,其中第一候选语言和第二候选语言为相似语言,即第一候选语言词表和第二候选语言词表中具有共同词汇。
[0029]比如,粤语和普通话之间为相似语言;粤语和闽南话之间为相似语言、上海话和普通话为相似语言、闽南话和粤语为相似语言、上海话和闽南话为相似语言,美式英语和英式英语为相似语言、美式英语和澳大利亚英语为相似语言、英式英语和澳大利亚英语为相似语言 等等。[0030]以上详细罗列了一些相似语言,本领域技术人员可以意识到,本发明实施方式并不局限于上述罗列,而是可以适用于任意的相似语言。
[0031]其中,可以第一候选语言词表和第二候选语言词表既可以从各自语言种类的语料中自动抽取而得,也可以直接使用整理好的词表。在抽取第一候选语言词表和第二候选语言词表的过程 中,既可以根据统计量进行抽取,也可以使用预订规则的方法进行抽取。为了保证第一候选语言词表和第二候选语言词表的质量,可以引入人工校对。
[0032]在一个实施方式中,建立第一候选语言词表具体可以包括:
[0033]建立第一候选语言初始词表;加载第一候选语言训练语料,并基于该第一候选语言初始词表对第一候选语言训练语料进行分词;根据分词结果计算相邻词对的构词概率,并当相邻词对的构词概率超过预先设定的概率门限值时,将该相邻词对加入到所述第一候选语言初始词表中,以建立第一候选语言词表。
[0034]具体地,计算相邻词对的构词概率可以包括:
[0035]确定相邻词对之间的互信息、该相邻词对在第一候选语言训练语料中所有左边词的信息熵以及相邻词对在第一候选语言训练语料中所有右边词的信息熵;
[0036]对互信息、该相邻词对在第一候选语言训练语料中所有左边词的信息熵以及相邻词对在第一候选语言训练语料中所有右边词的信息熵进行加权计算,以得到该相邻词对的构词概率。
[0037]比如:
[0038]使用第一候选语言初始词表对训练语料进行分词后,假设a、b为相邻的两个词语,那么相邻词对<a,b>的构词可能性通过如下公式计算:
[0039]
【权利要求】
1.一种识别语料语言的方法,其特征在于,该方法包括: 建立第一候选语言词表和第二候选语言词表,并将第一候选语言词表和第二候选语言词表组合为整体词表; 基于该整体词表对输入语料进行分词,以确定出输入语料中的第一候选语言专用词; 判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言。
2.根据权利要求1所述的识别语料语言的方法,其特征在于,所述建立第一候选语言词表包括: 建立第一候选语言初始词表; 加载第一候选语言训练语料,并基于该第一候选语言初始词表对第一候选语言训练语料进行分词; 根据分词结果计算相邻词对的构词概率,并当相邻词对的构词概率超过预先设定的概率门限值时,将该相邻词对加入到所述第一候选语言初始词表中,以建立第一候选语言词表。
3.根据权利要求2所述的识别语料语言的方法,其特征在于,所述计算相邻词对的构词概率包括: 确定相邻词对之间的互信息、该相邻词对在第一候选语言训练语料中所有左边词的信息熵以及相邻词对在第一候选语言训练语料中所有右边词的信息熵; 对互信息、该相邻词对在第一候选语言训练语料中所有左边词的信息熵以及相邻词对在第一候选语言训练语料中所有右边词的信息熵进行加权计算,以得到该相邻词对的构词概率。
4.根据权利要求1所述的识别语料语言的方法,其特征在于,所述建立第二候选语言词表包括: 建立第二候选语言初始词表; 加载第二候选语言训练语料,并基于该第二候选语言初始词表对第二候选语言训练语料进行分词; 根据分词结果计算相邻词对的构词概率,并当相邻词对的构词概率超过预先设定的概率门限值时,将该相邻词对加入到所述第二候选语言初始词表,以建立第二候选语言词表。
5.根据权利要求4所述的识别语料语言的方法,其特征在于,所述计算相邻词对的构词概率包括: 确定相邻词对之间的互信息、该相邻词对在第二候选语言训练语料中所有左边词的信息熵以及相邻词对在第二候选语言训练语料中所有右边词的信息熵; 对互信息、该相邻词对在第二候选语言训练语料中所有左边词的信息熵以及相邻词对在第二候选语言训练语料中所有右边词的信息熵进行加权计算,以得到该相邻词对的构词概率。
6.根据权利要求1所述的识别语料语言的方法,其特征在于,所述基于该整体词表对输入语料进行分词,以确定出输入语料中的第一候选语言专用词包括: 基于该整体词表对输入语料进行分词; 判断分词是否属于第一候选语言词表且不属于第二候选语言词表,如果是,则确定该分词为第一候选语言专用词。
7.根据权利要求1所述的识别语料语言的方法,其特征在于,所述判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言包括: 判断该第一候选语言专用词的数目是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
8.根据权利要求1所述的识别语料语言的方法,其特征在于,所述判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言包括: 判断该第一候选语言专用词与输入语料所有词之间的比率是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
9.根据权利要求1所述的识别语料语言的方法,其特征在于,所述判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言包括: 判断该第一候选语言专用词与输入语料有效词之间的比率是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
10.根据权利要求1所述的识别语料语言的方法,其特征在于,所述判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言包括: 计算该第一候选语言专用词的数目、该第一候选语言专用词与输入语料所有词之间的比率,以及该第一候选语言专用词与输入语料有效词之间的比率; 对该第一候选语言专用词的数目、该第一候选语言专用词与输入语料所有词之间的比率,以及该第一候选语言专用词与输入语料有效词之间的比率进行加权计算,得到加权值; 判断该加权值是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
11.一种识别语料语言的装置,其特征在于,该装置包括整体词表建立单元、分词单元和语目识别单兀,其中: 整体词表建立单元,用于建立第一候选语言词表和第二候选语言词表,并将第一候选语言词表和第二候选语言词表组合为整体词表; 分词单元,用于基于该整体词表对输入语料进行分词,以确定出输入语料中的第一候选语言专用词; 语言识别单元,用于判断第一候选语言专用词在该输入语料中的出现率是否满足预先设定的门限值,如果是,则判定该输入语料的语言为第一候选语言。
12.根据权利要求11所述的识别语料语言的装置,其特征在于, 整体词表建立单元,用于建立第一候选语言初始词表;加载第一候选语言训练语料,并基于该第一候选语言初始词表对第一候选语言训练语料进行分词;根据分词结果计算相邻词对的构词概率,并当相邻词对的构词概率超过预先设定的概率门限值时,将该相邻词对加入到所述第一候选语言初始词表中,以建立第一候选语言词表。
13.根据权利要求12所述的识别语料语言的装置,其特征在于, 整体词表建立单元,用于确定相邻词对之间的互信息、该相邻词对在第一候选语言训练语料中所有左边词的信息熵以及相邻词对在第一候选语言训练语料中所有右边词的信息熵;对互信息、该相邻词对在第一候选语言训练语料中所有左边词的信息熵以及相邻词对在第一候选语言训练语料中所有右边词的信息熵进行加权计算,以得到该相邻词对的构词概率。
14.根据权利要求11所述的识别语料语言的装置,其特征在于, 整体词表建立单元,用于建立第二候选语言初始词表;加载第二候选语言训练语料,并基于该第二候选语言初始词表对第二候选语言训练语料进行分词;根据分词结果计算相邻词对的构词概率,并当相邻词对的构词概率超过预先设定的概率门限值时,将该相邻词对加入到所述第二候选语言初始词表,以建立第二候选语言词表。
15.根据 权利要求14所述的识别语料语言的装置,其特征在于, 整体词表建立单元,用于确定相邻词对之间的互信息、该相邻词对在第二候选语言训练语料中所有左边词的信息熵以及相邻词对在第二候选语言训练语料中所有右边词的信息熵;对互信息、该相邻词对在第二候选语言训练语料中所有左边词的信息熵以及相邻词对在第二候选语言训练语料中所有右边词的信息熵进行加权计算,以得到该相邻词对的构词概率。
16.根据权利要求11所述的识别语料语言的装置,其特征在于, 分词单元,用于基于该整体词表对输入语料进行分词;判断分词是否属于第一候选语言词表且不属于第二候选语言词表,如果是,则确定该分词为第一候选语言专用词。
17.根据权利要求11所述的识别语料语言的装置,其特征在于, 语言识别单元,用于判断该第一候选语言专用词的数目是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
18.根据权利要求11所述的识别语料语言的装置,其特征在于, 语言识别单元,用于判断该第一候选语言专用词与输入语料所有词之间的比率是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
19.根据权利要求11所述的识别语料语言的装置,其特征在于, 语言识别单元,用于判断该第一候选语言专用词与输入语料有效词之间的比率是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
20.根据权利要求11所述的识别语料语言的装置,其特征在于, 语言识别单元,用于计算该第一候选语言专用词的数目、该第一候选语言专用词与输入语料所有词之间的比率,以及该第一候选语言专用词与输入语料有效词之间的比率;对该第一候选语言专用词的数目、该第一候选语言专用词与输入语料所有词之间的比率,以及该第一候选语言专用词与输入语料有效词之间的比率进行加权计算,得到加权值;判断该加权值是否超过预先设置的门限值,如果是,则判定该输入语料的语言为第一候选语言。
【文档编号】G06F17/27GK103942188SQ201310022788
【公开日】2014年7月23日 申请日期:2013年1月22日 优先权日:2013年1月22日
【发明者】李露, 程强, 马建雄, 饶丰, 陆读羚, 卢鲤, 张翔, 陈波 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1