一种基于模糊神经网络的句子匹配程度计算及对齐方法

文档序号:6520513阅读:244来源:国知局
一种基于模糊神经网络的句子匹配程度计算及对齐方法
【专利摘要】本发明公开了一种基于模糊神经网络的句子匹配程度计算方法,包括以下步骤:首先提取英文和中文的匹配特征;采用模糊神经网络的形式实现信息融合;建立计算匹配度模型。本发明还公开了一种基于模糊神经网络的句子对齐方法,包括以下步骤:打开英文文档和对应的中文文档,从英文文档和中文文档的开始分别读取N句英文句子和N句中文句子;然后根据前述“基于模糊神经网络的句子匹配程度计算方法”分别计算每一句英文句子分别和N句中文文档的匹配度;根据匹配度找出中文和对应英文句子。该发明具有更加准确和快捷的特点。
【专利说明】一种基于模糊神经网络的句子匹配程度计算及对齐方法
【技术领域】
[0001]本发明涉及语言自动翻译【技术领域】,尤其涉及一种基于模糊神经网络的句子匹配程度计算及对齐方法。
【背景技术】
[0002]语料库(Corpus):运用计算机技术,按照一定的语言学原则,根据特定的语言研究目的而大规模收集并贮存在计算机中的真实语料。平行语料库(Parallel Corpus):由源语文本(Source Text)及其平行对应的译语文本(Target Text)构成的双语语料库。根据对齐的语言层面,平行对齐分为词汇、语句和段落等层面的对齐。双语句级层面对齐(Sentential Alignment between Source and Target Languages):以句子为单位对源语文本进行切分,每个句子在译语文本中相应的翻译句子进行匹配,实现一一平行对应(句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符)。模糊理论(Fuzzy Theory):在模糊集合理论基础上发展起来的理论,包括模糊数学、模糊系统、不确定性和信息、模糊决策、模糊逻辑与人工智能等五个分支;模糊集合中,给定范围内元素对它的隶属关系不一定只有“是”或“否”两种情况,而是用介于O和I之间的实数来表示隶属程度,还存在中间过渡状态。人工神经网络(ArtificialNeural Networks,简写为ANNs):简称为神经网络(NNs)或称作连接模型(ConnectionModel),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型;这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。英汉句子匹配程度(Matching Degree of English-Chinese Sentence):一英文语句和它对应翻译成的中文语句是匹配的;当计算机判断一个语句是不是另外一个语句的翻译时,可以定量地描述其翻译对应关系的可能性,这就是匹配的程度。
[0003]目前实现段落级和句子级文本对齐的方法有如下几种,如基于长度的方法、基于词汇的方法、基于长度与词汇相结合的混合法、基于双语词典的方法等。
[0004](一)基于长度的方法认为原文和译文的长度之间存在一定的比例关系,译文的句子长度与原文的句长成一定的正比例关系。对语源相近的语言,如英语与法语,这种方法尤其有效。Brown采用以单词为单位,计算长度,对英法双语的加拿大汉莎(Canadian Hansard)语料库中较易处理的约90%的部分进行了自动对齐,准确率达到99.4%(Brown, Lai&Mercer, 1991)。
[0005](二)基于词汇的方法认为单词和其译文应该是同现的,其分布有相关性。这方面的工作以Kay和Roscheisen的算法为代表。Kay等人采用了松散范例(RelaxationParadigm)来进行对齐(Kay&Roscheisent 1993:121-142)。他们用少量的英、德句子对这种方法作了示例,但未提供准确率。Chen提出利用翻译模型进行双语句子对齐的方法,认为最佳句子对齐序列就是在给定的翻译模型下产生该双语语料概率最大的句子对齐状态(Chenl993)。
[0006](三)混合法将长度与词汇线索相结合,先利用词汇信息对齐语料的一部分,无法对齐部分再用长度关系对齐。Wu用此方法对齐了相当部分汉英双语的香港(Hong KongHansard)汉莎语料库,准确率达到92.1%(王建新,2005 =121-122)。
[0007](四)基于双语词典的方法,把源语言文本看成单词的序列作为横轴,横轴上的每个点对应一个单词;同样以目标语言文本作为纵轴。用平面上的一个点来表示源语言文本中某个词和目标语言文本中的某个词对译。但只有这两个词分属于一对对齐的句子,它们才可能对齐。
[0008]从目前句级对齐技术来看,现有的技术存在以下不足:
[0009]第一种方法(基于句子长度)适应范围大多局限在语源相近、语系相同的两种语言之间(如英语与法语),而对于英汉语这样差异非常大的语言来说,则很难实现。
[0010]第二种方法(基于词汇信息)最大的问题就是搜索空间比较大,获得词汇对等信息的代价比较高,从而花费的时间太长。再加之一词多义现象的存在,使得对应信息的搜索变得更加复杂而最终效果不佳。
[0011]第三种方法(基于长度与词汇)适应范围大多局限在语源相近、时间长。
[0012]第四种方法(基于双语词典)词汇对齐占用的时间太大。

【发明内容】

[0013]本发明需要解决的技术问题是如何更快、更好地实现双语句级层面上的对齐。
[0014]为了解决以上技术问题,本发明公开了一种基于模糊神经网络的句子匹配程度计算方法,首先提取英文和中文的匹配特征;采用模糊神经网络的形式实现信息融合;建立计算匹配度模型。
[0015]本发明还公开了一种基于模糊神经网络的句子对齐方法,打开英文文档和对应的中文文档,从英文文档和中文文档的开始分别读取N句英文句子和N句中文句子,然后分别计算每一句英文句子分别和N句中文文档的匹配度,根据匹配度找出中文和对应英文句子。
[0016]本发明通过提取英文和中文的匹配特征,采用一种模糊神经网络的形式实现了信息融合,实现了匹配度的计算,进而实现了句子对齐,该发明具有更加准确和快捷的特点。
【专利附图】

【附图说明】
[0017]当结合附图考虑时,通过参照下面的详细描述,能够更完整更好地理解本发明以及容易得知其中许多伴随的优点,但此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,其中:
[0018]图1是本发明实施例一种基于模糊神经网络的句子匹配程度计算方法流程图。
[0019]图2是本发明实施例匹配特征触发的模糊集合示意图。
[0020]图3是本发明实施例一种基于模糊神经网络的句子对齐方法示意图。
【具体实施方式】
[0021]参照图1-3对本发明的实施例进行说明。
[0022]为使上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0023]如图1所示,匹配程度计算方法的具体步骤如下,设英文句子为E,中文句子为C(SI):
[0024]1、把E分解成一个个的单词,并查软件内置字典,求得每个单词的中文含义。设所有单词语义的集合为EC ;
[0025]2、把图中的匹配特征⑶I清零,查找中文句子中每个字看是否属于EC,若属于则CDl加1,求得匹配特征CDl (S2);
[0026]3、把图中的匹配特征⑶2清零,查找中文句子中每个单词看是否属于EC,若属于则⑶2加I,求得匹配特征⑶2 (S2);
[0027]4、把图中的匹配特征CD3清零,求得英文句子长度LE和中文句子长度LCJlJCD3=LE/LC,求得匹配特征CD3 (S2);
[0028]5、用图2的方法把⑶1、⑶2、⑶3模糊化,隶属度函数均取等腰三角形形式,例如图2中用粗黑线标示的模糊集合匪,相邻模糊集之间的重叠度为50%,因此当⑶1、⑶2、⑶3的实际值已知时,⑶1、⑶2、⑶3的论域上最多有两个模糊集被激活。例如图2中,当⑶I=Xl的时候,触发模糊集合匪和NS,并到隶属度hcdla、hcdlb。同理,当⑶2、⑶3的实际值已知时可以得到隶属度hcd2a、hcd2b,当CD3的实际值已知时可以得到隶 属度hcd3a、hcd3b
(S3);
[0029]6、令 hl=min (hcdla, hcd2a, hcd3a)
[0030]h2=min (hcdla, hcd2a,hcd3b)
[0031]h3=min (hcdla, hcd2b, hcd3a)
[0032]h4=min (hcdla, hcd2b, hcd3b)
[0033]h5=min (hcdlb, hcd2a, hcd3a)
[0034]h6=min (hcdlb, hcd2a, hcd3b)
[0035]h7=min (hcdlb, hcd2b,hcd3a)
[0036]h8=min (hcdlb, hcd2b, hcd3b)
[0037]其中,函数min(a, b, c)为取a、b、c中最小值运算(S4);
[0038]7、单层神经网络实现模糊推理,神经网络输出单元有一个S形激活函数,以增强网络逼近曲面的能力,此函数为:
【权利要求】
1.一种基于模糊神经网络的句子匹配程度计算方法,其特征在于,包括以下步骤: 首先提取英文和中文的匹配特征; 采用模糊神经网络的形式实现信息融合; 建立计算匹配度模型。
2.如权利要求1所述的基于模糊神经网络的句子匹配程度计算方法,其特征在于,具体包括以下步骤: (1)、把英文句子E分解成一个个的单词,并查字典,求得每个单词的中文含义,设所有单词语义的集合为EC; (2)、把匹配特征CDl清零,查找中文句子中每个字看是否属于EC,若属于则CDl加1,求得匹配特征⑶I; (3)、把匹配特征CD2清零,查找中文句子中每个单词看是否属于EC,若属于则CD2加I,求得匹配特征⑶2; (4)、把匹配特征CD3清零,求得英文句子长度LE和中文句子长度LC,则CD3=LE/LC,求得匹配特征⑶3 ; (5)、将⑶1、⑶2、⑶3模糊化,隶属度函数均取等腰三角形形式,当⑶1、⑶2、⑶3的实际值已知时,⑶1、⑶2、⑶3的论域上最多有两个模糊集被激活,⑶I对应的隶属度为hcdla、hcdlb, 0)2对应的隶属度为hcd2a、hcd2b, 0)3对应的隶属度为hcd3a、hcd3b ;
(6)、令hl=min (hcdla,hcd2a,hcd3a)
h2=min (hcdla, hcd2a,hcd3b)
h3=min (hcdla, hcd2b,hcd3a)
h4=min (hcdla, hcd2b,hcd3b)
h5=min (hcdlb, hcd2a,hcd3a)
h6=min (hcdlb, hcd2a, hcd3b)
h7=min (hcdlb, hcd2b,hcd3a)
h8=min (hcdlb, hcd2b, hcd3b) 其中,函数min(a, b, c)为取a、b、c中最小值运算。 (7)、单层神经网络实现模糊推理,神经网络输出单元有一个S形激活函数,以增强网络逼近曲面的能力,此函数为: d =-)-—
I+ exp {-σ + θ)

8 其中= Σ hawm

Λ7 =1 式中:Θ为阀值;hm为步骤6中求得的隶属度值;wm为第m个权值,权值由步骤8训练求得;DK为英文句子为E和中文句子为C的匹配度; (8)、选取[0,I]区间的随机值作为wl,w2....w8的初值(k=0),把已经对齐好的样本依次输入到此算法中,那么k+Ι时刻的权值如下:
wm (k+1) = Wm (k) + β.[Dd (k) -D (k) ].hm (k) m = 1,2...8 式中:β为学习速率因子;Dd(k)为k时刻希望网络的输出,全部取l;D(k)为k时刻网络的实际输出,全部取I ;hm(k)为步骤6中求得的隶属度值;经过多次训练,求得权值wl, w2..…w8。
3.一种基于模糊神经网络的句子对齐方法,其特征在于,包括以下步骤: 打开英文文档和对应的中文文档,从英文文档和中文文档的开始分别读取N句英文句子和N句中文句子; 按照权利要求1所示的匹配度计算方法,分别计算每一句英文句子分别和N句中文文档的匹配度; 根据匹配度找出中文和对应英文句子。
4.如权利要求3所述的基于模`糊神经网络的句子对齐方法,其特征在于,所述N为3。
【文档编号】G06F17/30GK103617227SQ201310604055
【公开日】2014年3月5日 申请日期:2013年11月25日 优先权日:2013年11月25日
【发明者】戴光荣, 宋玉春 申请人:福建工程学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1