本发明涉及信息处理领域,尤其涉及文本过滤、内容监管领域。具体地,提供一种基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质。
背景技术:
关键词是文档管理、文本聚类/分类、信息检索、内容过滤等技术可利用的重要资源。
维吾尔语是典型的黏着语,其构词规则主要通过在词干后附加各种词缀实现,而且理论上一个维吾尔语词干可以附加无限多个词缀,产生任意长度的词汇。为了获取维吾尔语关键词的所有形态,有必要利用维吾尔语关键词生成算法。
技术实现要素:
本发明目的在于,提供一种基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质。该方法包括:汉语关键词翻译为维吾尔语关键词,并进行维吾尔语词干提取、词性标注;确定维吾尔语词干能够结合的词缀序列;根据所述词缀序列,利用维吾尔语词干、词缀变体搭配算法确定词干能够附加的词缀变体;该装置是由汉语关键词翻译模块、维吾尔语关键词预处理模块、维吾尔语关键词词干选择词缀模块、维吾尔语关键词词干与词缀变体搭配模块和音变处理模块组成;利用汉维双语将汉语关键词翻译为维吾尔语关键词;对获得的维吾尔语关键词进行词干切分和词性标注;根据维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐规则,采用维吾尔语词干、词缀变体搭配算法,对维吾尔语关键词词干进行扩充,获取以该维吾尔语关键词为词干的所有可能的维吾尔语关键词。
本发明所述的一种基于汉语关键词的维吾尔语关键词生成方法,该方法包括:汉语关键词翻译为维吾尔语关键词,并进行维吾尔语词干提取、词性标注;确定维吾尔语词干能够结合的词缀序列;根据所述词缀序列,利用维吾尔语词干、词缀变体搭配算法确定词干能够附加的词缀变体;根据所述词缀变体,结合维吾尔语音变规则,生成维吾尔语关键词词干对应的所有形态;具体操作按下列步骤进行:
a、汉语关键词翻译为维吾尔语关键词:是利用汉维双语词典将汉语关键词翻译为维吾尔语关键词,获取对应的维吾尔语关键词;
b、维吾尔语词干提取、词性标注:是对翻译后得到的维吾尔语关键词词汇进行词干提取和词性标注,切分为词干和词缀,并保留词干部分,其中词性标注为标注该词汇的词性,如名词、动词、形容词;
c、确定维吾尔语关键词词干结合的词缀序列:以维吾尔语构词规则为依据,收集维吾尔语词缀、词缀能够附加词干的词性以及词缀的所有变体;根据维吾尔语关键词词干的词性,获取能够和关键词词干结合的词缀;
d、维吾尔语词干、词缀变体搭配算法:根据维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐规则,采用维吾尔语词干、词缀变体搭配算法,选择能够和维吾尔语关键词词干结合的特定词缀变体;
e、维吾尔语音变规则:关键词词干与词缀变体结合时发生的弱化、通化、脱落、增加音变现象,根据维吾尔语语法,维吾尔语关键词词干与词缀变体结合时,对特定类型的词干或词缀进行音变处理。
步骤b中所述的词性标注:是根据维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用最大熵统计方法和条件随机场统计方法对词性做出一个粗略的判断,然后利用总结出的规则,对使用统计得到的词汇标注结果进行验证。
步骤c中所述的维吾尔语构词规则的词缀选择:是收集维吾尔语所有构形词缀,根据维吾尔语语法中词干与词缀的结合规则,获得出能够和特定词性的维吾尔语词干结合的所有维吾尔语词缀列表,并利用统计的方法确定与词干结合时的前后循序。
步骤d中所述的维吾尔语词干、词缀变体搭配算法:是总结出维吾尔语词干结构分布和词缀结构分布、词干-词缀变体搭配基本规则和特殊规则,并以此为基础建立维吾尔语词干-词缀变体搭配算法。
一种基于汉语关键词的维吾尔语关键词生成装置,该装置是由汉语关键词翻译模块、维吾尔语关键词预处理模块、维吾尔语关键词词干选择词缀模块、维吾尔语关键词词干与词缀变体搭配模块和音变处理模块组成;其中:
汉语关键词翻译模块:利用汉维翻译技术,对汉语关键词进行翻译,获取对应的维吾尔语关键词,其中汉维机器翻译技术可以基于汉维双语词典的词汇翻译;
维吾尔语关键词预处理模块:采用基于规则和统计相结合的方法,对翻译后得到的维吾尔语关键词词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标注该词汇的词性,如名词、动词、形容词;
维吾尔语关键词词干选择词缀模块:以维吾尔语构词规则为依据,采用基于规则和词缀库相结合的方法,根据维吾尔语关键词词干的词性,获取能够和关键词词干结合的词缀;
维吾尔语关键词词干与词缀变体搭配模块:根据维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐规则,采用维吾尔语词干、词缀变体搭配算法,选择能够和维吾尔语关键词词干结合的特定词缀变体;
音变处理模块:根据维吾尔语语法,维吾尔语关键词词干与词缀变体结合时,对特定类型的词干或词缀进行音变处理。
一种电子设备,其中,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
本发明所述的一种基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质,通过本发明提高了维吾尔语关键词生成的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
图1为本发明的流程图;
图2为本发明提供生成方法的另一种流程图;
图3为本发明装置的结构示意图;
图4为本发明最大熵结合条件随机场总体结构图;
图5为本发明的电子设备的框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细说明。
实施例
本发明所述的一种基于汉语关键词的维吾尔语关键词生成方法,该方法包括:汉语关键词翻译为维吾尔语关键词,并进行维吾尔语词干提取、词性标注;确定维吾尔语词干能够结合的词缀序列;根据所述词缀序列,利用维吾尔语词干、词缀变体搭配算法确定词干能够附加的词缀变体;根据所述词缀变体,结合维吾尔语音变规则,生成维吾尔语关键词词干对应的所有形态;具体操作按下列步骤进行:
a、汉语关键词翻译为维吾尔语关键词:是利用汉维双语词典将汉语关键词翻译为维吾尔语关键词,获取对应的维吾尔语关键词;
b、维吾尔语词干提取、词性标注:是对翻译后得到的维吾尔语关键词词汇进行词干提取和词性标注,切分为词干和词缀,并保留词干部分,其中词性标注为标注该词汇的词性,如名词、动词、形容词;所述的词性标注:是根据维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用最大熵统计方法和条件随机场统计方法对词性做出一个粗略的判断,然后利用总结出的规则,对使用统计得到的词汇标注结果进行验证;
c、确定维吾尔语关键词词干结合的词缀序列:以维吾尔语构词规则为依据,收集维吾尔语词缀、词缀能够附加词干的词性以及词缀的所有变体;根据维吾尔语关键词词干的词性,获取能够和关键词词干结合的词缀;所述的维吾尔语构词规则的词缀选择:是收集维吾尔语所有构形词缀,根据维吾尔语语法中词干与词缀的结合规则,获得出能够和特定词性的维吾尔语词干结合的所有维吾尔语词缀列表,并利用统计的方法确定与词干结合时的前后循序;
d、维吾尔语词干、词缀变体搭配算法:根据维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐规则,采用维吾尔语词干、词缀变体搭配算法,选择能够和维吾尔语关键词词干结合的特定词缀变体;所述的维吾尔语词干、词缀变体搭配算法:是总结出维吾尔语词干结构分布和词缀结构分布、词干-词缀变体搭配基本规则和特殊规则,并以此为基础建立维吾尔语词干-词缀变体搭配算法;
e、维吾尔语音变规则:关键词词干与词缀变体结合时发生的弱化、通化、脱落、增加音变现象,根据维吾尔语语法,维吾尔语关键词词干与词缀变体结合时,对特定类型的词干或词缀进行音变处理。
一种基于汉语关键词的维吾尔语关键词生成装置,该装置是由汉语关键词翻译模块、维吾尔语关键词预处理模块、维吾尔语关键词词干选择词缀模块、维吾尔语关键词词干与词缀变体搭配模块和音变处理模块组成;其中:
汉语关键词翻译模块:利用汉维翻译技术,对汉语关键词进行翻译,获取对应的维吾尔语关键词,其中汉维机器翻译技术可以基于汉维双语词典的词汇翻译;
维吾尔语关键词预处理模块:采用基于规则和统计相结合的方法,对翻译后得到的维吾尔语关键词词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标注该词汇的词性,如名词、动词、形容词;
维吾尔语关键词词干选择词缀模块:以维吾尔语构词规则为依据,采用基于规则和词缀库相结合的方法,根据维吾尔语关键词词干的词性,获取能够和关键词词干结合的词缀;
维吾尔语关键词词干与词缀变体搭配模块:根据维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐规则,采用维吾尔语词干、词缀变体搭配算法,选择能够和维吾尔语关键词词干结合的特定词缀变体;
音变处理模块:根据维吾尔语语法,维吾尔语关键词词干与词缀变体结合时,对特定类型的词干或词缀进行音变处理。
一种电子设备,其中,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
图1是本发明一种基于汉语关键词的维吾尔语关键词生成方法的流程图,本实施例可适用于将汉语关键词翻译成为维吾尔语关键词词汇,并结构维吾尔语构词规则,生成该维吾尔语关键词词汇的所有形态;该方法由一种基于汉语关键词的维吾尔语关键词生成装置来执行,该装置可以由软件和/或硬件的方式实现;参见图1,本申请实施例提供的实体链接方法包括:
s110、汉语关键词翻译为维吾尔语关键词,并进行维吾尔语词干提取、词性标注;
s120、确定维吾尔语词干能够结合的词缀序列;
s130、根据所述词缀序列,利用维吾尔语词干、词缀变体搭配算法确定词干能够附加的词缀变体;例如,一个名词同时附加复数词缀、人称词缀、格词缀时,应先附加复数词缀,然后附加人称词缀,最后附加格词缀;
s140、根据所述词缀变体,结合维吾尔语音变规则,生成维吾尔语关键词词干对应的所有形态;
图3是一种基于汉语关键词的维吾尔语关键词生成装置的结构示意图;包括:
汉语关键词翻译模块:利用汉维翻译技术,对汉语关键词进行翻译,获取对应的维吾尔语关键词;
维吾尔语关键词预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标明该词汇的词性,如名词、动词、形容词,其中,对维吾尔语词汇进行词干和词缀切分,并保留词干部分;
词性标注采用规则与统计相结合的方式进行,如图4所示,统计方法采用最大熵与条件随机场相结合的方式;先用最大熵为每个兼类词选择两个候选词性,然后再用条件随机场模型在这两个词性中进行选择,不仅保留最优路径,而且将从其余几条路径中为每个兼类词选择出第二个最合适的候选词性;根据维吾尔语词的构词特点和维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用统计的方法对词性做出一个粗略地判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证;
维吾尔语关键词词干选择词缀模块:以维吾尔语构词规则为依据,采用基于规则和词缀库相结合的方法,根据维吾尔语关键词词干的词性,获取能够和关键词词干结合的词缀列表,并利用有限自动机确定词干附加词缀的循序;一个维吾尔语词干一般可以附加多个词缀,且附加词缀的类型和顺序具有一定的规律;例如,一个词根同时附加构词词缀和构形词缀时,一般应先附加构词词缀,然后附加构形词缀;一个名词同时附加复数词缀、人称词缀、格词缀时,应先附加复数词缀,然后附加人称词缀,最后附加格词缀;
维吾尔语关键词词干与词缀变体搭配模块:从维吾尔语词干结构特征和词缀结构特征出发,归纳总结维吾尔语语音和谐规则,采用维吾尔语词干、词缀变体搭配算法,选择能够和维吾尔语关键词词干结合的特定词缀变体;
对给定的维吾尔语关键词词干,首先分别计算词干结构特征和词缀结构特征;因此,分别定义了维吾尔词干、词缀结构分类,具体如下表1、2所示:
表1维吾尔语词干结构分类
表2维吾尔语词缀结构分类
维吾尔语词干附加词缀变体时遵循4个语音和谐基本规则,根据上面定义的词干及词缀的结构特征,下面说明维吾尔语语音和谐律词缀变体搭配的基本规则和特殊规则以及形式化描述;
词缀变体搭配的基本规则:
1)前词干搭配前词缀,表示为sf+af=>(sf,af);
2)后词干搭配后词缀;表示为sb+ab=>(sb,ab);
3)圆词干搭配圆词缀,表示为sr+ar=>(sr,ar);
4)展词干搭配展词缀,表示为snr+anr=>(snr,anr)
5)清词干搭配清词缀,表示为sv+av=>(sv,av);
6)浊词干搭配浊词缀,表示为svl+avl=>(svl,avl);
7)开词干搭配闭词缀,表示为so+ac=>(so,ac);
8)闭词干搭配开词缀,表示为sc+ao=>(sc,ao);
词缀变体搭配特殊规则:
1)部分中元音词干虽然不包含字母
2)包含中元音
3)首音节的
4)浊音
根据维吾尔语语音和谐律,充分考虑基本规则和特殊规则的前提下提出了基于规则的维吾尔语词缀变体搭配算法,其中基本搭配规则用算法实现,由于特殊搭配规则需要考虑特殊词干或词缀,建立对应的特殊规则搭配库来实现词缀搭配的功能;
算法具体步骤如下:
1)输入词干、词性及词缀对应的多个变体;
2)若词缀只要一个变体,则返回该变体,否则转下一步;
3)提取词干结构特征,形式为1x4的一位数组,记录词干前后、圆展、清浊、开闭特征;
4)提取词缀结构特征,形式为nx4的二位数组(n为词缀变体数),记录每个词缀变体前后、圆展、清浊、开闭特征;
5)若词干/词缀符合特殊规则搭配库,则根据特殊规则处理库对词干词缀进行处理并转一下步;
6)根据词缀基本搭配规则,对词缀变体结构特征和词干变体结构特征进行匹配性计算返回计数最大的词缀变体转下一步;
7)若词干、词缀符合特殊规则六,对词缀进行字母替换处理并返回,否则词缀作为最终输出直接返回;
基本搭配算法
根据词干结构特征和词缀结构特征,每个词缀变体结构特征跟词干结构特征进行前后、圆展、清浊、开闭特征的匹配性计算,计数最大的词缀变体作为最终的搭配变体返回,具体搭配算法如下:
若(sf并且af)或(sb并且ab):
则计数+1,否则计数-1;
若(sr并且ar)或(snr并且anr):
则计数+1,否则计数-1;
若(sv并且av)或(svl并且avl):
则计数+1,否则计数-1;
若(so并且ac)或(sc并且ao):
则计数+4,否则计数-4;
特殊规则处理:
处理特殊规则的总原则是,结合特殊规则搭配库对特殊规则进行处理,使特殊规则可以用基本搭配算法处理,具体处理方法如下:
特殊规则一:收集符合此类规则的词干,提取词干结构特征时标记为前词干;
特殊规则二、三:由于此类词干附加词缀时需要判断所附加词缀类型,若名词构形词缀则词干被标记为后词干,若动词构词词缀则词干被标记为前词干;
特殊规则四:由于缺乏历史背景,尽看此类词缀本身无法判断属于前词干还是后词干,但根据现代维吾尔语中对这类词干所附加的词缀的前后类型可以判断其前后特征。因此,首先通过程序筛选这类词干,依据所附词缀的前后类型进行人工标注。
特殊规则五:属于此类规则的词干附加词缀时按照基本规则选取符合规则的变体,再对变体中的首字母进行识别,若包含字母
音变处理模块:根据维吾尔语语法,维吾尔语关键词词干与词缀变体结合时,对特定类型的词干或词缀进行音变处理,其中,音变处理包括弱化、清华、同化、脱落及增加。具体处理公式及实例如表3所示;
表3.维吾尔语音变处理公式
本申请还提供了一种电子设备和一种可读存储介质:
如图5所示,该电子设备包括:一个或多个处理器、存储器,以及用于连接各部件的接口,包括高速接口和低速接口;各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装;处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统),图5中以一个存储器为例;
存储器为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的基于汉语关键词的维吾尔语关键词生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的基于汉语关键词的维吾尔语关键词生成方法。
基于汉语关键词的维吾尔语关键词生成方法的电子设备还可以包括:输入装置和输出装置,处理器、存储器、输入装置和输出装置可以通过总线或者其他方式连接。
根据本申请的技术提高了维吾尔语关键词生成的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。